Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/75326
Title: TẠO CÂU MÔ TẢ CHO HÌNH ẢNH VỚI MÔ HÌNH RESNET-50 VÀ TRANSFORMER
Other Titles: IMAGE DESCRIPTION GENERATING USING RESNET-50 AND TRANSFORMER MODELS
Authors: Lâm, Nhựt Khang
Nguyễn, Lam Anh
Keywords: CÔNG NGHỆ THÔNG TIN
Issue Date: 2021
Publisher: Trường Đại Học Cần Thơ
Abstract: Phát hiện đối tượng, trích xuất được đặc trưng từ ảnh sau đó tạo câu chú thích cho hình ảnh là một trong những tác vụ khó trong việc kết hợp thị giác máy tính và xử lý ngôn ngữ tự nhiên. Những phương pháp tiếp cận chính để giải quyết bài toán dựa trên kiến trúc bộ mã hóa – giải mã (Encoder – Decoder) bao gồm Merge Architecture và Inject Architecture. Trong luận án này, mô hình được lựa chọn để triển khai dựa trên Merge Architecture. Kiến trúc này tách biệt phần mô hình hóa hình ảnh đầu vào, sau đó là các câu chú thích và tổng hợp lại các đầu vào đã được mã hóa. Mô hình tạo câu mô tả cho hình ảnh dựa trên kiến trúc Transformer nhiều lớp, trích xuất hình ảnh bằng cách sử dụng ResNet-50 và tạo chú thích nhờ mô hình Transformer sau khi đã xử lý tập câu mô tả qua mô hình nhúng từ tiếng Việt PhoBERT. Kết quả thử nghiệm được kiểm tra trên tập Flickr8k bằng tiếng Việt. Cuối cùng, mô hình sử dụng chỉ số BLEU score để đánh giá độ chính xác của câu dự đoán dựa trên câu mô tả gốc.
Description: 42 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/75326
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
1.5 MBAdobe PDF
Your IP: 3.21.231.245


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.