Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/94659
Title: SINH CÂU MÔ TẢ CHO ẢNH SỬ DỤNG MÔ HÌNH VITCAP VỚI DEEP ATTENTION
Other Titles: IMAGE CAPTIONING USING VITCAP WITH DEEP ATTENTION
Authors: Lâm, Nhựt Khang
Nguyễn, Hoàng Linh
Keywords: CÔNG NGHỆ THÔNG TIN
Issue Date: 2023
Publisher: Trường Đại Học Cần Thơ
Abstract: Tự động xây dựng câu mô tả cho hình ảnh là một trong những bài toán quan trọng trong lĩnh vực hiểu hình ảnh liên quan đến thị giác máy tính và xử lý ngôn ngữ tự nhiên. Trong luận văn này, mô hình học sâu được sử dụng để tạo câu mô tả cho hình ảnh bằng tiếng Việt và tiếng Anh. Cụ thể, các mô hình Vision Transformer với re-attention và Vision Transformer được sử dụng để trích xuất đặc trưng của hình ảnh, mô hình sử dụng Concept Token Network (CTN) để dự đoán “token concept” .Khi đã xác định được các token concept, mô hình tích hợp chúng với đặc trưng hình ảnh để tạo ra một biểu diễn đa chiều. Tiếp theo, sử dụng biểu diễn này để tạo chú thích, sử dụng mô Multi-Modal Fusion Module để chuyển thông tin đa chiều thành mô tả chính xác. Mô hình được huấn luyện trên tập dữ liệu Flickr8k tiếng Việt và tiếng Anh. Kết quả đánh giá mô hình ViTCap sử dụng tập dữ liệu Flickr8k tiếng Việt và tiếng Anh với các chỉ số BLEU-1, BLEU-2, BLEU-3, BLEU-4 lần lượt là: 0.524, 0.391, 0.275, 0,152 và 0.513, 0.385 0.261, 0.147. Tương tự, với mô hình ViT với re-attention: 0.541, 0.402, 0.28, 0.161 và 0.536, 0.395, 0.282, 0.167.
Description: 34 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/94659
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
1.9 MBAdobe PDF
Your IP: 18.216.32.116


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.