Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/94659
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Lâm, Nhựt Khang | - |
dc.contributor.author | Nguyễn, Hoàng Linh | - |
dc.date.accessioned | 2024-01-11T00:36:55Z | - |
dc.date.available | 2024-01-11T00:36:55Z | - |
dc.date.issued | 2023 | - |
dc.identifier.other | B1910247 | - |
dc.identifier.uri | https://dspace.ctu.edu.vn/jspui/handle/123456789/94659 | - |
dc.description | 34 Tr | vi_VN |
dc.description.abstract | Tự động xây dựng câu mô tả cho hình ảnh là một trong những bài toán quan trọng trong lĩnh vực hiểu hình ảnh liên quan đến thị giác máy tính và xử lý ngôn ngữ tự nhiên. Trong luận văn này, mô hình học sâu được sử dụng để tạo câu mô tả cho hình ảnh bằng tiếng Việt và tiếng Anh. Cụ thể, các mô hình Vision Transformer với re-attention và Vision Transformer được sử dụng để trích xuất đặc trưng của hình ảnh, mô hình sử dụng Concept Token Network (CTN) để dự đoán “token concept” .Khi đã xác định được các token concept, mô hình tích hợp chúng với đặc trưng hình ảnh để tạo ra một biểu diễn đa chiều. Tiếp theo, sử dụng biểu diễn này để tạo chú thích, sử dụng mô Multi-Modal Fusion Module để chuyển thông tin đa chiều thành mô tả chính xác. Mô hình được huấn luyện trên tập dữ liệu Flickr8k tiếng Việt và tiếng Anh. Kết quả đánh giá mô hình ViTCap sử dụng tập dữ liệu Flickr8k tiếng Việt và tiếng Anh với các chỉ số BLEU-1, BLEU-2, BLEU-3, BLEU-4 lần lượt là: 0.524, 0.391, 0.275, 0,152 và 0.513, 0.385 0.261, 0.147. Tương tự, với mô hình ViT với re-attention: 0.541, 0.402, 0.28, 0.161 và 0.536, 0.395, 0.282, 0.167. | vi_VN |
dc.language.iso | vi | vi_VN |
dc.publisher | Trường Đại Học Cần Thơ | vi_VN |
dc.subject | CÔNG NGHỆ THÔNG TIN | vi_VN |
dc.title | SINH CÂU MÔ TẢ CHO ẢNH SỬ DỤNG MÔ HÌNH VITCAP VỚI DEEP ATTENTION | vi_VN |
dc.title.alternative | IMAGE CAPTIONING USING VITCAP WITH DEEP ATTENTION | vi_VN |
dc.type | Thesis | vi_VN |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 1.9 MB | Adobe PDF | ||
Your IP: 3.144.117.19 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.