Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/80279
Title: | XÂY DỰNG CÂU MÔ TẢ CHO HÌNH ẢNH SỬ DỤNG MÔ HÌNH FASTER-RCNN VÀ TRANSFORMER DECODER |
Other Titles: | IMAGE CAPTIONING USING FASTER-RCNN AND TRANSFORMER DECODER MODELS |
Authors: | Lâm, Nhựt Khang Nguyễn, Văn Nhẫn |
Keywords: | CÔNG NGHỆ THÔNG TIN |
Issue Date: | 2022 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Tự động xây dựng câu mô tả cho hình ảnh là một trong những bài toán quan trọng trong lĩnh vực hiểu hình ảnh liên quan đến thị giác máy tính và xử lý ngôn ngữ tự nhiên. Luận văn này sử dụng mô hình học sâu dựa trên kiến trúc hợp nhất để tạo ra câu mô tả cho hình ảnh. Các đặc trưng hình ảnh được rút trích từ mô hình Faster RCNN, cùng với các câu mô tả được mã hoá và đưa vào mô hình Transformer Decoder để sinh ra câu mô tả. Chúng tôi sử dụng hình ảnh và câu mô tả của tập dữ liệu MS COCO ở tiếng Anh và tiếng Việt để tiến hành huấn luyện mô hình. Kết quả đánh giá mô hình trên tập dữ liệu MS COCO tiếng Việt đạt BLUE-1: 74,46; BLUE-2: 60,16; BLUE-3: 50,80 và BLUE-4: 35,73; và trên tập dữ liệu MS COCO tiếng Anh đạt BLUE-1: 73,48; BLUE-2: 53,75; BLUE-3: 38,07 và BLUE-4: 22,34. |
Description: | 44 Tr |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/80279 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 1.58 MB | Adobe PDF | ||
Your IP: 3.22.249.89 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.