XÂY DỰNG CÂU MÔ TẢ CHO HÌNH ẢNH SỬ DỤNG MÔ HÌNH FASTER-RCNN VÀ TRANSFORMER DECODER

Nguyễn, Văn Nhẫn

Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/80279

Nhan đề:	XÂY DỰNG CÂU MÔ TẢ CHO HÌNH ẢNH SỬ DỤNG MÔ HÌNH FASTER-RCNN VÀ TRANSFORMER DECODER
Nhan đề khác:	IMAGE CAPTIONING USING FASTER-RCNN AND TRANSFORMER DECODER MODELS
Tác giả:	Lâm, Nhựt Khang Nguyễn, Văn Nhẫn
Từ khoá:	CÔNG NGHỆ THÔNG TIN
Năm xuất bản:	2022
Nhà xuất bản:	Trường Đại Học Cần Thơ
Tóm tắt:	Tự động xây dựng câu mô tả cho hình ảnh là một trong những bài toán quan trọng trong lĩnh vực hiểu hình ảnh liên quan đến thị giác máy tính và xử lý ngôn ngữ tự nhiên. Luận văn này sử dụng mô hình học sâu dựa trên kiến trúc hợp nhất để tạo ra câu mô tả cho hình ảnh. Các đặc trưng hình ảnh được rút trích từ mô hình Faster RCNN, cùng với các câu mô tả được mã hoá và đưa vào mô hình Transformer Decoder để sinh ra câu mô tả. Chúng tôi sử dụng hình ảnh và câu mô tả của tập dữ liệu MS COCO ở tiếng Anh và tiếng Việt để tiến hành huấn luyện mô hình. Kết quả đánh giá mô hình trên tập dữ liệu MS COCO tiếng Việt đạt BLUE-1: 74,46; BLUE-2: 60,16; BLUE-3: 50,80 và BLUE-4: 35,73; và trên tập dữ liệu MS COCO tiếng Anh đạt BLUE-1: 73,48; BLUE-2: 53,75; BLUE-3: 38,07 và BLUE-4: 22,34.
Mô tả:	44 Tr
Định danh:	https://dspace.ctu.edu.vn/jspui/handle/123456789/80279
Bộ sưu tập:	Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:

Tập tin	Mô tả	Kích thước	Định dạng
_file_ Giới hạn truy cập		1.58 MB	Adobe PDF
Your IP: 216.73.216.213

Hiển thị đầy đủ biểu ghi tài liệu Xem thống kê

Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.

Thư viện số DSPACE

Thư viện số cho phép quản lý các nguồn tài liệu số như: Văn bản, hình ảnh, âm thanh, phim ảnh...