TẠO CÂU MÔ TẢ CHO HÌNH ẢNH VỚI MÔ HÌNH RESNET-50 VÀ TRANSFORMER

Nguyễn, Lam Anh

Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/75326

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Lâm, Nhựt Khang	-
dc.contributor.author	Nguyễn, Lam Anh	-
dc.date.accessioned	2022-04-08T01:33:26Z	-
dc.date.available	2022-04-08T01:33:26Z	-
dc.date.issued	2021	-
dc.identifier.other	B1706559	-
dc.identifier.uri	https://dspace.ctu.edu.vn/jspui/handle/123456789/75326	-
dc.description	42 Tr	vi_VN
dc.description.abstract	Phát hiện đối tượng, trích xuất được đặc trưng từ ảnh sau đó tạo câu chú thích cho hình ảnh là một trong những tác vụ khó trong việc kết hợp thị giác máy tính và xử lý ngôn ngữ tự nhiên. Những phương pháp tiếp cận chính để giải quyết bài toán dựa trên kiến trúc bộ mã hóa – giải mã (Encoder – Decoder) bao gồm Merge Architecture và Inject Architecture. Trong luận án này, mô hình được lựa chọn để triển khai dựa trên Merge Architecture. Kiến trúc này tách biệt phần mô hình hóa hình ảnh đầu vào, sau đó là các câu chú thích và tổng hợp lại các đầu vào đã được mã hóa. Mô hình tạo câu mô tả cho hình ảnh dựa trên kiến trúc Transformer nhiều lớp, trích xuất hình ảnh bằng cách sử dụng ResNet-50 và tạo chú thích nhờ mô hình Transformer sau khi đã xử lý tập câu mô tả qua mô hình nhúng từ tiếng Việt PhoBERT. Kết quả thử nghiệm được kiểm tra trên tập Flickr8k bằng tiếng Việt. Cuối cùng, mô hình sử dụng chỉ số BLEU score để đánh giá độ chính xác của câu dự đoán dựa trên câu mô tả gốc.	vi_VN
dc.language.iso	vi	vi_VN
dc.publisher	Trường Đại Học Cần Thơ	vi_VN
dc.subject	CÔNG NGHỆ THÔNG TIN	vi_VN
dc.title	TẠO CÂU MÔ TẢ CHO HÌNH ẢNH VỚI MÔ HÌNH RESNET-50 VÀ TRANSFORMER	vi_VN
dc.title.alternative	IMAGE DESCRIPTION GENERATING USING RESNET-50 AND TRANSFORMER MODELS	vi_VN
dc.type	Thesis	vi_VN
Appears in Collections:	Trường Công nghệ Thông tin & Truyền thông

Files in This Item:

File	Description	Size	Format
_file_ Restricted Access		1.5 MB	Adobe PDF
Your IP: 216.73.216.226

Show simple item record

LRC Digital repo

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets