SỬ DỤNG EFFICIENTNET VÀ LSTM ĐỂ TẠO CHÚ THÍCH HÌNH ẢNH

Dương, Quốc Lợi

Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/116210

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Nguyễn, Thanh Hải	-
dc.contributor.advisor	Sử, Kim Anh	-
dc.contributor.author	Dương, Quốc Lợi	-
dc.date.accessioned	2025-05-28T07:50:59Z	-
dc.date.available	2025-05-28T07:50:59Z	-
dc.date.issued	2025	-
dc.identifier.other	B2111890	-
dc.identifier.uri	https://dspace.ctu.edu.vn/jspui/handle/123456789/116210	-
dc.description	63 Tr	vi_VN
dc.description.abstract	Tự động tạo chú thích hình ảnh là một nhiệm vụ quan trọng trong lĩnh vực trí tuệ nhân tạo, kết nối giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên, với mục tiêu sinh ra các mô tả ngôn ngữ tự nhiên cho hình ảnh một cách chính xác và mạch lạc. Luận văn này trình bày việc xây dựng và đánh giá một mô hình tạo chú thích hình ảnh dựa trên kiến trúc mã hóa - giải mã (encoder-decoder), kết hợp giữa EfficientNetB7 một mạng nơ-ron tích chập tiên tiến với hiệu suất cao và Long ShortTerm Memory (LSTM) một biến thể mạnh mẽ của mạng nơ-ron hồi quy. EfficientNetB7 đóng vai trò bộ mã hóa, trích xuất các đặc trưng thị giác giàu thông tin từ ảnh đầu vào. Các đặc trưng này sau đó được chuyển đến bộ giải mã LSTM để sinh ra các chuỗi từ mô tả nội dung ảnh. Quá trình huấn luyện kết hợp nhiều kỹ thuật tối ưu như nhúng từ (word embeddings), che chuỗi (masking), huấn luyện với độ chính xác hỗn hợp (mixed precision) và sử dụng thuật toán Modified Beam Search trong giai đoạn suy luận để tăng chất lượng đầu ra. Mô hình được triển khai và kiểm thử nghiêm ngặt trên hai bộ dữ liệu chuẩn: Flickr8k và Flickr30k, với các độ đo BLEU, METEOR và CIDEr làm cơ sở đánh giá. Trên Flickr30k, mô hình EfficientNetB7-LSTM đạt được BLEU-1: 61,1%, BLEU-2: 41,97%, BLEU-3: 29,16%, BLEU-4: 19,64%, METEOR: 41,41% và CIDEr: 47,91% những kết quả cho thấy khả năng sinh chú thích chính xác và phù hợp ngữ nghĩa, tiệm cận chất lượng mô tả của con người.	vi_VN
dc.language.iso	vi	vi_VN
dc.publisher	Trường Đại Học Cần Thơ	vi_VN
dc.subject	CÔNG NGHỆ THÔNG TIN	vi_VN
dc.title	SỬ DỤNG EFFICIENTNET VÀ LSTM ĐỂ TẠO CHÚ THÍCH HÌNH ẢNH	vi_VN
dc.title.alternative	USING EFFICIENTNET AND LONG SHORT-TERM MEMORY FOR IMAGE CAPTIONING	vi_VN
dc.type	Thesis	vi_VN
Appears in Collections:	Trường Công nghệ Thông tin & Truyền thông

Files in This Item:

File	Description	Size	Format
_file_ Restricted Access		1.91 MB	Adobe PDF
Your IP: 216.73.216.197

Show simple item record

LRC Digital repo

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets