Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/116210
Title: SỬ DỤNG EFFICIENTNET VÀ LSTM ĐỂ TẠO CHÚ THÍCH HÌNH ẢNH
Other Titles: USING EFFICIENTNET AND LONG SHORT-TERM MEMORY FOR IMAGE CAPTIONING
Authors: Nguyễn, Thanh Hải
Sử, Kim Anh
Dương, Quốc Lợi
Keywords: CÔNG NGHỆ THÔNG TIN
Issue Date: 2025
Publisher: Trường Đại Học Cần Thơ
Abstract: Tự động tạo chú thích hình ảnh là một nhiệm vụ quan trọng trong lĩnh vực trí tuệ nhân tạo, kết nối giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên, với mục tiêu sinh ra các mô tả ngôn ngữ tự nhiên cho hình ảnh một cách chính xác và mạch lạc. Luận văn này trình bày việc xây dựng và đánh giá một mô hình tạo chú thích hình ảnh dựa trên kiến trúc mã hóa - giải mã (encoder-decoder), kết hợp giữa EfficientNetB7 một mạng nơ-ron tích chập tiên tiến với hiệu suất cao và Long ShortTerm Memory (LSTM) một biến thể mạnh mẽ của mạng nơ-ron hồi quy. EfficientNetB7 đóng vai trò bộ mã hóa, trích xuất các đặc trưng thị giác giàu thông tin từ ảnh đầu vào. Các đặc trưng này sau đó được chuyển đến bộ giải mã LSTM để sinh ra các chuỗi từ mô tả nội dung ảnh. Quá trình huấn luyện kết hợp nhiều kỹ thuật tối ưu như nhúng từ (word embeddings), che chuỗi (masking), huấn luyện với độ chính xác hỗn hợp (mixed precision) và sử dụng thuật toán Modified Beam Search trong giai đoạn suy luận để tăng chất lượng đầu ra. Mô hình được triển khai và kiểm thử nghiêm ngặt trên hai bộ dữ liệu chuẩn: Flickr8k và Flickr30k, với các độ đo BLEU, METEOR và CIDEr làm cơ sở đánh giá. Trên Flickr30k, mô hình EfficientNetB7-LSTM đạt được BLEU-1: 61,1%, BLEU-2: 41,97%, BLEU-3: 29,16%, BLEU-4: 19,64%, METEOR: 41,41% và CIDEr: 47,91% những kết quả cho thấy khả năng sinh chú thích chính xác và phù hợp ngữ nghĩa, tiệm cận chất lượng mô tả của con người.
Description: 63 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/116210
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
1.91 MBAdobe PDF
Your IP: 216.73.216.129


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.