Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/116210
Toàn bộ biểu ghi siêu dữ liệu
Trường DCGiá trị Ngôn ngữ
dc.contributor.advisorNguyễn, Thanh Hải-
dc.contributor.advisorSử, Kim Anh-
dc.contributor.authorDương, Quốc Lợi-
dc.date.accessioned2025-05-28T07:50:59Z-
dc.date.available2025-05-28T07:50:59Z-
dc.date.issued2025-
dc.identifier.otherB2111890-
dc.identifier.urihttps://dspace.ctu.edu.vn/jspui/handle/123456789/116210-
dc.description63 Trvi_VN
dc.description.abstractTự động tạo chú thích hình ảnh là một nhiệm vụ quan trọng trong lĩnh vực trí tuệ nhân tạo, kết nối giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên, với mục tiêu sinh ra các mô tả ngôn ngữ tự nhiên cho hình ảnh một cách chính xác và mạch lạc. Luận văn này trình bày việc xây dựng và đánh giá một mô hình tạo chú thích hình ảnh dựa trên kiến trúc mã hóa - giải mã (encoder-decoder), kết hợp giữa EfficientNetB7 một mạng nơ-ron tích chập tiên tiến với hiệu suất cao và Long ShortTerm Memory (LSTM) một biến thể mạnh mẽ của mạng nơ-ron hồi quy. EfficientNetB7 đóng vai trò bộ mã hóa, trích xuất các đặc trưng thị giác giàu thông tin từ ảnh đầu vào. Các đặc trưng này sau đó được chuyển đến bộ giải mã LSTM để sinh ra các chuỗi từ mô tả nội dung ảnh. Quá trình huấn luyện kết hợp nhiều kỹ thuật tối ưu như nhúng từ (word embeddings), che chuỗi (masking), huấn luyện với độ chính xác hỗn hợp (mixed precision) và sử dụng thuật toán Modified Beam Search trong giai đoạn suy luận để tăng chất lượng đầu ra. Mô hình được triển khai và kiểm thử nghiêm ngặt trên hai bộ dữ liệu chuẩn: Flickr8k và Flickr30k, với các độ đo BLEU, METEOR và CIDEr làm cơ sở đánh giá. Trên Flickr30k, mô hình EfficientNetB7-LSTM đạt được BLEU-1: 61,1%, BLEU-2: 41,97%, BLEU-3: 29,16%, BLEU-4: 19,64%, METEOR: 41,41% và CIDEr: 47,91% những kết quả cho thấy khả năng sinh chú thích chính xác và phù hợp ngữ nghĩa, tiệm cận chất lượng mô tả của con người.vi_VN
dc.language.isovivi_VN
dc.publisherTrường Đại Học Cần Thơvi_VN
dc.subjectCÔNG NGHỆ THÔNG TINvi_VN
dc.titleSỬ DỤNG EFFICIENTNET VÀ LSTM ĐỂ TẠO CHÚ THÍCH HÌNH ẢNHvi_VN
dc.title.alternativeUSING EFFICIENTNET AND LONG SHORT-TERM MEMORY FOR IMAGE CAPTIONINGvi_VN
dc.typeThesisvi_VN
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
1.91 MBAdobe PDF
Your IP: 216.73.216.3


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.