Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/110697
Toàn bộ biểu ghi siêu dữ liệu
Trường DCGiá trị Ngôn ngữ
dc.contributor.advisorTrần, Công Án-
dc.contributor.authorDương, Thị Yến Nhi-
dc.date.accessioned2025-02-03T07:03:09Z-
dc.date.available2025-02-03T07:03:09Z-
dc.date.issued2024-
dc.identifier.otherB2017065-
dc.identifier.urihttps://dspace.ctu.edu.vn/jspui/handle/123456789/110697-
dc.description37 Trvi_VN
dc.description.abstractImage captioning, the task of generating textual descriptions for visual content, has seen significant advancements with the integration of pre-trained vision-language models. This work explores the application of CLIP’s robust cross-modal embeddings in a CLIPbased captioning framework. The proposed method employs CLIP as a foundational model and fine-tunes a lightweight transformer-based decoder on top of CLIP embeddings. By retaining the pre-trained weights of CLIP and adjusting only the "Prefix" and "Decoder" modules, the framework ensures efficient and contextually rich caption generation. The model is evaluated using standard datasets to assess its performance. The integration of CLIP-based embeddings addresses the limitations of traditional image captioning models, such as the need for extensive task-specific training. By exploiting pre-trained representations, this approach reduces computational requirements while enhancing descriptive accuracy and semantic relevance. The method achieves competitive results on standard metrics like CIDEr, BLEU, and SPICE, demonstrating substantial improvements in caption quality and relevance. This research highlights the potential of CLIP-based architectures for building efficient and high-performing image captioning systems. Secifically, the ROUGE-L, CIDEr, SPICE and training time of CLIP + GPT2 using Conceptual captions are 26.71, 87.26, 18.5 and 65 hours. For COCO Captions the B@4, METER, CIDEr, SPICE and training time of CLIP + GPT2; transformer are 33.53, 28.43, 113.08, 21.05 and 6 hours.vi_VN
dc.language.isovivi_VN
dc.publisherTrường Đại Học Cần Thơvi_VN
dc.subjectCÔNG NGHỆ THÔNG TIN - CHẤT LƯỢNG CAOvi_VN
dc.titleIMPROVING IMAGE CAPTION USING CLIPvi_VN
dc.title.alternativeCẢI THIỆN CHÚ THÍCH HÌNH ẢNH SỬ DỤNG CLIPvi_VN
dc.typeThesisvi_VN
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
1.08 MBAdobe PDF
Your IP: 216.73.216.3


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.