Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/110697
Nhan đề: | IMPROVING IMAGE CAPTION USING CLIP |
Nhan đề khác: | CẢI THIỆN CHÚ THÍCH HÌNH ẢNH SỬ DỤNG CLIP |
Tác giả: | Trần, Công Án Dương, Thị Yến Nhi |
Từ khoá: | CÔNG NGHỆ THÔNG TIN - CHẤT LƯỢNG CAO |
Năm xuất bản: | 2024 |
Nhà xuất bản: | Trường Đại Học Cần Thơ |
Tóm tắt: | Image captioning, the task of generating textual descriptions for visual content, has seen significant advancements with the integration of pre-trained vision-language models. This work explores the application of CLIP’s robust cross-modal embeddings in a CLIPbased captioning framework. The proposed method employs CLIP as a foundational model and fine-tunes a lightweight transformer-based decoder on top of CLIP embeddings. By retaining the pre-trained weights of CLIP and adjusting only the "Prefix" and "Decoder" modules, the framework ensures efficient and contextually rich caption generation. The model is evaluated using standard datasets to assess its performance. The integration of CLIP-based embeddings addresses the limitations of traditional image captioning models, such as the need for extensive task-specific training. By exploiting pre-trained representations, this approach reduces computational requirements while enhancing descriptive accuracy and semantic relevance. The method achieves competitive results on standard metrics like CIDEr, BLEU, and SPICE, demonstrating substantial improvements in caption quality and relevance. This research highlights the potential of CLIP-based architectures for building efficient and high-performing image captioning systems. Secifically, the ROUGE-L, CIDEr, SPICE and training time of CLIP + GPT2 using Conceptual captions are 26.71, 87.26, 18.5 and 65 hours. For COCO Captions the B@4, METER, CIDEr, SPICE and training time of CLIP + GPT2; transformer are 33.53, 28.43, 113.08, 21.05 and 6 hours. |
Mô tả: | 37 Tr |
Định danh: | https://dspace.ctu.edu.vn/jspui/handle/123456789/110697 |
Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
Tập tin | Mô tả | Kích thước | Định dạng | |
---|---|---|---|---|
_file_ Giới hạn truy cập | 1.08 MB | Adobe PDF | ||
Your IP: 18.217.93.250 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.