ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG XÂY DỰNG BẢO TÀNG SỐ TÂY NAM BỘ TẠI VIỆT NAM

Nguyễn, Thị Thanh Tuyền

Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/127493

Nhan đề:	ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG XÂY DỰNG BẢO TÀNG SỐ TÂY NAM BỘ TẠI VIỆT NAM
Nhan đề khác:	APPLICATION OF ARTIFICIAL INTELLIGENCE IN DEVELOPING A DIGITAL MUSEUM OF THE MEKONG DELTA REGION IN VIETNAM
Tác giả:	Huỳnh, Gia Khương Nguyễn, Thị Thanh Tuyền
Từ khoá:	KHOA HỌC MÁY TÍNH
Năm xuất bản:	2026
Nhà xuất bản:	Đại Học Cần Thơ
Tóm tắt:	Trong bối cảnh chuyển đổi số, việc số hóa và khai thác thông tin di sản văn hóa ngày càng trở nên cần thiết nhằm hỗ trợ lưu giữ thông tin và quảng bá. Tuy nhiên, các nền tảng cung cấp thông tin về lịch sử và di sản hiện nay còn khá hạn chế, đặc biệt là khu vực Tây Nam Bộ, nơi chưa có nhiều hệ thống số hóa đầy đủ và có tính tổ chức. Điều này khiến việc tìm kiếm và truy xuất thông tin trở nên khó khăn đối với người dùng. Do đó, đề tài “Ứng dụng trí tuệ nhân tạo trong xây dựng bảo tàng số Tây Nam Bộ tại Việt Nam” được thực hiện nhằm xây dựng một hệ thống hỗ trợ tìm kiếm thông tin hiệu quả hơn trong môi trường số. Trong nghiên cứu này, một hệ thống tìm kiếm đa phương thức được đề xuất, cho phép người dùng thực hiện truy vấn bằng văn bản hoặc hình ảnh. Đặc trưng hình ảnh được trích xuất bằng các mô hình học sâu như ResNet50, Vision Transformer (ViT) và CLIP, trong khi dữ liệu văn bản được biểu diễn bằng mô hình PhoBERT. Các đặc trưng được đưa về cùng một không gian embedding, sau đó kết hợp bằng phương pháp late fusion và tính độ tương đồng bằng cosine similarity để truy hồi kết quả phù hợp. Ngoài ra, hệ thống tích hợp chatbot hỗ trợ hỏi đáp nhằm cải thiện khả năng tương tác với người dùng. Chatbot được xây dựng theo hướng kết hợp giữa truy hồi thông tin và mô hình ngôn ngữ, sử dụng embedding để tìm kiếm nội dung liên quan và áp dụng cơ chế xếp hạng lại nhằm nâng cao độ chính xác cũng như tính tự nhiên của câu trả lời. Kết quả thực nghiệm cho thấy hệ thống tìm kiếm đa phương thức đạt hiệu quả cao với Recall@1 = 88.9%, Recall@5 = 95.7%, Recall@10 = 96.6%, Recall@20 = 97.3%, Precision@5 = 83.5% và mAP = 68.7% khi sử dụng tham số α = 0.8. Việc kết hợp dữ liệu hình ảnh và văn bản giúp cải thiện rõ rệt hiệu năng truy hồi so với các phương pháp đơn phương thức. Đồng thời, chatbot hoạt động ổn định, có khả năng phản hồi chính xác trong phần lớn các truy vấn, góp phần nâng cao trải nghiệm người dùng. Từ khóa: Tìm kiếm đa phương thức, trí tuệ nhân tạo, PhoBERT, Vision Transformer, CLIP, chatbot, truy hồi ảnh. In the context of digital transformation, the digitization and exploitation of cultural heritage information have become increasingly important for information preservation and dissemination. However, existing platforms providing historical and cultural heritage information remain limited, especially in the Mekong Delta region, where comprehensive and well-structured digital systems are still lacking. This situation makes information retrieval and access challenging for users. Therefore, the study titled “Application of Artificial Intelligence in Developing a Digital Museum of the Mekong Delta Region in Vietnam” aims to develop a system that supports more efficient information retrieval in a digital environment. This study proposes a multimodal retrieval system that allows users to perform queries using either text or images. Visual features are extracted using deep learning models such as ResNet50, Vision Transformer (ViT), and CLIP, while textual data are represented using the PhoBERT model. These features are mapped into a shared embedding space, combined using a late fusion approach, and compared using cosine similarity to retrieve relevant results. In addition, a basic chatbot is integrated into the system to support question answering, improving user interaction by retrieving relevant information and applying a re-ranking mechanism to enhance response accuracy and coherence. Experimental results demonstrate that the proposed system achieves strong performance in multimodal retrieval, with Recall@1 = 88.9%, Recall@5 = 95.7%, Recall@10 = 96.6%, Recall@20 = 97.3%, Precision@5 = 83.5%, and mAP = 68.7% when using α = 0.8. The combination of visual and textual data significantly improves retrieval performance compared to unimodal approaches. Moreover, the chatbot operates reliably and provides accurate responses for most user queries, contributing to an improved user experience.
Mô tả:	66 Tr
Định danh:	https://dspace.ctu.edu.vn/jspui/handle/123456789/127493
Bộ sưu tập:	Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:

Tập tin	Mô tả	Kích thước	Định dạng
_file_ Giới hạn truy cập		2.79 MB	Adobe PDF
Your IP: 216.73.217.127

Hiển thị đầy đủ biểu ghi tài liệu Xem thống kê

Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.

Thư viện số DSPACE

Thư viện số cho phép quản lý các nguồn tài liệu số như: Văn bản, hình ảnh, âm thanh, phim ảnh...