ỨNG DỤNG TRÍ TUỆ NHÂN TẠO ĐỂ TỰ ĐỘNG PHÂN ĐOẠN CÁC BƯỚC THỰC HIỆN TRONG VIDEO DẠY NẤU ĂN Ở VIỆT NAM

Lã, Thái Hòa

Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/126214

Nhan đề:	ỨNG DỤNG TRÍ TUỆ NHÂN TẠO ĐỂ TỰ ĐỘNG PHÂN ĐOẠN CÁC BƯỚC THỰC HIỆN TRONG VIDEO DẠY NẤU ĂN Ở VIỆT NAM
Nhan đề khác:	APPLYING ARTIFICIAL INTELLIGENCE TO AUTOMATICALLY SEGMENT STEPS IN COOKING VIDEOS IN VIETNAM
Tác giả:	Huỳnh, Gia Khương Lã, Thái Hòa
Từ khoá:	CÔNG NGHỆ THÔNG TIN
Năm xuất bản:	2025
Nhà xuất bản:	Trường Đại Học Cần Thơ
Tóm tắt:	Sự bùng nổ của các video hướng dẫn nấu ăn tiếng Việt trên các nền tảng mạng xã hội như YouTube, Facebook và TikTok đã tạo ra nguồn tài nguyên phong phú cho người dùng. Tuy nhiên, do bản chất nội dung đan xen và thiếu cấu trúc, người xem thường gặp khó khăn trong việc định vị và tra cứu các bước thực hiện cụ thể. Nhằm giải quyết vấn đề này, luận văn “Ứng dụng trí tuệ nhân tạo trong việc tự động phân đoạn các bước thực hiện trong video nấu ăn ở Việt Nam” tập trung phát triển hệ thống AI có khả năng tự động phân đoạn video, góp phần nâng cao trải nghiệm học nấu ăn trực tuyến và thúc đẩy quá trình số hóa tri thức ẩm thực Việt Nam. Hệ thống được xây dựng dựa trên kiến trúc hợp nhất đa phương thức. Quy trình xử lý bắt đầu bằng việc chuyển đổi dữ liệu âm thanh sang văn bản thông qua mô hình PhoWhisper. Tiếp đó, hệ thống thực hiện trích xuất đặc trưng hình ảnh sử dụng các mạng nơ-ron tiên tiến (ViT, EfficientNet, ResNet50) và trích xuất đặc trưng văn bản bằng PhoBERT. Các vector đặc trưng này được kết hợp thông qua kỹ thuật nối (Concatenation) và đưa vào huấn luyện trên mô hình BiLSTM-CRF. Tại đây, mô hình sẽ học các phụ thuộc ngữ cảnh hai chiều để dự đoán nhãn cho từng khung hình, từ đó tổng hợp và phân tách thành các phân đoạn video hoàn chỉnh. Mô hình được thử nghiệm và đánh giá trên tập dữ liệu video hướng dẫn nấu ăn tiếng Việt tự thu thập, bao gồm 130 video được gán nhãn thủ công với 1110 phân đoạn thuộc 7 lớp hành động nấu ăn. Kết quả thực nghiệm cho thấy mô hình EfficientNet + PhoBERT đạt hiệu năng cao nhất với chỉ số trung bình trên khung hình (Mean over Frames - MoF) đạt 84.98%. Trong khi đó, kiến trúc ViT + PhoBERT thể hiện ưu thế vượt trội trong việc bảo toàn tính nhất quán trình tự với độ chính xác biên tập phân đoạn (Segmental Edit Score) đạt 74.29%. Từ khóa: BiLSTM-CRF, Multimodal fusion, Phân đoạn video nấu ăn, PhoBERT, PhoWhisper, Vision Transformer.
Mô tả:	61 Tr
Định danh:	https://dspace.ctu.edu.vn/jspui/handle/123456789/126214
Bộ sưu tập:	Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:

Tập tin	Mô tả	Kích thước	Định dạng
_file_ Giới hạn truy cập		2.29 MB	Adobe PDF
Your IP: 216.73.216.255

Hiển thị đầy đủ biểu ghi tài liệu Xem thống kê

Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.

Thư viện số DSPACE

Thư viện số cho phép quản lý các nguồn tài liệu số như: Văn bản, hình ảnh, âm thanh, phim ảnh...