Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/126214| Title: | ỨNG DỤNG TRÍ TUỆ NHÂN TẠO ĐỂ TỰ ĐỘNG PHÂN ĐOẠN CÁC BƯỚC THỰC HIỆN TRONG VIDEO DẠY NẤU ĂN Ở VIỆT NAM |
| Other Titles: | APPLYING ARTIFICIAL INTELLIGENCE TO AUTOMATICALLY SEGMENT STEPS IN COOKING VIDEOS IN VIETNAM |
| Authors: | Huỳnh, Gia Khương Lã, Thái Hòa |
| Keywords: | CÔNG NGHỆ THÔNG TIN |
| Issue Date: | 2025 |
| Publisher: | Trường Đại Học Cần Thơ |
| Abstract: | Sự bùng nổ của các video hướng dẫn nấu ăn tiếng Việt trên các nền tảng mạng xã hội như YouTube, Facebook và TikTok đã tạo ra nguồn tài nguyên phong phú cho người dùng. Tuy nhiên, do bản chất nội dung đan xen và thiếu cấu trúc, người xem thường gặp khó khăn trong việc định vị và tra cứu các bước thực hiện cụ thể. Nhằm giải quyết vấn đề này, luận văn “Ứng dụng trí tuệ nhân tạo trong việc tự động phân đoạn các bước thực hiện trong video nấu ăn ở Việt Nam” tập trung phát triển hệ thống AI có khả năng tự động phân đoạn video, góp phần nâng cao trải nghiệm học nấu ăn trực tuyến và thúc đẩy quá trình số hóa tri thức ẩm thực Việt Nam. Hệ thống được xây dựng dựa trên kiến trúc hợp nhất đa phương thức. Quy trình xử lý bắt đầu bằng việc chuyển đổi dữ liệu âm thanh sang văn bản thông qua mô hình PhoWhisper. Tiếp đó, hệ thống thực hiện trích xuất đặc trưng hình ảnh sử dụng các mạng nơ-ron tiên tiến (ViT, EfficientNet, ResNet50) và trích xuất đặc trưng văn bản bằng PhoBERT. Các vector đặc trưng này được kết hợp thông qua kỹ thuật nối (Concatenation) và đưa vào huấn luyện trên mô hình BiLSTM-CRF. Tại đây, mô hình sẽ học các phụ thuộc ngữ cảnh hai chiều để dự đoán nhãn cho từng khung hình, từ đó tổng hợp và phân tách thành các phân đoạn video hoàn chỉnh. Mô hình được thử nghiệm và đánh giá trên tập dữ liệu video hướng dẫn nấu ăn tiếng Việt tự thu thập, bao gồm 130 video được gán nhãn thủ công với 1110 phân đoạn thuộc 7 lớp hành động nấu ăn. Kết quả thực nghiệm cho thấy mô hình EfficientNet + PhoBERT đạt hiệu năng cao nhất với chỉ số trung bình trên khung hình (Mean over Frames - MoF) đạt 84.98%. Trong khi đó, kiến trúc ViT + PhoBERT thể hiện ưu thế vượt trội trong việc bảo toàn tính nhất quán trình tự với độ chính xác biên tập phân đoạn (Segmental Edit Score) đạt 74.29%. Từ khóa: BiLSTM-CRF, Multimodal fusion, Phân đoạn video nấu ăn, PhoBERT, PhoWhisper, Vision Transformer. |
| Description: | 61 Tr |
| URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/126214 |
| Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| _file_ Restricted Access | 2.29 MB | Adobe PDF | ||
| Your IP: 216.73.216.105 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.