Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/126214| Nhan đề: | ỨNG DỤNG TRÍ TUỆ NHÂN TẠO ĐỂ TỰ ĐỘNG PHÂN ĐOẠN CÁC BƯỚC THỰC HIỆN TRONG VIDEO DẠY NẤU ĂN Ở VIỆT NAM |
| Nhan đề khác: | APPLYING ARTIFICIAL INTELLIGENCE TO AUTOMATICALLY SEGMENT STEPS IN COOKING VIDEOS IN VIETNAM |
| Tác giả: | Huỳnh, Gia Khương Lã, Thái Hòa |
| Từ khoá: | CÔNG NGHỆ THÔNG TIN |
| Năm xuất bản: | 2025 |
| Nhà xuất bản: | Trường Đại Học Cần Thơ |
| Tóm tắt: | Sự bùng nổ của các video hướng dẫn nấu ăn tiếng Việt trên các nền tảng mạng xã hội như YouTube, Facebook và TikTok đã tạo ra nguồn tài nguyên phong phú cho người dùng. Tuy nhiên, do bản chất nội dung đan xen và thiếu cấu trúc, người xem thường gặp khó khăn trong việc định vị và tra cứu các bước thực hiện cụ thể. Nhằm giải quyết vấn đề này, luận văn “Ứng dụng trí tuệ nhân tạo trong việc tự động phân đoạn các bước thực hiện trong video nấu ăn ở Việt Nam” tập trung phát triển hệ thống AI có khả năng tự động phân đoạn video, góp phần nâng cao trải nghiệm học nấu ăn trực tuyến và thúc đẩy quá trình số hóa tri thức ẩm thực Việt Nam. Hệ thống được xây dựng dựa trên kiến trúc hợp nhất đa phương thức. Quy trình xử lý bắt đầu bằng việc chuyển đổi dữ liệu âm thanh sang văn bản thông qua mô hình PhoWhisper. Tiếp đó, hệ thống thực hiện trích xuất đặc trưng hình ảnh sử dụng các mạng nơ-ron tiên tiến (ViT, EfficientNet, ResNet50) và trích xuất đặc trưng văn bản bằng PhoBERT. Các vector đặc trưng này được kết hợp thông qua kỹ thuật nối (Concatenation) và đưa vào huấn luyện trên mô hình BiLSTM-CRF. Tại đây, mô hình sẽ học các phụ thuộc ngữ cảnh hai chiều để dự đoán nhãn cho từng khung hình, từ đó tổng hợp và phân tách thành các phân đoạn video hoàn chỉnh. Mô hình được thử nghiệm và đánh giá trên tập dữ liệu video hướng dẫn nấu ăn tiếng Việt tự thu thập, bao gồm 130 video được gán nhãn thủ công với 1110 phân đoạn thuộc 7 lớp hành động nấu ăn. Kết quả thực nghiệm cho thấy mô hình EfficientNet + PhoBERT đạt hiệu năng cao nhất với chỉ số trung bình trên khung hình (Mean over Frames - MoF) đạt 84.98%. Trong khi đó, kiến trúc ViT + PhoBERT thể hiện ưu thế vượt trội trong việc bảo toàn tính nhất quán trình tự với độ chính xác biên tập phân đoạn (Segmental Edit Score) đạt 74.29%. Từ khóa: BiLSTM-CRF, Multimodal fusion, Phân đoạn video nấu ăn, PhoBERT, PhoWhisper, Vision Transformer. |
| Mô tả: | 61 Tr |
| Định danh: | https://dspace.ctu.edu.vn/jspui/handle/123456789/126214 |
| Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
| Tập tin | Mô tả | Kích thước | Định dạng | |
|---|---|---|---|---|
| _file_ Giới hạn truy cập | 2.29 MB | Adobe PDF | ||
| Your IP: 216.73.216.105 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.