NGHIÊN CỨU MỞ RỘNG DỮ LIỆU VÀ CẢI TIẾN MÔ HÌNH HỌC SÂU CHO BÀI TOÁN PHÂN ĐOẠN CÁC BƯỚC THỰC HIỆN TRONG VIDEO HƯỚNG DẪN NẤU ĂN TẠI VIỆT NAM

Nguyễn, Phước Khải

Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/127542

Title:	NGHIÊN CỨU MỞ RỘNG DỮ LIỆU VÀ CẢI TIẾN MÔ HÌNH HỌC SÂU CHO BÀI TOÁN PHÂN ĐOẠN CÁC BƯỚC THỰC HIỆN TRONG VIDEO HƯỚNG DẪN NẤU ĂN TẠI VIỆT NAM
Other Titles:	RESEARCH ON DATASET EXPANSION AND DEEP LEARNING MODEL IMPROVEMENT FOR STEP SEGMENTATION IN VIETNAMESE COOKING INSTRUCTION VIDEOS
Authors:	Trần, Nguyễn Minh Thư Huỳnh, Gia Khương Nguyễn, Phước Khải
Keywords:	KHOA HỌC MÁY TÍNH
Issue Date:	2026
Publisher:	Đại Học Cần Thơ
Abstract:	Trong bối cảnh sự phát triển mạnh mẽ của các nền tảng chia sẻ video, đặc biệt là các video hướng dẫn nấu ăn, nhu cầu khai thác và tổ chức nội dung video một cách hiệu quả ngày càng trở nên cấp thiết. Tuy nhiên, phần lớn các video nấu ăn hiện nay có cấu trúc không rõ ràng, các bước thực hiện đan xen liên tục, gây khó khăn cho người dùng trong việc theo dõi và tra cứu thông tin. Bên cạnh đó, việc trích xuất công thức nấu ăn từ video cũng gặp nhiều thách thức do nội dung thường không được trình bày một cách có hệ thống. Xuất phát từ thực tiễn đó, luận văn tập trung nghiên cứu bài toán phân đoạn hành động theo thời gian trong video nấu ăn tiếng Việt, kết hợp với việc trích xuất công thức từ transcript nhằm hỗ trợ người dùng tiếp cận nội dung một cách thuận tiện hơn. Để giải quyết bài toán, đề tài đề xuất một hướng tiếp cận dựa trên học đa phương thức, kết hợp đặc trưng hình ảnh và văn bản. Dữ liệu đầu vào bao gồm video và transcript tương ứng, được tiền xử lý, gán nhãn và chia thành các đoạn nhỏ theo từng bước nấu ăn. Đặc trưng hình ảnh được trích xuất từ các khung hình bằng các mô hình học sâu như ResNet, EfficientNet, ViT và ConvNeXt V2, trong khi đặc trưng văn bản được biểu diễn thông qua mô hình PhoBERT. Hai loại đặc trưng này được hợp nhất để tạo thành biểu diễn đa phương thức và đưa vào huấn luyện trên các mô hình phân đoạn hành động như BiLSTM-CRF và MS-TCN++. Ngoài ra, mô hình ngôn ngữ lớn (LLM) cũng được tích hợp để thực hiện các tác vụ như kiểm tra nội dung video, trích xuất công thức và sinh nhãn mô tả cho các đoạn video. Kết quả thực nghiệm cho thấy các mô hình đạt hiệu năng tốt trên tập dữ liệu 200 video nấu ăn tiếng Việt. Cụ thể, mô hình BiLSTM-CRF với tổ hợp ConvNeXt V2 + PhoBERT đạt F1@50 = 63.43, trong khi mô hình MS-TCN++ với tổ hợp ViT + PhoBERT đạt F1@50 = 71.54. Chỉ số MoF cao nhất đạt 82.07 đối với BiLSTM-CRF và 84.77 đối với MS-TCN++. Bên cạnh đó, đề tài cũng xây dựng thành công ứng dụng demo CookLens với giao diện trực quan, cho phép người dùng tải video, theo dõi timeline các bước nấu ăn và truy xuất công thức một cách thuận tiện. Những kết quả này cho thấy tính khả thi và tiềm năng ứng dụng của phương pháp đề xuất trong việc khai thác nội dung video nấu ăn. In recent years, the rapid growth of online video platforms has led to a significant increase in cooking tutorial videos. However, most cooking videos are inherently unstructured, with continuous and overlapping actions, making it difficult for users to navigate, retrieve specific steps, or extract structured cooking recipes. Addressing this challenge, this thesis focuses on the problem of temporal action segmentation in Vietnamese cooking videos, combined with recipe extraction from transcripts to enhance user accessibility and learning experience.To tackle this problem, a multimodal learning approach is proposed, integrating both visual and textual information. The input data consists of cooking videos and their corresponding transcripts, which are preprocessed, manually annotated, and segmented into meaningful cooking steps. Visual features are extracted from video frames using deep learning models such as ResNet, EfficientNet, Vision Transformer (ViT), and ConvNeXt V2, while textual features are obtained using the PhoBERT language model. These features are fused to form multimodal representations and used to train temporal action segmentation models, including BiLSTM-CRF and MS-TCN++. Additionally, a large language model (LLM) is integrated to perform tasks such as content validation, recipe extraction, and generating human-readable descriptions for video segments. Experimental results on a dataset of 200 Vietnamese cooking videos demonstrate the effectiveness of the proposed approach. The BiLSTM-CRF model with ConvNeXt V2 + PhoBERT achieves an F1@50 score of 63.43, while the MS-TCN++ model with ViT + PhoBERT achieves the best performance with an F1@50 score of 71.54. The highest Mean over Frames (MoF) reaches 82.07 for BiLSTM-CRF and 84.77 for MS-TCN++. Furthermore, a prototype application named CookLens is developed with an intuitive interface, enabling users to upload videos, visualize segmented timelines, and retrieve structured cooking recipes. These results highlight the feasibility and practical potential of the proposed system for analyzing and extracting knowledge from cooking videos.
Description:	66 Tr
URI:	https://dspace.ctu.edu.vn/jspui/handle/123456789/127542
Appears in Collections:	Trường Công nghệ Thông tin & Truyền thông

Files in This Item:

File	Description	Size	Format
_file_ Restricted Access		2.79 MB	Adobe PDF
Your IP: 216.73.216.172

Show full item record

LRC Digital repo

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets