Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/127492
Nhan đề: PHÁT TRIỂN ỨNG DỤNG DI ĐỘNG ĐỂ NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TẠI VIỆT NAM
Nhan đề khác: DEVELOPMENT OF A MOBILE APPLICATION FOR VIETNAMESE SIGN LANGUAGE RECOGNITION
Tác giả: Huỳnh, Gia Khương
Ngô, Đại Kỳ
Từ khoá: KHOA HỌC MÁY TÍNH
Năm xuất bản: 2026
Nhà xuất bản: Đại Học Cần Thơ
Tóm tắt: Giao tiếp là rào cản lớn nhất đối với cộng đồng người khiếm thính tại Việt Nam do sự hạn chế của ngôn ngữ ký hiệu đối với những người nghe nói bình thường. Hầu hết các giải pháp hỗ trợ hiện nay đều gặp khó khăn trong việc xử lý tính liên tục của cử chỉ và diễn đạt lại thành câu hoàn chỉnh mang ngữ nghĩa tự nhiên. Để giải quyết vấn đề này, đề tài “Phát triển ứng dụng di động để nhận dạng ngôn ngữ ký hiệu tại Việt Nam” được thực hiện nhằm mục đích chuyển đổi tự động các cử chỉ tay thành văn bản tiếng Việt theo thời gian thực. Hệ thống đề xuất sử dụng thư viện MediaPipe để trích xuất đặc trưng không gian (tọa độ các khớp xương) từ video đầu vào, sau đó phân tích chuỗi thời gian bằng các mô hình mạng nơ-ron hồi quy. Đề tài tập trung huấn luyện và đánh giá so sánh hiệu năng của ba kiến trúc học sâu bao gồm: BiRNN, BiGRU và BiLSTM. Nhằm nâng cao tính tự nhiên trong giao tiếp, hệ thống ứng dụng mô hình ngôn ngữ lớn (LLM - thông qua API của Groq) để dịch các từ khóa nhận diện được thành câu văn hoàn chỉnh, kết hợp cùng cơ chế từ điển cục bộ để đảm bảo độ ổn định khi không có kết nối mạng. Về mặt thực nghiệm, đề tài đã thu thập và gán nhãn thành công bộ dữ liệu ngôn ngữ ký hiệu Việt Nam bao gồm hơn 4000 video cử chỉ thuộc 31 từ vựng tiếng Việt. Kết quả huấn luyện cho thấy mô hình BiLSTM đạt hiệu năng vượt trội nhất, khắc phục hiệu quả hiện tượng tiêu biến đạo hàm của BiRNN, với độ chính xác (Accuracy) đạt 98% và điểm F1-Score đạt 99%. Ứng dụng di động được xây dựng hoàn thiện, tối ưu hóa luồng suy luận trực tiếp để đáp ứng tốt nhu cầu nhận dạng thời gian thực qua camera, mở ra hướng đi triển vọng trong việc hỗ trợ người khiếm thính hòa nhập cộng đồng. Communication remains the greatest barrier for the deaf community in Vietnam due to the limitations of sign language for individuals who rely on spoken language. Most existing assistive solutions struggle to process the continuity of gestures and convert them into complete, naturally meaningful sentences. To address this issue, the project titled “Development of a Mobile Application for Vietnamese Sign Language Recognition” aims to automatically translate hand gestures into Vietnamese text in real time. The proposed system utilizes the MediaPipe library to extract spatial features (joint coordinates) from input video streams, followed by temporal sequence analysis using recurrent neural network models. The study focuses on training and evaluating the performance of three deep learning architectures: BiRNN, BiGRU, and BiLSTM. To enhance the naturalness of communication, the system integrates a large language model (LLM – via Groq’s API) to convert recognized keywords into coherent sentences, supplemented by a local dictionary mechanism to ensure stability in offline scenarios. Experimentally, the project successfully collected and annotated a Vietnamese sign language dataset comprising over 4000 gesture videos across 31 vocabulary items. Training results indicate that the BiLSTM model outperforms others, effectively mitigating the vanishing gradient problem of BiRNNs, achieving an accuracy of 98% and an F1-score of 99%. The mobile application has been fully developed, optimizing the direct inference pipeline to effectively support real-time recognition via camera, offering a promising solution for empowering the deaf community to integrate into society.
Mô tả: 75 Tr
Định danh: https://dspace.ctu.edu.vn/jspui/handle/123456789/127492
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
3.12 MBAdobe PDF
Your IP: 216.73.217.127


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.