Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/124144
Nhan đề: TEMPORAL SEGMENTATION AND HAND GESTURE RECOGNITION USING MAMBA SSM ARCHITECTURE
Nhan đề khác: PHÂN ĐOẠN THỜI GIAN VÀ NHẬN DẠNG CỬ CHỈ TAY SỬ DỤNG KIẾN TRÚC MAMBA SSM
Tác giả: Lâm, Nhựt Khang
Nguyễn, Phước Minh
Từ khoá: CÔNG NGHỆ THÔNG TIN - CHẤT LƯỢNG CAO
Năm xuất bản: 2025
Nhà xuất bản: Trường Đại Học Cần Thơ
Tóm tắt: Despite significant advancements in assistive technology, communication barriers remain a pervasive challenge for the hearing-impaired community, particularly regarding Vietnamese Sign Language (VSL). Existing recognition systems often face a trade-off dilemma: Recurrent Neural Networks (RNNs) struggle with vanishing gradients when modeling long gesture sequences, while Transformerbased models incur quadratic computational costs that hinder real-time deployment on edge devices. To address these limitations, this thesis proposes a comprehensive end-to-end framework leveraging the Mamba State Space Model (SSM), a novel architecture capable of capturing long-range temporal dependencies with linear computational complexity (𝑂(𝑁)), thereby bridging the gap between high accuracy and operational efficiency. The core recognition framework orchestrates two specialized Mamba-based modules: a Temporal Segmenter and a Gesture Classifier. Experimental results demonstrate that the Mamba Segmenter achieves a Mean Intersection over Union (mIoU) of 55.69%, outperforming the TCN baseline by over 14%, particularly in detecting ambiguous transition states. Furthermore, the Mamba Classifier attains a remarkable mAP of 0.9937, surpassing the Bi-LSTM baseline in both stability and inference speed. These results validate the efficacy of Mamba’s Selective Scan mechanism in filtering kinematic noise while retaining crucial semantic context. Beyond theoretical modeling, this study culminates in the deployment of a fully functional real-time application using ONNX Runtime and PyQt6. The system successfully translates continuous VSL streams into natural language text with low latency on standard consumer hardware. This practical implementation proves the feasibility of Mamba SSM as a lightweight, scalable solution for sign language recognition, laying a solid foundation for future large-scale dictionary expansion.
Mô tả: 70 Tr
Định danh: https://dspace.ctu.edu.vn/jspui/handle/123456789/124144
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
2.35 MBAdobe PDF
Your IP: 216.73.216.105


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.