NHẬN DẠNG TIẾNG NÓI NGƯỜI PHÂN HỆ TIẾNG KHMER

Sơn, Phước Lộc

Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/44554

Nhan đề:	NHẬN DẠNG TIẾNG NÓI NGƯỜI PHÂN HỆ TIẾNG KHMER
Tác giả:	Trần, Công Án Sơn, Phước Lộc
Từ khoá:	CÔNG NGHỆ THÔNG TIN
Năm xuất bản:	2021
Nhà xuất bản:	Trường Đại Học Cần Thơ
Tóm tắt:	Đồng bộ hóa phụ đề trong các bản tin thời sự hay các chương trình tiếng dân tộc là cần thiết bởi vì tính truyền thông cách biệt về ngôn ngữ cho người xem và là vấn đề của những đài truyền hình. Nhận dạng tiếng nói người trong audio được trích từ các video bản tin là bước quan trọng trong việc đồng bộ hóa phụ đề để xác định thời gian xuất hiện phụ đề, cũng như phát hiện tiếng nói người trong các bản tin. Đề tài Nhận dạng tiếng nói người phân hệ tiếng Khmer được thực hiện nhằm mục đích xây dựng mô hình phát hiện tiếng nói tiếng Khmer trong các bản tin dân tộc tiếng Khmer thông qua huấn luyện máy học. Nhận dạng tiếng nói người phân hệ tiếng Khmer sẽ khai thác các đặc trưng của âm thanh Mel-frequency cepstral coefficients (MFCC) thông qua huấn luyện máy học trên hai mô hình RNN (Recurrent Neural Network) và CNN (Convolutional Neural Network). Kết quả của mô hình sau huấn luyện sẽ dự đoán được thời gian xuất hiện của phụ đề (SubRip text). Từ khóa: đồng bộ hóa phụ đề, nhận dạng tiếng nói người, đặc trưng của âm thanh Mel-frequency cepstral coefficients (MFCCs), RNN, CNN, tệp tin srt.
Mô tả:	64 Tr
Định danh:	https://dspace.ctu.edu.vn/jspui/handle/123456789/44554
Bộ sưu tập:	Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:

Tập tin	Mô tả	Kích thước	Định dạng
_file_ Giới hạn truy cập		2.73 MB	Adobe PDF
Your IP: 18.117.153.38

Hiển thị đầy đủ biểu ghi tài liệu Xem thống kê

Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.

Thư viện số DSPACE

Thư viện số cho phép quản lý các nguồn tài liệu số như: Văn bản, hình ảnh, âm thanh, phim ảnh...