NHẬN DẠNG TIẾNG NÓI NGƯỜI PHÂN HỆ TIẾNG VIỆT

Nguyễn, Thị Mỹ Yến

Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/44553

Nhan đề:	NHẬN DẠNG TIẾNG NÓI NGƯỜI PHÂN HỆ TIẾNG VIỆT
Tác giả:	Trần, Công Án Nguyễn, Thị Mỹ Yến
Từ khoá:	CÔNG NGHỆ THÔNG TIN
Năm xuất bản:	2021
Nhà xuất bản:	Trường Đại Học Cần Thơ
Tóm tắt:	Trong thực tế, việc tạo phụ đề cho video là cách hiệu quả và trực quan nhất để thuyết minh, diễn giải cho các kênh truyền hình dân tộc. Từ đó, việc đồng bộ hóa tự động giữa phụ đề và video trở thành một cách cần thiết và hiệu quả mà các kênh truyền hình dân tộc muốn áp dụng lên những bản tin của nhà đài. Các bản tin tiếng dân tộc được gán phụ đề với ngôn ngữ Tiếng Việt, giúp truyền tải và cung cấp nội dung cũng như những thông tin cần thiết đến rộng rãi khán giả xem truyền hình. Trong đó, việc sử dụng Nhận dạng tiếng nói người trên phân hệ Tiếng Việt để tạo phụ đề tự động cho video là một việc quan trọng và cần thiết. Từ mô hình Nhận dạng tiếng nói người trên phân hệ Tiếng Việt giúp đánh dấu và xác định chính xác về thời gian xuất hiện phụ đề trong video. Luận văn này được áp dụng hai mô hình máy học là CNN (Convolutional Neural Network) và RNN (Recurrent Neural Network) vào việc nhận diện tiếng nói người dựa trên các trích xuất đặc trưng giọng nói MFCC (Mel Frequency Cepstral Coefficients). Kết quả đạt được của luận văn là xác định được xác suất giọng nói của con người xuất hiện vào khoảng thời gian nào trong video.
Mô tả:	61 Tr
Định danh:	https://dspace.ctu.edu.vn/jspui/handle/123456789/44553
Bộ sưu tập:	Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:

Tập tin	Mô tả	Kích thước	Định dạng
_file_ Giới hạn truy cập		2.86 MB	Adobe PDF
Your IP: 216.73.216.197

Hiển thị đầy đủ biểu ghi tài liệu Xem thống kê

Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.

Thư viện số DSPACE

Thư viện số cho phép quản lý các nguồn tài liệu số như: Văn bản, hình ảnh, âm thanh, phim ảnh...