CHUYỂN ĐỔI GIỌNG NÓI TIẾNG VIỆT VỚI MÔ HÌNH KHUẾCH TÁN

Nguyễn, Văn Nguyễn

Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/94496

Nhan đề:	CHUYỂN ĐỔI GIỌNG NÓI TIẾNG VIỆT VỚI MÔ HÌNH KHUẾCH TÁN
Nhan đề khác:	VISWAP: VIETNAMESE VOICE CONVERSION APPLICATION USING DIFFUSION MODEL
Tác giả:	Mã, Trường Thành Nguyễn, Văn Nguyễn
Từ khoá:	KHOA HỌC MÁY TÍNH
Năm xuất bản:	2023
Nhà xuất bản:	Trường Đại Học Cần Thơ
Tóm tắt:	Xã hội ngày càng phát triển đi lên với chất lượng cuộc sống ngày càng được cải thiện về nhiều mặt từ vật chất đến tinh thần, giờ đây ngoài những nhu cầu thiết yếu mà mỗi người cần có để duy trì cuộc sống như: ăn uống, công việc, sinh hoạt, với việc công việc ngày càng áp lực, khó khăn, dẫn đến việc trầm cảm lo âu xuất hiện. Vì thế việc vui chơi giải trí để giảm áp lực là hoàn toàn cần thiết. Với tính cấp thiết từ nhu cầu thực tiễn và việc áp dụng các thành tựu trong lĩnh vực trí tuệ nhân tạo vào đời sống con người dần trở nên phổ biến. Từ đó chúng tôi đề xuất một hệ thống ViSWAP: Chuyển đổi giọng nói tiếng Việt với mô hình khuếch tán. Hệ thống này giúp chúng ta có thể hỗ trợ trong quá trình như lồng tiếng cho phim hoặc các video ngắn, bên cạnh đó chúng ta có thể tạo các ca sĩ ảo hoặc ứng dụng cho sách nói. Việc một bộ phim với chỉ duy nhất một giọng thuyết Minh thật nhàm chán giờ đây hệ thống có thể chuyển đổi thành nhiều giọng khác nhau thật thú vị nhưng lại không cần chi phí quá cao để thuê nhiều diễn viên lòng tiếng hay các ứng dụng sách nói hiện nay việc chỉ có một số ít giọng đọc qua nhiều cuốn sách khác nhau cũng tạo sự nhàm chán nhất định, việc áp dụng hệ thống này để tạo ra nhiều giọng đọc khác nhau cũng đem lại nhiều thích thú cho người nghe. Không chỉ có ứng dụng trong giải trí, hệ thống cũng có thể áp dụng cho Y khoa đối với những bệnh nhân gặp phải vấn đề giao tiếp trong thời gian ngắn như phẫu thuật các bệnh liên quan đến cổ họng gây ảnh hưởng đến phát âm cũng có thể sử dụng hệ thống để khôi phục giọng nói ban đầu thông qua hỗ trợ bởi các công cụ như loa, micro. Với ý tưởng chính là nhận vào một đoạn âm thanh và xuất ra một đoạn âm thanh mới có cùng nội dung nhưng khác giọng điệu, chúng tôi đã xây dựng mô hình bằng giọng nói tiếng Việt trên đối tượng là những thanh niên trong độ tuổi từ 18 đến 40, bao gồm cả nam và nữ. Cụ thể chúng tôi đã thu thập được âm thanh của 46 người với mỗi người giao động từ 150 đến 350 tập tin âm thanh chất lượng cao. Để thuận tiện trong quá trình sử dụng chúng tôi đã xây dựng trên ứng dụng Window.
Mô tả:	68 Tr
Định danh:	https://dspace.ctu.edu.vn/jspui/handle/123456789/94496
Bộ sưu tập:	Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:

Tập tin	Mô tả	Kích thước	Định dạng
_file_ Restricted Access		4.43 MB	Adobe PDF
Your IP: 216.73.216.249

Show full item record

LRC Digital repo

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets