Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/94496
Title: CHUYỂN ĐỔI GIỌNG NÓI TIẾNG VIỆT VỚI MÔ HÌNH KHUẾCH TÁN
Other Titles: VISWAP: VIETNAMESE VOICE CONVERSION APPLICATION USING DIFFUSION MODEL
Authors: Mã, Trường Thành
Nguyễn, Văn Nguyễn
Keywords: KHOA HỌC MÁY TÍNH
Issue Date: 2023
Publisher: Trường Đại Học Cần Thơ
Abstract: Xã hội ngày càng phát triển đi lên với chất lượng cuộc sống ngày càng được cải thiện về nhiều mặt từ vật chất đến tinh thần, giờ đây ngoài những nhu cầu thiết yếu mà mỗi người cần có để duy trì cuộc sống như: ăn uống, công việc, sinh hoạt, với việc công việc ngày càng áp lực, khó khăn, dẫn đến việc trầm cảm lo âu xuất hiện. Vì thế việc vui chơi giải trí để giảm áp lực là hoàn toàn cần thiết. Với tính cấp thiết từ nhu cầu thực tiễn và việc áp dụng các thành tựu trong lĩnh vực trí tuệ nhân tạo vào đời sống con người dần trở nên phổ biến. Từ đó chúng tôi đề xuất một hệ thống ViSWAP: Chuyển đổi giọng nói tiếng Việt với mô hình khuếch tán. Hệ thống này giúp chúng ta có thể hỗ trợ trong quá trình như lồng tiếng cho phim hoặc các video ngắn, bên cạnh đó chúng ta có thể tạo các ca sĩ ảo hoặc ứng dụng cho sách nói. Việc một bộ phim với chỉ duy nhất một giọng thuyết Minh thật nhàm chán giờ đây hệ thống có thể chuyển đổi thành nhiều giọng khác nhau thật thú vị nhưng lại không cần chi phí quá cao để thuê nhiều diễn viên lòng tiếng hay các ứng dụng sách nói hiện nay việc chỉ có một số ít giọng đọc qua nhiều cuốn sách khác nhau cũng tạo sự nhàm chán nhất định, việc áp dụng hệ thống này để tạo ra nhiều giọng đọc khác nhau cũng đem lại nhiều thích thú cho người nghe. Không chỉ có ứng dụng trong giải trí, hệ thống cũng có thể áp dụng cho Y khoa đối với những bệnh nhân gặp phải vấn đề giao tiếp trong thời gian ngắn như phẫu thuật các bệnh liên quan đến cổ họng gây ảnh hưởng đến phát âm cũng có thể sử dụng hệ thống để khôi phục giọng nói ban đầu thông qua hỗ trợ bởi các công cụ như loa, micro. Với ý tưởng chính là nhận vào một đoạn âm thanh và xuất ra một đoạn âm thanh mới có cùng nội dung nhưng khác giọng điệu, chúng tôi đã xây dựng mô hình bằng giọng nói tiếng Việt trên đối tượng là những thanh niên trong độ tuổi từ 18 đến 40, bao gồm cả nam và nữ. Cụ thể chúng tôi đã thu thập được âm thanh của 46 người với mỗi người giao động từ 150 đến 350 tập tin âm thanh chất lượng cao. Để thuận tiện trong quá trình sử dụng chúng tôi đã xây dựng trên ứng dụng Window.
Description: 68 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/94496
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
4.43 MBAdobe PDF
Your IP: 18.117.91.116


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.