Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/115931
Title: | AIVIMEDCONSULT – HỆ THỐNG HỖ TRỢ PHIÊN DỊCH GIỌNG NÓI CHO HỘI CHẨN Y KHOA VIỆT NAM ỨNG DỤNG TRÍ TUỆ NHÂN TẠO |
Other Titles: | AIVIMEDCONSULT – AI-DRIVEN SPEECH TRANSLATION SUPPORT SYSTEM FOR VIETNAMESE MEDICAL CONSULTATION |
Authors: | Phạm, Nguyên Khang Nguyễn, Thanh Hiếu |
Keywords: | KHOA HỌC MÁY TÍNH |
Issue Date: | 2025 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Trong bối cảnh hội nhập quốc tế, rào cản ngôn ngữ đang cản trở việc hợp tác và trao đổi giữa bác sĩ Việt Nam và chuyên gia nước ngoài, đặc biệt do sự phức tạp của tiếng Anh chuyên ngành y khoa. Các hệ thống phiên dịch giọng nói theo thời gian thực có thể hỗ trợ hiệu quả nhưng hiện vẫn chưa được nghiên cứu đầy đủ. Ngoài ra, mô hình ASR tiếng Việt còn hạn chế trong môi trường y khoa do thiếu dữ liệu chuyên ngành. Để giải quyết vấn đề này, đề tài luận văn “AIVIMedConsult – Hệ thống hỗ trợ phiên dịch giọng nói cho hội chẩn y khoa việt nam ứng dụng trí tuệ nhân tạo” được ra đời. Trong đề tài này, giải pháp kết hợp mô hình PhoWhisper và các mô hình ngôn ngữ lớn hiện đại như: GPT, Gemini, Llama,… để có thể tăng tốc độ xây dựng các tập dữ liệu cho việc tinh chỉnh mô hình ASR. Thêm vào đó, đề tài còn xây dựng một hệ thống web để thực hiện giải pháp này. Trọng tâm của đề tài là xây dựng hệ thống hỗ trợ phiên dịch giọng nói real-time cho lĩnh vực hội chẩn y khoa. Đề tài tập trung vào việc tinh chỉnh mô hình PhoWhisper-small trên tập dữ liệu âm thanh các cuộc hội chẩn y khoa mà đề tài tự xây dựng. Đề tài áp dụng các kỹ thuật xử lý song song để tăng tốc độ xử lý, giảm thời gian chờ của hệ thống. Kết quả đề tài đã xây dựng được tập dữ liệu âm thanh của các cuộc hội chẩn y khoa ở Việt Nam. Tổng thười gian của tập dữ liệu là hơn 5 tiếng với gần 700 audio ngắn có độ dài từ 20 đến 30 giây. Tập dữ liệu đã được công khai trên HuggingFace. Ngoài ra, kết quả mà đề tài đã đạt được là kiểm chứng được giải pháp mà đề tài đã đề xuất trên tập kiểm tra tự xây dựng. Sự kết hợp giữa PhoWhisper-small và Gemini-2.0-flash cho kết quả tốt nhất. Chỉ số lỗi WER giảm từ 0.372 (chỉ sử dụng PhoWhisper-small) xuống còn 0.288. Đề tài đã xây dựng được một hệ thống web hoàn chỉnh để áp dụng giải pháp này và hỗ trợ việc xây dựng tập dữ liệu cho người dùng. Kết quả sau khi tinh chỉnh mô hình PhoWhisper trên tập dữ liệu là chỉ số lỗi WER đạt 0.242 (24,2%). Hệ thống chính mà đề tài xây dựng đạt được thời gian trễ trong khoảng chấp nhận được. Thời gian trễ trung bình giữa hai lần phát âm của hệ thống là 12.44 giây. Thời gian này có thể chấp nhận nhưng còn khá cao, cần cải tiến thêm. |
Description: | 64 Tr |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/115931 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 1.99 MB | Adobe PDF | ||
Your IP: 216.73.216.119 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.