Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/115931
Toàn bộ biểu ghi siêu dữ liệu
Trường DCGiá trị Ngôn ngữ
dc.contributor.advisorPhạm, Nguyên Khang-
dc.contributor.authorNguyễn, Thanh Hiếu-
dc.date.accessioned2025-05-26T08:23:29Z-
dc.date.available2025-05-26T08:23:29Z-
dc.date.issued2025-
dc.identifier.otherB2106834-
dc.identifier.urihttps://dspace.ctu.edu.vn/jspui/handle/123456789/115931-
dc.description64 Trvi_VN
dc.description.abstractTrong bối cảnh hội nhập quốc tế, rào cản ngôn ngữ đang cản trở việc hợp tác và trao đổi giữa bác sĩ Việt Nam và chuyên gia nước ngoài, đặc biệt do sự phức tạp của tiếng Anh chuyên ngành y khoa. Các hệ thống phiên dịch giọng nói theo thời gian thực có thể hỗ trợ hiệu quả nhưng hiện vẫn chưa được nghiên cứu đầy đủ. Ngoài ra, mô hình ASR tiếng Việt còn hạn chế trong môi trường y khoa do thiếu dữ liệu chuyên ngành. Để giải quyết vấn đề này, đề tài luận văn “AIVIMedConsult – Hệ thống hỗ trợ phiên dịch giọng nói cho hội chẩn y khoa việt nam ứng dụng trí tuệ nhân tạo” được ra đời. Trong đề tài này, giải pháp kết hợp mô hình PhoWhisper và các mô hình ngôn ngữ lớn hiện đại như: GPT, Gemini, Llama,… để có thể tăng tốc độ xây dựng các tập dữ liệu cho việc tinh chỉnh mô hình ASR. Thêm vào đó, đề tài còn xây dựng một hệ thống web để thực hiện giải pháp này. Trọng tâm của đề tài là xây dựng hệ thống hỗ trợ phiên dịch giọng nói real-time cho lĩnh vực hội chẩn y khoa. Đề tài tập trung vào việc tinh chỉnh mô hình PhoWhisper-small trên tập dữ liệu âm thanh các cuộc hội chẩn y khoa mà đề tài tự xây dựng. Đề tài áp dụng các kỹ thuật xử lý song song để tăng tốc độ xử lý, giảm thời gian chờ của hệ thống. Kết quả đề tài đã xây dựng được tập dữ liệu âm thanh của các cuộc hội chẩn y khoa ở Việt Nam. Tổng thười gian của tập dữ liệu là hơn 5 tiếng với gần 700 audio ngắn có độ dài từ 20 đến 30 giây. Tập dữ liệu đã được công khai trên HuggingFace. Ngoài ra, kết quả mà đề tài đã đạt được là kiểm chứng được giải pháp mà đề tài đã đề xuất trên tập kiểm tra tự xây dựng. Sự kết hợp giữa PhoWhisper-small và Gemini-2.0-flash cho kết quả tốt nhất. Chỉ số lỗi WER giảm từ 0.372 (chỉ sử dụng PhoWhisper-small) xuống còn 0.288. Đề tài đã xây dựng được một hệ thống web hoàn chỉnh để áp dụng giải pháp này và hỗ trợ việc xây dựng tập dữ liệu cho người dùng. Kết quả sau khi tinh chỉnh mô hình PhoWhisper trên tập dữ liệu là chỉ số lỗi WER đạt 0.242 (24,2%). Hệ thống chính mà đề tài xây dựng đạt được thời gian trễ trong khoảng chấp nhận được. Thời gian trễ trung bình giữa hai lần phát âm của hệ thống là 12.44 giây. Thời gian này có thể chấp nhận nhưng còn khá cao, cần cải tiến thêm.vi_VN
dc.language.isovivi_VN
dc.publisherTrường Đại Học Cần Thơvi_VN
dc.subjectKHOA HỌC MÁY TÍNHvi_VN
dc.titleAIVIMEDCONSULT – HỆ THỐNG HỖ TRỢ PHIÊN DỊCH GIỌNG NÓI CHO HỘI CHẨN Y KHOA VIỆT NAM ỨNG DỤNG TRÍ TUỆ NHÂN TẠOvi_VN
dc.title.alternativeAIVIMEDCONSULT – AI-DRIVEN SPEECH TRANSLATION SUPPORT SYSTEM FOR VIETNAMESE MEDICAL CONSULTATIONvi_VN
dc.typeThesisvi_VN
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
1.99 MBAdobe PDF
Your IP: 216.73.216.129


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.