VIETMORLEX: MORPHOLOGICAL AND LEXICAL ADAPTATION ACROSS DIALECTS

Thân, Quốc Tuấn

Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/127489

Toàn bộ biểu ghi siêu dữ liệu

Trường DC	Giá trị	Ngôn ngữ
dc.contributor.advisor	Mã, Trường Thành	-
dc.contributor.advisor	Lê, Ngọc Thái	-
dc.contributor.author	Thân, Quốc Tuấn	-
dc.date.accessioned	2026-05-19T07:35:37Z	-
dc.date.available	2026-05-19T07:35:37Z	-
dc.date.issued	2026	-
dc.identifier.other	B2207574	-
dc.identifier.uri	https://dspace.ctu.edu.vn/jspui/handle/123456789/127489	-
dc.description	63 Tr	vi_VN
dc.description.abstract	Sự đa dạng của các phương ngữ Việt Nam đặc biệt là sự khác biệt lớn về từ vựng, ngữ âm và thanh điệu giữa miền Trung và miền Tây Nam Bộ, đã tạo ra những rào cản nhất định trong giao tiếp thường nhật. Mặc dù công nghệ thông tin phát triển mạnh mẽ, các hệ thống xử lý ngôn ngữ tự nhiên (NLP) hiện tại chủ yếu được huấn luyện trên tiếng Việt phổ thông, dẫn đến sự hạn chế khi xử lý văn bản phương ngữ. Để giải quyết bài toán này, nghiên cứu đề xuất một hệ thống xử lý toàn diện: ứng dụng mô hình PhoWhisper để nhận dạng chính xác âm thoại địa phương sang văn bản cho hai biến thể phương ngữ đặc trưng là Quảng Nam và Nghệ An. Tiếp nối bằng việc tinh chỉnh các mô hình ngôn ngữ lớn dạng Seq2Seq tiên tiến bao gồm ViT5 và BARTpho trên tập dữ liệu song ngữ chuyên biệt nhằm thực hiện tác vụ dịch thuật tự động từ các phương ngữ này sang phương ngữ miền Tây. Hệ thống được đánh giá thông qua các độ đo tiêu chuẩn như WER, CER cho phần nhận dạng tiếng nói, và SacreBLEU, ROUGE-L cho phần dịch thuật. Đặc biệt, kết quả phản ánh độ tương đồng về mặt ngữ nghĩa sâu với điểm BERTScore F1 đạt mức cao nhất là 88.90\% đối với mô hình BARTpho-syllable. Kết quả thực nghiệm này không chỉ chứng minh tính khả thi của hệ thống mà còn mở ra hướng đi mới trong việc bảo tồn và xử lý ngôn ngữ vùng miền tại Việt Nam. The diversity of Vietnamese dialects, particularly the significant differences in vocabulary, phonetics, and tones between the Central and Southwestern dialects, has created certain barriers in daily communication. Despite rapid advancements in information technology, current Natural Language Processing (NLP) systems are predominantly trained on standard Vietnamese, leading to limitations when handling dialectal texts. To address this problem, this study proposes a comprehensive processing system: utilizing the PhoWhisper model to accurately transcribe local speech into text for two distinct dialectal variants, namely Quang Nam and Nghe An. Subsequently, state-of-the-art Seq2Seq language models, including ViT5 and BARTpho, are fine-tuned on a specialized parallel corpus to perform automatic translation from these dialects into the Southwestern dialect. The system is evaluated using standard metrics such as WER and CER for the speech recognition component, and SacreBLEU and ROUGE-L for the translation task. Notably, the results reflecting deep semantic similarity achieved the highest BERTScore F1 of 88.90\% with the BARTpho-syllable model. These experimental results not only demonstrate the feasibility of the system but also open up new directions for preserving and processing regional languages in Vietnam.	vi_VN
dc.language.iso	vi	vi_VN
dc.publisher	Đại Học Cần Thơ	vi_VN
dc.subject	KHOA HỌC MÁY TÍNH	vi_VN
dc.title	VIETMORLEX: MORPHOLOGICAL AND LEXICAL ADAPTATION ACROSS DIALECTS	vi_VN
dc.title.alternative	VIETMORLEX: CHUYỂN ĐỔI HÌNH THÁI VÀ TỪ VỰNG GIỮA CÁC PHƯƠNG NGỮ	vi_VN
dc.type	Thesis	vi_VN
Bộ sưu tập:	Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:

Tập tin	Mô tả	Kích thước	Định dạng
_file_ Giới hạn truy cập		9.68 MB	Adobe PDF
Your IP: 216.73.217.127

Hiển thị đơn giản biểu ghi tài liệu Xem thống kê

Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.

Thư viện số DSPACE

Thư viện số cho phép quản lý các nguồn tài liệu số như: Văn bản, hình ảnh, âm thanh, phim ảnh...