Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/45017
Title: HUẤN LUYỆN MÔ HÌNH DỊCH MÁY SEQUENCE TO SEQUENCE CẤP ĐỘ KÝ TỰ DỰA TRÊN TẬP DỮ LIỆU ANH – VIỆT
Authors: Nguyễn, Tí Hon
Phạm, Thị Hồng Ngọc
Keywords: CÔNG NGHỆ THÔNG TIN
Issue Date: 2020
Publisher: Trường Đại Học Cần Thơ
Abstract: Khi xã hội ngày càng phát triển, nhu cầu giao tiếp và hiểu giữa các ngôn ngữ ngày càng trở nên quan trọng hơn. Neural Machine Translation (NMT) nổi lên như một giải pháp đầy hứa hẹn cho vấn đề dịch máy, nhiệm vụ dạy cho máy tính có thể học và dịch tự động các ngôn ngữ là một lĩnh vực nghiên cứu quan trọng. Luận văn này trình bày một số các tính chất của “Huấn luyện mô hình dịch máy sequence to sequence cấp độ ký tự dựa trên tập dữ liệu Anh – Việt”, sử dụng mô hình sequence to sequence cấp độ ký tự dùng để chuyển đổi chuỗi tiếng Anh sang chuỗi tiếng Việt ở cấp độ ký tự. Sử dụng bộ mã hóa LSTM để biến đổi sequence nguồn thành sequence đích thông qua bộ mã hóa và bộ giải mã. Đầu tiên tiến hành tiền xử lý dữ liệu và thu được 4263 cặp song ngữ Anh – Việt. Tiếp theo tạo các ma trận mã hóa và các ma trận giải mã để tiến hành huấn luyện mô hình. Dự đoán token đầu ra, trạng thái ngữ cảnh và trạng thái ẩn của token đầu ra. Sử dụng hàm BLEU để đánh giá độ chính xác của mô hình huấn luyện dịch máy sequence to sequence cấp độ ký tự. Về cơ bản, mô hình huấn luyện dịch máy sequence to sequence cấp độ ký tự dựa trên tập dữ liệu Anh – Việt có thể chuyển đổi chuỗi tiếng Anh thành chuỗi tiếng Việt ở cấp độ ký tự, độ chính xác của mô hình huấn luyện là 0,329 khi sử dụng phương thức đánh giá BLEU với số Epochs bằng 1500. Trong tương lai mô hình có thể ứng dụng hàm beam search để tăng tốc độ tính toán cho mô hình. Ngoài ra có thể viết các ứng dụng dịch máy chuyển đổi từ ngôn ngữ gốc sang ngôn ngữ cần chuyển nhằm đáp ứng nhu cầu chuyển đổi ngôn ngữ của con người.
Description: 47 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/45017
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
943 kBAdobe PDF
Your IP: 35.175.191.46


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.