Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/86284
Title: XÂY DỰNG TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH BERT VÀ TIẾP CẬN
Other Titles: BOTTOM-UP VIETNAMESE TEXT SUMMARIES USING BERT AND BOTTOM-UP
Authors: Lâm, Nhựt Khang
Nguyễn, Thị Hồng Gấm
Keywords: CÔNG NGHỆ THÔNG TIN
Issue Date: 2022
Publisher: Trường Đại Học Cần Thơ
Abstract: Trong nhiều năm nay tóm tắt văn bản đã và đang là một trong nhiều lĩnh vực nghiên cứu quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Tóm tắt văn bản có hai hướng chính là rút trích và tóm lược. Trên cơ sở này, nghiên cứu đề xuất một mô hình kết hợp giữa rút trích-trừu tượng để kết hợp BERT với OpenNMT để tạo ra bản tóm tắt trừu tượng. Đã có nhiều phương pháp được đề xuất để trích xuất thông tin từ các tài liệu văn bản. Trong nghiên cứu này sẽ sử dụng phương pháp TextRank và mô hình đa ngôn ngữ BERT đã được đào tạo trước để tóm tắt văn bản rút trích. Kết quả là mô hình BERT có thể dự đoán các câu chính từ các bài báo để tạo ra các bản tóm tắt trọng tâm. Tiếp đó, sẽ đưa các bản tóm tắt rút trích đó vào mô hình OpenNMT để tạo ra văn bản tóm tắt cuối cùng theo hướng tóm lược. Để xác minh hiệu suất của mô hình, nghiên cứu so sánh kết quả của mô hình BERT kết hợp OpenNMT và mô hình TextRank kết hợp OpenNMT trên một tập dữ liệu tiếng Anh CNN / Daily Mail và hai tập dữ liệu tiếng Việt là tập ViMs và tập Vietnamese-MDS. Mô hình được đánh giá bằng phương ROUGE-1, ROUGE-2, ROUGE-L với các độ đo Precision, Recall, F1-score. Các kết quả đánh giá của mô hình được thể hiện như sau: Với mô hình đa ngôn ngữ BERT, thực hiện tóm tắt rút trích trên tập dữ liệu tiếng Việt ViMs tạo ra ba tập rút trích lần lượt là một câu, ba câu và năm câu, tập tóm tắt rút trích năm câu cho kết quả tốt hơn hai tập kia, với giá trị F-score tại ROUGE-1 là 44.28%, ROUGE-2 là 24.23%, ROUGE-L là 40.95%. Thực hiện tóm tắt rút trích trên tập dữ liệu tiếng Việt Vietnamese-MDS tạo ra ba tập rút trích lần lượt là một câu, ba câu và năm câu, tập tóm tắt rút trích năm câu cũng kết quả tốt với F-score tại ROUGE-1 là 46.34%, ROUGE-2 là 28.45%, ROUGE-L là 43.04%. Các từ khóa: tóm tắt văn bản, tóm tắt rút trích, tóm tắt tóm lược, nhúng từ BERT,
Description: 59 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/86284
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
1.7 MBAdobe PDF
Your IP: 3.138.105.89


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.