Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/83369
Title: XÂY DỰNG TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH BOTTOM-UP
Authors: Lâm, Nhựt Khang
Đỗ, Thanh Tường
Keywords: CÔNG NGHỆ THÔNG TIN
Issue Date: 2021
Publisher: Trường Đại Học Cần Thơ
Abstract: Các phương pháp sử dụng mạng nơ-ron để xây dựng tóm tắt văn bản theo phương pháp tóm lược tạo ra kết quả đầu ra trôi chảy hơn các kỹ thuật khác nhưng hoạt động kém hơn ở phần lựa chọn nội dung. Luận văn này đề xuất một mô hình tóm tắt văn bản theo hướng tóm lược dựa trên mô hình Bottom-up thông qua hai quá trình là lựa chọn nội dung trong văn bản nguồn và xây dựng tóm tắt với kỹ thuật “chú ý” đến các nội dung đã lựa chọn. Mô hình Content-Selector trên nền tảng AllenNLP được dùng để lựa chọn nội dung bằng cách xác định từ và cụm từ quan trọng trong văn bản nguồn và chúng sẽ xuất hiện trong bản tóm tắt. Mô hình OpenNMT được dùng để xây dựng tóm tắt văn bản, điều chỉnh và kết hợp đầu vào từ mô hình Content-Selector để tạo ra văn bản tóm tắt. Thước đo ROUGE được dùng để đánh giá mô hình tóm tắt. Chúng tôi thực nghiệm trên tập dữ liệu tiếng Anh CNN/Daily Mail với hơn 100.000 văn bản, tập dữ liệu tiếng Việt CTUNLPSum do chúng tôi thu thập từ các bài viết trên trang báo mạng phổ biến ở Việt Nam với hơn 55.000 văn bản và tập dữ liệu tiếng Việt ViMs của Đại học Khoa học Tự nhiên với 1.942 văn bản. Kết quả đánh giá ROUGE (F1-score) trên tập dữ liệu CNN/Daily Mail đạt ROUGE-1: 0,41223, ROUGE-2: 0,18684, ROUGE-L: 0,38340; tập dữ liệu CTUNLPSum đạt ROUGE-1: 0,59775, ROUGE-2: 0,25960, ROUGE-L: 0,45496; tập dữ liệu ViMs đạt ROUGE1: 0,43274, ROUGE-2: 0,14139, ROUGE-L: 0,28931.
Description: 63 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/83369
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
2.32 MBAdobe PDF
Your IP: 18.188.90.148


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.