Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/43620
Title: TÓM TẮT TÓM LƯỢC VĂN BẢN TIẾNG VIỆT SỬ DỤNG MÔ HÌNH BERT
Authors: Lâm, Nhựt Khang
Nguyễn, Công Đoàn
Keywords: CÔNG NGHỆ THÔNG TIN
Issue Date: 2021
Publisher: Trường Đại Học Cần Thơ
Abstract: Tóm tắt văn bản là một đề tài đang phát triển trong lĩnh vực xử lý ngôn ngữ tự nhiên. Sản phầm của tóm tắt văn bản là một phiên bản rút gọn và cô đọng của văn bản đầu vào và làm nổi bật các ý chính của nó. Tóm tắt văn bản theo phương pháp thủ công thường mất rất nhiều thời gian và công sức. Do đó, nhiều nghiên cứu đã quan tâm đến việc tóm tắt văn bản tự động. Luận văn tốt nghiệp này nghiên cứu mô hình BERT cho việc tóm tắt văn bản tiếng Việt tự động. Mô hình kết hợp thế mạnh của hai phương pháp tóm tắt rút trích và tóm tắt tóm lược. Với các văn bản gốc, mô hình tóm tắt rút trích tạo ra các bản tóm tắt, sau đó được đưa vào mô hình tóm tắt tóm lược để tạo ra các bản tóm tắt. Độ chính xác của mô hình được đánh giá bằng phương pháp ROUGE trên một tập dữ liệu gồm hơn 55.000 bài báo được thu thập từ trang VNExpress, các kết quả ROUGE-1 thu được lần lượt: Recall là 62,99%, Precision là 34,49% và F-score là 43,61%; ROUGE-2 thu được lần lượt: Recall là 26,03%, Precision là 13,98% và F-score là 17,81%; ROUGE-L thu được lần lượt: Recall là 53,16%, Precision là 28,97% và F-score là 36,7%. Chúng tôi sẽ cải thiện chất lượng của tập dữ liệu đã thu thập được và điều chỉnh các thông số để nâng cao kết quả.
Description: 69 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/43620
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
2.79 MBAdobe PDF
Your IP: 18.118.31.156


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.