Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/5748
Toàn bộ biểu ghi siêu dữ liệu
Trường DCGiá trị Ngôn ngữ
dc.contributor.advisorLâm, Nhựt Khang-
dc.contributor.authorTrần, Bảo Ngọc-
dc.date.accessioned2018-12-21T03:22:20Z-
dc.date.available2018-12-21T03:22:20Z-
dc.date.issued2018-
dc.identifier.otherB1401069-
dc.identifier.urihttp://dspace.ctu.edu.vn/jspui/handle/123456789/5748-
dc.description48 trvi_VN
dc.description.abstractLuận văn trình bày phương pháp tóm tắt văn bản theo hướng rút trích, áp dụng và cải tiến phương pháp centroid-base trong tóm tắt văn bản tiếng Việt. Luận văn tìm hiểu các xử lý dữ liệu đầu vào với tiếng Việt, xây dựng mô hình word embedding để xác định mối quan hệ về mặt ngữ nghĩa đối với các từ tiếng Việt. Sử dụng trọng số TF-IDF để xác định các từ trọng tâm trong văn bản tóm tắt. Phương pháp thực hiện tóm tắt bằng việc rút trích các câu mang ý chính trong văn bản, được xác định dựa vào mức quan hệ của các từ trong câu với các từ trọng tâm. Phương pháp được đánh giá với ROUGE 1, 2 và ROUGE-L, trên hai tập dữ liệu. Tập dữ liệu dùng để đánh giá thứ nhất gồm 7.950 bài báo được thu thập từ trang vnexpress.net kết quả trung bình(F-core) của đánh giá ROUGE 1, 2 và ROUGE-L lần lượt là 0,503; 0,179 và 0,341. Tập dữ liệu thứ hai là Vietnamese MDS gồm 200 bài báo được xây dựng và tóm tắt thủ công. Kết quả ROUGE lần lượt là 0,717; 0,437 và 0,613.vi_VN
dc.language.isovivi_VN
dc.publisherTrường Đại học Cần Thơvi_VN
dc.subjectCÔNG NGHỆ THÔNG TINvi_VN
dc.titleTÓM TẮT RÚT TRÍCH VĂN BẢN SỬ DỤNG PHƯƠNG PHÁP CENTROID-BASEDvi_VN
dc.typeThesisvi_VN
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
2.05 MBAdobe PDF
Your IP: 3.17.147.231


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.