Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/84942
Title: | HỆ THỐNG PHÁT HIỆN VĂN BẢN TIẾNG VIỆT TƯƠNG TỰ DỰA TRÊN PHÂN LOẠI LĨNH VỰC TÀI LIỆU TỰ ĐỘNG VÀ CÁC PHƯƠNG PHÁP ĐỘ ĐO TƯƠNG ĐỒNG |
Other Titles: | A SYSTEM FOR SEARCHING SIMILAR VIETNAMESE DOCUMENTS SEARCH USING TOPIC CLASSIFICATION AND SIMILARITY COMPUTATION APPROACHES |
Authors: | Nguyễn, Thanh Hải Nguyễn, Hoàng Huy |
Keywords: | CÔNG NGHỆ THÔNG TIN |
Issue Date: | 2022 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Hiện nay, vấn đề đạo văn trong khoa học ngày càng xảy ra phổ biến do sự phát triển của Internet, lượng thông tin tăng lên mỗi ngày. Vì thế mọi người có quá nhiều nguồn thông tin để tham khảo và có khi vô tình hoặc cố ý sao chép nội dung đó về làm của mình. Với các văn bản tiếng Việt thì rất khó để phát hiện ra các câu tương đồng vì từ ngữ tiếng Việt rất phong phú và đa dạng, chỉ cần thay đổi các từ trong câu thành các từ khác đồng nghĩa hoặc trái nghĩa là có thể thành 1 câu khác hoàn toàn. Hiểu được nhu cầu cấp thiết này, đề tài đã ứng dụng các phép đo tương đồng kết hợp với việc so sánh ngữ nghĩa trong câu tiếng Việt để có thể cho ra độ chính xác tương đồng cao nhất. Đồng thời áp dụng các phương pháp phân loại chủ đề tự động để thuận tiện cho việc xác định chủ đề. Phương pháp tính tương đồng của bài luận này được tính trên độ đo Cosine kết hợp với TF-IDF và xét ngữ nghĩa từng cặp câu với nhau để đưa ra được độ tương đồng chính xác của bài. Ngoài ra, đối với phương pháp phân loại sẽ đánh giá dựa trên 3 giải thuật khác nhau và chọn ra giải thuật có độ chính xác cao nhất để tự động phân loại chủ đề giúp người dùng không cần phải đọc qua bài. |
Description: | 95 Tr |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/84942 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 2.8 MB | Adobe PDF | ||
Your IP: 18.220.7.116 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.