Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/84828
Nhan đề: TÍNH TOÁN ĐỘ TƢƠNG TỰ VĂN BẢN DÙNG COSINE KẾT HỢP INVERTED INDEX
Tác giả: Nguyễn, Thanh Hải
Dương, Hoa Kỳ
Từ khoá: CÔNG NGHỆ THÔNG TIN
Năm xuất bản: 2022
Nhà xuất bản: Trường Đại Học Cần Thơ
Tóm tắt: Hiện nay, vấn nạn sao chép văn bản là một vấn đề hết sức đƣợc quan tâm ở các lĩnh vực nghiên cứu và sáng tạo. Đặc biệt, nó tồn tại âm thầm ở các trƣờng học phổ thông hay ở các trƣờng Đại học tại Việt Nam. Vì thế, việc kiểm tra độ tƣơng đồng giữa các tài liệu văn bản với nhau để xác định học sinh, sinh viên có thực hiện hành vi sao chép hay không là cần thiết đối với các giáo/giảng viên. Tuy nhiên, một vấn đề phát sinh đó là số lƣợng học sinh, sinh viên mỗi trƣờng là không nhỏ nên việc kiểm tra này đòi hỏi mất rất nhiều thời gian và công sức. Cho nên em đề xuất đề tài “Tính toán độ tƣơng tự văn bản dùng Cosine kết hợp Inverted Index”. Đề tài này sẽ tiến hành nghiên cứu và tính toán độ tƣơng tự giữa các văn bản với nhau bằng hai cách: truyền thống và Inverted Index, từ đó so sánh độ chính xác và tốc độ giữa hai phƣơng pháp với nhau. Việc tính toán độ tƣơng đồng giữa các tài liệu văn bản theo cách truyền thống là dựa trên độ đo Cosine kết hợp TF*IDF (Term Frequency * Inverse Document Frequency). Đối với phƣơng pháp tăng tốc chính là dùng cấu trúc Inverted Index để kiểm tra văn bản có chứa từ trong cấu trúc đó không, từ đó giảm số lƣợng tài liệu so sánh cũng nhƣ thời gian thực thi. Dữ liệu dùng trong luận văn là các bài báo tạp chí khoa học đƣợc chia làm 3 kịch bản để nghiên cứu. Kết quả cho thấy phƣơng pháp Inverted Index có thời gian thực thi nhanh hơn phƣơng pháp truyền thống đúng với mong muốn ban đầu đƣợc đặt ra. Kết quả dò tìm với số lƣợng 50 tài liệu có độ đo Precision là 0,92500 và Recall là 0,74000, đối với trƣờng hợp tách từ, Precision là 0,87500 và Recall là 0,70000 với trƣờng hợp chuyển toàn bộ văn bản thành véc-tơ, đối với trƣờng hợp tách câu cho kết quả chính xác nhất khi có thể nhận ra toàn bộ những tài liệu có sao chép từ tài liệu khác.
Mô tả: 128 Tr
Định danh: https://dspace.ctu.edu.vn/jspui/handle/123456789/84828
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
3.2 MBAdobe PDF
Your IP: 3.142.12.135


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.