Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/5526
Title: ĐỘ TƯƠNG TỰ NGỮ NGHĨA TRONG VĂN BẢN TIẾNG VIỆT ỨNG DỤNG TÌM ĐỘ TƯƠNG ĐỒNG CỦA BÀI BÁO KHOA HỌC GỬI ĐĂNG VỚI NHỮNG BÀI BÁO ĐÃ XUẤT BẢN
Authors: Trần, Thanh Điện
Huỳnh, Ngọc Hân
Keywords: CÔNG NGHỆ THÔNG TIN
Issue Date: 2018
Publisher: Trường Đại học Cần Thơ
Abstract: Đề tài phân tích các chức năng cơ bản, cần thiết cho quá trình xác định độ tương đồng, bên cạnh đó khảo sát các phương pháp được áp dụng cho xây dựng hệ thống so sánh văn bản. Trên cơ sở các nghiên cứu với điều kiện thực tế của các công cụ xử lý tiếng Việt, đề tài tiến hành thực nghiệm với dữ liệu thực tế là các bài báo khoa học. Hai giai đoạn cơ bản nhất mà bài toán đặt ra là tiền xử lý văn bản và xác định độ tương đồng. Một bài báo đầu vào cần trải qua các bước tiền xử lý để có thể phù hợp với các phương pháp đo độ tương đồng. Chuyển đổi định dạng dữ liệu, tách từ vựng, chuẩn hóa từ, loại bỏ từ dừng, biểu diễn văn bản dưới dạng vector là các bước không thể thiếu của giai đoạn tiền xử lý. Sau khi tiền xử lý các bài báo đã xuất bản, kho dữ liệu được lưu trữ để khi có bài báo mới cần so sánh sẽ tiến hành thực thi. Có rất nhiều phương pháp đo độ tương đồng và hệ thống lựa chọn hai phương pháp đã mang lại nhiều kết quả chính xác rất cao: độ tương đồng Cosine và độ tương tự thứ tự từ trong văn bản. Việc kết hợp hai phương pháp giúp cho giá trị tương đồng có kết quả đáng tin cậy hơn. Bên cạnh phương thức so sánh bài báo khoa học gửi đăng với các bài báo đã xuất bản, đề tài còn cung cấp cho người dùng phương thức thứ hai là so sánh hai bài báo khoa học với nhau. Điều này nhằm đáp ứng nhu cầu cần thiết của người dùng khi đã xác định được hai văn bản tương đồng bằng mắt thường và muốn kiểm chứng lại một cách chính xác hơn.
Description: 48 tr
URI: http://dspace.ctu.edu.vn/jspui/handle/123456789/5526
Appears in Collections:Khoa Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
1.99 MBAdobe PDF
Your IP: 23.20.20.52


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.