Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/74004
Title: | HỆ THỐNG PHÁT HIỆN ĐỘ TƯƠNG ĐỒNG TRONG VĂN BẢN TIẾNG VIỆT |
Authors: | Trần, Thanh Điện Trần, Minh Tiến |
Keywords: | TRUYỀN THÔNG VÀ MẠNG MÁY TÍNH |
Issue Date: | 2021 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Hiện nay, việc áp dụng các kỹ thuật, ứng dụng thuộc về Trí tuệ nhân tạo (AI) ngày càng phổ biến, đặc biệt là lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP). Được nhiều nhà nghiên cứu quan tâm, NLP đã và đang phát triển mạnh mẽ với các bài toán xử lý điển hình như: tóm tắt văn bản tự động, phân loại văn bản, nhận dạng giọng nói,… trong đó bài toán tính độ tương đồng trong văn bản là bài toán mà đề quan tâm và hướng đến. Sự phát triển nhanh chóng của Internet, sự đa dạng dữ liệu trên các nền tảng tìm kiềm đang bùng nổ. Việc có sự sao chép hay tương đồng trong các văn bản, tài liệu là điều khó tránh khỏi, cách sử dụng thông tin sao chép một cách bừa bãi thiếu sự minh bạch và không có xác thực rõ ràng dẫn đến chất lượng nội dung của văn bản, tài liệu trở nên kém đi. Đối với tiếng Việt, nhiều nghiên cứu về sự tương đồng trong văn bản đã được ra đời và đạt được những kết quả nhất định. Tuy nhiên, do tiếng Việt là một một ngữ phong phú, đa dạng về từ và có cấu trúc khác biệt so với tiếng Anh (các ứng dụng NLP đa số được áp dụng cho tiếng Anh) nên các nghiên cứu hiện nay vẫn còn nhiều hạn chế. Hiểu rõ được sự cần thiết của việc tiếp tục nghiên cứu, phát triển bài toán, đề tài đã có những kết quả khá khả quan. Dựa vào cơ sở các nghiên cứu thực tế trong xử lý tiếng Việt. Đề tài chú trọng nghiên cứu các phương pháp tính độ tương đồng văn bản như độ đo cosine, độ đo thứ tự từ,…trong đó việc kết hợp hai phương pháp là yếu tố quan trọng để xét xem hai văn bản có độ tương đồng với nhau hay không, đồng thời nghiên cứu cách thức phân loại văn bản, tiền xử lý ngôn ngữ như : định dạng, loại bỏ từ dừng, tách từ, làm sạch,..trong văn bản tiếng Việt, cụ thể là các bài báo khoa học. Bên cạnh đó, để xác minh được rằng kết quả hệ thống đưa có chính xác và đang tin cậy hay không, đề tài còn nghiên cứu sử dụng các phép tính đánh giá kết quả tìm kiếm như Precision, Recall, F1-score |
Description: | 71 Tr |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/74004 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 2.13 MB | Adobe PDF | ||
Your IP: 3.17.76.163 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.