Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/6010
Title: | PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ |
Authors: | Lê, Thị Phương Dung Trịnh, Vỹ Kiệt |
Keywords: | KHOA HỌC MÁY TÍNH |
Issue Date: | 2018 |
Publisher: | Trường Đại học Cần Thơ |
Abstract: | Phân lớp văn bản là một trong những vấn đề của bài toán phân lớp có rất nhiều ứng dụng trong thực tiễn và được nhiều nhà khoa học quan tâm. Luận văn “Phân lớp văn bản tiếng Việt theo chủ đề” kết hợp phương pháp phân lớp văn bản cổ điển với phương pháp tách từ tiếng Việt. Qui trình thực hiện gồm 2 giai đoạn: bước 1 cần phải tách từ tiếng Việt, bước 2 áp dụng các giải thuật máy học để phân lớp văn bản. Tách từ tiếng Việt là vấn đề tất yếu, không thể thiếu trong việc phân loại văn bản tiếng Việt vì ngữ nghĩa của từ tiếng Việt phụ thuộc vào trật tự và sự kết hợp của các từ với nhau. Luận văn sử dụng phương pháp tách từ tiếng Việt VnTokenizer nhằm mục đích xác định các cụm từ hoặc từ có ý nghĩa trong câu văn. Tiếp theo là giai đoạn phân lớp, phương pháp tiếp cận giải quyết bài toán được đặt ra là sử dụng giải thuật k-NN (K- láng giềng) và SVM (vector hỗ trợ). Dựa vào kết quả thống kê độ chính xác và thời gian, luận văn tiến hành so sánh và đánh giá hiệu quả của các giải thuật đã được sử dụng. Kết quả trong việc phân lớp văn bản với 3105 mẫu dữ liệu văn bản tiếng Việt cho thấy hiệu quả phân lớp của giải thuật SVM cao hơn giải thuật k-NN. Cụ thể độ tin cậy phân lớp cho giải thuật SVM đạt 81,58 % trong khi của giải thuật kNN chỉ đạt 50,47%. Về mặt thời gian giải thuật SVM nhanh vượt trội so với giải thuật k-NN. |
Description: | 42 tr |
URI: | http://dspace.ctu.edu.vn/jspui/handle/123456789/6010 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 1.68 MB | Adobe PDF | ||
Your IP: 3.145.152.168 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.