Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/6010
Nhan đề: | PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ |
Tác giả: | Lê, Thị Phương Dung Trịnh, Vỹ Kiệt |
Từ khoá: | KHOA HỌC MÁY TÍNH |
Năm xuất bản: | 2018 |
Nhà xuất bản: | Trường Đại học Cần Thơ |
Tóm tắt: | Phân lớp văn bản là một trong những vấn đề của bài toán phân lớp có rất nhiều ứng dụng trong thực tiễn và được nhiều nhà khoa học quan tâm. Luận văn “Phân lớp văn bản tiếng Việt theo chủ đề” kết hợp phương pháp phân lớp văn bản cổ điển với phương pháp tách từ tiếng Việt. Qui trình thực hiện gồm 2 giai đoạn: bước 1 cần phải tách từ tiếng Việt, bước 2 áp dụng các giải thuật máy học để phân lớp văn bản. Tách từ tiếng Việt là vấn đề tất yếu, không thể thiếu trong việc phân loại văn bản tiếng Việt vì ngữ nghĩa của từ tiếng Việt phụ thuộc vào trật tự và sự kết hợp của các từ với nhau. Luận văn sử dụng phương pháp tách từ tiếng Việt VnTokenizer nhằm mục đích xác định các cụm từ hoặc từ có ý nghĩa trong câu văn. Tiếp theo là giai đoạn phân lớp, phương pháp tiếp cận giải quyết bài toán được đặt ra là sử dụng giải thuật k-NN (K- láng giềng) và SVM (vector hỗ trợ). Dựa vào kết quả thống kê độ chính xác và thời gian, luận văn tiến hành so sánh và đánh giá hiệu quả của các giải thuật đã được sử dụng. Kết quả trong việc phân lớp văn bản với 3105 mẫu dữ liệu văn bản tiếng Việt cho thấy hiệu quả phân lớp của giải thuật SVM cao hơn giải thuật k-NN. Cụ thể độ tin cậy phân lớp cho giải thuật SVM đạt 81,58 % trong khi của giải thuật kNN chỉ đạt 50,47%. Về mặt thời gian giải thuật SVM nhanh vượt trội so với giải thuật k-NN. |
Mô tả: | 42 tr |
Định danh: | http://dspace.ctu.edu.vn/jspui/handle/123456789/6010 |
Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
Tập tin | Mô tả | Kích thước | Định dạng | |
---|---|---|---|---|
_file_ Giới hạn truy cập | 1.68 MB | Adobe PDF | ||
Your IP: 3.141.198.75 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.