Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/6010
Nhan đề: PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO CHỦ ĐỀ
Tác giả: Lê, Thị Phương Dung
Trịnh, Vỹ Kiệt
Từ khoá: KHOA HỌC MÁY TÍNH
Năm xuất bản: 2018
Nhà xuất bản: Trường Đại học Cần Thơ
Tóm tắt: Phân lớp văn bản là một trong những vấn đề của bài toán phân lớp có rất nhiều ứng dụng trong thực tiễn và được nhiều nhà khoa học quan tâm. Luận văn “Phân lớp văn bản tiếng Việt theo chủ đề” kết hợp phương pháp phân lớp văn bản cổ điển với phương pháp tách từ tiếng Việt. Qui trình thực hiện gồm 2 giai đoạn: bước 1 cần phải tách từ tiếng Việt, bước 2 áp dụng các giải thuật máy học để phân lớp văn bản. Tách từ tiếng Việt là vấn đề tất yếu, không thể thiếu trong việc phân loại văn bản tiếng Việt vì ngữ nghĩa của từ tiếng Việt phụ thuộc vào trật tự và sự kết hợp của các từ với nhau. Luận văn sử dụng phương pháp tách từ tiếng Việt VnTokenizer nhằm mục đích xác định các cụm từ hoặc từ có ý nghĩa trong câu văn. Tiếp theo là giai đoạn phân lớp, phương pháp tiếp cận giải quyết bài toán được đặt ra là sử dụng giải thuật k-NN (K- láng giềng) và SVM (vector hỗ trợ). Dựa vào kết quả thống kê độ chính xác và thời gian, luận văn tiến hành so sánh và đánh giá hiệu quả của các giải thuật đã được sử dụng. Kết quả trong việc phân lớp văn bản với 3105 mẫu dữ liệu văn bản tiếng Việt cho thấy hiệu quả phân lớp của giải thuật SVM cao hơn giải thuật k-NN. Cụ thể độ tin cậy phân lớp cho giải thuật SVM đạt 81,58 % trong khi của giải thuật kNN chỉ đạt 50,47%. Về mặt thời gian giải thuật SVM nhanh vượt trội so với giải thuật k-NN.
Mô tả: 42 tr
Định danh: http://dspace.ctu.edu.vn/jspui/handle/123456789/6010
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
1.68 MBAdobe PDF
Your IP: 3.141.198.75


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.