Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/32423
Nhan đề: | PHÂN LOẠI VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG DỰA TRÊN MÔ HÌNH LDA VÀ MÔ HÌNH LDA2VEC |
Tác giả: | Lâm, Nhựt Khang Trương, Thanh Lam |
Từ khoá: | CÔNG NGHỆ THÔNG TIN |
Năm xuất bản: | 2020 |
Nhà xuất bản: | Trường Đại Học Cần Thơ |
Tóm tắt: | Phân loại văn bản tự động là một vấn đề nổi bật trong lĩnh vực xử lí ngôn ngữ tự nhiên. Các phương pháp tiếp cận khác nhau đã được đề xuất để phân loại tài liệu ở các ngôn ngữ giàu nguồn tài nguyên như tiếng Anh, tiếng Pháp và tiếng Trung Quốc. Trong luận văn này, các mô hình Latent Dirichlet Allocation (LDA) VÀ LDA2VEC được sử dụng để phân loại các tài liệu ở tiếng Việt. Mô hình LDA và LDA2VEC được sử dụng để phân loại cho tập dữ liệu gồm 14.000 tài liệu tiếng Việt được thu thập từ vnexpress.net với độ chính xác lần lượt là 75%% và 44%. Thực nghiệm phân loại trên tập dữ liệu thứ hai chứa hơn 15.000 tài liệu được trích xuất từ kho ngữ liệu VNTC lần lượt là 77%% và 69%. |
Mô tả: | 44 tr |
Định danh: | https://dspace.ctu.edu.vn/jspui/handle/123456789/32423 |
Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
Tập tin | Mô tả | Kích thước | Định dạng | |
---|---|---|---|---|
_file_ Giới hạn truy cập | 1.82 MB | Adobe PDF | ||
Your IP: 54.144.219.156 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.