Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/32423
Title: | PHÂN LOẠI VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG DỰA TRÊN MÔ HÌNH LDA VÀ MÔ HÌNH LDA2VEC |
Authors: | Lâm, Nhựt Khang Trương, Thanh Lam |
Keywords: | CÔNG NGHỆ THÔNG TIN |
Issue Date: | 2020 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Phân loại văn bản tự động là một vấn đề nổi bật trong lĩnh vực xử lí ngôn ngữ tự nhiên. Các phương pháp tiếp cận khác nhau đã được đề xuất để phân loại tài liệu ở các ngôn ngữ giàu nguồn tài nguyên như tiếng Anh, tiếng Pháp và tiếng Trung Quốc. Trong luận văn này, các mô hình Latent Dirichlet Allocation (LDA) VÀ LDA2VEC được sử dụng để phân loại các tài liệu ở tiếng Việt. Mô hình LDA và LDA2VEC được sử dụng để phân loại cho tập dữ liệu gồm 14.000 tài liệu tiếng Việt được thu thập từ vnexpress.net với độ chính xác lần lượt là 75%% và 44%. Thực nghiệm phân loại trên tập dữ liệu thứ hai chứa hơn 15.000 tài liệu được trích xuất từ kho ngữ liệu VNTC lần lượt là 77%% và 69%. |
Description: | 44 tr |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/32423 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 1.82 MB | Adobe PDF | ||
Your IP: 18.97.14.87 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.