Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/72971
Title: | XÂY DỰNG MÔ HÌNH PHÂN LOẠI VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG DỰA TRÊN MÔ HÌNH CHỦ ĐỀ VÀ MÔ HÌNH PHÂN LOẠI VĂN BẢN |
Authors: | Lâm, Nhựt Khang Trần, Lê Vũ Luân |
Keywords: | CÔNG NGHỆ THÔNG TIN |
Issue Date: | 2021 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Mô hình phân loại văn bản là mô hình học tập có giám sát, trong đó tài liệu được phân loại dựa trên các mô hình được huấn luyện trên tập dữ liệu đã được gán nhãn. Việc gán nhãn dữ liệu tốn rất nhiều thời gian và chi phí. Bên cạnh đó, kích thước và chất lượng của tập dữ liệu huấn luyện có thể ảnh hưởng đến kết quả của các mô hình phân loại văn bản. Trong luận văn này, các mô hình chủ đề được sử dụng để tự động gán nhãn cho tài liệu, sau đó các tài liệu được gán nhãn này sẽ được đưa vào mô hình huấn luyện phân loại tài liệu. Cụ thể, các mô hình chủ đề LDA, LDA2Vec, Top2Vec và BERTopic được sử dụng để khám phá các chủ đề ẩn trong tài liệu và thực hiện gán nhãn cho chúng; sau đó, các tài liệu đã được gán nhãn này sẽ được sử dụng để huấn luyện cho nhiệm vụ phân lớp bởi 16 bộ phân lớp văn bản. Ngoài ra, nhúng từ là một bước quan trọng trong bài toán phân loại. Chúng tôi nghiên cứu phương pháp biểu diễn từ phù hợp nhất cho bộ phân loại văn bản bằng cách thực nghiệm 7 phương pháp nhúng từ. Chúng tôi thực nghiệm mô hình đề xuất trên bộ dữ liệu VNTC ở tiếng Việt. Kết quả cho thấy sự kết hợp của mô hình chủ đề LDA, bộ phân loại hồi quy logistic với phương pháp nhúng từ TF-IDF hoạt động tốt hơn các mô hình còn lại |
Description: | 76 Tr |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/72971 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 3.21 MB | Adobe PDF | ||
Your IP: 3.149.253.136 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.