XÂY DỰNG MÔ HÌNH PHÂN LOẠI VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG DỰA TRÊN MÔ HÌNH CHỦ ĐỀ VÀ MÔ HÌNH PHÂN LOẠI VĂN BẢN

Trần, Lê Vũ Luân

Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/72971

Title:	XÂY DỰNG MÔ HÌNH PHÂN LOẠI VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG DỰA TRÊN MÔ HÌNH CHỦ ĐỀ VÀ MÔ HÌNH PHÂN LOẠI VĂN BẢN
Authors:	Lâm, Nhựt Khang Trần, Lê Vũ Luân
Keywords:	CÔNG NGHỆ THÔNG TIN
Issue Date:	2021
Publisher:	Trường Đại Học Cần Thơ
Abstract:	Mô hình phân loại văn bản là mô hình học tập có giám sát, trong đó tài liệu được phân loại dựa trên các mô hình được huấn luyện trên tập dữ liệu đã được gán nhãn. Việc gán nhãn dữ liệu tốn rất nhiều thời gian và chi phí. Bên cạnh đó, kích thước và chất lượng của tập dữ liệu huấn luyện có thể ảnh hưởng đến kết quả của các mô hình phân loại văn bản. Trong luận văn này, các mô hình chủ đề được sử dụng để tự động gán nhãn cho tài liệu, sau đó các tài liệu được gán nhãn này sẽ được đưa vào mô hình huấn luyện phân loại tài liệu. Cụ thể, các mô hình chủ đề LDA, LDA2Vec, Top2Vec và BERTopic được sử dụng để khám phá các chủ đề ẩn trong tài liệu và thực hiện gán nhãn cho chúng; sau đó, các tài liệu đã được gán nhãn này sẽ được sử dụng để huấn luyện cho nhiệm vụ phân lớp bởi 16 bộ phân lớp văn bản. Ngoài ra, nhúng từ là một bước quan trọng trong bài toán phân loại. Chúng tôi nghiên cứu phương pháp biểu diễn từ phù hợp nhất cho bộ phân loại văn bản bằng cách thực nghiệm 7 phương pháp nhúng từ. Chúng tôi thực nghiệm mô hình đề xuất trên bộ dữ liệu VNTC ở tiếng Việt. Kết quả cho thấy sự kết hợp của mô hình chủ đề LDA, bộ phân loại hồi quy logistic với phương pháp nhúng từ TF-IDF hoạt động tốt hơn các mô hình còn lại
Description:	76 Tr
URI:	https://dspace.ctu.edu.vn/jspui/handle/123456789/72971
Appears in Collections:	Trường Công nghệ Thông tin & Truyền thông

Files in This Item:

File	Description	Size	Format
_file_ Restricted Access		3.21 MB	Adobe PDF
Your IP: 3.149.253.136

Show full item record

LRC Digital repo

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets