PHÂN LOẠI VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG DỰA TRÊN MÔ HÌNH LDA VÀ MÔ HÌNH LDA2VEC

Trương, Thanh Lam

Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/32423

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Lâm, Nhựt Khang	-
dc.contributor.author	Trương, Thanh Lam	-
dc.date.accessioned	2020-08-25T08:31:30Z	-
dc.date.available	2020-08-25T08:31:30Z	-
dc.date.issued	2020	-
dc.identifier.other	B1606995	-
dc.identifier.uri	https://dspace.ctu.edu.vn/jspui/handle/123456789/32423	-
dc.description	44 tr	vi_VN
dc.description.abstract	Phân loại văn bản tự động là một vấn đề nổi bật trong lĩnh vực xử lí ngôn ngữ tự nhiên. Các phương pháp tiếp cận khác nhau đã được đề xuất để phân loại tài liệu ở các ngôn ngữ giàu nguồn tài nguyên như tiếng Anh, tiếng Pháp và tiếng Trung Quốc. Trong luận văn này, các mô hình Latent Dirichlet Allocation (LDA) VÀ LDA2VEC được sử dụng để phân loại các tài liệu ở tiếng Việt. Mô hình LDA và LDA2VEC được sử dụng để phân loại cho tập dữ liệu gồm 14.000 tài liệu tiếng Việt được thu thập từ vnexpress.net với độ chính xác lần lượt là 75%% và 44%. Thực nghiệm phân loại trên tập dữ liệu thứ hai chứa hơn 15.000 tài liệu được trích xuất từ kho ngữ liệu VNTC lần lượt là 77%% và 69%.	vi_VN
dc.language.iso	vi	vi_VN
dc.publisher	Trường Đại Học Cần Thơ	vi_VN
dc.subject	CÔNG NGHỆ THÔNG TIN	vi_VN
dc.title	PHÂN LOẠI VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG DỰA TRÊN MÔ HÌNH LDA VÀ MÔ HÌNH LDA2VEC	vi_VN
dc.type	Thesis	vi_VN
Appears in Collections:	Trường Công nghệ Thông tin & Truyền thông

Files in This Item:

File	Description	Size	Format
_file_ Restricted Access		1.82 MB	Adobe PDF
Your IP: 3.149.233.72

Show simple item record

LRC Digital repo

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets