Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/32423
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorLâm, Nhựt Khang-
dc.contributor.authorTrương, Thanh Lam-
dc.date.accessioned2020-08-25T08:31:30Z-
dc.date.available2020-08-25T08:31:30Z-
dc.date.issued2020-
dc.identifier.otherB1606995-
dc.identifier.urihttps://dspace.ctu.edu.vn/jspui/handle/123456789/32423-
dc.description44 trvi_VN
dc.description.abstractPhân loại văn bản tự động là một vấn đề nổi bật trong lĩnh vực xử lí ngôn ngữ tự nhiên. Các phương pháp tiếp cận khác nhau đã được đề xuất để phân loại tài liệu ở các ngôn ngữ giàu nguồn tài nguyên như tiếng Anh, tiếng Pháp và tiếng Trung Quốc. Trong luận văn này, các mô hình Latent Dirichlet Allocation (LDA) VÀ LDA2VEC được sử dụng để phân loại các tài liệu ở tiếng Việt. Mô hình LDA và LDA2VEC được sử dụng để phân loại cho tập dữ liệu gồm 14.000 tài liệu tiếng Việt được thu thập từ vnexpress.net với độ chính xác lần lượt là 75%% và 44%. Thực nghiệm phân loại trên tập dữ liệu thứ hai chứa hơn 15.000 tài liệu được trích xuất từ kho ngữ liệu VNTC lần lượt là 77%% và 69%.vi_VN
dc.language.isovivi_VN
dc.publisherTrường Đại Học Cần Thơvi_VN
dc.subjectCÔNG NGHỆ THÔNG TINvi_VN
dc.titlePHÂN LOẠI VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG DỰA TRÊN MÔ HÌNH LDA VÀ MÔ HÌNH LDA2VECvi_VN
dc.typeThesisvi_VN
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
1.82 MBAdobe PDF
Your IP: 3.149.233.72


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.