Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/124153
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorNguyễn, Thanh Hải-
dc.contributor.authorTrần, Anh Khoa-
dc.date.accessioned2026-01-10T03:07:19Z-
dc.date.available2026-01-10T03:07:19Z-
dc.date.issued2025-
dc.identifier.otherB2003789-
dc.identifier.urihttps://dspace.ctu.edu.vn/jspui/handle/123456789/124153-
dc.description80 Trvi_VN
dc.description.abstractSự bùng nổ mạnh mẽ của mạng Internet đã kéo theo sự gia tăng khổng lồ về số lượng thông tin được trao đổi trên các trang mạng xã hội, các bài báo và văn bản, nơi người dùng thường xuyên chia sẻ cảm xúc, ý kiến và quan điểm của mình; do đó, việc phân tích, trích xuất thông tin và đưa ra chủ đề cho lượng dữ liệu này là vô cùng quan trọng, có ý nghĩa lớn trong nhiều ngành như giáo dục, kinh tế, chính trị và xã hội. Một giải pháp hiệu quả nhằm nắm bắt và quản lý lượng lớn thông tin này là phát triển ứng dụng có khả năng phân loại văn bản tiếng Việt tự động, đây là một vấn đề trọng tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên thuộc nhóm học có giám sát và trí tuệ nhân tạo.. Nhiệm vụ chính của bài toán này là gán chủ đề thích hợp cho văn bản đầu vào từ một tập hợp các chủ đề được xác định trước, đòi hỏi phải xử lý hai giai đoạn phức tạp là thu thập dữ liệu từ các nền tảng mạng xã hội và phân tích để đưa ra chủ đề thích hợp. Phương pháp được đề xuất trong đề tài này tập trung vào việc biểu diễn văn bản bằng TF-IDF để chuyển đổi văn bản thành các vector đặc trưng số học, từ đó áp dụng mô hình phân loại Naïve Bayes để thực hiện việc phân loại. Quy trình xử lý dữ liệu bao gồm các bước tiền xử lý văn bản chi tiết như loại bỏ các ký tự không cần thiết, chuyển đổi chữ viết thường, loại bỏ từ dừng và chuẩn hóa bảng mã Unicode, cùng với việc mã hóa các nhãn chủ đề để chuẩn bị cho mô hình học. Cuối cùng, mô hình được tiến hành đánh giá toàn diện thông qua các chỉ số quan trọng như độ chính xác (Accuracy), độ nhạy (Recall) và F1-Score nhằm đảm bảo tính toàn diện và độ tin cậy của kết quả.. Đề tài đã đóng góp vào việc xây dựng một quy trình phân loại văn bản đơn giản, hiệu quả và dễ dàng triển khai trong các hệ thống thông tin thực tế. Quy trình này không chỉ mang lại độ chính xác cao và tính ổn định trên nhiều tập dữ liệu khác nhau, mà còn giúp tối ưu hóa thao tác quản lý, truy xuất và xử lý lượng lớn thông tin trong các ứng dụng hiện nay. Bên cạnh đó, mô hình còn hỗ trợ tốt cho các bài toán như quản lý tài liệu số, phân loại và lọc email tự động, phân nhóm nội dung theo chủ đề, cũng như phân tích xu hướng thông tin trên các nền tảng mạng xã hội. Nhờ khả năng mở rộng linh hoạt và tính ứng dụng cao, kết quả của đề tài có thể được sử dụng làm nền tảng cho việc xây dựng các hệ thống thông minh hơn trong tương lai, phục vụ cho nhu cầu phân tích dữ liệu lớn và hỗ trợ ra quyết định trong nhiều lĩnh vực khác nhau. Từ khóa: Phân loại văn bản, tiếng Việt, học có giám sát, TF-IDF, Naïve Bayesvi_VN
dc.language.isovivi_VN
dc.publisherTrường Đại Học Cần Thơvi_VN
dc.subjectHỆ THỐNG THÔNG TINvi_VN
dc.titlePHÁT TRIỂN HỆ THỐNG THÔNG MINH PHÂN LOẠI VĂN BẢNvi_VN
dc.title.alternativeDEVELOPING AN INTELLIGENT TEXT CLASSFICATION SYSTEMvi_VN
dc.typeThesisvi_VN
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
2.07 MBAdobe PDF
Your IP: 216.73.216.55


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.