PHÁT TRIỂN HỆ THỐNG THÔNG MINH PHÂN LOẠI VĂN BẢN

Trần, Anh Khoa

Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/124153

Nhan đề:	PHÁT TRIỂN HỆ THỐNG THÔNG MINH PHÂN LOẠI VĂN BẢN
Nhan đề khác:	DEVELOPING AN INTELLIGENT TEXT CLASSFICATION SYSTEM
Tác giả:	Nguyễn, Thanh Hải Trần, Anh Khoa
Từ khoá:	HỆ THỐNG THÔNG TIN
Năm xuất bản:	2025
Nhà xuất bản:	Trường Đại Học Cần Thơ
Tóm tắt:	Sự bùng nổ mạnh mẽ của mạng Internet đã kéo theo sự gia tăng khổng lồ về số lượng thông tin được trao đổi trên các trang mạng xã hội, các bài báo và văn bản, nơi người dùng thường xuyên chia sẻ cảm xúc, ý kiến và quan điểm của mình; do đó, việc phân tích, trích xuất thông tin và đưa ra chủ đề cho lượng dữ liệu này là vô cùng quan trọng, có ý nghĩa lớn trong nhiều ngành như giáo dục, kinh tế, chính trị và xã hội. Một giải pháp hiệu quả nhằm nắm bắt và quản lý lượng lớn thông tin này là phát triển ứng dụng có khả năng phân loại văn bản tiếng Việt tự động, đây là một vấn đề trọng tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên thuộc nhóm học có giám sát và trí tuệ nhân tạo.. Nhiệm vụ chính của bài toán này là gán chủ đề thích hợp cho văn bản đầu vào từ một tập hợp các chủ đề được xác định trước, đòi hỏi phải xử lý hai giai đoạn phức tạp là thu thập dữ liệu từ các nền tảng mạng xã hội và phân tích để đưa ra chủ đề thích hợp. Phương pháp được đề xuất trong đề tài này tập trung vào việc biểu diễn văn bản bằng TF-IDF để chuyển đổi văn bản thành các vector đặc trưng số học, từ đó áp dụng mô hình phân loại Naïve Bayes để thực hiện việc phân loại. Quy trình xử lý dữ liệu bao gồm các bước tiền xử lý văn bản chi tiết như loại bỏ các ký tự không cần thiết, chuyển đổi chữ viết thường, loại bỏ từ dừng và chuẩn hóa bảng mã Unicode, cùng với việc mã hóa các nhãn chủ đề để chuẩn bị cho mô hình học. Cuối cùng, mô hình được tiến hành đánh giá toàn diện thông qua các chỉ số quan trọng như độ chính xác (Accuracy), độ nhạy (Recall) và F1-Score nhằm đảm bảo tính toàn diện và độ tin cậy của kết quả.. Đề tài đã đóng góp vào việc xây dựng một quy trình phân loại văn bản đơn giản, hiệu quả và dễ dàng triển khai trong các hệ thống thông tin thực tế. Quy trình này không chỉ mang lại độ chính xác cao và tính ổn định trên nhiều tập dữ liệu khác nhau, mà còn giúp tối ưu hóa thao tác quản lý, truy xuất và xử lý lượng lớn thông tin trong các ứng dụng hiện nay. Bên cạnh đó, mô hình còn hỗ trợ tốt cho các bài toán như quản lý tài liệu số, phân loại và lọc email tự động, phân nhóm nội dung theo chủ đề, cũng như phân tích xu hướng thông tin trên các nền tảng mạng xã hội. Nhờ khả năng mở rộng linh hoạt và tính ứng dụng cao, kết quả của đề tài có thể được sử dụng làm nền tảng cho việc xây dựng các hệ thống thông minh hơn trong tương lai, phục vụ cho nhu cầu phân tích dữ liệu lớn và hỗ trợ ra quyết định trong nhiều lĩnh vực khác nhau. Từ khóa: Phân loại văn bản, tiếng Việt, học có giám sát, TF-IDF, Naïve Bayes
Mô tả:	80 Tr
Định danh:	https://dspace.ctu.edu.vn/jspui/handle/123456789/124153
Bộ sưu tập:	Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:

Tập tin	Mô tả	Kích thước	Định dạng
_file_ Giới hạn truy cập		2.07 MB	Adobe PDF
Your IP: 216.73.216.231

Hiển thị đầy đủ biểu ghi tài liệu Xem thống kê

Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.

Thư viện số DSPACE

Thư viện số cho phép quản lý các nguồn tài liệu số như: Văn bản, hình ảnh, âm thanh, phim ảnh...