Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/124153| Nhan đề: | PHÁT TRIỂN HỆ THỐNG THÔNG MINH PHÂN LOẠI VĂN BẢN |
| Nhan đề khác: | DEVELOPING AN INTELLIGENT TEXT CLASSFICATION SYSTEM |
| Tác giả: | Nguyễn, Thanh Hải Trần, Anh Khoa |
| Từ khoá: | HỆ THỐNG THÔNG TIN |
| Năm xuất bản: | 2025 |
| Nhà xuất bản: | Trường Đại Học Cần Thơ |
| Tóm tắt: | Sự bùng nổ mạnh mẽ của mạng Internet đã kéo theo sự gia tăng khổng lồ về số lượng thông tin được trao đổi trên các trang mạng xã hội, các bài báo và văn bản, nơi người dùng thường xuyên chia sẻ cảm xúc, ý kiến và quan điểm của mình; do đó, việc phân tích, trích xuất thông tin và đưa ra chủ đề cho lượng dữ liệu này là vô cùng quan trọng, có ý nghĩa lớn trong nhiều ngành như giáo dục, kinh tế, chính trị và xã hội. Một giải pháp hiệu quả nhằm nắm bắt và quản lý lượng lớn thông tin này là phát triển ứng dụng có khả năng phân loại văn bản tiếng Việt tự động, đây là một vấn đề trọng tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên thuộc nhóm học có giám sát và trí tuệ nhân tạo.. Nhiệm vụ chính của bài toán này là gán chủ đề thích hợp cho văn bản đầu vào từ một tập hợp các chủ đề được xác định trước, đòi hỏi phải xử lý hai giai đoạn phức tạp là thu thập dữ liệu từ các nền tảng mạng xã hội và phân tích để đưa ra chủ đề thích hợp. Phương pháp được đề xuất trong đề tài này tập trung vào việc biểu diễn văn bản bằng TF-IDF để chuyển đổi văn bản thành các vector đặc trưng số học, từ đó áp dụng mô hình phân loại Naïve Bayes để thực hiện việc phân loại. Quy trình xử lý dữ liệu bao gồm các bước tiền xử lý văn bản chi tiết như loại bỏ các ký tự không cần thiết, chuyển đổi chữ viết thường, loại bỏ từ dừng và chuẩn hóa bảng mã Unicode, cùng với việc mã hóa các nhãn chủ đề để chuẩn bị cho mô hình học. Cuối cùng, mô hình được tiến hành đánh giá toàn diện thông qua các chỉ số quan trọng như độ chính xác (Accuracy), độ nhạy (Recall) và F1-Score nhằm đảm bảo tính toàn diện và độ tin cậy của kết quả.. Đề tài đã đóng góp vào việc xây dựng một quy trình phân loại văn bản đơn giản, hiệu quả và dễ dàng triển khai trong các hệ thống thông tin thực tế. Quy trình này không chỉ mang lại độ chính xác cao và tính ổn định trên nhiều tập dữ liệu khác nhau, mà còn giúp tối ưu hóa thao tác quản lý, truy xuất và xử lý lượng lớn thông tin trong các ứng dụng hiện nay. Bên cạnh đó, mô hình còn hỗ trợ tốt cho các bài toán như quản lý tài liệu số, phân loại và lọc email tự động, phân nhóm nội dung theo chủ đề, cũng như phân tích xu hướng thông tin trên các nền tảng mạng xã hội. Nhờ khả năng mở rộng linh hoạt và tính ứng dụng cao, kết quả của đề tài có thể được sử dụng làm nền tảng cho việc xây dựng các hệ thống thông minh hơn trong tương lai, phục vụ cho nhu cầu phân tích dữ liệu lớn và hỗ trợ ra quyết định trong nhiều lĩnh vực khác nhau. Từ khóa: Phân loại văn bản, tiếng Việt, học có giám sát, TF-IDF, Naïve Bayes |
| Mô tả: | 80 Tr |
| Định danh: | https://dspace.ctu.edu.vn/jspui/handle/123456789/124153 |
| Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
| Tập tin | Mô tả | Kích thước | Định dạng | |
|---|---|---|---|---|
| _file_ Giới hạn truy cập | 2.07 MB | Adobe PDF | ||
| Your IP: 216.73.216.55 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.