Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/109453
Title: | XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TỰ ĐỘNG |
Other Titles: | AUTOMATED TEXT CLASSIFICATION APPLICATION |
Authors: | Nguyễn, Minh Khiêm Nguyễn, Thanh Liêm |
Keywords: | HỆ THỐNG THÔNG TIN |
Issue Date: | 2024 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Sự phát triển ngày càng lớn và bùng nổ của mạng internet đã kéo theo sự xuất hiện của các trang mạng xã hội, các bài báo, văn bản làm cho số lượng người sử dụng trao đổi thông tin trở nên rất lớn và không ngừng phát triển. Phần lớn những người sử dụng mạng internet thường chia sẻ cảm xúc, cuộc sống, kiến thức, ý kiến, quan điểm, … của chính mình. Việc phân tích và đưa ra chủ đề cho những trao đổi đó nhằm nắm bắt, dễ dàng quản lý, trích xuất thông tin và vô cùng quan trọng, có ý nghĩa lớn cho ngành giáo dục, kinh tế, chính trị, pháp luật, xã hội, … Một giải pháp hiệu quả cho công việc trên là phát triển một ứng dụng có khả năng phân loại văn bản tiếng Việt tự động. Phân loại văn bản là một trong những vấn đề quan trọng của việc xử lý ngôn ngữ tự nhiên thuộc nhóm học có giám sát và trí tuệ nhân tạo. Nhiệm vụ chính của bài toán là đưa ra chủ đề cho văn bản vào một nhóm chủ đề cho trước. Để có thể giải quyết bài toán này cần xử lý hai vấn đề phức tạp và quan trọng ở hai giai đoạn: thu thập dữ liệu từ các trang mạng xã hội và phân tích đưa ra chủ đề thích hợp cho dữ liệu. Phương pháp được đề xuất sử dụng cho đề tài là biểu diễn văn bản bằng TF-IDF để chuyển đổi văn bản thành các vector đặc trưng số học, từ đó áp dụng mô hình phân loại Naïve Bayes cho việc phân loại văn bản. Các bước xử lý dữ liệu bao gồm: tiền xử lý văn bản như loại bỏ các ký tự không cần thiết, chuyển đổi chữ viết thường, loại bỏ từ dừng, chuẩn hóa bảng mã Unicode, … và mã hóa các nhãn chủ đề. Tiến hành đánh giá mô hình thông qua các chỉ số như độ chính xác, độ nhạy và F1-Score nhằm đảm bảo tính toàn diện của kết quả. Đề tài đã có đóng góp vào việc xây dựng một quy trình phân loại văn bản đơn giản, hiệu quả, dễ dàng sử dụng và triển khai trên các hệ thống thông tin thực tế. Kết quả thực tế cho được độ chính xác cao và ổn định khi áp dụng trên các tập dữ liệu khác nhau. Bên cạnh đó, ứng dụng đã giúp quản lý và xử lý lượng lớn thông tin trong nhiều lĩnh vực như quản lý tài liệu, phân loại email, phân tích nội dung trên các nền tảng xã hội, … Từ khóa: Phân loại văn bản, tiếng Việt, học có giám sát, TF-IDF, Naïve Bayes. |
Description: | 69 Tr |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/109453 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 2.24 MB | Adobe PDF | ||
Your IP: 13.59.183.77 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.