Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/8926
Title: XÂY DỰNG WEBSITE TIN TỨC CÓ CHỨC NĂNG PHÂN LOẠI VĂN BẢN TỰ ĐỘNG THEO CHỦ ĐỀ
Authors: Lê, Thị Phương Dung
Trương, Thái An
Keywords: KHOA HỌC MÁY TÍNH
Issue Date: 2019
Publisher: Trường Đại học Cần Thơ
Abstract: Bài toán phân loại (hay phân lớp) văn bản tự động là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn huấn luyện. Đối với từng ngôn ngữ khác nhau bài toán có cách giải quyết khác nhau. Đề tài “Xây dựng website tin tức có chức năng phân loại văn bản tự động theo chủ đề” sẽ giải quyết bài toán phân loại văn bản tiếng Việt. Quá trình xây dựng ứng dụng được tiến hành thông qua việc tìm hiểu, sử dụng thành thạo Python, Django Framework. Do tính đa chủ đề của tin tức tiếng Việt, một tin tức có thể thuộc một hay nhiều chủ đề, và hạn chế về mặt thời gian cùng với giới hạn luận văn, chương trình phân loại tin tức của chúng tôi chỉ phân loại trên 15 chủ đề. Hầu hết tin tức đều được lưu trữ dưới dạng ngôn ngữ tự nhiên, dạng dữ liệu phi cấu trúc. Để phân loại tự động được, chúng ta cần phải chuyển chúng sang dạng dữ liệu có cấu trúc. Cách phổ biến nhất là sử dụng không gian véc-tơ, mỗi tin tức sẽ được biểu diễn thành một véc-tơ của các từ khóa. Tuy nhiên để véc-tơ hóa thông tin, chúng ta cần tiền xử lý các tin tức đó. Các công việc cụ thể cần phải làm là cắt từ, xóa dấu câu và loại bỏ stop word. Trong đề tài này chúng tôi sử dụng công cụ VnTokenizer để tách từ, rồi xây dựng các véc-tơ dựa trên phương pháp TF-IDF, sau đó dùng thư viện hỗ trợ tiến hành phân loại tin tức bằng các giải thuật học máy.
Description: 55 Tr
URI: http://dspace.ctu.edu.vn/jspui/handle/123456789/8926
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
1.61 MBAdobe PDF
Your IP: 3.149.240.101


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.