Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/8926
Nhan đề: | XÂY DỰNG WEBSITE TIN TỨC CÓ CHỨC NĂNG PHÂN LOẠI VĂN BẢN TỰ ĐỘNG THEO CHỦ ĐỀ |
Tác giả: | Lê, Thị Phương Dung Trương, Thái An |
Từ khoá: | KHOA HỌC MÁY TÍNH |
Năm xuất bản: | 2019 |
Nhà xuất bản: | Trường Đại học Cần Thơ |
Tóm tắt: | Bài toán phân loại (hay phân lớp) văn bản tự động là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn huấn luyện. Đối với từng ngôn ngữ khác nhau bài toán có cách giải quyết khác nhau. Đề tài “Xây dựng website tin tức có chức năng phân loại văn bản tự động theo chủ đề” sẽ giải quyết bài toán phân loại văn bản tiếng Việt. Quá trình xây dựng ứng dụng được tiến hành thông qua việc tìm hiểu, sử dụng thành thạo Python, Django Framework. Do tính đa chủ đề của tin tức tiếng Việt, một tin tức có thể thuộc một hay nhiều chủ đề, và hạn chế về mặt thời gian cùng với giới hạn luận văn, chương trình phân loại tin tức của chúng tôi chỉ phân loại trên 15 chủ đề. Hầu hết tin tức đều được lưu trữ dưới dạng ngôn ngữ tự nhiên, dạng dữ liệu phi cấu trúc. Để phân loại tự động được, chúng ta cần phải chuyển chúng sang dạng dữ liệu có cấu trúc. Cách phổ biến nhất là sử dụng không gian véc-tơ, mỗi tin tức sẽ được biểu diễn thành một véc-tơ của các từ khóa. Tuy nhiên để véc-tơ hóa thông tin, chúng ta cần tiền xử lý các tin tức đó. Các công việc cụ thể cần phải làm là cắt từ, xóa dấu câu và loại bỏ stop word. Trong đề tài này chúng tôi sử dụng công cụ VnTokenizer để tách từ, rồi xây dựng các véc-tơ dựa trên phương pháp TF-IDF, sau đó dùng thư viện hỗ trợ tiến hành phân loại tin tức bằng các giải thuật học máy. |
Mô tả: | 55 Tr |
Định danh: | http://dspace.ctu.edu.vn/jspui/handle/123456789/8926 |
Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
Tập tin | Mô tả | Kích thước | Định dạng | |
---|---|---|---|---|
_file_ Giới hạn truy cập | 1.61 MB | Adobe PDF | ||
Your IP: 18.119.118.237 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.