Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/5776
Title: | PHÂN LỚP VĂN BẢN SỬ DỤNG KỸ THUẬT MÁY HỌC: ỨNG DỤNG PHÂN LOẠI BÀI BÁO ĐĂNG TRÊN TẠP CHÍ KHOA HỌC CỦA TRƯỜNG ĐẠI HỌC CẦN THƠ |
Authors: | Trần, Thanh Điện Bùi, Hữu Lộc |
Keywords: | CÔNG NGHỆ THÔNG TIN |
Issue Date: | 2018 |
Publisher: | Trường Đại học Cần Thơ |
Abstract: | Đề tài này được thực hiện nhằm tìm hiểu các phương pháp học máy dùng để phân loại các bài báo khoa học được đăng trên tạp chí của Trường Đại học Cần Thơ. Do tính đa chủ đề của các bài báo khoa học, một bài báo khoa học có thể thuộc một hoặc nhiều chủ đề khác nhau; hạn chế về mặt thời gian thực hiện, mô hình phân loại bài báo khoa học này chỉ phân loại được 10 chủ đề, có nội dung tương đối độc lập nhau: Công nghệ, Môi trường, Tự nhiên, Chăn nuôi, Công nghệ Sinh học, Nông nghiệp, Thuỷ sản, Giáo dục, Xã hội - Nhân văn, Kinh tế. Hầu hết các bài báo khoa học đều được lưu trữ dưới dạng ngôn ngữ tự nhiên, dạng dữ liệu phi cấu trúc. Để phân loại một cách tự động, chúng ta cần phải chuyển chúng sang dạng dữ liệu có cấu trúc. Cách phổ biến nhất hiện nay là sử dụng không gian véc-tơ, mỗi bài báo khoa học sẽ được biểu diễn thành một véc-tơ của các từ khoá (phương pháp này được gọi là véc-tơ hoá thông tin). Tuy nhiên, để véc-tơ hoá thông tin, chúng ta cần phải tiền xử lý các bài báo khoa học đó. Các công việc cụ thể cần phải làm là: chuyển đổi định dạng từ *.docx sang *.txt, tách từ, loại bỏ stop word. Trong đề tài này, em sử dụng MultiDoc Converter để chuyển đổi định dạng văn bản từ *.docx sang *.txt với mã hoá encode là utf-8, tách từ bằng VnTokenizer và loại bỏ stop word bằng giải thuật được xây dựng trên java. Dữ liệu bài báo sau đó sẽ được tiến hành phân loại trên thư viện Weka bằng phương pháp học máy. Nhìn chung, em đã hoàn thành cơ bản yêu cầu của đề tài là phân loại các bài báo khoa học đăng trên tạp chí của trường Đại học Cần Thơ. Tuy nhiên cần cải thiện bằng cách tăng thêm số lượng bài báo khoa học để máy học có thể phân loại chuẩn xác hơn nữa. |
Description: | 46 tr |
URI: | http://dspace.ctu.edu.vn/jspui/handle/123456789/5776 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 1.01 MB | Adobe PDF | ||
Your IP: 18.222.112.116 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.