Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/5776
Title: PHÂN LỚP VĂN BẢN SỬ DỤNG KỸ THUẬT MÁY HỌC: ỨNG DỤNG PHÂN LOẠI BÀI BÁO ĐĂNG TRÊN TẠP CHÍ KHOA HỌC CỦA TRƯỜNG ĐẠI HỌC CẦN THƠ
Authors: Trần, Thanh Điện
Bùi, Hữu Lộc
Keywords: CÔNG NGHỆ THÔNG TIN
Issue Date: 2018
Publisher: Trường Đại học Cần Thơ
Abstract: Đề tài này được thực hiện nhằm tìm hiểu các phương pháp học máy dùng để phân loại các bài báo khoa học được đăng trên tạp chí của Trường Đại học Cần Thơ. Do tính đa chủ đề của các bài báo khoa học, một bài báo khoa học có thể thuộc một hoặc nhiều chủ đề khác nhau; hạn chế về mặt thời gian thực hiện, mô hình phân loại bài báo khoa học này chỉ phân loại được 10 chủ đề, có nội dung tương đối độc lập nhau: Công nghệ, Môi trường, Tự nhiên, Chăn nuôi, Công nghệ Sinh học, Nông nghiệp, Thuỷ sản, Giáo dục, Xã hội - Nhân văn, Kinh tế. Hầu hết các bài báo khoa học đều được lưu trữ dưới dạng ngôn ngữ tự nhiên, dạng dữ liệu phi cấu trúc. Để phân loại một cách tự động, chúng ta cần phải chuyển chúng sang dạng dữ liệu có cấu trúc. Cách phổ biến nhất hiện nay là sử dụng không gian véc-tơ, mỗi bài báo khoa học sẽ được biểu diễn thành một véc-tơ của các từ khoá (phương pháp này được gọi là véc-tơ hoá thông tin). Tuy nhiên, để véc-tơ hoá thông tin, chúng ta cần phải tiền xử lý các bài báo khoa học đó. Các công việc cụ thể cần phải làm là: chuyển đổi định dạng từ *.docx sang *.txt, tách từ, loại bỏ stop word. Trong đề tài này, em sử dụng MultiDoc Converter để chuyển đổi định dạng văn bản từ *.docx sang *.txt với mã hoá encode là utf-8, tách từ bằng VnTokenizer và loại bỏ stop word bằng giải thuật được xây dựng trên java. Dữ liệu bài báo sau đó sẽ được tiến hành phân loại trên thư viện Weka bằng phương pháp học máy. Nhìn chung, em đã hoàn thành cơ bản yêu cầu của đề tài là phân loại các bài báo khoa học đăng trên tạp chí của trường Đại học Cần Thơ. Tuy nhiên cần cải thiện bằng cách tăng thêm số lượng bài báo khoa học để máy học có thể phân loại chuẩn xác hơn nữa.
Description: 46 tr
URI: http://dspace.ctu.edu.vn/jspui/handle/123456789/5776
Appears in Collections:Khoa Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
1.01 MBAdobe PDF
Your IP: 54.198.139.112


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.