Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/5776
Nhan đề: PHÂN LỚP VĂN BẢN SỬ DỤNG KỸ THUẬT MÁY HỌC: ỨNG DỤNG PHÂN LOẠI BÀI BÁO ĐĂNG TRÊN TẠP CHÍ KHOA HỌC CỦA TRƯỜNG ĐẠI HỌC CẦN THƠ
Tác giả: Trần, Thanh Điện
Bùi, Hữu Lộc
Từ khoá: CÔNG NGHỆ THÔNG TIN
Năm xuất bản: 2018
Nhà xuất bản: Trường Đại học Cần Thơ
Tóm tắt: Đề tài này được thực hiện nhằm tìm hiểu các phương pháp học máy dùng để phân loại các bài báo khoa học được đăng trên tạp chí của Trường Đại học Cần Thơ. Do tính đa chủ đề của các bài báo khoa học, một bài báo khoa học có thể thuộc một hoặc nhiều chủ đề khác nhau; hạn chế về mặt thời gian thực hiện, mô hình phân loại bài báo khoa học này chỉ phân loại được 10 chủ đề, có nội dung tương đối độc lập nhau: Công nghệ, Môi trường, Tự nhiên, Chăn nuôi, Công nghệ Sinh học, Nông nghiệp, Thuỷ sản, Giáo dục, Xã hội - Nhân văn, Kinh tế. Hầu hết các bài báo khoa học đều được lưu trữ dưới dạng ngôn ngữ tự nhiên, dạng dữ liệu phi cấu trúc. Để phân loại một cách tự động, chúng ta cần phải chuyển chúng sang dạng dữ liệu có cấu trúc. Cách phổ biến nhất hiện nay là sử dụng không gian véc-tơ, mỗi bài báo khoa học sẽ được biểu diễn thành một véc-tơ của các từ khoá (phương pháp này được gọi là véc-tơ hoá thông tin). Tuy nhiên, để véc-tơ hoá thông tin, chúng ta cần phải tiền xử lý các bài báo khoa học đó. Các công việc cụ thể cần phải làm là: chuyển đổi định dạng từ *.docx sang *.txt, tách từ, loại bỏ stop word. Trong đề tài này, em sử dụng MultiDoc Converter để chuyển đổi định dạng văn bản từ *.docx sang *.txt với mã hoá encode là utf-8, tách từ bằng VnTokenizer và loại bỏ stop word bằng giải thuật được xây dựng trên java. Dữ liệu bài báo sau đó sẽ được tiến hành phân loại trên thư viện Weka bằng phương pháp học máy. Nhìn chung, em đã hoàn thành cơ bản yêu cầu của đề tài là phân loại các bài báo khoa học đăng trên tạp chí của trường Đại học Cần Thơ. Tuy nhiên cần cải thiện bằng cách tăng thêm số lượng bài báo khoa học để máy học có thể phân loại chuẩn xác hơn nữa.
Mô tả: 46 tr
Định danh: http://dspace.ctu.edu.vn/jspui/handle/123456789/5776
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
1.01 MBAdobe PDF
Your IP: 18.220.81.106


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.