Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/5776
Nhan đề: | PHÂN LỚP VĂN BẢN SỬ DỤNG KỸ THUẬT MÁY HỌC: ỨNG DỤNG PHÂN LOẠI BÀI BÁO ĐĂNG TRÊN TẠP CHÍ KHOA HỌC CỦA TRƯỜNG ĐẠI HỌC CẦN THƠ |
Tác giả: | Trần, Thanh Điện Bùi, Hữu Lộc |
Từ khoá: | CÔNG NGHỆ THÔNG TIN |
Năm xuất bản: | 2018 |
Nhà xuất bản: | Trường Đại học Cần Thơ |
Tóm tắt: | Đề tài này được thực hiện nhằm tìm hiểu các phương pháp học máy dùng để phân loại các bài báo khoa học được đăng trên tạp chí của Trường Đại học Cần Thơ. Do tính đa chủ đề của các bài báo khoa học, một bài báo khoa học có thể thuộc một hoặc nhiều chủ đề khác nhau; hạn chế về mặt thời gian thực hiện, mô hình phân loại bài báo khoa học này chỉ phân loại được 10 chủ đề, có nội dung tương đối độc lập nhau: Công nghệ, Môi trường, Tự nhiên, Chăn nuôi, Công nghệ Sinh học, Nông nghiệp, Thuỷ sản, Giáo dục, Xã hội - Nhân văn, Kinh tế. Hầu hết các bài báo khoa học đều được lưu trữ dưới dạng ngôn ngữ tự nhiên, dạng dữ liệu phi cấu trúc. Để phân loại một cách tự động, chúng ta cần phải chuyển chúng sang dạng dữ liệu có cấu trúc. Cách phổ biến nhất hiện nay là sử dụng không gian véc-tơ, mỗi bài báo khoa học sẽ được biểu diễn thành một véc-tơ của các từ khoá (phương pháp này được gọi là véc-tơ hoá thông tin). Tuy nhiên, để véc-tơ hoá thông tin, chúng ta cần phải tiền xử lý các bài báo khoa học đó. Các công việc cụ thể cần phải làm là: chuyển đổi định dạng từ *.docx sang *.txt, tách từ, loại bỏ stop word. Trong đề tài này, em sử dụng MultiDoc Converter để chuyển đổi định dạng văn bản từ *.docx sang *.txt với mã hoá encode là utf-8, tách từ bằng VnTokenizer và loại bỏ stop word bằng giải thuật được xây dựng trên java. Dữ liệu bài báo sau đó sẽ được tiến hành phân loại trên thư viện Weka bằng phương pháp học máy. Nhìn chung, em đã hoàn thành cơ bản yêu cầu của đề tài là phân loại các bài báo khoa học đăng trên tạp chí của trường Đại học Cần Thơ. Tuy nhiên cần cải thiện bằng cách tăng thêm số lượng bài báo khoa học để máy học có thể phân loại chuẩn xác hơn nữa. |
Mô tả: | 46 tr |
Định danh: | http://dspace.ctu.edu.vn/jspui/handle/123456789/5776 |
Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
Tập tin | Mô tả | Kích thước | Định dạng | |
---|---|---|---|---|
_file_ Giới hạn truy cập | 1.01 MB | Adobe PDF | ||
Your IP: 18.218.206.106 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.