Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/19474
Title: | XÂY DỰNG HỆ THỐNG LẤY TIN VÀ PHÂN LOẠI TIN TỰ ĐỘNG PHÂN HỆ I HỆ THỐNG LẤY TIN |
Authors: | Võ, Huỳnh Trâm Nguyễn, Thanh Toàn |
Keywords: | CÔNG NGHỆ THÔNG TIN |
Issue Date: | 2019 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Do nhu cầu thu thập thông tin của con người ngày càng tăng, lượng thông tin trên Internet ngày càng phức tạp nên vấn đề tổng hợp thông tin ngày càng trở nên bức thiết. Với một lượng dữ liệu lớn việc thu thập bằng tay sẽ tốn rất nhiều công sức, và không đạt hiệu quả cao, chính vì thế một công cụ hỗ trợ tổng hợp thông tin tự động là trình thu thập web (web crawler) đã ra đời. Đề tài luận văn đặt ra vấn đề tìm hiểu về trình thu thập web và bước đầu sẽ xây dựng một ứng dụng có khả năng tổng hợp và phân loại tin tức tự động từ nhiều trang báo điện tử khác nhau. Ứng dụng được viết bằng ngôn ngữ lập trình Python và được xây dựng dựa trên các tiêu chí: tốc độ thu thập nhanh, hệ thống hoạt động tự động, cơ sở dữ liệu gọn nhẹ, đảm bảo tính toàn vẹn của tài liệu gốc. Hệ thống thu thập và phân loại tin tự động gồm hai quá trình chính là thu thập và phân loại tin tức. Nội dung luận văn được chia thành hai phân hệ tương ứng với hai quá trình trên là: Phân hệ xây dựng hệ thống lấy tin tự động và phân hệ xây dựng hệ thống phân loại tin tự động. Các chức năng chính của hệ thống là lấy tin, phân loại tin, đưa tin tức lên trang hiển thị. Điểm nổi bật của hệ thống là vận hành tự động, hệ thống sẽ luôn cập nhật tin tức mới nhất của những trang tin tức nguồn vì chúng ta có thể thiết đặt được thời gian chạy của hệ thống. Nội dung tin tức lấy được có độ chính xác cao đối với những trang tin gồm chữ và hình ảnh. Ngoài ra hệ thống có khả năng phân biệt và loại bỏ những những bài tin bị trùng lặp (với những tin trong cùng trang nguồn). Hệ thống phân loại tin sẽ luôn cập nhật lại tập huấn luyện (train) mỗi khi có một bài báo mới được duyệt qua hệ thống, vì thế hệ thống phân loại tin tự động sẽ ngày càng được thông minh và chính xác hơn. Các công cụ hỗ trợ được thiết kế đơn giản và phù hợp với hệ thống nên cho tốc độ hoạt động rất nhanh, cơ sở dữ liệu của hệ thống gọn nhẹ. Hệ thống đã đạt được mục tiêu đề ra ban đầu là hoạt động ổn định, tốc độ xử lý nhanh, nội dung bài viết lấy về khá đầy đủ, có một vài trường hợp bài tin đặc biệt thì không xử lý được. Hệ thống phân loại bằng máy học cũng đáp ứng được yêu cầu đề ra là có khả năng phân loại tin theo tiêu đề, độ chính xác của kết quả phân loại đạt được mục tiêu mong đợi. Về hạn chế thì hệ thống sử dụng Ghost CMS để hiển thị kết quả nên về kiểu chữ cũng như các tùy chỉnh trang hiển thị không được bắt mắt, giao diện hiển thị còn đơn giản. Trong tương lai, dự kiến hệ thống sẽ mở rộng thêm nguồn lấy tin và phát triển thêm chức năng chống trùng lặp giữa các nguồn tin khác nhau. |
Description: | 71 tr |
URI: | http://dspace.ctu.edu.vn/jspui/handle/123456789/19474 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 2.77 MB | Adobe PDF | ||
Your IP: 3.141.198.75 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.