Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/103330
Title: | CÁC PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾU TRONG BÀI TOÁN PHÂN LỚP |
Other Titles: | METHODS FOR HANDLING MISSING DATA IN CLASSFICATION PROBLEMS |
Authors: | Bùi, Đăng Hà Phương Nguyễn, Thanh Hải Nguyễn, Xuân Quỳnh Anh |
Keywords: | HỆ THỐNG THÔNG TIN |
Issue Date: | 2024 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Vấn đề thiếu dữ liệu là một vấn đề phổ biến trong khoa học dữ liệu, liên quan đến tình trạng một số mục dữ liệu trong tập dữ liệu không hoàn chỉnh, nghĩa là chúng không có giá trị cho một hoặc nhiều biến trong tập dữ liệu. Vấn đề này có thể phát sinh do nhiều nguyên nhân, chẳng hạn như dữ liệu chưa được thu thập, hồ sơ bị mất, dữ liệu không đầy đủ. Từ lâu việc nghiên cứu xử lý dữ liệu đã được các nhà nghiên cứu triển khai phân tích. Do đó, cần tìm ra các phương pháp để xử lý dữ liệu bị thiếu là nhu cần thiết. Đề tài "Các phương pháp xử lý dữ liệu bị thiếu trong bài toán phân lớp" sẽ tập trung khai thác các phương pháp xử lý dữ liệu, đo độ chính xác, thời gian chạy và bộ nhớ tốn của các phương pháp dựa trên giải thuật Logistic Regression. Nghiên cứu thực hiện các công việc chính như là: Sử dụng các phương pháp xóa dữ liệu: drop columns, drop rows. Phương pháp thay thế dữ liệu: mean, median. mode, MICE, replace, backward-fill, forward-fill, iterative_imputer để gán dữ liệu vào tập dữ liệu gốc. Và cuối cùng là các phương pháp máy học: Linear Regression, KNN, Random Forest để xử lý các dữ liệu bị thiếu. Sau đó, sử dụng giải thuật phân lớp Logistic Regression để đánh giá các độ chính xác của từng phương pháp. Cuối cùng, áp dụng phương pháp tốt nhất trong nghiên cứu vào các giải thuật trong phân lớp. Kết quả đạt được với phương pháp ANN đạt độ chính xác ACC là 0.85492, khi áp dụng với giải thuật phân lớp đạt độ chính xác là 0.86528 trên tập dữ liệu chẩn đoán bệnh ung thư vú. Và đạt độ chính xác trên tập dữ liệu dự đoán mưa với ACC đạt 0.83305 khi áp dụng với giải thuật phân lớp đạt độ chính xác là 0.90914. Các phương pháp được huấn luyện và đánh giá trên 2 tập dữ liệu bao gồm: Bộ dữ liệu dự đoán khả năng mưa vào ngày hôm sau (weather_data) và tập dữ liệu phân biệt khối u vú lành tính hoặc ác tính (breast_data). |
Description: | 95 Tr |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/103330 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 2.08 MB | Adobe PDF | ||
Your IP: 3.145.73.167 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.