Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/103330
Nhan đề: | CÁC PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾU TRONG BÀI TOÁN PHÂN LỚP |
Nhan đề khác: | METHODS FOR HANDLING MISSING DATA IN CLASSFICATION PROBLEMS |
Tác giả: | Bùi, Đăng Hà Phương Nguyễn, Thanh Hải Nguyễn, Xuân Quỳnh Anh |
Từ khoá: | HỆ THỐNG THÔNG TIN |
Năm xuất bản: | 2024 |
Nhà xuất bản: | Trường Đại Học Cần Thơ |
Tóm tắt: | Vấn đề thiếu dữ liệu là một vấn đề phổ biến trong khoa học dữ liệu, liên quan đến tình trạng một số mục dữ liệu trong tập dữ liệu không hoàn chỉnh, nghĩa là chúng không có giá trị cho một hoặc nhiều biến trong tập dữ liệu. Vấn đề này có thể phát sinh do nhiều nguyên nhân, chẳng hạn như dữ liệu chưa được thu thập, hồ sơ bị mất, dữ liệu không đầy đủ. Từ lâu việc nghiên cứu xử lý dữ liệu đã được các nhà nghiên cứu triển khai phân tích. Do đó, cần tìm ra các phương pháp để xử lý dữ liệu bị thiếu là nhu cần thiết. Đề tài "Các phương pháp xử lý dữ liệu bị thiếu trong bài toán phân lớp" sẽ tập trung khai thác các phương pháp xử lý dữ liệu, đo độ chính xác, thời gian chạy và bộ nhớ tốn của các phương pháp dựa trên giải thuật Logistic Regression. Nghiên cứu thực hiện các công việc chính như là: Sử dụng các phương pháp xóa dữ liệu: drop columns, drop rows. Phương pháp thay thế dữ liệu: mean, median. mode, MICE, replace, backward-fill, forward-fill, iterative_imputer để gán dữ liệu vào tập dữ liệu gốc. Và cuối cùng là các phương pháp máy học: Linear Regression, KNN, Random Forest để xử lý các dữ liệu bị thiếu. Sau đó, sử dụng giải thuật phân lớp Logistic Regression để đánh giá các độ chính xác của từng phương pháp. Cuối cùng, áp dụng phương pháp tốt nhất trong nghiên cứu vào các giải thuật trong phân lớp. Kết quả đạt được với phương pháp ANN đạt độ chính xác ACC là 0.85492, khi áp dụng với giải thuật phân lớp đạt độ chính xác là 0.86528 trên tập dữ liệu chẩn đoán bệnh ung thư vú. Và đạt độ chính xác trên tập dữ liệu dự đoán mưa với ACC đạt 0.83305 khi áp dụng với giải thuật phân lớp đạt độ chính xác là 0.90914. Các phương pháp được huấn luyện và đánh giá trên 2 tập dữ liệu bao gồm: Bộ dữ liệu dự đoán khả năng mưa vào ngày hôm sau (weather_data) và tập dữ liệu phân biệt khối u vú lành tính hoặc ác tính (breast_data). |
Mô tả: | 95 Tr |
Định danh: | https://dspace.ctu.edu.vn/jspui/handle/123456789/103330 |
Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
Tập tin | Mô tả | Kích thước | Định dạng | |
---|---|---|---|---|
_file_ Giới hạn truy cập | 2.08 MB | Adobe PDF | ||
Your IP: 3.129.210.36 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.