Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/21368
Title: | KSI - phương pháp kết hợp phân cụm với bộ lọc tái lấy mẫu để loại bỏ nhiễu trong dữ liệu mất cân bằng |
Authors: | Bùi, Dương Hưng Vũ, Văn Thỏa Đặng, Xuân Thọ |
Keywords: | SMOTE IPF Over-Sampling Dữ liệu mất cân hàng Phân lớp |
Issue Date: | 2019 |
Series/Report no.: | Tạp chí Khoa học Công nghệ Thông tin và Truyền thông;Số 01 .- Tr.55-60 |
Abstract: | Dữ liệu phân lớp thường có phân bố số lượng không đồng đều giữa các nhãn lớp, vấn đề này được gọi là phân lớp dữ liệu mất cân bằng và xuất hiện ngày càng nhiều trong các ứng dụng thực tế. Kỹ thuật sinh thêm phần tử nhân tạo (SMOTR) là một trong những phương pháp tiền xử lý dữ liệu được biết đến nhiều nhất để giải quyết bài toán này. Tuy nhiên, theo các nghiên cứu gần đây, số lượng phân tử mất cân bằng không phải là một vấn đề chính mà hiệu quả phân lớp còn bị giảm do các yếu tố khác như sự phân bố dữ liệu với sự xuất hiện của các phần tử nhiễu và các phần tử ở biên. Hạn chế nội tại của SMOTE là sinh thêm nhiều phần tử nhiễu dạng này. Một số nghiên cứu đã chỉ ra bộ lọc nhiều kết hợp với SMOTE sẽ nâng cao hiệu quả phân lớp (SMOTK-1PK). Ở bài báo này, chúng tôi đề xuất phương pháp kết hợp phân cụm với bộ lọc tái lấy mẫu nhằm giải quyết tốt hơn vấn đề này. Kết quả thực nghiệm trên các bộ dữ liệu tổng hợp và dữ liệu chuẩn quốc tế UCI với các mức độ mất cân bằng đã chỉ ra phương pháp đề xuất nâng cao hiệu quả của thuật toán SMOTE và SMOTE-IPF. |
URI: | http://dspace.ctu.edu.vn/jspui/handle/123456789/21368 |
ISSN: | 2525-2224 |
Appears in Collections: | Khoa học Công nghệ Thông tin và Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 2.35 MB | Adobe PDF | ||
Your IP: 18.119.132.80 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.