Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/21368
Title: KSI - phương pháp kết hợp phân cụm với bộ lọc tái lấy mẫu để loại bỏ nhiễu trong dữ liệu mất cân bằng
Authors: Bùi, Dương Hưng
Vũ, Văn Thỏa
Đặng, Xuân Thọ
Keywords: SMOTE
IPF
Over-Sampling
Dữ liệu mất cân hàng
Phân lớp
Issue Date: 2019
Series/Report no.: Tạp chí Khoa học Công nghệ Thông tin và Truyền thông;Số 01 .- Tr.55-60
Abstract: Dữ liệu phân lớp thường có phân bố số lượng không đồng đều giữa các nhãn lớp, vấn đề này được gọi là phân lớp dữ liệu mất cân bằng và xuất hiện ngày càng nhiều trong các ứng dụng thực tế. Kỹ thuật sinh thêm phần tử nhân tạo (SMOTR) là một trong những phương pháp tiền xử lý dữ liệu được biết đến nhiều nhất để giải quyết bài toán này. Tuy nhiên, theo các nghiên cứu gần đây, số lượng phân tử mất cân bằng không phải là một vấn đề chính mà hiệu quả phân lớp còn bị giảm do các yếu tố khác như sự phân bố dữ liệu với sự xuất hiện của các phần tử nhiễu và các phần tử ở biên. Hạn chế nội tại của SMOTE là sinh thêm nhiều phần tử nhiễu dạng này. Một số nghiên cứu đã chỉ ra bộ lọc nhiều kết hợp với SMOTE sẽ nâng cao hiệu quả phân lớp (SMOTK-1PK). Ở bài báo này, chúng tôi đề xuất phương pháp kết hợp phân cụm với bộ lọc tái lấy mẫu nhằm giải quyết tốt hơn vấn đề này. Kết quả thực nghiệm trên các bộ dữ liệu tổng hợp và dữ liệu chuẩn quốc tế UCI với các mức độ mất cân bằng đã chỉ ra phương pháp đề xuất nâng cao hiệu quả của thuật toán SMOTE và SMOTE-IPF.
URI: http://dspace.ctu.edu.vn/jspui/handle/123456789/21368
ISSN: 2525-2224
Appears in Collections:Khoa học Công nghệ Thông tin và Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
2.35 MBAdobe PDF
Your IP: 18.116.239.195


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.