ỨNG DỤNG ĐỘ ĐO INCEPTION SCORE VÀO LỰA CHỌN MẪU SINH RA TỪ MẠNG GAN ĐỂ CÂN BẰNG DỮ LIỆU

Nguyễn, Đông Nghi

Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/73097

Title:	ỨNG DỤNG ĐỘ ĐO INCEPTION SCORE VÀO LỰA CHỌN MẪU SINH RA TỪ MẠNG GAN ĐỂ CÂN BẰNG DỮ LIỆU
Authors:	Trần, Cao Đệ Nguyễn, Đông Nghi
Keywords:	CÔNG NGHỆ THÔNG TIN
Issue Date:	2021
Publisher:	Trường Đại Học Cần Thơ
Abstract:	Mất cân bằng dữ liệu là thuật ngữ dùng trong trường hợp môt tập dữ liệu có một hoặc nhiều lớp chứa số mẫu nhiều hơn các lớp khác một cách vượt trội. Phân loại chính xác cho mẫu thuộc các lớp có ít dữ liệu (lớp thiêu số) trong tập dữ liệu mất cân bằng là một điều khó khăn. Tỷ lệ mất cân bằng của tập dữ liệu càng cao thì việc phát hiện được mẫu của lớp thiểu số càng khó. Nhiều nghiên cứu đã đề xuất cách cân bằng dữ liệu bằng cách giảm bớt số mẫu của lớp đa số (undersampling) hoặc tăng số lượng mẫu của lớp thiểu số (oversampling). Luận văn này thực hiện cân bằng dữ liệu dựa trên phương pháp oversampling bằng cách sử dụng mạng GAN để sinh ra các mẫu mới mang các đặc trưng được tổng hợp từ các mẫu trong các lớp thiểu số. Vấn đề được đặt ra ở đây là làm sao để có thể có được một mạng sinh dữ liệu tốt với các mẫu “fake” mang đặc trưng của các lớp thiểu số. Đồng thời làm thế nào để lựa chọn được những mẫu có chất lượng tốt trong tập dữ liệu được sinh ra từ mạng GAN, làm dữ liệu bổ sung để cân bằng dữ liệu. Để giải quyết vấn đề này, luận văn sử dụng độ đo Inception Score (IS) trong quá trình huấn luyện mạng GAN để xác định thời điểm mạng tốt nhất để sinh dữ liệu. Các mẫu được sinh ra từ mạng GAN sau khi đã hoàn thành huấn luyện sẽ được thực hiện lựa chọn mẫu dựa trên kết quả phân phối xác suất, nếu xác suất thuộc một lớp thiểu số cao đạt ngưỡng được xác định trước sẽ được chọn để cân bằng tập dữ liệu. Luận văn thực hiện giả lập và nghiên cứu sự mất cân bằng dữ liệu trên tập dữ liệu F – MNIST, kết quả kiểm thử hiệu suất phân loại dựa trên độ chính xác (accuracy) của mạng CNN khi huấn luyện với tập dữ liệu mất cân bằng giảm đi so với hiệu suất của mạng CNN (có cùng kiến trúc) được huấn luyện dựa trên tập dữ liệu gốc. Kiến trúc mạng GAN dùng để sinh mẫu mới được sử dụng trong luận văn này là mạng Wasserstein GAN (WGAN) với Gradient Penalty (WGAN – GP). Sau khi đã làm cân bằng dữ liệu, kết quả độ chính xác trong phân loại của mạng CNN được huấn luyện với tập dữ liệu cân bằng này đã được cải thiện đáng kể. Các mạng CNN được dung trong luận văn đều có cùng kiến trúc. Đây có thể xem là một giải pháp đầy hứa hẹn cho các bộ dữ liệu phức tạp trong thực tế.
Description:	62 Tr
URI:	https://dspace.ctu.edu.vn/jspui/handle/123456789/73097
Appears in Collections:	Trường Công nghệ Thông tin & Truyền thông

Files in This Item:

File	Description	Size	Format
_file_ Restricted Access		2.38 MB	Adobe PDF
Your IP: 18.191.108.168

Show full item record

LRC Digital repo

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets