Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/110639
Title: NGHIÊN CỨU VÀ KHẢO SÁT MỘT SỐ THUẬT TOÁN FUZZY JOIN
Other Titles: SURVEY OF FUZZY JOIN ALGORITHMS
Authors: Trần, Thị Tố Quyên
Nguyễn, Hoàng Khánh An
Keywords: TRUYỀN THÔNG VÀ MẠNG MÁY TÍNH
Issue Date: 2024
Publisher: Trường Đại Học Cần Thơ
Abstract: Trong bối cảnh hiện đại, với sự phát triển mạnh mẽ của dữ liệu lớn, nhu cầu xử lý và phân tích dữ liệu trên quy mô lớn, dẫn đến sự gia tăng đáng kể về khối lượng dữ liệu cần được xử lý. Bên cạnh đó, có rất nhiều ứng dụng yêu cầu xử lý dữ liệu lớn bao gồm tìm kiếm trên web (ví dụ: Google Search), bản đồ trực tuyến (ví dụ: Google Maps), mạng xã hội (ví dụ: Facebook), phát sóng trực tuyến video (ví dụ: YouTube)… Vấn đề này đã đặt ra những thách thức lớn hơn cho việc truy xuất dữ liệu lớn. Một trong những vấn đề phổ biến khi xử lý dữ liệu lớn là các phép toán kết nối (join), nơi cần phải kết hợp các tập dữ liệu lớn để rút ra thông tin hữu ích. Các phương pháp truyền thống như hash join hay merge join thường gặp khó khăn khi xử lý dữ liệu với kích thước lớn, dẫn đến hiệu suất kém hơn. Để giải quyết vấn đề này, phương pháp Vernice Join là một trong những phương pháp đã được nghiên cứu và áp dụng trong môi trường phân tán Spark. Vernica Join là một phương pháp tối ưu hóa trong các hệ thống phân tán, trong khi SSJ-2R được thiết kế để cải thiện hiệu suất trong các tác vụ liên quan đến việc xử lý dữ liệu phân tán và song song. Trong luận văn này, tôi thực hiện nghiên cứu và áp dụng các phương pháp Vernice Join trong môi trường xử lý dữ liệu phân tán bằng cách sử dụng công nghệ Apache Spark kết hợp với MapReduce. Apache Spark là một trong những công cụ mạnh mẽ cho phép xử lý dữ liệu song song và phân tán, trong khi MapReduce cung cấp mô hình tính toán phân tán đơn giản nhưng hiệu quả. Mục tiêu của bài nghiên cứu là cải thiện hiệu suất và khả năng mở rộng khi thực hiện các phép toán join trong các hệ thống dữ liệu lớn Bài báo nghiên cứu này sẽ trình bày tổng quan về các phương pháp Vernice Join, cách thức của chúng hoạt động trong môi trường phân tán, và cách chúng được triển khai và tối ưu hóa trong Spark với MapReduce. Đồng thời, tôi cũng sẽ tiến hành các thí nghiệm và đánh giá hiệu quả của các phương pháp này trong các tình huống thực tế.
Description: 42 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/110639
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
2.13 MBAdobe PDF
Your IP: 3.147.74.223


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.