Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/110639
Nhan đề: NGHIÊN CỨU VÀ KHẢO SÁT MỘT SỐ THUẬT TOÁN FUZZY JOIN
Nhan đề khác: SURVEY OF FUZZY JOIN ALGORITHMS
Tác giả: Trần, Thị Tố Quyên
Nguyễn, Hoàng Khánh An
Từ khoá: TRUYỀN THÔNG VÀ MẠNG MÁY TÍNH
Năm xuất bản: 2024
Nhà xuất bản: Trường Đại Học Cần Thơ
Tóm tắt: Trong bối cảnh hiện đại, với sự phát triển mạnh mẽ của dữ liệu lớn, nhu cầu xử lý và phân tích dữ liệu trên quy mô lớn, dẫn đến sự gia tăng đáng kể về khối lượng dữ liệu cần được xử lý. Bên cạnh đó, có rất nhiều ứng dụng yêu cầu xử lý dữ liệu lớn bao gồm tìm kiếm trên web (ví dụ: Google Search), bản đồ trực tuyến (ví dụ: Google Maps), mạng xã hội (ví dụ: Facebook), phát sóng trực tuyến video (ví dụ: YouTube)… Vấn đề này đã đặt ra những thách thức lớn hơn cho việc truy xuất dữ liệu lớn. Một trong những vấn đề phổ biến khi xử lý dữ liệu lớn là các phép toán kết nối (join), nơi cần phải kết hợp các tập dữ liệu lớn để rút ra thông tin hữu ích. Các phương pháp truyền thống như hash join hay merge join thường gặp khó khăn khi xử lý dữ liệu với kích thước lớn, dẫn đến hiệu suất kém hơn. Để giải quyết vấn đề này, phương pháp Vernice Join là một trong những phương pháp đã được nghiên cứu và áp dụng trong môi trường phân tán Spark. Vernica Join là một phương pháp tối ưu hóa trong các hệ thống phân tán, trong khi SSJ-2R được thiết kế để cải thiện hiệu suất trong các tác vụ liên quan đến việc xử lý dữ liệu phân tán và song song. Trong luận văn này, tôi thực hiện nghiên cứu và áp dụng các phương pháp Vernice Join trong môi trường xử lý dữ liệu phân tán bằng cách sử dụng công nghệ Apache Spark kết hợp với MapReduce. Apache Spark là một trong những công cụ mạnh mẽ cho phép xử lý dữ liệu song song và phân tán, trong khi MapReduce cung cấp mô hình tính toán phân tán đơn giản nhưng hiệu quả. Mục tiêu của bài nghiên cứu là cải thiện hiệu suất và khả năng mở rộng khi thực hiện các phép toán join trong các hệ thống dữ liệu lớn Bài báo nghiên cứu này sẽ trình bày tổng quan về các phương pháp Vernice Join, cách thức của chúng hoạt động trong môi trường phân tán, và cách chúng được triển khai và tối ưu hóa trong Spark với MapReduce. Đồng thời, tôi cũng sẽ tiến hành các thí nghiệm và đánh giá hiệu quả của các phương pháp này trong các tình huống thực tế.
Mô tả: 42 Tr
Định danh: https://dspace.ctu.edu.vn/jspui/handle/123456789/110639
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
2.13 MBAdobe PDF
Your IP: 18.118.163.224


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.