Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/109643
Title: | NGHIÊN CỨU VÀ CẢI TIẾN THUẬT TOÁN FUZZY JOIN |
Other Titles: | RESEARCH AND IMPROVEMENT OF FUZZY JOIN ALGORITHMS |
Authors: | Trần, Thị Tố Quyên Vương, Gia Thuần |
Keywords: | TRUYỀN THÔNG VÀ MẠNG MÁY TÍNH |
Issue Date: | 2024 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Trong lĩnh vực xử lý dữ liệu lớn và khai thác thông tin, thuật toán fuzzy join đóng vai trò quan trọng trong việc tìm kiếm các cặp dữ liệu có nội dung tương đồng từ các tập dữ liệu lớn. Phương pháp truyền thống thường sử dụng là kỹ thuật tích Descartes để tạo danh sách các cặp ứng viên, sau đó thực hiện xác minh để tìm ra các cặp phù hợp. Tuy nhiên, cách tiếp cận này có nhược điểm là tạo ra số lượng lớn cặp ứng viên lớn và không cần thiết, dẫn đến lãng phí tài nguyên tính toán. Để giải quyết vấn đề này, đề tài đề xuất một phương pháp mới để xây dựng danh sách cặp ứng viên hiệu quả hơn, tập trung vào việc giảm thiểu các cặp không cần thiết ngay từ bước tạo danh sách. Phương pháp này sẽ bao gồm việc thiết lập các nguyên tắc lọc cặp ứng viên dựa trên một số ràng buộc nhất định như số lượng từ khóa chung tối thiểu, số lượng phần tử tối đa có thể sai khác,....Việc áp dụng các nguyên tắc này, ngay trong quá trình tạo cặp ứng viên giúp giảm đáng kể khối lượng cặp bản ghi phải xác minh, đồng thời đảm bảo hiệu quả và độ chính xác của quá trình fuzzy join. Thông qua nghiên cứu này, tôi kỳ vọng sẽ cải thiện đáng kể hiệu suất của thuật toán fuzzy join, đặc biệt khi áp dụng vào các hệ thống xử lý dữ liệu lớn như tìm kiếm văn bản, tích hợp dữ liệu và phân tích thông tin. |
Description: | 86 Tr |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/109643 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 3.76 MB | Adobe PDF | ||
Your IP: 18.220.13.15 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.