Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/121031
Nhan đề: XÂY DỰNG HỆ THỐNG TRÍCH XUẤT, PHÂN LOẠI VÀ TÌM KIẾM ẢNH TƯƠNG ĐỒNG TỪ BÀI BÁO KHOA HỌC ĐỊNH DẠNG PDF SỬ DỤNG MÔ HÌNH MÁY HỌC SÂU
Nhan đề khác: BUILDING A SYSTEM FOR EXTRACTING, CLASSIFYING, AND RETRIEVING SIMILAR IMAGES FROM SCIENTIFIC PDF ARTICLES USING DEEP LEARNING
Tác giả: Trần, Thanh Điện
Phạm, Hoàng Tuấn
Từ khoá: HỆ THỐNG THÔNG TIN
Năm xuất bản: 2025
Nhà xuất bản: Trường Đại Học Cần Thơ
Tóm tắt: Trong những năm gần đây, sự gia tăng mạnh mẽ của các ấn phẩm khoa học, đặc biệt là tạp chí nghiên cứu bằng tiếng Việt và tiếng Anh, đã tạo ra khối lượng lớn dữ liệu hình ảnh như biểu đồ, sơ đồ và ảnh thí nghiệm. Những hình ảnh này thường chứa thông tin nghiên cứu quan trọng mà văn bản khó phản ánh đầy đủ. Tuy nhiên, thiếu hệ thống chuyên dụng để trích xuất, lưu trữ và tìm kiếm hình ảnh đang là thách thức lớn trong quản lý. Nghiên cứu này xây dựng một hệ thống tự động trích xuất ảnh từ tài liệu khoa học định dạng PDF. Tiền xử lí loại bỏ ảnh toàn nền đen(ảnh nhúng), ảnh kích thước quá nhỏ(bị xem là logo hoặc không mang ý nghĩa học thuật),… và trích xuất DOI, tiêu đề, tác giả và chú thích và các thông tin liên quan. Dữ liệu trích xuất được lưu trữ trong cơ sở dữ liệu quan hệ, đảm bảo quản lý và truy xuất hiệu quả. Tiếp theo, lập chỉ mục với các trường phổ biến gồm tác giả, tiêu đề và chú thích nhằm tối ưu tốc độ và độ chính xác truy vấn dựa trên mô tả ảnh. Tiếp theo, ảnh được phân loại thủ công thành 11 lớp. Tập dữ liệu này được sử dụng để huấn luyện mô hình ResNet101 trên nền tảng Kaggle — một môi trường điện toán đám mây hỗ trợ GPU miễn phí và cung cấp công cụ thuận tiện cho việc huấn luyện và thử nghiệm các mô hình học sâu. Sau huấn luyện, mô hình trích xuất vector đặc trưng cho ảnh và lưu vào trong cơ sở dữ liệu quan hệ nhằm phục vụ tìm kiếm ảnh tương đồng thông qua độ đo cosine similarity. Hệ thống triển khai chức năng tìm kiếm ảnh tương đồng dựa trên cosine similarity, khai thác dữ liệu từ các chỉ mục và đặc trưng. Kết quả thử nghiệm cho thấy độ chính xác phân loại đạt 93%. Kết quả này chứng minh hệ thống đáp ứng tốt yêu cầu quản lý, tra cứu và tái sử dụng ảnh trong kho dữ liệu khoa học, đồng thời mở ra khả năng mở rộng cho các hệ thống tìm kiếm học thuật đa ngôn ngữ trong tương lai.
Mô tả: 54 Tr
Định danh: https://dspace.ctu.edu.vn/jspui/handle/123456789/121031
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
1.86 MBAdobe PDF
Your IP: 216.73.216.166


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.