Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/121031
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Trần, Thanh Điện | - |
dc.contributor.author | Phạm, Hoàng Tuấn | - |
dc.date.accessioned | 2025-09-05T07:52:54Z | - |
dc.date.available | 2025-09-05T07:52:54Z | - |
dc.date.issued | 2025 | - |
dc.identifier.other | B2110065 | - |
dc.identifier.uri | https://dspace.ctu.edu.vn/jspui/handle/123456789/121031 | - |
dc.description | 54 Tr | vi_VN |
dc.description.abstract | Trong những năm gần đây, sự gia tăng mạnh mẽ của các ấn phẩm khoa học, đặc biệt là tạp chí nghiên cứu bằng tiếng Việt và tiếng Anh, đã tạo ra khối lượng lớn dữ liệu hình ảnh như biểu đồ, sơ đồ và ảnh thí nghiệm. Những hình ảnh này thường chứa thông tin nghiên cứu quan trọng mà văn bản khó phản ánh đầy đủ. Tuy nhiên, thiếu hệ thống chuyên dụng để trích xuất, lưu trữ và tìm kiếm hình ảnh đang là thách thức lớn trong quản lý. Nghiên cứu này xây dựng một hệ thống tự động trích xuất ảnh từ tài liệu khoa học định dạng PDF. Tiền xử lí loại bỏ ảnh toàn nền đen(ảnh nhúng), ảnh kích thước quá nhỏ(bị xem là logo hoặc không mang ý nghĩa học thuật),… và trích xuất DOI, tiêu đề, tác giả và chú thích và các thông tin liên quan. Dữ liệu trích xuất được lưu trữ trong cơ sở dữ liệu quan hệ, đảm bảo quản lý và truy xuất hiệu quả. Tiếp theo, lập chỉ mục với các trường phổ biến gồm tác giả, tiêu đề và chú thích nhằm tối ưu tốc độ và độ chính xác truy vấn dựa trên mô tả ảnh. Tiếp theo, ảnh được phân loại thủ công thành 11 lớp. Tập dữ liệu này được sử dụng để huấn luyện mô hình ResNet101 trên nền tảng Kaggle — một môi trường điện toán đám mây hỗ trợ GPU miễn phí và cung cấp công cụ thuận tiện cho việc huấn luyện và thử nghiệm các mô hình học sâu. Sau huấn luyện, mô hình trích xuất vector đặc trưng cho ảnh và lưu vào trong cơ sở dữ liệu quan hệ nhằm phục vụ tìm kiếm ảnh tương đồng thông qua độ đo cosine similarity. Hệ thống triển khai chức năng tìm kiếm ảnh tương đồng dựa trên cosine similarity, khai thác dữ liệu từ các chỉ mục và đặc trưng. Kết quả thử nghiệm cho thấy độ chính xác phân loại đạt 93%. Kết quả này chứng minh hệ thống đáp ứng tốt yêu cầu quản lý, tra cứu và tái sử dụng ảnh trong kho dữ liệu khoa học, đồng thời mở ra khả năng mở rộng cho các hệ thống tìm kiếm học thuật đa ngôn ngữ trong tương lai. | vi_VN |
dc.language.iso | vi | vi_VN |
dc.publisher | Trường Đại Học Cần Thơ | vi_VN |
dc.subject | HỆ THỐNG THÔNG TIN | vi_VN |
dc.title | XÂY DỰNG HỆ THỐNG TRÍCH XUẤT, PHÂN LOẠI VÀ TÌM KIẾM ẢNH TƯƠNG ĐỒNG TỪ BÀI BÁO KHOA HỌC ĐỊNH DẠNG PDF SỬ DỤNG MÔ HÌNH MÁY HỌC SÂU | vi_VN |
dc.title.alternative | BUILDING A SYSTEM FOR EXTRACTING, CLASSIFYING, AND RETRIEVING SIMILAR IMAGES FROM SCIENTIFIC PDF ARTICLES USING DEEP LEARNING | vi_VN |
dc.type | Thesis | vi_VN |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 1.86 MB | Adobe PDF | ||
Your IP: 216.73.216.166 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.