Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/121031
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorTrần, Thanh Điện-
dc.contributor.authorPhạm, Hoàng Tuấn-
dc.date.accessioned2025-09-05T07:52:54Z-
dc.date.available2025-09-05T07:52:54Z-
dc.date.issued2025-
dc.identifier.otherB2110065-
dc.identifier.urihttps://dspace.ctu.edu.vn/jspui/handle/123456789/121031-
dc.description54 Trvi_VN
dc.description.abstractTrong những năm gần đây, sự gia tăng mạnh mẽ của các ấn phẩm khoa học, đặc biệt là tạp chí nghiên cứu bằng tiếng Việt và tiếng Anh, đã tạo ra khối lượng lớn dữ liệu hình ảnh như biểu đồ, sơ đồ và ảnh thí nghiệm. Những hình ảnh này thường chứa thông tin nghiên cứu quan trọng mà văn bản khó phản ánh đầy đủ. Tuy nhiên, thiếu hệ thống chuyên dụng để trích xuất, lưu trữ và tìm kiếm hình ảnh đang là thách thức lớn trong quản lý. Nghiên cứu này xây dựng một hệ thống tự động trích xuất ảnh từ tài liệu khoa học định dạng PDF. Tiền xử lí loại bỏ ảnh toàn nền đen(ảnh nhúng), ảnh kích thước quá nhỏ(bị xem là logo hoặc không mang ý nghĩa học thuật),… và trích xuất DOI, tiêu đề, tác giả và chú thích và các thông tin liên quan. Dữ liệu trích xuất được lưu trữ trong cơ sở dữ liệu quan hệ, đảm bảo quản lý và truy xuất hiệu quả. Tiếp theo, lập chỉ mục với các trường phổ biến gồm tác giả, tiêu đề và chú thích nhằm tối ưu tốc độ và độ chính xác truy vấn dựa trên mô tả ảnh. Tiếp theo, ảnh được phân loại thủ công thành 11 lớp. Tập dữ liệu này được sử dụng để huấn luyện mô hình ResNet101 trên nền tảng Kaggle — một môi trường điện toán đám mây hỗ trợ GPU miễn phí và cung cấp công cụ thuận tiện cho việc huấn luyện và thử nghiệm các mô hình học sâu. Sau huấn luyện, mô hình trích xuất vector đặc trưng cho ảnh và lưu vào trong cơ sở dữ liệu quan hệ nhằm phục vụ tìm kiếm ảnh tương đồng thông qua độ đo cosine similarity. Hệ thống triển khai chức năng tìm kiếm ảnh tương đồng dựa trên cosine similarity, khai thác dữ liệu từ các chỉ mục và đặc trưng. Kết quả thử nghiệm cho thấy độ chính xác phân loại đạt 93%. Kết quả này chứng minh hệ thống đáp ứng tốt yêu cầu quản lý, tra cứu và tái sử dụng ảnh trong kho dữ liệu khoa học, đồng thời mở ra khả năng mở rộng cho các hệ thống tìm kiếm học thuật đa ngôn ngữ trong tương lai.vi_VN
dc.language.isovivi_VN
dc.publisherTrường Đại Học Cần Thơvi_VN
dc.subjectHỆ THỐNG THÔNG TINvi_VN
dc.titleXÂY DỰNG HỆ THỐNG TRÍCH XUẤT, PHÂN LOẠI VÀ TÌM KIẾM ẢNH TƯƠNG ĐỒNG TỪ BÀI BÁO KHOA HỌC ĐỊNH DẠNG PDF SỬ DỤNG MÔ HÌNH MÁY HỌC SÂUvi_VN
dc.title.alternativeBUILDING A SYSTEM FOR EXTRACTING, CLASSIFYING, AND RETRIEVING SIMILAR IMAGES FROM SCIENTIFIC PDF ARTICLES USING DEEP LEARNINGvi_VN
dc.typeThesisvi_VN
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
1.86 MBAdobe PDF
Your IP: 216.73.216.166


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.