XÂY DỰNG HỆ THỐNG TRÍCH XUẤT, PHÂN LOẠI VÀ TÌM KIẾM ẢNH TƯƠNG ĐỒNG TỪ BÀI BÁO KHOA HỌC ĐỊNH DẠNG PDF SỬ DỤNG MÔ HÌNH MÁY HỌC SÂU

Phạm, Hoàng Tuấn

Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/121031

Toàn bộ biểu ghi siêu dữ liệu

Trường DC	Giá trị	Ngôn ngữ
dc.contributor.advisor	Trần, Thanh Điện	-
dc.contributor.author	Phạm, Hoàng Tuấn	-
dc.date.accessioned	2025-09-05T07:52:54Z	-
dc.date.available	2025-09-05T07:52:54Z	-
dc.date.issued	2025	-
dc.identifier.other	B2110065	-
dc.identifier.uri	https://dspace.ctu.edu.vn/jspui/handle/123456789/121031	-
dc.description	54 Tr	vi_VN
dc.description.abstract	Trong những năm gần đây, sự gia tăng mạnh mẽ của các ấn phẩm khoa học, đặc biệt là tạp chí nghiên cứu bằng tiếng Việt và tiếng Anh, đã tạo ra khối lượng lớn dữ liệu hình ảnh như biểu đồ, sơ đồ và ảnh thí nghiệm. Những hình ảnh này thường chứa thông tin nghiên cứu quan trọng mà văn bản khó phản ánh đầy đủ. Tuy nhiên, thiếu hệ thống chuyên dụng để trích xuất, lưu trữ và tìm kiếm hình ảnh đang là thách thức lớn trong quản lý. Nghiên cứu này xây dựng một hệ thống tự động trích xuất ảnh từ tài liệu khoa học định dạng PDF. Tiền xử lí loại bỏ ảnh toàn nền đen(ảnh nhúng), ảnh kích thước quá nhỏ(bị xem là logo hoặc không mang ý nghĩa học thuật),… và trích xuất DOI, tiêu đề, tác giả và chú thích và các thông tin liên quan. Dữ liệu trích xuất được lưu trữ trong cơ sở dữ liệu quan hệ, đảm bảo quản lý và truy xuất hiệu quả. Tiếp theo, lập chỉ mục với các trường phổ biến gồm tác giả, tiêu đề và chú thích nhằm tối ưu tốc độ và độ chính xác truy vấn dựa trên mô tả ảnh. Tiếp theo, ảnh được phân loại thủ công thành 11 lớp. Tập dữ liệu này được sử dụng để huấn luyện mô hình ResNet101 trên nền tảng Kaggle — một môi trường điện toán đám mây hỗ trợ GPU miễn phí và cung cấp công cụ thuận tiện cho việc huấn luyện và thử nghiệm các mô hình học sâu. Sau huấn luyện, mô hình trích xuất vector đặc trưng cho ảnh và lưu vào trong cơ sở dữ liệu quan hệ nhằm phục vụ tìm kiếm ảnh tương đồng thông qua độ đo cosine similarity. Hệ thống triển khai chức năng tìm kiếm ảnh tương đồng dựa trên cosine similarity, khai thác dữ liệu từ các chỉ mục và đặc trưng. Kết quả thử nghiệm cho thấy độ chính xác phân loại đạt 93%. Kết quả này chứng minh hệ thống đáp ứng tốt yêu cầu quản lý, tra cứu và tái sử dụng ảnh trong kho dữ liệu khoa học, đồng thời mở ra khả năng mở rộng cho các hệ thống tìm kiếm học thuật đa ngôn ngữ trong tương lai.	vi_VN
dc.language.iso	vi	vi_VN
dc.publisher	Trường Đại Học Cần Thơ	vi_VN
dc.subject	HỆ THỐNG THÔNG TIN	vi_VN
dc.title	XÂY DỰNG HỆ THỐNG TRÍCH XUẤT, PHÂN LOẠI VÀ TÌM KIẾM ẢNH TƯƠNG ĐỒNG TỪ BÀI BÁO KHOA HỌC ĐỊNH DẠNG PDF SỬ DỤNG MÔ HÌNH MÁY HỌC SÂU	vi_VN
dc.title.alternative	BUILDING A SYSTEM FOR EXTRACTING, CLASSIFYING, AND RETRIEVING SIMILAR IMAGES FROM SCIENTIFIC PDF ARTICLES USING DEEP LEARNING	vi_VN
dc.type	Thesis	vi_VN
Bộ sưu tập:	Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:

Tập tin	Mô tả	Kích thước	Định dạng
_file_ Giới hạn truy cập		1.86 MB	Adobe PDF
Your IP: 216.73.216.219

Hiển thị đơn giản biểu ghi tài liệu Xem thống kê

Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.

Thư viện số DSPACE

Thư viện số cho phép quản lý các nguồn tài liệu số như: Văn bản, hình ảnh, âm thanh, phim ảnh...