Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/110543
Title: XÂY DỰNG CƠ SỞ DỮ LIỆU BẰNG CHỈ MỤC HÌNH ẢNH VÀ TIÊU ĐỀ DỰA TRÊN BÀI BÁO KHOA HỌC TIẾNG ANH
Other Titles: BUILDING A DATABASE OF ENGLISH SCIENTIFIC ARTICLES INCLUDING IMAGES AND CAPTIONS BASED ON INDEXING TECHNIQUES
Authors: Trần, Thanh Điện
Nguyễn, Nhật Anh
Keywords: HỆ THỐNG THÔNG TIN
Issue Date: 2024
Publisher: Trường Đại Học Cần Thơ
Abstract: Trong thời buổi hiện nay, với tốc độ phát triển nhanh chóng của mạng xã hội, lượng thông tin khoa học đang tăng trưởng nhanh chóng với hàng triệu bài báo được xuất bản hàng năm. Tuy nhiên, việc tìm kiếm và trích xuất thông tin từ các tài liệu khoa học, đặc biệt là trích xuất hình ảnh và tiêu đề vẫn đang gặp khó khăn và mất rất nhiều thời gian. Vấn đề khi người dùng cần tìm kiếm các hình ảnh hay đồ thị có trong các bài báo đã được xuất bản mà không thể dễ dàng tìm kiếm bằng các công cụ tìm kiếm hiện có đang gặp rất nhiều khó khăn, vì thế nên đề tài "Xây dựng cơ sở dữ liệu bằng chỉ mục hình ảnh và tiêu đề dựa trên bài báo khoa học" được đề xuất để nghiên cứu tìm ra các phương pháp trích xuất và lưu trữ hình ảnh, thông tin về bài báo, hỗ trợ việc tìm kiếm các hình ảnh có trong bài báo. Nghiên cứu được ứng dụng các công cụ như PyMuPDF, Tesseract OCR, Elasticsearch, Flask và Hệ quản trị cơ sở dữ liêu SQL Server để có thể tách được văn bản và hình ảnh từ file PDF sau đó lưu trữ vào trong SQL Server, và đưa dữ liệu lên Elasticsearch để có thể hỗ trợ tìm kiếm dựa trên chỉ mục hình ảnh và từ khoá liên quan. Từ khoá: Cơ sở dữ liệu, chỉ mục hình ảnh, chỉ mục tiêu đề, bài báo khoa học, xử lý ngôn ngữ tự nhiên, Python…
Description: 47 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/110543
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
3.2 MBAdobe PDF
Your IP: 216.73.216.119


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.