Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/110543
Nhan đề: XÂY DỰNG CƠ SỞ DỮ LIỆU BẰNG CHỈ MỤC HÌNH ẢNH VÀ TIÊU ĐỀ DỰA TRÊN BÀI BÁO KHOA HỌC TIẾNG ANH
Nhan đề khác: BUILDING A DATABASE OF ENGLISH SCIENTIFIC ARTICLES INCLUDING IMAGES AND CAPTIONS BASED ON INDEXING TECHNIQUES
Tác giả: Trần, Thanh Điện
Nguyễn, Nhật Anh
Từ khoá: HỆ THỐNG THÔNG TIN
Năm xuất bản: 2024
Nhà xuất bản: Trường Đại Học Cần Thơ
Tóm tắt: Trong thời buổi hiện nay, với tốc độ phát triển nhanh chóng của mạng xã hội, lượng thông tin khoa học đang tăng trưởng nhanh chóng với hàng triệu bài báo được xuất bản hàng năm. Tuy nhiên, việc tìm kiếm và trích xuất thông tin từ các tài liệu khoa học, đặc biệt là trích xuất hình ảnh và tiêu đề vẫn đang gặp khó khăn và mất rất nhiều thời gian. Vấn đề khi người dùng cần tìm kiếm các hình ảnh hay đồ thị có trong các bài báo đã được xuất bản mà không thể dễ dàng tìm kiếm bằng các công cụ tìm kiếm hiện có đang gặp rất nhiều khó khăn, vì thế nên đề tài "Xây dựng cơ sở dữ liệu bằng chỉ mục hình ảnh và tiêu đề dựa trên bài báo khoa học" được đề xuất để nghiên cứu tìm ra các phương pháp trích xuất và lưu trữ hình ảnh, thông tin về bài báo, hỗ trợ việc tìm kiếm các hình ảnh có trong bài báo. Nghiên cứu được ứng dụng các công cụ như PyMuPDF, Tesseract OCR, Elasticsearch, Flask và Hệ quản trị cơ sở dữ liêu SQL Server để có thể tách được văn bản và hình ảnh từ file PDF sau đó lưu trữ vào trong SQL Server, và đưa dữ liệu lên Elasticsearch để có thể hỗ trợ tìm kiếm dựa trên chỉ mục hình ảnh và từ khoá liên quan. Từ khoá: Cơ sở dữ liệu, chỉ mục hình ảnh, chỉ mục tiêu đề, bài báo khoa học, xử lý ngôn ngữ tự nhiên, Python…
Mô tả: 47 Tr
Định danh: https://dspace.ctu.edu.vn/jspui/handle/123456789/110543
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
3.2 MBAdobe PDF
Your IP: 216.73.216.119


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.