Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/110543
Nhan đề: | XÂY DỰNG CƠ SỞ DỮ LIỆU BẰNG CHỈ MỤC HÌNH ẢNH VÀ TIÊU ĐỀ DỰA TRÊN BÀI BÁO KHOA HỌC TIẾNG ANH |
Nhan đề khác: | BUILDING A DATABASE OF ENGLISH SCIENTIFIC ARTICLES INCLUDING IMAGES AND CAPTIONS BASED ON INDEXING TECHNIQUES |
Tác giả: | Trần, Thanh Điện Nguyễn, Nhật Anh |
Từ khoá: | HỆ THỐNG THÔNG TIN |
Năm xuất bản: | 2024 |
Nhà xuất bản: | Trường Đại Học Cần Thơ |
Tóm tắt: | Trong thời buổi hiện nay, với tốc độ phát triển nhanh chóng của mạng xã hội, lượng thông tin khoa học đang tăng trưởng nhanh chóng với hàng triệu bài báo được xuất bản hàng năm. Tuy nhiên, việc tìm kiếm và trích xuất thông tin từ các tài liệu khoa học, đặc biệt là trích xuất hình ảnh và tiêu đề vẫn đang gặp khó khăn và mất rất nhiều thời gian. Vấn đề khi người dùng cần tìm kiếm các hình ảnh hay đồ thị có trong các bài báo đã được xuất bản mà không thể dễ dàng tìm kiếm bằng các công cụ tìm kiếm hiện có đang gặp rất nhiều khó khăn, vì thế nên đề tài "Xây dựng cơ sở dữ liệu bằng chỉ mục hình ảnh và tiêu đề dựa trên bài báo khoa học" được đề xuất để nghiên cứu tìm ra các phương pháp trích xuất và lưu trữ hình ảnh, thông tin về bài báo, hỗ trợ việc tìm kiếm các hình ảnh có trong bài báo. Nghiên cứu được ứng dụng các công cụ như PyMuPDF, Tesseract OCR, Elasticsearch, Flask và Hệ quản trị cơ sở dữ liêu SQL Server để có thể tách được văn bản và hình ảnh từ file PDF sau đó lưu trữ vào trong SQL Server, và đưa dữ liệu lên Elasticsearch để có thể hỗ trợ tìm kiếm dựa trên chỉ mục hình ảnh và từ khoá liên quan. Từ khoá: Cơ sở dữ liệu, chỉ mục hình ảnh, chỉ mục tiêu đề, bài báo khoa học, xử lý ngôn ngữ tự nhiên, Python… |
Mô tả: | 47 Tr |
Định danh: | https://dspace.ctu.edu.vn/jspui/handle/123456789/110543 |
Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
Tập tin | Mô tả | Kích thước | Định dạng | |
---|---|---|---|---|
_file_ Giới hạn truy cập | 3.2 MB | Adobe PDF | ||
Your IP: 216.73.216.119 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.