Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/45253
Title: | TRÍCH XUẤT DỮ LIỆU TỪ PHIẾU THÔNG TIN HỌC VIÊN |
Authors: | Lưu, Tiến Đạo Nguyễn, Tấn Thành |
Keywords: | KHOA HỌC MÁY TÍNH |
Issue Date: | 2021 |
Publisher: | Trường Đại Học Cần Thơ |
Abstract: | Ngày nay, việc chuyển đổi dữ liệu trên các biểu mẫu, trên giấy thành dữ liệu có thể lưu trữ trên máy tính đang được các cơ quan tổ chức hành chánh văn phòng và doanh nghiệp thực hiện hàng ngày, cùng với đó bài toán nhận dạng biểu mẫu tự động là bài toán dành được nhiều sự quan tâm của các nhà khoa học trong và ngoài nước. Nhận dạng biểu mẫu tự động mang lại những lợi ích nhất định như giảm chi phí thuê đội ngũ nhập liệu, tăng năng suất nhập liệu,... Nắm bắt được những vấn đề trên, nghiên cứu “Trích xuất dữ liệu từ phiếu thông tin học viên” sẽ phần nào đáp ứng được những nhu cầu trên. Bài toán này được thực hiện gồm hai phần. Phần thứ nhất, xây dựng hệ thống quản lý công tác tuyển sinh dựa trên công cụ hỗ trợ Framework Laravel để thiết kế các phân hệ nhập liệu, quản lý tài khoản nhân viên, quản lý mùa tuyển sinh, thống kê. Hệ thống quản lý công tác tuyển sinh lưu trữ cơ sở dữ liệu sử dụng MySQL. Phần thứ hai, xây dựng hệ thống trích xuất phiếu thông tin học viên dựa trên công cụ hỗ trợ Flask Python, trích xuất và nhận dạng chữ viết tay Tiếng Việt trên phiếu thông tin học viên. Bài toán này được thực hiện qua nhiều công đoạn như thu thập dữ liệu, tiền xử lý dữ liệu, khử nghiêng, cắt ảnh, dữ liệu cuối cùng là các ô vuông chứa ký tự Tiếng Việt có dấu hoặc không, nghiên cứu sử dụng thư viện mã nguồn mở OpenCV để xử lý ảnh và NumPy để tính toán trên ma trận, nhận dạng ảnh sau khi cắt sử dụng học sâu, dữ liệu sau khi nhận dạng. Hệ thống trích xuất phiếu thông tin học viên sẽ gọi API do hệ thống quản lý công tác tuyển sinh cung cấp, cuối cùng là lưu trữ dữ liệu vào cơ sở dữ liệu của hệ thống quản lý công tác tuyển sinh. Nhìn chung “Trích xuất dữ liệu từ phiếu thông tin học viên”, là một hệ thống thông tin lớn bao gồm hai hệ thống con. Thứ nhất, hệ thống quản lý công tác tuyển sinh. Thứ hai, hệ thống trích xuất chữ viết tay Tiếng Việt trên phiếu thông tin, độ chính xác của mô hình nhận dạng chữ viết tay Tiếng Việt lên đến 94.26%, trên tập dữ liệu ký tự Tiếng Việt gồm 75,600 tập tin ảnh. |
Description: | 83 Tr |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/45253 |
Appears in Collections: | Trường Công nghệ Thông tin & Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 5.41 MB | Adobe PDF | ||
Your IP: 18.118.126.69 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.