Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/73647
Title: TRÍCH RÚT THÔNG TIN TỪ HÓA ĐƠN VỚI GRAPH CONVOLUTIONAL NETWORK
Authors: Trần, Công Án
Hồ, Thị Lài
Keywords: CÔNG NGHỆ THÔNG TIN
Issue Date: 2021
Publisher: Trường Đại Học Cần Thơ
Abstract: Trích rút thông tin từ hóa đơn là nhiệm vụ trích rút tự động các thông tin cần thiết từ từ hoá đơn, điều này giúp giảm tiêu tốn thời gian và công sức cho việc lấy các thông tin bằng cách thủ công, ngoài ra, các thông tin được trích rút từ hóa đơn của các cá nhân có thể sử dụng để xây dựng hệ thống kiểm soát chi tiêu được thống kê theo của hàng hoặc thời gian. Bước trích rút thông tin từ hóa đơn không chỉ được thực hiện dựa trên thông tin văn bản mà bao gồm cả thông tin về vị trí hoặc bố cục của các từ trên hóa đơn. Đã có một số nỗ lực để thực hiện quy trình phân loại áp dụng các kỹ thuật truyền thống, hầu hết có thể được nhóm thành hai loại: Template-based và NLP-based, tuy nhiên cả hai cách tiếp cận này đều không đồng thời sử dụng hết các đặc trưng về văn bản và vị trí để xử lý bài toán này. Để giải quyết vấn đề vừa đưa ra, tôi quyết định chọn cách tiếp cận thứ ba đối với bài toán rút trích thông tin trên hóa đơn là Graph-based, hay cụ thể trong bài toán này là mạng đồ thị tích chập (GCN). Đề tài “Trích rút thông tin hóa đơn với GCN” được thực nghiệm trên bộ dữ liệu với 731 hình ảnh hóa đơn gồm 21583 khung dữ liệu được chia thành 5 lớp khác nhau (company, address, date, total, other), sau đó tiến hành xử lý qua các bước xác định khung dữ liệu, nhận dạng văn bản, chuyển hóa đơn thành đồ thị và xử lý các đặc trưng. Sau cùng, phân chia tập dữ liệu thành 2 phần với 650 hóa đơn dùng để huấn luyện và 81 hóa đơn để kiểm thử, lần lượt huấn luyện dữ liệu trên hai mô hình của GCN là GCNConv và Chebconv để so sánh kết quả. Qua kết quả thực nghiệm, nhận thấy mô hình ChebConv cho độ chính xác phân loại tốt hơn so với GCNConv, cụ thể kết quả của tập kiểm thử với mô hình ChebConv lần lượt: Accuracy là 99,50%, Recall là 98,52%, Precision là 98,52%, F1- score là 98,52%, còn GCNConv lần lượt có kết quả Accuracy là 95,71%, Recall là 86,66%, Precision là 86,66%, và F1-score là 86,66%. Qua kết quả thực nghiệm, nhận thấy với cả hai mô hình đều cho kết quả cao, điều đó cho thấy áp dụng GCN vào bài toán này là hoàn toàn phù hợp.
Description: 52 Tr
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/73647
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
2.56 MBAdobe PDF
Your IP: 18.218.45.80


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.