Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/100259
Title: Trích xuất thực thể trong an toàn thông tin sử dụng học sâu
Authors: Nguyễn, Ngọc Điệp
Nguyễn, Thị Thanh Thủy
Keywords: An toàn thông tin
Trích xuất thực thể
BiLSTM
CRF
BERT
Issue Date: 2021
Series/Report no.: Tạp chí Khoa học Công nghệ Thông tin và Truyền thông;Số 04(CS.01) .- Tr.79-86
Abstract: Hiện nay, với sự gia tăng nhanh chóng của các nguồn tài liệu liên quan đến lĩnh vực an toàn thông tin, việc trích xuất tự động các thông tin quan trọng từ các nguồn tài liệu này là một nhu cầu cấp thiết. Một trong những loại thông tin phổ biến cần trích xuất đó là các thực thể có tên, như tên chương trình phần mềm, tin tặc, chương trình mã độc, lỗ hổng, công nghệ, các kỹ thuật,... Tuy nhiên, do tính phức tạp, đa dạng, có nhiều đặc trưng về chuyên ngành riêng của các nguồn tài liệu này, việc xác định các thực thể có tên hiện còn gặp rất nhiều khó khăn. Gần đây, có một số phương pháp tiếp cận để giải quyết bài toán này, trong đó nổi trội hơn là các phương pháp dựa trên học sâu, là các kỹ thuật tiên tiến nhất, được sử dụng nhiều trong lĩnh vực trích xuất thông tin. Trong bài báo này, chúng tôi trình bày một phương pháp trích xuất thực thể có tên trong an toàn thông tin sử dụng các kỹ thuật học sâu, là mô hình kết hợp gồm word2vec, BERT, BiLSTM và CRF. Đồng thời, chúng tôi cũng đề xuất một phương pháp để tăng cường, bổ sung dữ liệu cho các thực thể có số lượng ít trong tập dữ liệu. Kết quả cho thấy mô hình đề xuất có độ chính xác khá cao, với độ đo F₁ lên tới 72,86% khi thử nghiệm trích xuất thực thể có tên trên tập dữ liệu văn bản an toàn thông tin. Phương pháp tăng cường dữ liệu đề xuất cũng đạt được hiệu quả khả quan.
URI: https://dspace.ctu.edu.vn/jspui/handle/123456789/100259
ISSN: 2525-2224
Appears in Collections:Khoa học Công nghệ Thông tin và Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
2.83 MBAdobe PDF
Your IP: 3.149.29.189


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.