Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/101047
Title: | Trích xuất danh mục khía cạnh sử dụng bert với hàm mất mát cân bằng |
Authors: | Nguyễn, Thị Thanh Thủy Nguyễn, Ngọc Điệp |
Keywords: | Trích xuất danh mục khía cạnh Học máy Học sâu BERT Hàm mất mát cân bằng |
Issue Date: | 2022 |
Series/Report no.: | Tạp chí Khoa học Công nghệ Thông tin và Truyền thông;Số 03(CS.01) .- P.31-39 |
Abstract: | Trích xuất danh mục khía cạnh (aspect category extraction) là nhiệm vụ đầu tiên trong bài toán khai thác quan điểm dựa trên khía cạnh (aspect-based opinion mining). Đây là một nhiệm vụ khó khăn vì người dùng thường sử dụng các từ khóa khác nhau để diễn tả về cùng một khía cạnh hoặc nhiều khi chỉ dùng các từ ngụ ý đề cập đến khía cạnh. Các phương pháp học máy có giám sát nói chung được đánh giá là có độ chính xác cao, tuy nhiên thường tốn kém nhiều công sức trong việc gắn nhân dữ liệu huấn luyện, đặc biệt là cho các miền lĩnh vực mới. Hơn nữa, các phương pháp này thường yêu cầu phải có kiến thức chuyên gia giúp trích chọn ra được các đặc trưng thủ công hữu ích đối với miền lĩnh vực nghiên cứu. Bài báo này trình bày đề xuất một phương pháp cải tiến sử dụng mô hình học sâu dựa trên BERT để giải quyết và nâng cao hiệu năng cho nhiệm vụ trích xuất danh mục khía cạnh. Mô hình đề xuất tự học các đặc trưng từ chuỗi dữ liệu văn bản đầu vào và biểu diễn hiệu quả nhờ BERT. Ngoài ra, để khắc phục vấn đề mất cân bằng dữ liệu giữa các nhân lớp, chúng tôi đề xuất sử dụng các hàm mất mát cân bằng (balanced loss functions). Kết quả thực nghiệm cho thấy mô hình đề xuất có hiệu năng vượt trội hơn, với trung bình độ đo F₁, cao nhất đạt 77%. |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/101047 |
ISSN: | 2525-2224 |
Appears in Collections: | Khoa học Công nghệ Thông tin và Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 9.19 MB | Adobe PDF | ||
Your IP: 3.23.102.79 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.