Please use this identifier to cite or link to this item:
https://dspace.ctu.edu.vn/jspui/handle/123456789/101212
Title: | Sử dụng BERT và câu phụ trợ cho trích xuất khía cạnh trong văn bản tiếng Việt |
Authors: | Nguyễn, Ngọc Điệp Nguyễn, Thị Thanh Thùy |
Keywords: | Trích xuất danh mục khía cạnh Khai phá quan điểm cho tiếng Việt Mô hình ngôn ngữ huấn luyện sẵn Mô hình BERT |
Issue Date: | 2022 |
Series/Report no.: | Tạp chí Khoa học Công nghệ Thông tin và Truyền thông;Số 04(CS.01) .- Tr.31-38 |
Abstract: | Trích xuất khía cạnh (aspect extraction) là một nhiệm vụ trong bài toán khai phá quan điểm dựa trên khía cạnh (aspect-based opinion mining), nhằm xác định và phân loại các cụm từ quan điểm (opinion target) về những đặc tính của sản phẩm trong văn bản có thể hiện quan điểm. Đa phần các nghiên cứu trước về trích xuất khía cạnh và khai phá quan điểm dựa trên khía cạnh là cho văn bản tiếng Anh, có rất ít nghiên cứu cho tiếng Việt. Các nghiên cứu cho tiếng Việt có độ chính xác cao hơn thường dựa trên các phương pháp học có giám sát hoặc dựa trên học sâu, với các mô hình phụ thuộc vào nhúng từ độc lập ngữ cảnh (như word2vec). Bài báo này trình bày một phương pháp trích xuất khía cạnh dựa trên khả năng mô hình hóa với nhúng từ theo ngữ cảnh, sử dụng các mô hình ngôn ngữ được huấn luyện sẵn như BERT. Khác với các nghiên cứu trước đó sử dụng một câu dữ liệu đầu vào rồi sau đó trích xuất ra các khía cạnh có trong câu, bài báo đề xuất sử dụng câu phụ trợ được tạo ra từ các từ khóa khía cạnh nhằm tận dụng được thông tin quan trọng đã biết, kết hợp với câu đầu vào ban đầu để tạo ra cặp câu đầu vào cho BERT. Mô hình đề xuất dựa trên BERT có thêm một lớp tuyến tính để phân loại, được tinh chỉnh cùng với câu phụ trợ cho thấy kết quả rất tốt trên kho ngữ liệu có sẵn, đã chú thích về các loại danh mục khía cạnh (aspect category) được thu thập từ những bài đánh giá/bình luận về nhà hàng trên mạng xã hội bằng ngôn ngữ tiếng Việt. |
URI: | https://dspace.ctu.edu.vn/jspui/handle/123456789/101212 |
ISSN: | 2525-2224 |
Appears in Collections: | Khoa học Công nghệ Thông tin và Truyền thông |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
_file_ Restricted Access | 4.6 MB | Adobe PDF | ||
Your IP: 3.145.12.185 |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.