Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/101212
Nhan đề: | Sử dụng BERT và câu phụ trợ cho trích xuất khía cạnh trong văn bản tiếng Việt |
Tác giả: | Nguyễn, Ngọc Điệp Nguyễn, Thị Thanh Thùy |
Từ khoá: | Trích xuất danh mục khía cạnh Khai phá quan điểm cho tiếng Việt Mô hình ngôn ngữ huấn luyện sẵn Mô hình BERT |
Năm xuất bản: | 2022 |
Tùng thư/Số báo cáo: | Tạp chí Khoa học Công nghệ Thông tin và Truyền thông;Số 04(CS.01) .- Tr.31-38 |
Tóm tắt: | Trích xuất khía cạnh (aspect extraction) là một nhiệm vụ trong bài toán khai phá quan điểm dựa trên khía cạnh (aspect-based opinion mining), nhằm xác định và phân loại các cụm từ quan điểm (opinion target) về những đặc tính của sản phẩm trong văn bản có thể hiện quan điểm. Đa phần các nghiên cứu trước về trích xuất khía cạnh và khai phá quan điểm dựa trên khía cạnh là cho văn bản tiếng Anh, có rất ít nghiên cứu cho tiếng Việt. Các nghiên cứu cho tiếng Việt có độ chính xác cao hơn thường dựa trên các phương pháp học có giám sát hoặc dựa trên học sâu, với các mô hình phụ thuộc vào nhúng từ độc lập ngữ cảnh (như word2vec). Bài báo này trình bày một phương pháp trích xuất khía cạnh dựa trên khả năng mô hình hóa với nhúng từ theo ngữ cảnh, sử dụng các mô hình ngôn ngữ được huấn luyện sẵn như BERT. Khác với các nghiên cứu trước đó sử dụng một câu dữ liệu đầu vào rồi sau đó trích xuất ra các khía cạnh có trong câu, bài báo đề xuất sử dụng câu phụ trợ được tạo ra từ các từ khóa khía cạnh nhằm tận dụng được thông tin quan trọng đã biết, kết hợp với câu đầu vào ban đầu để tạo ra cặp câu đầu vào cho BERT. Mô hình đề xuất dựa trên BERT có thêm một lớp tuyến tính để phân loại, được tinh chỉnh cùng với câu phụ trợ cho thấy kết quả rất tốt trên kho ngữ liệu có sẵn, đã chú thích về các loại danh mục khía cạnh (aspect category) được thu thập từ những bài đánh giá/bình luận về nhà hàng trên mạng xã hội bằng ngôn ngữ tiếng Việt. |
Định danh: | https://dspace.ctu.edu.vn/jspui/handle/123456789/101212 |
ISSN: | 2525-2224 |
Bộ sưu tập: | Khoa học Công nghệ Thông tin và Truyền thông |
Các tập tin trong tài liệu này:
Tập tin | Mô tả | Kích thước | Định dạng | |
---|---|---|---|---|
_file_ Giới hạn truy cập | 4.6 MB | Adobe PDF | ||
Your IP: 3.139.70.69 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.