Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/124832| Nhan đề: | PHÁT HIỆN NGÔN NGỮ THÙ NGHỊCH TRÊN MẠNG XÃ HỘI SỬ DỤNG MÔ HÌNH TEXT-TO-TEXT TRANSFORMER HỢP NHẤT |
| Nhan đề khác: | HATE SPEECH DETECTION IN SOCIAL NETWORKS USING UNIFIED TEXT-TO-TEXT TRANSFORMER MODEL |
| Tác giả: | Nguyễn, Trọng Nghĩa Quách, Minh Kỳ |
| Từ khoá: | TRUYỀN THÔNG VÀ MẠNG MÁY TÍNH |
| Năm xuất bản: | 2025 |
| Nhà xuất bản: | Trường Đại Học Cần Thơ |
| Tóm tắt: | Trong những năm gần đây, sự gia tăng của ngôn từ thù hận và nội dung độc hại trên mạng xã hội Việt Nam đã đặt ra nhu cầu cấp thiết về các hệ thống phát hiện tự động hiệu quả. Nghiên cứu này tập trung xây dựng và đánh giá các mô hình Transformer hiện đại, cụ thể là họ mô hình T5, cho bài toán phát hiện ngôn ngữ độc hại tiếng Việt thông qua quy trình Continuted Pre-Training và Fine-Tune. Để phục vụ nghiên cứu, tôi đã xây dựng một kho dữ liệu quy mô lớn gồm khoảng 14 triệu bình luận tiếng Việt từ YouTube và tập VOZ-HSD mở rộng. Trên cơ sở dữ liệu này, quá trình pre-training được thực hiện cho bốn biến thể mô hình: T5-Small, T5- Base, Flan-T5-Small, Flan-T5-Base. Sau đó, các mô hình được Fine-tune đa nhiệm trên ba tập dữ liệu đánh giá: ViCTSD (Vietnamese Constructive and Toxic Speech Detection dataset), ViHSD (Vietnamese Hate Speech Detection dataset) và ViHOS (Vietnamese Hate and Offensive Spans Detection). Nghiên cứu triển khai bốn kịch bản thực nghiệm nhằm đánh giá tác động trực tiếp của quá trình pre-training đối với các mô hình T5 gốc. Kết quả cho thấy việc PreTraining trên kho dữ liệu tiếng Việt quy mô lớn giúp cải thiện hiệu suất ở cả ba tác vụ phân loại và trích xuất. Việc mở rộng so sánh với các kiến trúc khác chỉ nhằm mục đích đánh giá tổng quan về vị trí tương đối của mô hình, trong khi mục tiêu chính của nghiên cứu là chứng minh hiệu quả của chiến lược Continued Pre-Training kết hợp Fine-Tune đa nhiệm. Kết quả thu được khẳng định rằng đây là hướng tiếp cận phù hợp và hiệu quả để xử lý ngôn ngữ tự nhiên tiếng Việt trong bối cảnh mạng xã hội nhiều biến thể và phi chuẩn. |
| Mô tả: | 96 Tr |
| Định danh: | https://dspace.ctu.edu.vn/jspui/handle/123456789/124832 |
| Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
| Tập tin | Mô tả | Kích thước | Định dạng | |
|---|---|---|---|---|
| _file_ Giới hạn truy cập | 6.31 MB | Adobe PDF | ||
| Your IP: 216.73.216.210 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.