Please use this identifier to cite or link to this item: https://dspace.ctu.edu.vn/jspui/handle/123456789/124832
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorNguyễn, Trọng Nghĩa-
dc.contributor.authorQuách, Minh Kỳ-
dc.date.accessioned2026-01-22T07:46:16Z-
dc.date.available2026-01-22T07:46:16Z-
dc.date.issued2025-
dc.identifier.otherB2110942-
dc.identifier.urihttps://dspace.ctu.edu.vn/jspui/handle/123456789/124832-
dc.description96 Trvi_VN
dc.description.abstractTrong những năm gần đây, sự gia tăng của ngôn từ thù hận và nội dung độc hại trên mạng xã hội Việt Nam đã đặt ra nhu cầu cấp thiết về các hệ thống phát hiện tự động hiệu quả. Nghiên cứu này tập trung xây dựng và đánh giá các mô hình Transformer hiện đại, cụ thể là họ mô hình T5, cho bài toán phát hiện ngôn ngữ độc hại tiếng Việt thông qua quy trình Continuted Pre-Training và Fine-Tune. Để phục vụ nghiên cứu, tôi đã xây dựng một kho dữ liệu quy mô lớn gồm khoảng 14 triệu bình luận tiếng Việt từ YouTube và tập VOZ-HSD mở rộng. Trên cơ sở dữ liệu này, quá trình pre-training được thực hiện cho bốn biến thể mô hình: T5-Small, T5- Base, Flan-T5-Small, Flan-T5-Base. Sau đó, các mô hình được Fine-tune đa nhiệm trên ba tập dữ liệu đánh giá: ViCTSD (Vietnamese Constructive and Toxic Speech Detection dataset), ViHSD (Vietnamese Hate Speech Detection dataset) và ViHOS (Vietnamese Hate and Offensive Spans Detection). Nghiên cứu triển khai bốn kịch bản thực nghiệm nhằm đánh giá tác động trực tiếp của quá trình pre-training đối với các mô hình T5 gốc. Kết quả cho thấy việc PreTraining trên kho dữ liệu tiếng Việt quy mô lớn giúp cải thiện hiệu suất ở cả ba tác vụ phân loại và trích xuất. Việc mở rộng so sánh với các kiến trúc khác chỉ nhằm mục đích đánh giá tổng quan về vị trí tương đối của mô hình, trong khi mục tiêu chính của nghiên cứu là chứng minh hiệu quả của chiến lược Continued Pre-Training kết hợp Fine-Tune đa nhiệm. Kết quả thu được khẳng định rằng đây là hướng tiếp cận phù hợp và hiệu quả để xử lý ngôn ngữ tự nhiên tiếng Việt trong bối cảnh mạng xã hội nhiều biến thể và phi chuẩn.vi_VN
dc.language.isovivi_VN
dc.publisherTrường Đại Học Cần Thơvi_VN
dc.subjectTRUYỀN THÔNG VÀ MẠNG MÁY TÍNHvi_VN
dc.titlePHÁT HIỆN NGÔN NGỮ THÙ NGHỊCH TRÊN MẠNG XÃ HỘI SỬ DỤNG MÔ HÌNH TEXT-TO-TEXT TRANSFORMER HỢP NHẤTvi_VN
dc.title.alternativeHATE SPEECH DETECTION IN SOCIAL NETWORKS USING UNIFIED TEXT-TO-TEXT TRANSFORMER MODELvi_VN
dc.typeThesisvi_VN
Appears in Collections:Trường Công nghệ Thông tin & Truyền thông

Files in This Item:
File Description SizeFormat 
_file_
  Restricted Access
6.31 MBAdobe PDF
Your IP: 216.73.216.210


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.