Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này: https://dspace.ctu.edu.vn/jspui/handle/123456789/110395
Nhan đề: XÂY DỰNG MÔ HÌNH DỰ ĐOÁN TỪ TIẾP THEO
Nhan đề khác: BUILDING A NEXT WORD PREDICTION MODEL
Tác giả: Lê, Huỳnh Quốc Bảo
Ngô, Huỳnh Công Trứ
Từ khoá: CÔNG NGHỆ THÔNG TIN
Năm xuất bản: 2024
Nhà xuất bản: Trường Đại Học Cần Thơ
Tóm tắt: Nghiên cứu này tập trung vào việc xây dựng một mô hình dự đoán từ tiếp theo hiệu quả, nhằm cải thiện chất lượng của các hệ thống xử lý ngôn ngữ tự nhiên. Dự đoán từ tiếp theo là một nhiệm vụ quan trọng trong xử lý ngôn ngữ tự nhiên (NLP), mô hình này có tiềm năng ứng dụng trong các hệ thống tạo văn bản tự động, chatbot và các ứng dụng khác liên quan đến xử lý ngôn ngữ tự nhiên. Để đạt được mục tiêu này, ba mô hình mạng nơ-ron tiên tiến bao gồm LSTM (Long Short-Term Memory), GRU (Gated Recurrent Unit), và Transformer đã được sử dụng nhằm học hỏi mối quan hệ giữa các từ và dự đoán từ tiếp theo có khả năng xuất hiện cao nhất. Mô hình được huấn luyện trên một tập dữ liệu văn bản tiếng Việt, với quy mô 600.000 ký tự. Để tăng cường khả năng biểu diễn của mô hình, mô hình được sử dụng các kỹ thuật đặc trưng như phân tách từ (Tokenization), tạo chuỗi N-gram, đệm dữ liệu (Padding). Sau tiền xử lí dữ liệu thu được 3847 từ khác nhau, có 141,704 mẫu đầu vào (chuỗi n-gram). Kết quả đánh giá cho thấy mô hình đạt được độ chính xác cao từ 91 – 93% trên tập dữ liệu kiểm thử, riêng mô hình Transformer do hạn chế cấu hình nên độ chính xác chỉ đạt được 70%. Mô hình này được phát triển trong nghiên cứu có thể được ứng dụng rộng rãi trong các hệ thống chatbot để tạo ra các cuộc hội thoại tự nhiên và hấp dẫn hơn. Bằng cách dự đoán từ tiếp theo một cách chính xác, chatbot có thể hiểu ý định của người dùng tốt hơn và đưa ra những phản hồi phù hợp. Ngoài ra, mô hình này còn có tiềm năng trong việc hỗ trợ các nhà văn sáng tạo ý tưởng bằng cách đề xuất các từ và cụm từ liên quan, từ đó thúc đẩy quá trình sáng tạo văn bản.
Mô tả: 55 Tr
Định danh: https://dspace.ctu.edu.vn/jspui/handle/123456789/110395
Bộ sưu tập: Trường Công nghệ Thông tin & Truyền thông

Các tập tin trong tài liệu này:
Tập tin Mô tả Kích thước Định dạng  
_file_
  Giới hạn truy cập
2.31 MBAdobe PDF
Your IP: 216.73.216.129


Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.