Vui lòng dùng định danh này để trích dẫn hoặc liên kết đến tài liệu này:
https://dspace.ctu.edu.vn/jspui/handle/123456789/127483| Nhan đề: | XÂY DỰNG HỆ THỐNG TẠO SINH CÔNG THỨC MÓC LEN CÓ CẤU TRÚC TỪ HÌNH ẢNH |
| Nhan đề khác: | DEVELOPING AN IMAGE-BASED CROCHET PATTERN GENERATION SYSTEM |
| Tác giả: | Phan, Bích Chung Võ, Duy Tân |
| Từ khoá: | KHOA HỌC MÁY TÍNH |
| Năm xuất bản: | 2026 |
| Nhà xuất bản: | Đại Học Cần Thơ |
| Tóm tắt: | Nghiên cứu tập trung giải quyết bài toán tạo sinh công thức móc len có cấu trúc (Dạng văn bản) từ hình ảnh đầu vào, tập trung vào các mẫu móc ô hình học truyền thống (Granny shapes). Do thiếu hụt các tập dữ liệu chuyên biệt, chúng tôi đã tự xây dựng bộ dữ liệu đa phương thức gồm 464 cặp ảnh và công thức được chuẩn hóa thủ công theo tiêu chuẩn của tổ chức CYC (Craft Yarn Council). Về mặt kỹ thuật, nghiên cứu ứng dụng mô hình ngôn ngữ thị giác lớn LLaVA OneVision, kết hợp kỹ thuật tinh chỉnh hiệu quả tham số LoRA (Low-Rank Adaptation). Đặc biệt, việc mở rộng phạm vi cập nhật cho các module embed_tokens và lm_head đã giúp mô hình thích nghi tốt hơn từ ngôn ngữ tự nhiên sang các ký hiệu kỹ thuật đặc thù của ngành móc len. Bên cạnh các chỉ số đánh giá ngôn ngữ tự nhiên (BLEU, ROUGE, BERTScore), chúng tôi đã đề xuất và triển khai thành công bộ đánh giá tính hợp lệ TAN chuyên biệt cho công thức móc len. Kết quả thực nghiệm cho thấy tỷ lệ công thức hợp lệ đạt cao nhất là 83.90%. Cuối cùng, hệ thống đã được triển khai dưới dạng website hoàn chỉnh sử dụng Vue.js và FastAPI, cho phép người dùng tương tác và nhận công thức móc len một cách trực quan. The research focuses on addressing the problem of automating the generation of structured crochet patterns (In text format) from input images, specifically targeting traditional granny shapes. Due to the lack of specialized datasets, the project independently constructed a multimodal dataset consisting of 464 pairs of images and patterns, which were manually standardized according to the Craft Yarn Council criteria. Technically, the study applies the LLaVA-OneVision large vision-language model, combined with the LoRA (Low-Rank Adaptation) parameter-efficient fine-tuning technique. In particular, expanding the update scope to include the embed_tokens and lm_head modules significantly helped the model adapt from natural language to the specific technical symbols of the crochet domain. In addition to standard Natural Language Processing metrics (BLEU, ROUGE, and BERTScore), we have proposed and successfully implemented TAN, a specialized evaluation framework for crochet pattern validity. Experimental results indicate that the highest validity rate achieved was 83.90%. Finally, the system has been deployed as a comprehensive web application using Vue.js and FastAPI, enabling users to interact with and receive crochet patterns through an intuitive interface. |
| Mô tả: | 68 Tr |
| Định danh: | https://dspace.ctu.edu.vn/jspui/handle/123456789/127483 |
| Bộ sưu tập: | Trường Công nghệ Thông tin & Truyền thông |
Các tập tin trong tài liệu này:
| Tập tin | Mô tả | Kích thước | Định dạng | |
|---|---|---|---|---|
| _file_ Giới hạn truy cập | 6.97 MB | Adobe PDF | ||
| Your IP: 216.73.216.231 |
Khi sử dụng các tài liệu trong Thư viện số phải tuân thủ Luật bản quyền.