Multilingual ASR pipeline — qisqa yo‘riqnoma. Dataset Explorer da pastki o‘ngdagi Learning — shu matn ichki panelda ham ochiladi.
Bosh sahifada YouTube havolalari, mahalliy audio yoki Nextcloud kutubxonasidan fayllarni tanlang. Til, mavzu va Gemini modelini moslang; API kalitni AI Studio’dan oling.
Yuklab olish, ovoz ajratish va kerak bo‘lsa segmentlarga bo‘lish pipeline ichida bajariladi.
Natija audio_segments/ va
gemini_transcription/ papkalarida saqlanadi.
Har bir segment matnlashtiriladi; preview model ishlamasa, tizim barqaror Gemini 2.5 Flash zanjirida qayta urinadi. Xatolikda server logida aniq sabab (limit, kalit, model) ko‘rinadi.
Dataset Explorer orqali Nextcloud yoki mahalliy
web_data/ bo‘yicha fayllarni ko‘ring, tinglang va statistikani oching.
HF import sahifasidan Hugging Face bilan integratsiya mumkin.
Texnik tafsilotlar: repodagi 0_craft_dataset/ va web_app/ modullari.