Hugging Face dataset

Namunalarni Qabul / Rad bilan tekshiring → asosan web-ilova ishlayotgan mashinaga (web_data / data / repo) saqlang yoki kerak bo‘lsa ZIP / brauzer papkasiga oling → to‘liq split ham shu ilova mashinasiga yoziladi.

← Pipeline Explorer

Craft dataset → asr-ur → Hugging Face

Yuklab olingan datasetlarni tanlang, asr-ur ga qo'shing, keyin HF ga yangilash yuboring. Barcha datasetlar web_data/masters/craft_import/asr-ur/ ga birlashtiriladi.

Natija papkasi tekshirilmoqda…

Jarayonlar

Tekshirilmoqda…

Konvertatsiya parametrlari

Chiqish: 16 kHz mono FLAC + file_name, text, corpus, duration, source_url. Min/max vaqt — Data Merger dagidek (0 = cheklov yo'q). duration avtomatik hisoblanadi.

«Yuklashni bekor qilish» — faqat mahalliy asr-ur dan o'chiradi; Hugging Face repodagi fayllar qoladi.

Mahalliy datasetlar — tez qo'shish

Yuklanmoqda…

1. Dataset va parametrlar

Gated datasetlar uchun access token (hf_...). Avvalo bu yerdan saqlangan token, keyin muhit (HF_TOKEN) ishlatiladi — Docker da eski/bo‘sh .env UI tokenini bosib qo‘ymaydi.

Bu til kodi emas — datasetning rasmiy config nomi (HF kartada «Subsets»). Ko‘p loyihalarda faqat default. Noto‘g‘ri bo‘lsa xato: BuilderConfig not found.

Uzoq yuklash: serverda HF_HUB_DOWNLOAD_TIMEOUT=600 (soniya) qo‘shing. **Gated** dataset: avval HF saytida kartada ruxsatni qabul qiling; token yuqoridagi maydonda saqlang yoki muhitda HF_TOKEN bo‘lsin.