נווטו את הנוף המפוצל של מאגרי ML ומודלים בעברית וביידיש: ivrit.ai (יותר מ-22 אלף שעות אודיו עברי, מודלי ASR של whisper-large-v3, מודלי יידיש), Dicta (משפחת DictaLM 3.0, וריאנטים של DictaBERT, HeQ), התכנית הלאומית ל-NLP (HebrewSentiment, HebNLI), AlephBERT, ומליאות הכנסת. עוזר לחוקרים ומהנדסי ML לבחור את הדאטהסט הנכון לפי משימה, רישיון (מסחרי או מחקר), כיסוי רגיסטר עברי, והתאמת דאטהסט למודל. השתמשו כשבוחרים נתוני אימון לפרויקט NLP או ASR עברי, מוודאים תאימות רישיון למוצר מסחרי, מחפשים baseline למשימה עברית, או בודקים משאבי ML ליידיש. אל תשתמשו למאגרי NLP ערבי, חיפוש כללי ב-HuggingFace Hub, או בחירת דאטהסט OCR עברי (hebrew-ocr-forms).
ציון אמינות 88/100 (אמין) · 7+ התקנות · 3 תורמים ב-GitHub · רישיון MIT
קהילת ה-ML הישראלית חזקה לגודלה, אבל המאגרים והמודלים מפוזרים. ivrit.ai מפרסמת קורפוסי דיבור עברי ברמה עולמית בארגון HuggingFace אחד, Dicta מפרסמת מודלי LLM ו-BERT עבריים בארגון אחר, התכנית הלאומית ל-NLP מתחזקת בנצ'מרקים תחת HebArabNlpProject. הרישיונות משתנים מידידותי-מסחרי-מלא עד מחקר-בלבד. חוקר שמנסה לבחור את השילוב הנכון ל-fine-tuning של סיווג סנטימנט על צ'אט תמיכה עברי למוצר מסחרי צריך לחפש בחמישה ארגונים ולקרוא כל dataset card.
npx skills-il add skills-il/developer-tools --skill hebrew-ml-datasets-navigator -a claude-codeאני רוצה לאמן מודל סיווג סנטימנט על צ'אט תמיכת לקוחות בעברית למוצר SaaS מסחרי. איזה דאטהסט להשתמש, איזה מודל התחלתי, ומה הרישיון אומר לגבי ייחוס?
אני בונה מוצר תמלול פודקאסטים בעברית. מה ivrit.ai מציעה, איזה מודל ASR להשתמש בפרודקשן עם latency נמוך, ואיך אני מטפל במספר דוברים?
צריך LLM עברי שרץ על חומרת צרכן (לא יותר מ-16GB VRAM) למוצר עברי. מה Dicta מציעה, מה ההבדלים בין הגדלים, ומה הרישיונות של ה-upstream?
אני חוקר יידיש ומחפש דאטהסטים ומודלים לזיהוי דיבור ולעיבוד טקסט. מה זמין ב-2026 ומה הרישיונות?
מפתחים אפליקציות פול-סטאק על פלטפורמת Base44 עם ה-SDK של JavaScript: פעולות CRUD, אימות משתמשים, סוכני AI, פונקציות שרת, אינטגרציות ומנויים בזמן אמת.
בונים בוטים לטלגרם עם grammY, Telegraf או python-telegram-bot. מכסה Bot API v9.5, webhooks מול polling, מקלדות אינליין, פקודות, middleware, תשלומים, Mini Apps וטיפול בהודעות בעברית עם RTL. השתמשו כשבונים בוט טלגרם, מגדירים webhooks, מטפלים בהודעות בעברית בתוך בוט או משלבים תשלומים דרך טלגרם. אל תשתמשו לבוטים של וואטסאפ (תשתמשו ב-israeli-whatsapp-business), בוטים קוליים (תשתמשו ב-hebrew-voice-bot-builder) או עיצוב צ'אטבוטים כללי (תשתמשו ב-hebrew-chatbot-builder).
בדקו והשוו LLM-ים על משימות עבריות: הבנת הנקרא (HeQ), סנטימנט, Winograd, תרגום, סיכום, ניקוד וטריוויה ישראלית. עוטף את ה-Open Hebrew LLM Leaderboard ואת חבילת ה-DictaLM 3.0 לכדי Harness הערכה חוזר ומניב. מריץ מול Claude, GPT, Gemini, AI21 Jamba, DictaLM, Llama ומודלים מקומיים מ-HuggingFace. מפיק scorecard בפורמט JSON ו-markdown עם פירוט לפי משימה. השתמשו כשצריך לבחור LLM למוצר עברי, לענות על שאלות רכש לגבי ביצועים בעברית, לאמת מודל עברי שעשיתם לו fine-tuning, או לעקוב אחרי רגרסיות עבריות אחרי שדרוג. אל תשתמשו להערכה של NLP ערבי, בנצ'מרק של זיהוי דיבור (ivrit.ai leaderboard), או בנצ'מרקים כלליים באנגלית.
רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל