בדקו והשוו LLM-ים על משימות עבריות: הבנת הנקרא (HeQ), סנטימנט, Winograd, תרגום, סיכום, ניקוד וטריוויה ישראלית. עוטף את ה-Open Hebrew LLM Leaderboard ואת חבילת ה-DictaLM 3.0 לכדי Harness הערכה חוזר ומניב. מריץ מול Claude, GPT, Gemini, AI21 Jamba, DictaLM, Llama ומודלים מקומיים מ-HuggingFace. מפיק scorecard בפורמט JSON ו-markdown עם פירוט לפי משימה. השתמשו כשצריך לבחור LLM למוצר עברי, לענות על שאלות רכש לגבי ביצועים בעברית, לאמת מודל עברי שעשיתם לו fine-tuning, או לעקוב אחרי רגרסיות עבריות אחרי שדרוג. אל תשתמשו להערכה של NLP ערבי, בנצ'מרק של זיהוי דיבור (ivrit.ai leaderboard), או בנצ'מרקים כלליים באנגלית.
ציון אמינות 85/100 (אמין) · 7+ התקנות · 3 תורמים ב-GitHub · רישיון MIT
צוותי מוצר ישראליים בוחרים LLM-ים בעיוורון. אין בנצ'מרק עברי סטנדרטי שאפשר להריץ בשעתיים כדי להשוות Claude מול GPT מול DictaLM מול AI21 Jamba על מקרה שימוש אמיתי. ה-Open Hebrew LLM Leaderboard של HuggingFace בנוי למודלי בסיס ול-few-shot, לא למודלי צ'אט הסטד. DictaLM מפרסמת תוצאות אבל רק על החבילה שלה. הצוותים מנחשים, בודקים באופן לא פורמלי, או סומכים על הצהרות שיווקיות.
npx skills-il add skills-il/developer-tools --skill hebrew-llm-eval-suite -a claude-codeאנחנו בונים פיצ'ר סיכום חדשות בעברית וצריכים לבחור בין Claude Sonnet, GPT-5, ו-DictaLM-3.0-24B. הרץ בנצ'מרקים רלוונטיים (HeQ, DictaLM Summarization, Winograd) עם 1000 דוגמאות ו-3 ריצות, והמלץ לי על מודל עם הסבר.
Anthropic שחררה גרסה חדשה של claude-sonnet. הרץ את חבילת hebrew-core על הגרסה החדשה והקודמת והגד לי אם הייתה רגרסיה ביותר מ-2 נקודות באיזה בנצ'מרק.
אני בונה צ'אטבוט בעברית ואני מתלבט בין Claude Haiku ל-AI21 Jamba 1.5 Mini. בצע השוואה על HeQ, HebrewSentiment, ו-HebNLI עם 500 דוגמאות ו-3 ריצות, וספק scorecard עם המלצה.
יש לנו מגבלת data residency שמחייבת מודל מקומי. הרץ בנצ'מרקים עבריים על DictaLM-3.0-Nemotron-12B-Instruct והשווה לאיכות Claude Sonnet. כמה איכות אני מאבד בהשוואה?
מפתחים אפליקציות פול-סטאק על פלטפורמת Base44 עם ה-SDK של JavaScript: פעולות CRUD, אימות משתמשים, סוכני AI, פונקציות שרת, אינטגרציות ומנויים בזמן אמת.
בונים בוטים לטלגרם עם grammY, Telegraf או python-telegram-bot. מכסה Bot API v9.5, webhooks מול polling, מקלדות אינליין, פקודות, middleware, תשלומים, Mini Apps וטיפול בהודעות בעברית עם RTL. השתמשו כשבונים בוט טלגרם, מגדירים webhooks, מטפלים בהודעות בעברית בתוך בוט או משלבים תשלומים דרך טלגרם. אל תשתמשו לבוטים של וואטסאפ (תשתמשו ב-israeli-whatsapp-business), בוטים קוליים (תשתמשו ב-hebrew-voice-bot-builder) או עיצוב צ'אטבוטים כללי (תשתמשו ב-hebrew-chatbot-builder).
נווטו את הנוף המפוצל של מאגרי ML ומודלים בעברית וביידיש: ivrit.ai (יותר מ-22 אלף שעות אודיו עברי, מודלי ASR של whisper-large-v3, מודלי יידיש), Dicta (משפחת DictaLM 3.0, וריאנטים של DictaBERT, HeQ), התכנית הלאומית ל-NLP (HebrewSentiment, HebNLI), AlephBERT, ומליאות הכנסת. עוזר לחוקרים ומהנדסי ML לבחור את הדאטהסט הנכון לפי משימה, רישיון (מסחרי או מחקר), כיסוי רגיסטר עברי, והתאמת דאטהסט למודל. השתמשו כשבוחרים נתוני אימון לפרויקט NLP או ASR עברי, מוודאים תאימות רישיון למוצר מסחרי, מחפשים baseline למשימה עברית, או בודקים משאבי ML ליידיש. אל תשתמשו למאגרי NLP ערבי, חיפוש כללי ב-HuggingFace Hub, או בחירת דאטהסט OCR עברי (hebrew-ocr-forms).
רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל