חבילת הערכת LLM בעברית
אמין88/100בדקו והשוו LLM-ים על משימות עבריות: הבנת הנקרא (HeQ), סנטימנט, Winograd, תרגום, סיכום, ניקוד וטריוויה ישראלית. עוטף את ה-Open Hebrew LLM Leaderboard ואת חבילת ה-DictaLM 3.0 לכדי Harness הערכה חוזר ומניב. מריץ מול Claude, GPT, Gemini, AI21 Jamba, DictaLM, Llama ומודלים מקומיים מ-HuggingFace. מפיק scorecard בפורמט JSON ו-markdown עם פירוט לפי משימה. השתמשו כשצריך לבחור LLM למוצר עברי, לענות על שאלות רכש לגבי ביצועים בעברית, לאמת מודל עברי שעשיתם לו fine-tuning, או לעקוב אחרי רגרסיות עבריות אחרי שדרוג. אל תשתמשו להערכה של NLP ערבי, בנצ'מרק של זיהוי דיבור (ivrit.ai leaderboard), או בנצ'מרקים כלליים באנגלית.
ציון אמינות 88/100 (אמין) · 7+ התקנות · 3 תורמים ב-GitHub · רישיון MIT
צוותי מוצר ישראליים בוחרים LLM-ים בעיוורון. אין בנצ'מרק עברי סטנדרטי שאפשר להריץ בשעתיים כדי להשוות Claude מול GPT מול DictaLM מול AI21 Jamba על מקרה שימוש אמיתי. ה-Open Hebrew LLM Leaderboard של HuggingFace בנוי למודלי בסיס ול-few-shot, לא למודלי צ'אט הסטד. DictaLM מפרסמת תוצאות אבל רק על החבילה שלה. הצוותים מנחשים, בודקים באופן לא פורמלי, או סומכים על הצהרות שיווקיות.
npx skills-il add skills-il/developer-tools --skill hebrew-llm-eval-suite -a claude-codeהתקנה דרך Claude.ai, Claude Desktop, ChatGPT, Manus ופלטפורמות נוספות
- 1. לחצו "הורדת ZIP" להורדת קבצי הסקיל.
- 2. פתחו את Claude Desktop ולכו ל-Customize > Skills.
- 3. לחצו על "+" ובחרו "Upload a skill", ואז העלו את קובץ ה-ZIP.
- 4. פתחו שיחה חדשה. הסקיל יופעל אוטומטית כשהנושא רלוונטי.
מתי להשתמש
- כשצריך לבחור LLM למוצר עברי חדש ולהצדיק את הבחירה בפני הנהלה
- כשצריך לענות על שאלות רכש של לקוח ארגוני לגבי ביצועים בעברית
- כשאחרי שדרוג ספק צריך לבדוק אם היה שיפור או רגרסיה באיכות העברית
- כשמאמתים מודל עברי שעשיתם לו fine-tuning מול baseline
- כשמשווים בין ספקים על משימה ספציפית: הבנה, תרגום, סיכום, או ניקוד
נסו את הפרומפטים האלה
אנחנו בונים פיצ'ר סיכום חדשות בעברית וצריכים לבחור בין Claude Sonnet, GPT-5, ו-DictaLM-3.0-24B. הרץ בנצ'מרקים רלוונטיים (HeQ, DictaLM Summarization, Winograd) עם 1000 דוגמאות ו-3 ריצות, והמלץ לי על מודל עם הסבר.
Anthropic שחררה גרסה חדשה של claude-sonnet. הרץ את חבילת hebrew-core על הגרסה החדשה והקודמת והגד לי אם הייתה רגרסיה ביותר מ-2 נקודות באיזה בנצ'מרק.
אני בונה צ'אטבוט בעברית ואני מתלבט בין Claude Haiku ל-AI21 Jamba 1.5 Mini. בצע השוואה על HeQ, HebrewSentiment, ו-HebNLI עם 500 דוגמאות ו-3 ריצות, וספק scorecard עם המלצה.
יש לנו מגבלת data residency שמחייבת מודל מקומי. הרץ בנצ'מרקים עבריים על DictaLM-3.0-Nemotron-12B-Instruct והשווה לאיכות Claude Sonnet. כמה איכות אני מאבד בהשוואה?
שאלות נפוצות
סקילס קשורים
שיטות עבודה להפקת וידאו מקוד עם HyperFrames: קומפוזיציות שהן פשוט HTML + GSAP שמתרנדרות ל-MP4, עם תמיכה מלאה בעברית ו-RTL. הסקיל מסביר איך כותבים קומפוזיציה, מה עושים מאפייני data-* לתזמון, איך עובדים עם ה-Timeline של GSAP ושיטת Layout-Before-Animation, איך מטפלים ב-Visual Identity Gate, איך לטעון פונטים עבריים (Heebo, Rubik, Assistant) בלי `<link>` או `@import`, איפה שמים dir="rtl", איך מפיקים כתוביות עברית עם Whisper ומתמודדים עם קריינות בעברית כש-Kokoro המובנה לא תומך, איך להוסיף אפקטים שמגיבים לאודיו ומעברי סצנות, ואיך לעטוף טקסט מעורב עברית+אנגלית ב-<bdi>. מתאים לבניית תוכן וידאו מבוסס-HTML וסרטוני סושיאל ושיווק בעברית בלי React. לא מתאים ל-Remotion או לעבודת וידאו ב-React, שם השתמשו ב-remotion-best-practices.
בונים Zaps שמחברים אפליקציות עסקיות ישראליות (Morning/חשבונית ירוקה, קארדקום, טרנזילה, iCount, Grow) עם שירותים גלובליים לחיוב, תשלום ואוטומציה. כולל טיפול בעברית, פורמט מטבע שקלי, לוגיקת מע"מ דו-חודשית, רפורמת חשבוניות 2026 ויכולות AI של Zapier (Copilot, Agents, MCP). לא מתאים לתהליכי n8n או Make.com.
מנהלים חבילות ב-Artifactory וסורקים אבטחה ב-Xray.
השימוש על אחריותכם בלבד. תנאי שימוש · אבטחה
רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל