דלג לתוכן

חבילת הערכת LLM בעברית

אמין88/100
לפני שמחליטים האם להתקין, צ׳אט חי עם סקיל

בדקו והשוו LLM-ים על משימות עבריות: הבנת הנקרא (HeQ), סנטימנט, Winograd, תרגום, סיכום, ניקוד וטריוויה ישראלית. עוטף את ה-Open Hebrew LLM Leaderboard ואת חבילת ה-DictaLM 3.0 לכדי Harness הערכה חוזר ומניב. מריץ מול Claude, GPT, Gemini, AI21 Jamba, DictaLM, Llama ומודלים מקומיים מ-HuggingFace. מפיק scorecard בפורמט JSON ו-markdown עם פירוט לפי משימה. השתמשו כשצריך לבחור LLM למוצר עברי, לענות על שאלות רכש לגבי ביצועים בעברית, לאמת מודל עברי שעשיתם לו fine-tuning, או לעקוב אחרי רגרסיות עבריות אחרי שדרוג. אל תשתמשו להערכה של NLP ערבי, בנצ'מרק של זיהוי דיבור (ivrit.ai leaderboard), או בנצ'מרקים כלליים באנגלית.

ציון אמינות 88/100 (אמין) · 7+ התקנות · 3 תורמים ב-GitHub · רישיון MIT

הבעיה

צוותי מוצר ישראליים בוחרים LLM-ים בעיוורון. אין בנצ'מרק עברי סטנדרטי שאפשר להריץ בשעתיים כדי להשוות Claude מול GPT מול DictaLM מול AI21 Jamba על מקרה שימוש אמיתי. ה-Open Hebrew LLM Leaderboard של HuggingFace בנוי למודלי בסיס ול-few-shot, לא למודלי צ'אט הסטד. DictaLM מפרסמת תוצאות אבל רק על החבילה שלה. הצוותים מנחשים, בודקים באופן לא פורמלי, או סומכים על הצהרות שיווקיות.

skills-ilskills-ilכלי פיתוח
1.0.0MITGitHub
7התקנות948צפיות
0כתיבת ביקורת
npx skills-il add skills-il/developer-tools --skill hebrew-llm-eval-suite -a claude-code
התקנה דרך Claude.ai, Claude Desktop, ChatGPT, Manus ופלטפורמות נוספות
  1. 1. לחצו "הורדת ZIP" להורדת קבצי הסקיל.
  2. 2. פתחו את Claude Desktop ולכו ל-Customize > Skills.
  3. 3. לחצו על "+" ובחרו "Upload a skill", ואז העלו את קובץ ה-ZIP.
  4. 4. פתחו שיחה חדשה. הסקיל יופעל אוטומטית כשהנושא רלוונטי.
יצאה גרסה חדשה? איך מעדכנים את הסקיל שהתקנתם
לא בטוחים איך? קראו את המדריך

מתי להשתמש

  • כשצריך לבחור LLM למוצר עברי חדש ולהצדיק את הבחירה בפני הנהלה
  • כשצריך לענות על שאלות רכש של לקוח ארגוני לגבי ביצועים בעברית
  • כשאחרי שדרוג ספק צריך לבדוק אם היה שיפור או רגרסיה באיכות העברית
  • כשמאמתים מודל עברי שעשיתם לו fine-tuning מול baseline
  • כשמשווים בין ספקים על משימה ספציפית: הבנה, תרגום, סיכום, או ניקוד

נסו את הפרומפטים האלה

בחירת מודל סיכום

אנחנו בונים פיצ'ר סיכום חדשות בעברית וצריכים לבחור בין Claude Sonnet, GPT-5, ו-DictaLM-3.0-24B. הרץ בנצ'מרקים רלוונטיים (HeQ, DictaLM Summarization, Winograd) עם 1000 דוגמאות ו-3 ריצות, והמלץ לי על מודל עם הסבר.

רגרסיה אחרי שדרוג

Anthropic שחררה גרסה חדשה של claude-sonnet. הרץ את חבילת hebrew-core על הגרסה החדשה והקודמת והגד לי אם הייתה רגרסיה ביותר מ-2 נקודות באיזה בנצ'מרק.

בחירה בין Claude ל-Jamba

אני בונה צ'אטבוט בעברית ואני מתלבט בין Claude Haiku ל-AI21 Jamba 1.5 Mini. בצע השוואה על HeQ, HebrewSentiment, ו-HebNLI עם 500 דוגמאות ו-3 ריצות, וספק scorecard עם המלצה.

מודל מקומי מול ענן

יש לנו מגבלת data residency שמחייבת מודל מקומי. הרץ בנצ'מרקים עבריים על DictaLM-3.0-Nemotron-12B-Instruct והשווה לאיכות Claude Sonnet. כמה איכות אני מאבד בהשוואה?

שאלות נפוצות

סקילס קשורים

skills-ilיוצר: skills-il
v1.0.0

שיטות עבודה להפקת וידאו מקוד עם HyperFrames: קומפוזיציות שהן פשוט HTML + GSAP שמתרנדרות ל-MP4, עם תמיכה מלאה בעברית ו-RTL. הסקיל מסביר איך כותבים קומפוזיציה, מה עושים מאפייני data-* לתזמון, איך עובדים עם ה-Timeline של GSAP ושיטת Layout-Before-Animation, איך מטפלים ב-Visual Identity Gate, איך לטעון פונטים עבריים (Heebo, Rubik, Assistant) בלי `<link>` או `@import`, איפה שמים dir="rtl", איך מפיקים כתוביות עברית עם Whisper ומתמודדים עם קריינות בעברית כש-Kokoro המובנה לא תומך, איך להוסיף אפקטים שמגיבים לאודיו ומעברי סצנות, ואיך לעטוף טקסט מעורב עברית+אנגלית ב-<bdi>. מתאים לבניית תוכן וידאו מבוסס-HTML וסרטוני סושיאל ושיווק בעברית בלי React. לא מתאים ל-Remotion או לעבודת וידאו ב-React, שם השתמשו ב-remotion-best-practices.

0.00910
Claude CodeCursorWindsurf+7
skills-ilיוצר: skills-il
v2.0.0פופולרי

בונים Zaps שמחברים אפליקציות עסקיות ישראליות (Morning/חשבונית ירוקה, קארדקום, טרנזילה, iCount, Grow) עם שירותים גלובליים לחיוב, תשלום ואוטומציה. כולל טיפול בעברית, פורמט מטבע שקלי, לוגיקת מע"מ דו-חודשית, רפורמת חשבוניות 2026 ויכולות AI של Zapier (Copilot, Agents, MCP). לא מתאים לתהליכי n8n או Make.com.

0.016979
Claude CodeCursorGitHub Copilot+4
אמין·87
skills-ilיוצר: skills-il
v1.0.2פופולרי

מנהלים חבילות ב-Artifactory וסורקים אבטחה ב-Xray.

0.0121,281
Claude CodeCursorGitHub Copilot+5
מצאתם בעיה בסקיל הזה?

השימוש על אחריותכם בלבד. תנאי שימוש · אבטחה

רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל

ביקורות (0)

אין ביקורות עדיין. כתבו את הביקורת הראשונה!