למה לא להשתמש ב-Exact Match כמטריקה ראשית ב-HeQ?

כי אקזקט מאצ'ינג על עברית שביר מאוד בגלל צורות סופית, ניקוד, ושינויים ברווחים. גם תשובות נכונות מקבלות ציון 0 ב-EM ללא נרמול. F1 על שורות נורמליזציה הוא המטריקה האמינה.

כמה דוגמאות צריך לכל בנצ'מרק?

מינימום 500, רצוי 1000+. בנצ'מרקים קטנים כמו Hebrew Winograd עם פחות מ-300 פריטים דורשים מספר ריצות (לפחות 3) כדי לקבל הערכה אמינה עם סטיית תקן.

האם BLEU אמין לתרגום מעברית או אל עברית?

לא לבד. המורפולוגיה העשירה של עברית גורמת ל-BLEU להמעיט בהערכה. דווחו תמיד גם chrF, ובדקו ידנית דגימה של התוצאות הנמוכות.

איך אני משווה בהוגנות בין מודל בסיס (DictaLM-Base) למודל צ'אט (Claude)?

או שתשתמשו ב-few-shot prompting על שניהם, או שתשתמשו בגרסאות ה-Instruct של DictaLM (למשל DictaLM-3.0-Nemotron-12B-Instruct). השוואה zero-shot של chat prompt מול מודל בסיס מפלה את מודל הבסיס.

איך אני עוקב אחרי רגרסיות כשספקים משדרגים מודלים בלי הודעה?

לוגגו את מחרוזת הגרסה המדויקת שה-API מחזיר (claude-opus-4-6-20251001, לא רק claude-opus-4-6). שמרו scorecard לכל גרסה. הריצו שוב בכל שדרוג גדול. ההשוואה בין הגרסאות היא הרגרסיה.

חבילת הערכת LLM בעברית

אמין88/100

לפני שמחליטים האם להתקין, צ׳אט חי עם סקיל

בדקו והשוו LLM-ים על משימות עבריות: הבנת הנקרא (HeQ), סנטימנט, Winograd, תרגום, סיכום, ניקוד וטריוויה ישראלית. עוטף את ה-Open Hebrew LLM Leaderboard ואת חבילת ה-DictaLM 3.0 לכדי Harness הערכה חוזר ומניב. מריץ מול Claude, GPT, Gemini, AI21 Jamba, DictaLM, Llama ומודלים מקומיים מ-HuggingFace. מפיק scorecard בפורמט JSON ו-markdown עם פירוט לפי משימה. השתמשו כשצריך לבחור LLM למוצר עברי, לענות על שאלות רכש לגבי ביצועים בעברית, לאמת מודל עברי שעשיתם לו fine-tuning, או לעקוב אחרי רגרסיות עבריות אחרי שדרוג. אל תשתמשו להערכה של NLP ערבי, בנצ'מרק של זיהוי דיבור (ivrit.ai leaderboard), או בנצ'מרקים כלליים באנגלית.

הבעיה

צוותי מוצר ישראליים בוחרים LLM-ים בעיוורון. אין בנצ'מרק עברי סטנדרטי שאפשר להריץ בשעתיים כדי להשוות Claude מול GPT מול DictaLM מול AI21 Jamba על מקרה שימוש אמיתי. ה-Open Hebrew LLM Leaderboard של HuggingFace בנוי למודלי בסיס ול-few-shot, לא למודלי צ'אט הסטד. DictaLM מפרסמת תוצאות אבל רק על החבילה שלה. הצוותים מנחשים, בודקים באופן לא פורמלי, או סומכים על הצהרות שיווקיות.

skills-il כלי פיתוח|7התקנות948צפיות

0כתיבת ביקורת

1.0.0MITGitHub

7התקנות948צפיות

0כתיבת ביקורת

עודכן: 10 ביוני 2026|תגיות:הערכת-llm בנצ'מרק עברית HeQ DictaLM AI21-Jamba Claude GPT ml ישראל

npx skills-il add skills-il/developer-tools --skill hebrew-llm-eval-suite -a claude-code

התקנה דרך Claude.ai, Claude Desktop, ChatGPT, Manus ופלטפורמות נוספות

1. לחצו "הורדת ZIP" להורדת קבצי הסקיל.
2. פתחו את Claude Desktop ולכו ל-Customize > Skills.
3. לחצו על "+" ובחרו "Upload a skill", ואז העלו את קובץ ה-ZIP.
4. פתחו שיחה חדשה. הסקיל יופעל אוטומטית כשהנושא רלוונטי.

יצאה גרסה חדשה? איך מעדכנים את הסקיל שהתקנתם

לא בטוחים איך? קראו את המדריך

מתי להשתמש

כשצריך לבחור LLM למוצר עברי חדש ולהצדיק את הבחירה בפני הנהלה
כשצריך לענות על שאלות רכש של לקוח ארגוני לגבי ביצועים בעברית
כשאחרי שדרוג ספק צריך לבדוק אם היה שיפור או רגרסיה באיכות העברית
כשמאמתים מודל עברי שעשיתם לו fine-tuning מול baseline
כשמשווים בין ספקים על משימה ספציפית: הבנה, תרגום, סיכום, או ניקוד

נסו את הפרומפטים האלה

בחירת מודל סיכום

אנחנו בונים פיצ'ר סיכום חדשות בעברית וצריכים לבחור בין Claude Sonnet, GPT-5, ו-DictaLM-3.0-24B. הרץ בנצ'מרקים רלוונטיים (HeQ, DictaLM Summarization, Winograd) עם 1000 דוגמאות ו-3 ריצות, והמלץ לי על מודל עם הסבר.

רגרסיה אחרי שדרוג

Anthropic שחררה גרסה חדשה של claude-sonnet. הרץ את חבילת hebrew-core על הגרסה החדשה והקודמת והגד לי אם הייתה רגרסיה ביותר מ-2 נקודות באיזה בנצ'מרק.

בחירה בין Claude ל-Jamba

אני בונה צ'אטבוט בעברית ואני מתלבט בין Claude Haiku ל-AI21 Jamba 1.5 Mini. בצע השוואה על HeQ, HebrewSentiment, ו-HebNLI עם 500 דוגמאות ו-3 ריצות, וספק scorecard עם המלצה.

מודל מקומי מול ענן

יש לנו מגבלת data residency שמחייבת מודל מקומי. הרץ בנצ'מרקים עבריים על DictaLM-3.0-Nemotron-12B-Instruct והשווה לאיכות Claude Sonnet. כמה איכות אני מאבד בהשוואה?

שאלות נפוצות

סקילס קשורים

HyperFrames - שיטות עבודה מומלצות

אמין·88

יוצר: skills-il

v1.0.0

שיטות עבודה להפקת וידאו מקוד עם HyperFrames: קומפוזיציות שהן פשוט HTML + GSAP שמתרנדרות ל-MP4, עם תמיכה מלאה בעברית ו-RTL. הסקיל מסביר איך כותבים קומפוזיציה, מה עושים מאפייני data-* לתזמון, איך עובדים עם ה-Timeline של GSAP ושיטת Layout-Before-Animation, איך מטפלים ב-Visual Identity Gate, איך לטעון פונטים עבריים (Heebo, Rubik, Assistant) בלי `<link>` או `@import`, איפה שמים dir="rtl", איך מפיקים כתוביות עברית עם Whisper ומתמודדים עם קריינות בעברית כש-Kokoro המובנה לא תומך, איך להוסיף אפקטים שמגיבים לאודיו ומעברי סצנות, ואיך לעטוף טקסט מעורב עברית+אנגלית ב-<bdi>. מתאים לבניית תוכן וידאו מבוסס-HTML וסרטוני סושיאל ושיווק בעברית בלי React. לא מתאים ל-Remotion או לעבודת וידאו ב-React, שם השתמשו ב-remotion-best-practices.

צ׳אט חי עם סקיל

0.00910

Claude CodeCursorWindsurf+7

חיבורי Zapier לישראל

מאומת·94

יוצר: skills-il

v2.0.0פופולרי

בונים Zaps שמחברים אפליקציות עסקיות ישראליות (Morning/חשבונית ירוקה, קארדקום, טרנזילה, iCount, Grow) עם שירותים גלובליים לחיוב, תשלום ואוטומציה. כולל טיפול בעברית, פורמט מטבע שקלי, לוגיקת מע"מ דו-חודשית, רפורמת חשבוניות 2026 ויכולות AI של Zapier (Copilot, Agents, MCP). לא מתאים לתהליכי n8n או Make.com.

צ׳אט חי עם סקיל

0.016979

Claude CodeCursorGitHub Copilot+4

JFrog DevOps

אמין·87

יוצר: skills-il

v1.0.2פופולרי

מנהלים חבילות ב-Artifactory וסורקים אבטחה ב-Xray.

צ׳אט חי עם סקיל

0.0121,281

Claude CodeCursorGitHub Copilot+5

מצאתם בעיה בסקיל הזה?

השימוש על אחריותכם בלבד. תנאי שימוש · אבטחה

רוצים לבנות סקיל משלכם? נסו את יוצר הסקילס · הגשת סקיל

ביקורות (0)

אין ביקורות עדיין. כתבו את הביקורת הראשונה!

חבילת הערכת LLM בעברית

מתי להשתמש

נסו את הפרומפטים האלה

פרטים לסוכני AI ולמפתחים

ניתוח אבטחה

ציון איכות

נתוני ביצועים

שאלות נפוצות

למה לא להשתמש ב-Exact Match כמטריקה ראשית ב-HeQ?

למה לא להשתמש ב-Exact Match כמטריקה ראשית ב-HeQ?

כמה דוגמאות צריך לכל בנצ'מרק?

כמה דוגמאות צריך לכל בנצ'מרק?

האם BLEU אמין לתרגום מעברית או אל עברית?

האם BLEU אמין לתרגום מעברית או אל עברית?

איך אני משווה בהוגנות בין מודל בסיס (DictaLM-Base) למודל צ'אט (Claude)?

איך אני משווה בהוגנות בין מודל בסיס (DictaLM-Base) למודל צ'אט (Claude)?

איך אני עוקב אחרי רגרסיות כשספקים משדרגים מודלים בלי הודעה?

איך אני עוקב אחרי רגרסיות כשספקים משדרגים מודלים בלי הודעה?

סקילס קשורים

HyperFrames - שיטות עבודה מומלצות

חיבורי Zapier לישראל

JFrog DevOps

ביקורות (0)