המילים הנפוצות ביותר בעברית

המילים הנפוצות ביותר בעברית

האם יש איפשהו ברשת רשימה של המילים הנפוצות ביותר בשפה העברית (הכתובה), ככלי עזר למורים?
(באנגלית יש דבר כזה, רשימת מילים נפוצות ע"פ מילון אוקספורד)

הייתי שמחה למצוא רשימה כזאת שתעזור לי ביצירת דפי קריאה .(כן, יש מיליון דפי קריאה ברשת, ורובם או ברמה גבוהה מדי לילד המדובר, או נמוכה מדי, או יבשים ומשעממים עד דמעות)
 

trilliane

Well-known member
מנהל
לא מכירה רשימה כזאת, היעזרי במילון כיס


או במילונים אחרים המיועדים לתלמידים. לדוגמה, למילון "רב מילים" יש גרסה לתלמידים בשם "רב מילים הצעיר" וניתן לרכוש אותה בתקליטור.

כמו כן "מילון ההווה" המגדיר את עצמו כ"מילון שימושי לעברית התקנית", הוא מילון קומפקטי במיוחד ומצומצם בערכיו במטרה להיות כזה, ולשם כך הוא מתמקד רק במילים שימושיות בעברית החדשה (ולא בכל מיני מילים נדירות מהמקרא, למשל). אבל הוא לא ייעודי לילדים.
 

יאקים2

New member
אם אינני טועה, בשנות החמישים והשישים פרסם

איש חינוך בשם ריגר, נדמה לי שהוא היה מפקח, רשימת מילים נפוצות לצורך מורים בביה"ס היסודי.
אני מציע לך לחפש בגוגל.
 

trilliane

Well-known member
מנהל
האם המילים הנפוצות לפני 50 שנה נותרו כאלה?

שאלה מעניינת...
 

יאקים2

New member
אכן, יש להניח שלא, אבל לפחות תהיה לשואלת

אינדיקציה מה היה אז נפוץ, וכבר נדיר כיום. מלבד זאת, ייתכן שבגוגל יפנו אותה למקבץ שמות עדכני....
 

trilliane

Well-known member
מנהל
בגיגול מהיר לא מצאתי לכך זכר, אבל לא חפרתי

 
בהחלט יש מידע כזה, ואף נתונים סטטיסטיים

מדויקים לאורך שנים מקורפוסים גדולים של ספרים בעברית. לא מצאתי ספציפית את הרשימה הזאת, אבל ניתן לחשב אותה מנתונים גולמיים שניתן להוריד מ-Google Ngram Viewer.

מה זה Google Ngram Viewer והסבר על אפשרויות חיפוש מתקדמות בו:
https://books.google.com/ngrams/info

הסבר על הנתונים והורדת הנתונים עבור שפות רבות כולל עברית:
http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

קיימים כלים רבים לעבודה עם הנתונים של Google Ngrams, שמיועדים לסטטיסטיקאים, אנליטיקאים או מתכנים. מספיק לחפש בגוגל Google Ngram בצירוף מילים כמו Excel, SQL, R, script, analyze וכו'.

ובכל זאת כמה רשימות טופ 10 שהצלחתי לחלץ:
עשר המילים הנפוצות בעברית שסווגו כפעלים: http://bit.ly/It7zu1
כשמות עצם: http://bit.ly/1c92SAT
כשמות תואר: http://bit.ly/1bWkexu
(אפשר לראות שיש טעויות בסיווג, אבל בסך הכול הרשימות נראות הגיוניות)

אפשר להמשיך כך עם חלקי דיבר נוספים:


*ADJ_ adjective
*ADV_ adverb
*PRON_ pronoun
*DET_ determiner or article
*ADP_ an adposition: either a preposition or a postposition
*NUM_ numeral
*CONJ_ conjunction
*PRT_ particle


וכמה תובנות היסטוריות משעשעות לסיום:
http://www.informationisbeautiful.net/visualizations/google-ngram-experiments/

אם את מגיעה למסקנות כלשהן, אשמח אם תשתפי
 
למעלה