מילון של חרוזים אספרנטיים

Namiro

New member
טוב, ניתן לזיף להנות מהספק

לגבי הקורפוס - כדי שיהיה מייצג חילקתי אותו לשלושה חלקים שווים באורכם, כנהוג במקומותינו:
חלק ראשון - טטואבה - ראיתי שמעל 100,000 משפטים הפילוג כבר לא משתנה.
חלק שני - ספרות - ספרים שלמים מתוך מה שיש חופשי ברשת. רשמתי כמה דוגמאות בתשובה לשאלתך הבאה. אבל היו עוד די הרבה.
חלק שלישי - מאמרים - שנה שלמה של כתב העת אספרנטו, מאמרים של קלוד פירון (כגון la bona lingvo) ואחרים.

עשיתי זאת לפני שנה בערך. המטרה היתה לקבל רשימת תדירויות, כדי להכין ישום ללמידת מלים. ואכן כתבתי ישום כזה ב-HTML, ל-5000 המלים הנפוצות ביותר. יש מישהו היכול לסייע להפוך אותו לישום לאנדרואיד ודומיו? אז הוא היה יכול להיות שימושי גם לאחרים.
 

kabeemulo

New member
האם הישום זמין ברשת?

אשמח לראות במה מדובר; יתכן שאוכל לעזור להפכו ל"אפליקציה".
 

Namiro

New member
הישום אינו זמין ברשת

אבל אשמח לשלוח לך אותו - שלחתי לך מסר אישי - ענה לי שם.
 

Eldad S

New member
תודה רבה, אמיר.

מעניין, ומסקרן.
אותי פחות מעניינים המספרים הסטטיסטיים, אבל באמת מעניין לראות אם בדיקה בשפות אחרות (לא באספרנטו) עונה לחוק.
לגבי הורדת כל המשפטים בשפה מסוימת בטטואבה - אולי הייתי מודע לאפשרות הזאת, אבל לא ידעתי איך לבצע אותה.
אנסה לבדוק שוב באתר.
 

DoronModan

New member
גם אני הייתי שמח לבדוק את חוק זיפף על טטואבה בשפה אחרת

תוכל להביא נתונים? כי לתחושתי שהסטייה מהחוק הנ"ל מעידה יותר על המשפטים בטטואבה מאשר על השפה.
מצד שני, השכלת ל
אנחנו רואים שהחוק מתחיל להתקלקל במילה mi, לא? כי שכיחותה (המילה במקום השלישי) דומה לשכיחות של המילה במקום השני. מה זה אומר? שאספרנטיסטים הם אגוצנטרים במיוחד? (אמנם ידוע שהמילה 'אני' מאוד נפוצה בכל השפות, אבל כאן זה כבר מוגזם...)

ובעניין ההצעה לדוקטורט, למרות שיש לי עניין לא מבוטל בשכיחויות מילים, ואף למדתי על זה קורס שלם בגרמניה בנושא שנקרא stylometry, העובדה היא שאני עושה כעת דוקטורט בנושא אחר.
אמנם יש לא מעט אספרנטיסטים שעשו יותר מדוקטורט אחד... אבל תן לי לגמור את הנוכחי...
 

Namiro

New member
חוק זיף באנגלית

אין כל קושי לחזור על הבדיקה עבור אנגלית - למשל לשלוף משפטי טטואבה באנגלית ולבדוק תדירויות. מצריך רק קצת זמן.
אבל אין ספק שהחוק נבדק עבור אנגלית בעבר. מחיפוש קצר ברשת עולה כי התוצאות לא רחוקות ממה שמצאתי לגבי אספרנטו. ראה למשל את [URL]http://www.hermetic.ch/wfca/zipf.htm[/URL]
גם כאן יש שלוש מלים במקום השני, בתדירויות דומות. מאוד דומה לאספרנטו. אז אולי זה רק מחזק את ההשערה כי האספרנטו היא שפה ככל השפות מבחינת פילוג התדירויות...
 

kabeemulo

New member
אם תסתכל על הגרף תראה שהחוק די חוק.

צריך רק להבין שלא כל מלה תהיה "בדיוק על המילימטר", אלא שמדובר בנטייה סטטיסטית כללית.
 

Namiro

New member
בשכיחויות הראשונות

הדיוק אינו טוב. אבל אם מציגים את התוצאות בגרף לוגריתמי, זה לא מורגש, כי הדיוק הולך וגדל ככל שהשכיחויות יורדות.
 

kabeemulo

New member
הזכרת שני מקורות: ספרות וטטואבה. על איזו ספרות מדובר?

 

Namiro

New member
ספרות שניתן להוריד באינטרנט

כגון: 1984, ג'ין אייר, הנסיך הקטן, רצח באוריינט אקספרס, ואחרים.
 

kabeemulo

New member
האם מדובר בדברים אקראיים שהגעת אליהם,

או שמא ישנו איזשהו מאגר (בנוסף לפרויקט גוטנברג)?
 

Namiro

New member
יש כמה אתרים

עם ספרים שלמים באספרנטו לשימוש חופשי. אתה רוצה קישורים? אין כל בעיה להגיע אליהם. דווקא בפרוייקט גוטנברג אין כל כך הרבה חומר באספרנטו.
 

DoronModan

New member
אתה חושב שחוקיות של חרוזים תקפה לשפה ספציפית?

נכון שיש סיומות טיפוסיות, אבל גם משורר/מתרגם שמחפש חרוז לסיומת לא טיפוסית צריך לקבל מענה
העקרונות לא זהים בכל השפות, חוץ מזה שהתפלגות החרוזים תהיה שונה בהתאם לשפה?
 

kabeemulo

New member
נראה לי שהעקרונות אכן זהים בכל השפות, אבל

העקרונות הכלליים האלה הם די מסובכים, ואם ספציפית באספרנטו עסקינן אז זה הרבה יותר פשוט, בגלל מבנה המלים ובגלל מקום הטעם הקבוע, ולכן יש טעם בדיון ספציפי לאספרנטו.
 

kabeemulo

New member
באספרנטו זה יחסית קל לעשות, כי הצורה הכתובה אומרת הרבה.

אני יכול לכתוב את התכנה, ואולי אפילו להנגיש אותה ברשת – מישהו רק צריך להביא רשימת מלים.
 

kabeemulo

New member
תודה! השתמשתי בזה בשביל גרסה ראשונית


האמת היא שאני לא שש לשים את זה על השרת שלי עצמי כרגע. האם מישהו יכול להעמיד לרשות העניין שרת (שיכול להריץ פייתון 3, עדיף ב־WSGI)?
 

DoronModan

New member
שווה להעלות את זה

בלי קשר למה שכתבתי לעיל על שכיחויות ומעורבות המשתמש
 
למעלה