מילון של חרוזים אספרנטיים

מיכי 10

Member
ידוע לי רק שבוזוקיא התעניין בכך לפני כמה חודשים. והוא התכוון

אפילו אולי, להכין בעצמו, אם אין. אבל הוא כנראה כל כך עסוק עדיין בלימודים, שֶׁמִן הסתם לא הספיק עד עתה.
אחרת בטח היה משתף אותנו.
 

Eldad S

New member
מילון די טוב.

זה אכן מילון לא רע לחריזה באספרנטו.
אבל אם רוצים חריזה מושלמת, או חלקית - צריך לחפש בין המילים את מה שמתאים יותר.
למשל, אני חיפשתי pritrakto, ומצאתי למעלה מ-1,800 מילים אפשריות, שברובן הן מסתיימות ב-to, לא ב-kto. רק חלקן מסתיימות ב-kto.
 

DoronModan

New member
אכן יש דרגות חריזה

למשל בשירת ימי הביניים דרגו את החרוזים כך:
חרוז עובר – עיצור והתנועה שלפניו: אבד – מחמד
חרוז ראוי – 2 עיצורים והתנועה שביניהם: לשמר - יגמר
חרוז משובח – 3 עיצורים והתנועות שביניהם: דברים – גברים

תקופה מסוימת עבדתי מול דניאל קולקר (בן הדוד של) על תרגומי יונה וולך. היה חרוז שלא מצא חן בעיני קולקר. בשיחה מאוחר יותר שאלתי אותו מה דעתו על החרוז ligis-faligis. הוא ענה במילה: luksa

אם בדוגמה שציינת, מילים מסתיימות ב-to, אז mato ו-mito הם חרוזים לכאורה, וזה לא נשמע לי נכון. אבל mato ו-sato כבר כן חרוזים
 

kabeemulo

New member
נראה לי שחלק מהעניין הוא הטעם,

והיות שהטעם נופל על ההברה שלפני ה־to ה־to איננו מספיק וצריך גם את התנועה שלפניו.
 

DoronModan

New member
הערה מעניינת

אם נשווה את ה-to של אספרנטו לצמד:
אשתו
עטו
אמנם זה לא החרוז הכי מוצלח בעולם, אבל זה בהחלט חרוז.
אשמח אם בצד מילון החריזה (אגב, באיזו שפת תכנות אתה מתכוון לבצע את זה?) או אפילו לפני יצירת המילון, תעלה בפנינו את העקרונות של המילון, כלומר מה יכול להיחשב חרוז באספרנטו.
 

kabeemulo

New member
כבר כתבתי גרסה ראשונית של התוכנה. מה שהיא עושה פשוט מאד:

מזינים לה מחרוזת והיא מוצאת מלים/שורשים שמסתיימים במחרוזת הנתונה. כאמור לעיל, בשפה אחרת זה יכול היה להיות הרבה יותר מסובך, אבל בשביל אספרנטו זה מספיק!

זה אומר שהמשתמש יכול להחליט בעצמו מהי מידת החריזה שהוא מחפש. לדוגמה, נניח אני מחפש חרוז למלה paco. אז אני יכול להזין לתכנה aco (או ac) ולקבל בין היתר מלים כמו donaco, או שאם אני רוצה שגם העיצור הקודם יהיה תואם אני מזין paco (או pac) ומקבל פחות או יותר רק את paco ואת spaco (או מלים מורכבות עם הרכיבים האלה).

האם יש פונקציונליות שנראה לך או למישהו שצריך להוסיף?

(ולשאלתך: בפייתון, כמובן.)
 

DoronModan

New member
למדתי מזה משהו חשוב

מכיוון שאין לי נסיון רב כמתכנת, בכלל לא חשבתי על האפשרות לתת למשתמש להחליט איזה דרגת חריזה הוא רוצה.
אני חשבתי אולי תגדיר למחשב (ולנו) מה נחשב חרוז באספרנטו באופן כללי, לא בהקשר למילה מסוימת. בכך אתה מקל קצת על המשתמש שאיננו צריך 'להסביר' למחשב שום דבר.
[בשביל זה צריך שמה שהמשתמש כותב זה המינימום, שכן אם מישהו מחפש חרוז ל-paco ומבקש מילים שמסתיימות ב-aco הן צריכות להסתיים לפחות ב-aco כך שהוא יכול להסתפק ב-donaco, אבל לא יתנגד גם לחרוז טוב יותר כ-spaco]
ברוח מה שאלדד כתב, היה רצוי לפתוח במילים עם החרוזים הטובים יותר, ולקנח בזוטרים יותר.
אפשר לשדרג את זה עוד יותר, ולגרום לסדר המילים להיות לפי תדירות השימוש בהן. אני מניח שבין החרוזים יימצא רוב למילים בלתי-שימושיות בעליל, שאין טעם להשתמש בהן בשירה, ויקל על המשתמש למצוא את דרכו בתוך סבך המילים, אם ראשית ייתקל במילים הנפוצות יותר.
 

kabeemulo

New member
בוא(ו) נחשוב ביחד אילו סוגי חרוזים יתכנו באספרנטו

ואיך בדיוק מגדירים אותם.
&nbsp
אם נסתכל על מלה טיפוסית באספרנטו, ונתעלם מסיומות הרבים והאקוזטיב, היא נגמרת באחת הסיומות o, a, e, i, as, is, os, us, u. לפני הסיומת ישנו רצף עיצורים (עיצור אחד או יותר או לפעמים אפס עיצורים) ולפניו תנועה מוטעמת.
&nbsp
נראה לי שהדרישה המינימלית לחריזה היא שוויון מוחלט בכל אלו. או שאולי זה מחמיר מדי, ובמקרה של צרור עיצורים מספיק גם שוויון חלקי (למשל etro ו־estro)?
&nbsp
אפשר כנראה לדבר על חריזה משובחת יותר ככל שיותר הגאים קודמים גם הם זהים. בדוגמה שלי בהודעה קודמת דיברתי גם על העיצור שלפני התנועה המוטעמת. האם יש טעם לדבר על יותר מעיצור אחד במקרה של צרור? האם יש טעם לדבר גם על התנועה שלפני כן?
&nbsp
ומה קורה עם מלים לא טיפוסיות? נראה לי שהמצב לא שונה בהרבה, רק שתתכנּה עוד סיומות אפשריות (כולל סיומת האפס במלים לא טיפוסיות בנות הברה אחת או במלים עם אפוסטרוף).
&nbsp
וכן, אני יכול לתכנת את המחשב לזהות את האלמנטים המוזכרים לעיל ולמצוא חרוזים שונים ומשונים ולמיין אותם בהתאם. לאו דוקא במקום לתת למשתמש שליטה, אלא בנוסף.
&nbsp
לגבי מיון התוצאות לפי עד כמה הן נפוצות בשפה, אשמח להוסיף גם את הפיצ'ר הזה – אבל צריך את המידע הזה בשביל זה...
 

DoronModan

New member
בוזוקיא, האם נתקלת ברשת ברשימת שכיחויות באספרנטו?

אולי זה נשמע כאילו אני סתם נטפל לנקודה, אבל kabeemulo, אם ניסית כבר את התכנה שלך, האם תוכל לאשש או להפריך את ההשערה שיש בזה צורך?
ב-rimvortaroj שנעשו על ידי אדם והודפסו כספרים יש רשימות חרוזים שניכר שעובדו בידי אדם. כי הן קצרות יחסית, ועדיין מכילות את כל המילים שאספרנטיסט טוב מכיר, ולא מילים מוקרצות.
אם יהיו גם מילים שכיחות יחסית וגם מילים מוקרצות, המילים השכיחות הרי לא יופיע בפרופורציה למספר ההופעות שלהן, אלא פעם אחת, ולכן עלולות להיבלע בתוך מבול המילים.

אפשרות אחרת היא לקחת מילון שמלכתחילה איננו שלם, אבל אולי מישהו דווקא כן ירצה מילה נדירה בתור חרוז.

הנה משהו מעניין, למקרה שלא שמעתם עליו
https://eo.wikipedia.org/wiki/Leĝo_de_Zipf
ו-200 המילים השכיחות באספרנטו:
https://en.wikipedia.org/wiki/Most_common_words_in_Esperanto
כתוב שזה חושב מתוך קורפוס אספרנו בפרוייקט גוטנברג.
http://www.gutenberg.org/ebooks/search/?query=esperanto
כך שאם לא קיימת רשימה זמינה של שכיחויות, אולי מישהו מחכמי המחשב שלנו יוכל ליצור רשימה כזו.
ושאלה שלי: האם מי שיוצר רשימה כזו שואב את הטקסטים באופן אוטומטי, או שהוא עושה העתק-הדבק לאחר שהוא פותח ידנית כל קישור?
 

kabeemulo

New member
מספר הערות:

נראה לי שברוב המקרים אין בזה ממש צורך, כי מספר החרוזים איננו גדול. אבל עם סיומות ספציפיות הוא כן, אז לפחות בשבילן אולי זה באמת פיצ'ר מועיל.
&nbsp
יש ברשותי rimvortaro בצורת ספר מנייר, ויש בו המון מלים שאינני מכיר.
&nbsp
הכרתי את "חוק זיף", אבל תמיד נחמד להזכר (ועוד באספרנטו) – תודה

&nbsp
טבלת השכיחויות שקשרת אליה מעלה המון תהיות. מעבר לזה שהיא סופרת בנפרד הטיות שונות של אותה מלה (די בהתחלה מופיעים בנפרד estas ו־estis, למשל) – מה שיכול להיות רצוי או לא – אני מטיל ספק ברצינותו של הקורפוס (שאחת מ־200 המלים הנפוצות בו היא arbaristo, ועוד במקום הרבה יותר גבוה מ־internacia, למשל).
&nbsp
בהנתן קורפוס זה לא מאד קשה לבנות טבלת שכיחויות. נראה לי שפעם אפילו היה לי קורפוס כזה על המחשב – עד שנדפק לי ההארדדיסק
יכול להיות שאני יכול להשיגו מחדש.
&nbsp
לא כל כך הבנתי את שאלתך האחרונה. באופן כללי בהנתן רשימת קישורים דומים זה לזה (שכל הקישורים נתונים באותו פורמט ושהתוכן שאליו מגיעים מכל קישור הוא באותו פורמט) לא מאד קשה לכתוב בוט ש"שואב" מהם את הטקסטים באופן אוטומטי (בהנחה שאין שם מבחני אנושיות). ככל שיש יותר גיוון בעיבוד הדרוש לכל קישור וקישור יותר קשה לעשות את זה אוטומטית.
 

Namiro

New member
בדיקת חוק זיפף באספרנטו

בטבלאות השכיחויות בדרך כלל נותנים רק דרוג ולא שכיחות, וכך לא ניתן לבדוק את נכונות החוק. לכן ניסיתי לבדוק בעצמי. להלן טבלת 100 המלים השכיחות, מתוך סריקת טכסט של מאות אלפי משפטים (ספרות, TATOEBA). אחרי כל מלה מופיע כמה פעמים היא הופיעה, ומיקומה היחסי (מאחד עד 100 לפי הסדר). נראה שהחוק לא עובד באספרנטו...

1 la 46674
2 kaj 20717
3 mi 20164
4 esti 19614
5 de 14363
6 li 12441
7 ne 12141
8 al 10922
9 en 9232
10 ke 9162
11 vi 8111
12 ĝi 6853
13 kiu 6494
14 ŝi 6054
15 sed 5429
16 tiu 5400
17 diri 4996
18 por 4755
19 ili 4694
20 mia 4424
21 tio 4360
22 pri 4285
23 povi 3975
24 ni 3793
25 kun 3563
26 kiel 3481
27 sia 3128
28 pli 2963
29 lia 2935
30 ĉu 2838
31 el 2691
32 kiam 2640
33 se 2465
34 nur 2437
35 sur 2436
36 per 2346
37 kio 2264
38 havi 2233
39 alia 2192
40 oni 2143
41 ĉi 2063
42 unu 1972
43 scii 1958
44 ĉar 1897
45 ĉiu 1895
46 dum 1880
47 tre 1830
48 via 1827
49 tiel 1817
50 tie 1812
51 fari 1711
52 vidi 1709
53 da 1683
54 ol 1576
55 ĉe 1557
56 eĉ 1556
57 nun 1480
58 post 1478
59 aŭ 1474
60 devi 1434
61 tute 1393
62 sinjoro 1343
63 ŝia 1341
64 eble 1337
65 jam 1275
66 pro 1250
67 du 1192
69 paroli 1143
70 iom 1135
71 granda 1120
72 voli 1095
73 iri 1052
74 tia 1043
75 veni 1039
76 senti 1002
77 ĉio 999
78 homo 986
79 do 961
80 kie 958
81 je 952
82 vorto 942
83 pensi 941
84 neniam 925
85 bone 916
86 nia 910
87 demandi 906
88 tempo 866
89 trovi 861
90 poste 858
91 okulo 828
92 viro 828
93 tuj 819
94 iu 818
95 afero 811
96 ja 810
97 tiam 806
98 ankaŭ 796
99 bona 792
100 okazi 784​
 

Eldad S

New member
אמיר, סרקת

מאות אלפי משפטים, כולל טטואבה?
על איזה קורפוס של טטואבה הסתמכת - איפה משיגים את הרשימה המלאה של משפטים באספרנטו שהועלו לטטואבה?
&nbsp
כתבת שהחוק לא פועל באספרנטו. לא התעמקתי יותר מדי בחוק, אני מודה, תוכל להסביר מה לא פועל באספרנטו?
תודה על הנושא המעניין שחקרת והעלית כאן.
 

Namiro

New member
הסברים:

לא סרקתי כלום. האתר טטואבה מאפשר להוריד את רשימת המשפטים השלמה בכל שפה. הורדתי את כל המשפטים באספרנטו. כתבתי תוכנה המחשבת תדירות מלים, והיא חישבה את התדירות של 15000 המלים הנפוצות ביותר. את המאה הראשונות כתבתי כאן.
את חוק זיף לא הכרתי, אלא ראיתי בקישור שנתן דורון בהודעה קודמת.
בויקיפדיה הוא מוגדר:
חוק זיף אומר ששכיחותה של מילה כלשהי בטקסט נשמעת לנוסחה הבאה: [ P(r)=P(1)/r]
[(P(r] - שכיחות מילה מסוימת בטקסט.
[ r] - דירוג המילה (rank) בטקסט.
[( P(1] - שכיחות המילה בעלת התדירות הגבוהה ביותר בטקסט.
כך, לפי חוק זיף, המילה הנפוצה ביותר תופיע בטקסט כפליים מהמילה השנייה (כלומר בעלת דירוג 2), פי שלושה יותר מהמילה השלישית בתפוצתה וכן הלאה. טקסטים ברוב השפות הטבעיות נשמעים לחוק זיף, אם כי אין עדיין הסכמה בקרב הבלשנים לגבי הסיבה.

לפי החוק ניתן לצפות כי בקורפוס נתון תופיע המלה השניה בתדירותה מחצית מתדירות המלה הראשונה, והשלישית תופיע שליש מהפעמים של המלה הראשונה וכן הלאה. אבל אם תביט ברשימת התדירויות שפרסמתי, תראה כי זה לא כך. אני מעתיק שוב את עשר הראשונות:
1 la 46674
2 kaj 20717
3 mi 20164
4 esti 19614
5 de 14363
6 li 12441
7 ne 12141
8 al 10922
9 en 9232
10 ke 9162
המלה השניה עונה לחוק (חצי הופעות מהראשונה) אבל השלישית כבר לא שליש, אלא דומה לשניה, וכך גם הרביעית.
היה מעניין לבדוק האם שפה טבעית עונה לחוק. אם כן, ואספרנטו לא, זה נושא מעניין למחקר - למה אספרנטו שונה. מישהו יכול לקבל כאן דוקטורט (דורון?)
 

kabeemulo

New member
חוק זיף (שהוא כזכור חוק אמפירי בלבד) מתימר להציע קירוב,

לא תוצאות מדויקות. לא השתכנעתי שהתוצאות שהראית כל כך רחוקות ממה שהוא חוזה.
&nbsp
כמו כן אני תוהה מה גודל הקורפוס ועד כמה הוא מיצג.
&nbsp
לגבי השוואה עם שפות אחרות: האם ניסית להוריד מטטואבה קורפוס של שפה אחרת ולראות איך זה שם?
 
למעלה