מילון אספרנטו לקינדל

בוזוקיא

New member
מילון אספרנטו לקינדל

אני מחפש מילון אספרנטו לקינדל, ולבנתיים לא מצאתי משהו נורמלי. האם יש פה מישהו שיצא לו להתנסות עם אספרנטו וקינדל? אם כן אשמח להמלצה על מילון טוב.
 

DoronModan

New member
שווה לשאול בפורומים בעולם הרחב

סך הכל kindle זה דבר חדש יחסית וקשה לי להניח שמאז נוצר NPIV, ב-2002 בערך, הספיקו להכין גרסת קינדל. אבל יכול להיות שמישהו יצר כזו גרסה כזו ושווה להתעניין.
הייתי מציע לך לחפש מילון שנמצא כולו ברשימה בעמוד אינטרנט אחד, ואז להפוך אותו לקובץ שמתאים לקינדל (אני לא מתמצא בפורמט).
 

בוזוקיא

New member
תודה!

עשיתי מה שאמרת לגבי המילון ויצרתי משהו יחסית סביר (דרך אגב, אני אשמח להעלות אותו לפורום אם זה מעניין מישהו).
הבעיה העקרית היא שהמנגנון של הקינדל לא יודע לחלץ שורשים ולכן חייבים להכניס למילון את כל ההטיות האפשריות של השורש על מנת שהוא יהיה אפקטיבי.
לבינתיים הכנסתי (בנוסף למילים שכבר היו קיימות ברשימה) את כל ההטיות של הפועל לזמנים, את הריבוי ואת האקוזיטיב.
בשביל ליצור מילון מלא צריך לדעת קודם לבנות ביטוי רגולרי שידע לחלץ את שורשי המילים ולסווג אותן לקטגוריות המתאימות (פועל, שם עצם וכו'...) ואז להתחיל ליצור את הרשימה המלאה לפי חוקי השפה. יצירת ביטוי רגולרי כנ"ל היא הרבההה מעבר לרמתי ולכן אני אסתפק ברשימה החלקית:) אם מישהו פה במקרה נתקל כבר בביטוי רגולרי כזה אשמח אם תשתפו!
&nbsp
 

kabeemulo

New member
לא נתקלתי בביטוי הרגולרי הספציפי הזה בינתיים,

אבל דוקא באספרנטו זה אמור להיות ממש פשוט, בגלל הדקדוק הרגולרי (
). הייתי מתחיל ממשהו שמפריד את השורש מהסיומת הדקדוקית (ומתעלם, בשלב זה, מקידומות ומסיומות שבאות לפני הסיומת הדקדוקית, כמו ‎-in-, -id-, -et-, -eg-‎, כמו גם ‎-ant-, -int-, -ont-, -at-, -it-, -ot-‎ – על אלה אפשר לחשוב בהמשך). הביטוי עצמו יכול להראות משהו כמו
‎(.*)('?|aj?n?|oj?n?|en?|i|as|is|os|us)‎
(והשורש יִתָּפס ע"י הקבוצה הראשונה).
 

בוזוקיא

New member
זה אכן החלק היותר פשוט של הביטוי:)

אני התחלתי להסתבך כשגיליתי שאני לא בקיא מספיק בחוקים של "הרכבת" הסיומות. אני מניח שלכל סיומת יש קדימות מסויימת על פני האחרות, למשל נניח שאני רוצה להרכיב בצורה מלאכותית את המילה שמתארת "עובד בחוות סייחות קטנה".
השורש יהיה cxeval אבל איך אני עורם עליו את הסיומות ar, id, in, ist, et? זה חשוב כי על-מנת לחלץ את השורש, הביטוי הרגולרי חייב "לדעת" לסנן סיומות שלא נערמו בצורה נכונה ועשויות להצביע על כך שהן בעצם חלק מהשורש (או שהמילה אינה חוקית). למשל נסתכל על המילה nepopulara שמשמעה "לא פופלארי". אם היינו בונים ביטוי רגולרי טיפש, הוא היה מזהה את הסיומות הבאות:

-a : adjective ending
-ar- : denotes a collection of persons or objects

-ul- : (person characterized by the root

-op- : denotes a numeral collective
וכך הוא היה מסיק שהורש הוא nep שזה כמובן לא נכון.
דרך אגב גם המשימה לאחר מכן של להרחיב את רשימת השורשים במילים חוקיות היא בעייתית. בהתחלה חשבתי לתומי שאם יהיו בידי כל השורשים, אני פשוט אכניס למילון מילים חדשות שיתקבלו ע"י הוספה אקראית של סיומות לשורשים. בצורה זאת הייתי מקבל רשימה עם כמה מיליוני מילים שרובן לא חוקיות אך זה לא משנה, העיקר שכשאני אתקל בספר במילה חוקית, היא תופיע במילון וכך אני אדע מה השורש. הבעיה היא שמסתבר שהמילון של הקינדל מוגבל ל800 אלף ערכים ולכן אי אפשר לעשות זאת. צריך למצוא מנגנון שיודע לשלב רק סיומות חוקיות ולא סתם יורה לאוויר. קיצר יש כאן הרבה חומר למחשבה:)

ועוד דרך אגב, תרשו לי להמליץ בחום לכל אחד ואחד בפורום הזה לרכוש קינדל:) זה פריט חובה לדעתי לכל אדם שאוהב לקרוא בשפות זרות (כי אין הרבה חומר בעברית). הרבה נרתעים במחשבה שזה קשה לקרוא מתוך מכשיר אלקטרני אבל זה שונה לחלוטין מאשר לקרוא מאייפד למשל או ממחשב. המסך של הקינדל עובד על טכנולוגיה שונה ואפשר לומר שמבחינה טכנית זה בדיוק כמו לקרוא מנייר. אם מישהו סקרן אני יכול להרחיב יותר. זה גם עולה גרושים. 119 דולר אם יש לכם מישהו שיכול להביא את זה מארצות הברית ו140 דולר אם אין מישהו כזה ואז תצטרכו משלוח.



 

kabeemulo

New member
אין כזה דבר "סדר נכון של סיומות" – בגדול הכל אפשרי.

אם הייתי צריך לבנות את הדוגמה שלך באמצעות הסיומות שציינת, הייתי אומר ?evalidinaretisto (כמובן, אף דובר אספרנטו לא היה משתמש במלה הזאת, וגם לא ברור שאפשר להבין אותה בתור מה שהתכוונת). אבל אפשר לשנות את סדר הסיומות אם המשמעות שונה (למשל אם העובד הוא הקטן, או אם הסיחות הן הקטנות, או אם הן ולדות של סוסים קטנים, או אם האוסף של הסיחות הוא קטן, או אם מדובר בקבוצה של אנשים שעובדים עם סיחות וכיו"ב).
&nbsp
נשים לב שהרבה פעמים יש יותר מדרך אחת לפרק מלה, ובאופן אידאלי המלון צריך להציג את כל אפשרויות הפירוק (כמו שבעברית, למשל, אם המלון נדרש למלה "כשר", הוא אמור להציג גם את המלה היסודית "כשר" וגם את "כ+שר" [עם לפחות שתי אפשרויות שונות עבור "שר"]).
&nbsp
באספרנטו, אגב, כיוון שאפשר להלחים מלים, כל שורש הוא סיומת או קידומת בפוטנציה – לא רק et, ar, id, ist ודומיהם... זה, כמוב, עלול לסבך מאד את תכנת המלון... (אני לא יודע מהן האפשרויות הטכניות של הקינדל ואם אפשר להתמודד עם זה בצורה טובה שם או לא. גם עם מלונים אחרים זה כך, אבל: לא תמיד המלון יכול למנות את כל האפשרויות, ומי שמחפש מלה אמור לפעמים לפרק אותה לרכיבים בעצמו ולחפש את הרכיבים הרלוונטיים.)
 

בוזוקיא

New member
הבנתי

אם כך כנראה שבכל זאת צריך מגע אנושי בשביל להרכיב מילון כזה שלם...לא נראה לי שעם המגבלות של הקינדל זה יהיה אפשרי להרכיב משהו כזה בצורה אוטומטית. כל רשימה אוטומטית תכיל לדעתי לפחות כמה מיליוני מילים. אולי יש דרך לבדוק בצורה אוטומטית את רשימת המילים מול מנוע תרגום כלשהו אבל הבעיה היא שצריך מנוע שנותן אינדיקציה כלשהי לכך שהחיפוש לא הצליח (גוגל טרנסלייט למשל תמיד מחזיר תשובה, גם אם הוא לא מוצא שום מילה מתאימה).
&nbsp
&nbsp
&nbsp
 

DoronModan

New member
זה לא בלתי נכון שהשורש יכול להיות -nep

זו בהחלט אפשרות. אלא שכמובן יש גם עניין של שכיחות השימוש של הדוברים בפועל. מה שעושים מילונים בד"כ זה לסדר משמעויות של מילים לפי שכיחות המשמעויות, והסיכוי שמישהו אי פעם השתמש במילה nepopulara במשמעות שבנויה על nepo היא קלושה ביותר (וקרוב לוודאי תימצא באיזו חידת הגיון הזויה של פורום זה
). אבל מכיוון שגם אם תשיג קורפוס ענק של כתבים באספרנטו בשביל למצוא שכיחויות שורשים, יהיה קשה להחליט באופן אוטומטי לאיזה משמעות מתכוונים.
אם חוזרים לשימוש המעשי בשפה, יש הגבלה מעשית מסוימת של מספר התחיליות והסופיות שדוברים יעדיפו להשתמש בהן. בדרך כלל מעבר ל-5 תחיליות וסופיות במילה קשה לי להאמין שאפשר יהיה למצוא. למשל יש malsanulejo (שגם אותו מחליפים רבים ב-hospitalo). כך שמספר המילים בכל זאת לא יוצא מכלל שליטה. מה שכן, השורשים עצמם כבר מזמן לא ה-900 שזמנהוף רצה להסתפק בהן בתחילה, והוא עצמו השתמש בהרבה יותר. זו הבעיה, ואין מה לעשות, כמו שכל לומד שפות יודע, לומדים את כל הדקדוק, ואז תמיד יש מילים, מילים, מילים.
 

בוזוקיא

New member
דרך אגב, יש סטטיסטיקות לגבי שכיחות המילים בכל שפה

ברוב השפות שאני ראיתי אם אתה רוצה להכיר כ- 90 אחוזים מהמילים מתוך טקסט אקראי כלשהו, אתה צריך שיהיה לך אוצר מילים של כ-5000 מילים, שזה בתכלס די מעט. זה אולי נשמע הרבה אבל לשנן רשימה של 5000 מילים זה לא כזה נורא...שנה למשל זה פרק זמן סביר בהחלט. הבעיה היא שבשביל להשלים את ה-10 אחוזים הנותרים צריך ללמוד בדרך כלל עוד כמה עשרות אלפי מילים ובגלל זה זה כל כך קשה ללמוד שפה לכדי שלמות:)
&nbsp
 

DoronModan

New member
בוא נראה

אתה אומר 5000 מילים בשנה. ונניח יש בערך 50 שבועות, אז 100 מילים בשבוע? זה בכל זאת קצת הרבה. אני יכול לדבר בשם עצמי, ואני חושב שעלי אישית (ויש לי ניסיון בלימוד שפות) זה טיפה גדול, גם אם לא בלתי אפשרי. נניח למדת 100 מילים בשבוע הראשון. בשבוע השני כשתלמד את המילים 200-101, ייתכן שתגלה, שעליך לחזור ולחקוק בזיכרון חלק מהמילים שלמדת בשבוע הקודם.

אגב, אולי זה עניין של ציפיות, אבל אני אישית לא הייתי מבסוט מלדעת רק 90 אחוזים מהמילים בטקסט בשפה נלמדת (אבל ברור לי שלצורך מעשי, כדי 'להבין' טקסט, זה יכול להספיק. לפעמים אפשר להבין כמעט 100% מהמשמעות למרות רק 90% מהמילים). זה עדיין מעט מדי. כמובן שלא צריך 100 אחוז, אבל יותר גבוה מ-90 היה מספק אותי.
 

בוזוקיא

New member
זה יוצא שצריך ללמוד בסביבות ה-13 מילים ביום

לא משימה בלתי אפשרית, אבל בתכלס אף אחד לא רודף אחרינו:) סתם שלפתי "שנה" בשביל להראות עד כמה 5000 מילים זה לא מספר עצום כמו שהוא נשמע. בכל מקרה לגבי ה-90 אחוז אתה צודק. זה מספיק בשביל להבין אבל לא מספיק בשביל להרגיש בנוח עם השפה. זאת התלבטות גדולה מאוד שיש לי- האם אני מעדיף ללמוד הרבה שפות לרמה בסיסית או להשקיע באחת ולהתמקצע בה. לבנתיים עוד לא ממש החלטתי אבל הפזילה לאספרנטו מרמזת לי שאני בכיוון לאופציה הראשונה.
&nbsp
 

DoronModan

New member
אם זה 13 מילים ביום, זה אכן ממש סביר

אני זוכר שלמדתי לפסיכומטרי אנגלית, כ-20 מילים ביום, והגעתי תוך שנה לרמה שונה לחלוטין מזו שהייתי בה קודם. אבל למען האמת, לא עמד לי הכוח ללמוד כל יום, אולי הייתי צריך להתאושש... והיו שבועות שלא הייתי נוגע במחברת המילים. היו ימים שהייתי מקדיש רק לחזרה על מילים שנלמדו בימים קודמות. בסופו של דבר למדתי כ-1200 מילים באותה שנה. אם מישהו כן יכול להתמיד, זה בכלל נפלא.
ונראה לי שללמוד שפות רבות זה נחמד, ועדיין ניתן להתמקצע באחת . אני מניח שזה יהיה על חשבון שפות אחרות, אבל אני מניח שכל דבר טוב לזמנו. וייתכן שכמו שצריך משמעת עצמית כדי להתמיד, כך צריך משמעת עצמית כד, למשך תקופה מסוימת להתמקצע תוך ויתור על להתפרש על שפות נוספות.
 

DoronModan

New member
אגב

אם מותר להתעניין, איזה שפות היית רוצה ללמוד ברמה בסיסית ובאיזה להתמקצע?
 

בוזוקיא

New member
כרגע מנסה להתמקצע בספרדית

בהמשך מתכנן ללמוד ברמה בסיסית בנוסף לאספרנטו גם ערבית. כשאני אומר רמה בסיסית זה להשקיע שנה וחצי-שנתיים. זה נשמע הרבה אבל אני לומד לאט כנראה כי ספרדית אני לומד כבר שנתיים ואני עדיין רחוק שנות אור מהרמה שאני שואף אליה...אני מעריך שיקח לי לפחות עוד שנתיים. בקיצור את השלוש שנים הקרובות אני אשקיע באספרנטו, ערבית וספרדית, אחרי זה אלוהים גדול:)
 

kabeemulo

New member
אין לי מספרים מדויקים, אבל נראה לי שברוב השפות

אפשר "לכסות" 90% מהמלים שנקרות בהרבה פחות מ־5000 מלים שנלמדות, הייתי אומר – על סמך דברים ששמעתי וקראתי, זה לא שבדקתי בעצמי, וזה לא שיש לי כרגע מקור להפנות אליו – בין 500 ל־2500.
&nbsp
זה משהו שסביר ללמוד בכמה חודשים עד שנה (תלוי כמה משקיעים). ובשביל רוב השפות רוב האנשים צריכים יותר משנה כדי ללמוד אותן ברמה גבוהה.
&nbsp
חלק מהקלות של אספרנטו זה שיש בה הרבה פחות מלים. כמה מאות שורשים בסיסיים מכסים את רובו המוחלט של הקורפוס, וכנראה גם האחוזים המעטים שנשארים מכוסים על־ידי מספר שורשים קטן יותר מאשר בשפות אחרות. אגב, אחד מספרי הלימוד המפורסמים של אספרנטו – la zagreba metodo – נכתב לפי קורפוס של שורשים שכיחים, ומלמד מלים שכיחות יותר בשיעורים מוקדמים יותר. הקורפוס קצת מיושן, ומבוסס על אספרנטו מדוברת, כלומר בפועל נותן משקל גדול יותר למלים שימושיות בסיטואציות של קונגרסים מאשר למלים שאולי יותר חשובות בסיטואציות אחרות בחיי היומיום, ועדיין זו כנראה שיטה טובה ללמוד אספרנטו.
 

DoronModan

New member
זה תלוי באופי הטקסט, לא?

תלוי בטקסטים שלומד השפה מעוניין לקרוא. למשל, אם רוצים לקרוא טקסטים במשלב גבוה, יש צורך ביותר מילים מאשר טקסטים שנכתבו במשלב יותר עממי.
 

DoronModan

New member
אתה בטוח שאתה רוצה וצריך מילון?

אי אפשר לעבוד בקינדל עם תוכנה? זה בעצם לא מחשב, נכון?
שאלתי, כי הרי אתה רוצה לכתוב תכנה שתיצור מילון ענק עם כל ההטיות. אז אי אפשר לעבוד עם הטקסט כפי שהוא, ורק מילים מסוימות, אד הוק, לבדוק בתוכנה?
אבל אם המילון יתברר לך כבלתי נחוץ, יש לי רעיון ליישום אחר שאתה יכול להפיק מאותו עניין: בודק איות!
 

בוזוקיא

New member
הסבר

הקינדל זה ממש לא מחשב...
כשאני אומר שאני רוצה ליצור מילון אני מתכוון לעשות זאת במחשב (ליצור קובץ טקסט בעזרת סקריפט) ואז את הקובץ טקסט לשים בקינדל.
כל מה שהקינדל יודע לעשות (בהקשר של מילון) זה לחפש את המילה בטבלה שמגדירים לו מראש ולהביא לך את התוצאה אם הוא מצא אותה. בגלל זה בעצם המילון שאני רוצה להכין לו זה פשוט טבלה עם כל ההטיות האפשריות של השורשים והסיומות.
&nbsp
 
למעלה