תעתוק שמות אוטומטי לעברית

Iddo G

New member
תעתוק שמות אוטומטי לעברית

מי יודע איזו עבודה נעשתה על עברית בנושא תעתוק שמות אוטומטי (transliteration או transcription) מול אנגלית או שפות אחרות? לחידוד השאלה, אני מתעניין הן במוצרי מדף או רכיבי תכנה והן במחקר טהור. לחילופין, בהנתן צורך לתעתק מאגר שמות לעברית (בלי להתחייב לשפת מקור מסוימת) איך הייתם ניגשים לבעיה?
 

Nomaed Dominus

New member
יש תכנה שקוראים לה תרגומטיק,

היא עושה תרגום מאנגלית לעברית. בנוסף, מילים באנגלית שהיא לא מכירה, היא מעבירה בצורה פונטית. זה לא מושלם, אבל יפה.
 

yifatushc

New member
לגבי התוכנה...

התוכנה אמורה לתרגם טקסטים ומאמרים שלמים. אני אישית לא השתמשתי בה, אבל מחברים שניסו- הבנתי שהיא לא ממש יעילה. היא מתרגמת כ-70% מהמילים, וגם זה בהקשרים לגמרי שונים מכוונת המאמר המקורית. (מתרגמת מילים פשוטן כמשמען, ולא בהקשר לקונטקסט- כפי שמוח אנושי מסוגל לעשות).
 
תוכל להסביר למה כוונתך?

האם אתה מחפש תרגום, או רק תעתוק לכתב או כתיב אחר? האם מדובר מעברית לכתיב לטיני או לשפה אחרת?
 

Iddo G

New member
פרטים נוספים

המטרה היא להעשיר מסד נתונים בעברית עם מיקומים גאוגרפיים או שמות פרטיים שמקורם במאגרים שונים ובלתי קשורים. דווקא מה שמעניין פה זה שונות המקורות, שמתבטאת בשפות שונות ושיטות תעתוק שונות (למשל בין גרסאות שונות של אטלס). בנוסף, לא כל מקור בהכרח מתועתק כולו בשיטה קוהרנטית. אפשר להניח שרוב המקורות הם בכתיב לטיני, אבל לא בהכרח. לשאלתך אם דרוש תרגום או רק תעתוק, זה כמובן תלוי בהקשר כי, לדוגמא, מאגר שמות גיאוגרפים עשוי לתרגם לשפתו מילים גנריות כמו "הר" או "עמק" (Emeq Israel או Emeq Yizra'el או Yizra'el Valley ?) – אין ספק שהמערכת צריכה לזהות מקרים כאלה. בקיצור, מאוד יסייע כאן מנגנון שמנתח את השמות במקור, מסיק מה שיטת התעתוק, ומציע תעתיק בעברית. ודאי דרושה כאן התערבות משתמש שבקיא לפחות בשמות עצמם אם לא בשפת המקור, אבל הממשק צריך לכוון את המשתמש לשאלות הנכונות. אז אני מחזיר שוב את השאלה – האם יש כלי מדף שיצלחו לכך? ואם לא – אילו מהרכיבים כבר קיימים?
 
לא ידוע לי על כלי כזה מן המוכן

לעברית. לא כלי חפשי בכל אופן. ישנן מספר חברות שלהן יש את הטכנולוגיה (אולם, לא ברור כי יש להן את מאגרי המידע) לבניית כלי כזה בזמן קצר. בכל מקרה, יכול להיות מעניין לבנות כלי שכזה. תחום המחקר העוסק בדברים מסוג זה נקרא בספרות המקצועית information integration ובתחום זה מוגדרות מספר בעיות שעבורן מציעים פתרונות רבים. רובם של הפתרונות מהווים קירוב או יוריסטיקה לפתרון המושלם. יש שפע חומר בתחום זה בכל הנוגע לחומר באנגלית, ולדעתי אין בכלל, או יש מעט מאד בכל הקשור לעברית.
 

Iddo G

New member
טוב, נחזור ליסודות

תודה על המידע עד כה. אחרי קריאה (מהירה ושטחית...) על information integration , נראה שהתחום אכן עוסק בבעיה הכללית של מיזוג מגוון מקורות, אבל האם התהליך הלשוני/אורתוגרפי של תעתוק הוא חלק מזה? אז אם נתרכז באמת בשפת מקור אחת (נתחיל באנגלית לעברית, כמובן
), איך עושים את זה? רשימת חוקים? רשימת מגבלות? סטטיסטיקה? על מה אפשר להתבסס? תכנה כמו Targumatik שציינו Dominus ו-Yifatushc נמצאת על המדף כבר מספר שנים, ודאי צצו כבר מאז דברים חדשים?
 
הפתרון די פשוט אם רק בתעתוק

חפצה נפשך. קח כלי המסוגל לבצע text2speech אשר ייתן לך בעבור כל מילה בקלט את המחרוזת הפונטית שלה (אני מעדיך רשימה מדורגת של מחרוזות פונטיות). את התוצאה הזן למיפוי הממפה מחרוזות פונטיות לכתיב עברי חסר ניקוד והנה מה שרצית. זה פתרון חלקי לבעייה שלך, אך בהנתן טבלת המיפוי, נראה שהוא היעיל ביותר לקבלת תוצאות במהירות. אח"כ תהיה עבודה לטפל בכל מיני מקרים מעצבנים בהם יש ריבוי משמעות... אבל זאת *עז* שקימת כמעט בכל בעייה בעיבוד שפה טבעית.
 
למעלה