מנתח צורני לעברית לא מנוקדת

מנתח צורני לעברית לא מנוקדת

שלום לכולם. אני מפתח תוכנה חפשית לביצוע ניתוחים צורניים למילים בעברית כתובה שאינה מנוקדת. לאחרונה הקמתי עמוד באינטרנט ובו ניתן להתנסות בשימוש במנתח. המנתח מבוסס על חוקים לנטיות השונות ועל מילון ובו יש מידע לשוני הנדרש לצורך ביצוע נטיות נכונות (שולחן->שולחנות ולא שולחן->שולחנים) ולא מידע סמנטי כמקובל במילונים "רגילים". המילון חפשי גם הוא והוא מתעדכן מידי שבוע שבועיים בערכים חדשים המתווספים ע"י עבודה שאני מבצע ועבודה אשר נעשית במרכז הידע לעיבוד העברית. מבנה הפלט מציג עבור כל תמנית (מה שמכנים בטעות 'אסימון' בעגה המקצועית) את כל הניתוחים הצורניים האפשריים אשר המנתח הצליח לייצר במגבלות החוקים שלו ובמגבלות המידע הקיים במילונו. הפלט מיוצג בשיטת XML ע"פ אוסף הגדרות אשר גם הוא מפותח על ידי וזמין באופן חפשי לקהילה. רובו ככולו של המידע זמין כבר היום באופן חפשי ובחינם לקהילה ואת השאר (החוקים, התוכנה עצמה, הגדרות וכמובן הסברים) אפרסם בקרוב בעבודת המאסטר שלי. אשמח להסתייע בעזרה להרחבת המילון ובשיפור החוקים (למשל, אני מנסה לנסח חוקים אשר יאפשרו לתמוך בניתוח של מילים גם אם אינן נכתבות בכתיב מלא חסר ניקוד על פי כללי האקדמיה, אלא גם באופנים אחרים).
 

or99

New member
מעניין מאוד.

אם כי באמת יש צורך בתרגום הפלט לפורמט מובן יותר לבני אדם מאשר XML
, ולעברית. מכיוון שיש לי מעט ניסיון בתחום, אני מבין את המבנה של XML. מה שמפריע לי הם דווקא המונחים באנגלית שאותם איני מבין בכלל! ולעניין עצמו: הקלדתי את המשפט "והדלקתי את האור" וקיבלתי 6 ניתוחים אפשריים רק למילה "והדלקתי". מהי באמת התועלת בניתוח כזה? ברור שבלתי אפשרי לנתח בצורה מושלמת, אבל האם בדוגמה שכזו לא ניתן להורות לתכנה שאין אפשרות לשם עצם לפני המילה אֶת? (אז מן הסתם נסתבך אם המילה היא אַתּ, אבל משפטים בהם שם עצם בא לפניה הם בכל זאת נדירים).
 
אז ככה

מטרת התוכנה לספק את כל הניתוחים האפשריים. עם הפלט של התוכנה הזאת ניתן לעשות שימוש בתוכנה שמטרתה להפיג את העמימות: ז"א למצוא לכל מילה את הניתוח הנכון בהקשרה. כאמור הפגת עמימות היא שלב אחר אשר בא אחרי הניתוח הצורני. לגבי תרגום הפלט: מבנה הפלט נועד להיות קל לעיבוד ע"י מחשב וקריא (אם כי לא תמיד בהכרח גם ברור) לבני אדם. בהנתן זמן, גם הצגת הפלט בצורה ידידותית יותר למשתמש תהיה זמינה באתר. וכמובן, אם יש מתנדבים שמעוניינים לעזור, למשל בכתיבת stylesheet לתרגום הפלט, אני רק אשמח ואסייע ככל שאוכל.
 
עכשיו כברירת המחדל

הפלט מוצג בעברית באופן שאמור להיות ידידותי וברור למשתמש.
 

dorgad

New member
נשמע מרתק, אף שלא ממש הבנתי הכול

יחד עם זאת, אשמח לסייע, כיוון שהמטרה חיובית מאוד בעיניי. התוכל לפרט מהו הסיוע שאתה מבקש? דור
 
בשמחה

בעברית הכתובה הלא מנוקדת קשה מאד לקרא מילה מבלי לקרוא גם את הקשרה. האם המילה 'הקפה' משמעה ה' הידיעה + קפה ה' הידיעה + ההיקף שלה שם הפעולה 'הקפה'... ? מי יודע?! ללא ההקשר לא ניתן לדעת. מנתח צורני הוא כלי תוכנה שמטרתו לקבל תבנית-מנייה (token), שהיא מחרוזת של אותיות (למשל, מילה) ולהחזיר את כל הניתוחים הצורניים (morphological analyses) האפשריים עבור אותה התמנית (תמנית==תבנית מנייה). ובכן, נראה ששלב זה אינו מספיק, ישנו כלי נוסף ושמו 'מתייג' אשר תפקידו לבחור מכל הניתוחים האפשריים של תמנית את הניתוח הנכון בהקשרו. כלי תוכנה אלה הכרחיים לצרכי עיבוד טקסטים בעברית (למשל, לצרכי חיפוש חכם במנועי חיפוש, וגם כשלבים מקדימים לעיבודים מתוחכמים יותר כגון תרגום אוטומטי). הסיוע העיקרי לו אני זקוק הוא באיתור ערכים מילוניים אשר אינם נתמכים ע"י המנתח שמודגם באתר וכן דיווח על שגיאות (ניתוחים לא נכונים או תוצאות בהן חסר ניתוח נכון).
 

dorgad

New member
עכשיו זה הרבה יותר ברור

האם תוכל לפרט, שלב אחר שלב, מה יש לעשות כדי לבדוק האם ערך מילוני נתמך או לא ע"י המנתח שמודגם באתר, כיצד להזינו, וכיצד לדווח על שגיאות? אני סבורה שהפיכת התהליך לידידותי יותר למסייע תדרבן יותר פעילות. תודה, דור
 
ובכן,

ערך מילוני חסר יכול לבוא לידי ביטוי בשני אופנים: 1. לא מופק אף ניתוח עבור מילה מסויימת בקלט. 2. ניתוח נכון רצוי עבור מילה שבקלט לא התקבל בפלט. הלקסיקון עצמו בו אני עושה שימוש מקודד ב-xml וחפשי לשימוש (תחת רשיון GPL) ומתעדכן באתר מידי שבוע. יש כלי תוכנה ייעודי אשר פיתחתי המאפשר לערוך בקלות וללא ידע ב- XML את הלקסיקון, אולם בשלב זה הגישה אליו חסומה. ברגע שייגמר המימון לפיתוח המילון, ככל הנראה אפתח את הגישה לכלי העריכה לציבור ואבנה תהליך עריכה/הגהה כדי להבטיח שרק ערכים נכונים ייכנסו אליו. לגבי הידידותיות: אני אנסה בימים (שבוע שבועיים הקרובים, במגבלות הזמן הפנוי) לקשר את ערכי הלקסיקון אשר מוצגים בתוצאות הניתוחים למידע הלשונים שלהם כפי שמוצג בלקסיקון כדי להעשיר את התוצאות ולהפכן לאינפורמטיביות יותר. אשמח לקבל עיצות כיצד להפוך את התהליך לידידותי יותר. תודה על העניין!
 

dorgad

New member
שלמה יונה, מציעה, כשלב ראשון...

...ובתאום עם איתי ו/או אור, מנהלי הפורום, ליצור קישור בין הפורום והאתר שלך. דור
 
תודה,

אור כבר הגיב להודעה שלי, אם ירצה, יקשר, אם לא, כנראה שזה לא בפוקוס של הפורום. תודה רבה על העניין.
 
למעלה