למי שלא עקב אחרי "היקארו נו גו" בזמנה
ראשית, אם אתם תוהים למה בפורום יפן מדברים על תוכנה שניצחה אלוף קוריאני, התשובה הופיעה בסדרה. הגו הומצא בסין, אבל שוכלל לצורתו המודרנית ביפן. במשך שנים היפנים נחשבו למאסטרים הגדולים במשחק, אבל כיום, הקוריאנים הם השליטים הבלתי מעורערים בתחום הזה. אם יש אלוף עולם בגו, מירב הסיכויים שהוא יהיה קוריאני, ואם לא, אז סיני (גם הסינים חזרו לשלוט במשחק יותר מן היפנים). אחת הסיבות לכתיבת המנגה "היקארו נו גו" היתה ניסיון לגרום לילדים היפנים להתעניין שוב במשחק, על מנת להעלות את מאגר השחקנים ולהחזיר עטרה ליושנה.
 
עכשיו לגבי הסיבה לרעש סביב הניצחונות הללו של הבינה המלאכותית:
 
העניין הוא, שעל אף שבכל יתר משחקי האסטרטגיה האנושיים הנפוצים, הבינה המלאכותית ניצחה את בני האדם כבר מזמן, גו עדיין נחשב מסובך מדי ועד כה לא הצליחו לבנות מכונות שיצליחו לנצח את רבי-האמנים במשחק זה.
 
תוכנות לבינה מלאכותית הסתמכו בדרך כלל על אלגוריתם כדוגמת מינימקס, שבו התוכנה מחשבת את כל האפשרויות שניתן להגיע אליהן מהעמדה הנתונה, כולל כל התשובות האפשריות של היריב, כל התשובות האפשריות לתשובות אלה, וכדומה. מתוך כל ה"ענפים" במרחב הזה, היא בוחרת במהלך שמוביל לענף הטוב ביותר האפשרי או לקבוצת ענפים משובחת (שהרי זה גם תלוי בבחירת היריב).
 
מרחב המצבים הזה הוא ענקי (אקספוננציאלי), ועבור משחקים אמיתיים, לא ניתן לחשב את כולו בזמן סביר. משחק הגו, שמתחיל בלוח ריק, ושהלוח שלו גדול במיוחד (19 על 19) הוא בעל מרחב מצבים גדול בהרבה מזה של שחמט, שהלוח שלו הוא רק 8 על 8 ושמתחיל עם כלים רבים על הלוח, אשר לרובם יש מגבלות על המשבצות שאליהם הם יכולים להגיע, מה שמצמצם את מספר המהלכים האפשריים ועל כן גם הענפים האפשריים בעץ המצבים.
 
תוכנות שפועלות באסטרטגיה הנ"ל, גם אם יש להן שיטות מתוחכמות לצמצם ענפים מסויימים במרחב המצבים מבלי לפתח אותם עד הסוף, לא יצליחו לנצח בגו. לפחות לא אמנים אמיתיים.
 
התוכנה AlphaGo, לא הולכת רק בשיטה הזו. היא מתבססת גם על חיפוש מתוחכם בעץ, אבל גם על מה שנקרא "רשתות עצביות עמוקות" - שיטה שבה המכונה לומדת מה נחשב מהלך טוב ומה נחשב מהלך רע באמצעות סריקה של מהלכים שהתבצעו על ידי בני אדם. הדבר דומה למסנני הספאם המודרניים - מסמנים להם אילו הודעות נחשבות ספאם, ואילו לא, ואם הם סימנו הודעה מוטעית כספאם, מסמנים להם שההודעה הזו היא "כשרה" ולהיפך, ועל פי ה"אימון" הזה, הן משפרות את יכולת הבחירה שלהן ומסננות ספאם בעצמן, בלי קריטריונים ברורים כמו כתובת השולח או מילות מפתח בטקסט. הן יוצרות רשת שמייצגת את המכנים המשותפים של כל המצבים הטובים ואחרי מספיק אימונים, יכולות לקבל מצב ולהחליט אם הוא נחשב טוב או לא טוב.
 
בשיטה הזו אפשר להגיע לתוכנות מחשב שהן טובות כמו בן אדם, אבל אם רוצים לנצח בני אדם, צריך ללכת צעד אחד מעבר לזה, וזה בעצם מה שעשתה התוכנה של גוגל: היא התחילה לשחק מול עצמה, ואימנה את עצמה על בסיס הניצחונות. בכל פעם היא ניצחה את האמן שהיא היתה קודם, ועל כן בעצם הפכה להיות אמן טוב יותר.
 
AlphaGo השיגה בכך את הגביע הקדוש של הבינה המלאכותית בתחום המשחקים. משחק הגו נחשב עד כה למטרה הבלתי-מושגת, והנה, התוכנה ניצחה כבר במשחק השלישי ברצף מול לי סה-דול.
 
אגב, מסתבר שגם האינטליגנציה האנושית עובדת, כנראה בשיטה דומה. יריב האימונים של התוכנה, פאן הוי, היה במקום השש-מאות ומשהו בדירוג העולמי כשהתחיל לעבוד איתה. המשחקים מול התוכנה שיפרו את היכולות שלו וכיום הוא מדורג במקום השלוש-מאות ומשהו בעולם, ולטענתו הוא מסוגל היום "לראות" את המשחק הרבה יותר טוב משיכול היה לפני העבודה עם "אלפא גו".
 
כתבה ב־wired:
 
http://www.wired.com/2016/03/sadness-beauty-watching-googles-ai-play-go/
 
הבלוג של גוגל על "איך עובדת תוכנת אלפא גו":
 
https://googleblog.blogspot.co.il/2016/01/alphago-machine-learning-game-go.html