עשיתי אוטומציה (חלקית). אין כאן אוטומציה מלאה כי לא השקעתי הרבה מאמץ.
לגבי "קל יחסית", ההליך המתואר קל יחסית בשבילי כי יש לי רקע בתחום.
המשך התיאור הוא קצת טכני.
הרעיון הבסיסי הוא שלארכיון יש ממשק שקל לקרוא אליו ישירות - קריאת GET לweb.archive.org/save/ כאשר שאר הURL הוא אתר היעד תגרום לארכיון לעבור על אתר היעד ולשמור אותו אצלם. בסוף אם השמירה הצליחה, הAPI ישלח אליך את העמוד שהוא שמר, וזה מתברר כמאוד שימושי.
הערות:
א. יותר מדי קריאות בדקה יגרמו לשגיאת HTTP מספר 429.
ב. לעתים נדירות האתר יחזיר שגיאות 500, 502, 503, במקרים האלו כדאי לנסות שוב את הקריאה הספציפית. שגיאה 500 יכולה לקרות גם על עמודים מסוימים שהארכיון לא יכול לבלוע.
ג. לעתים ממש נדירות מקבלים קובץ בגודל 0. גם כאן כדאי לנסות שוב.
ד. אם בודקים באותו זמן בארכיון, יש מקרים שבהם לוקח קצת זמן עד שהוא יתעדכן. שמתי לב לאחרונה שעמודים שאף פעם לא היו בארכיון מתעדכנים מהר, אבל אם יש עותק קיים הארכיון עלול להתעכב.
ההליך הוא בערך כך במערכות יוניקסיות (בחלונות 10 אפשר להשתמש בWSL עם אותן הוראות בערך):
א. מצא את העמוד האחרון ידנית, בפורום הרגיל ובארכיון.
ב. צור URLים לכל הרשימה, מעמוד מספר 1 עד לעמוד האחרון שמצאנו בשלב הקודם. זה קל בגלל שהפורמט קבוע. לדוגמא:
seq 955 | xargs -i{} echo
http://web.archive.org/save/www.tapuz.co.il/forums/archive/1072/pagenumber{}/%D7%AA%D7%A8%D7%91%D7%95%D7%AA_%D7%95%D7%90%D7%9E%D7%A0%D7%95%D7%AA/%D7%94%D7%A9%D7%A4%D7%94_%D7%94%D7%A2%D7%91%D7%A8%D7%99%D7%AA | tee > LIST
הפקודה הזו רק מציגה את הURLים למסך ושומרת אותם לקובץ.
ג. ברגע שיש לנו את הכתובות, אפשר לקרוא לwget שתבצע את הקריאה. למשל:
wget -iLIST -w1 --retry-on-http-error=429,500,502,503
אחרי שעושים את זה לפורום הרגיל ולארכיון, יש לנו קבצים שמכילים תוכן של כל העמודים והארכיון וכך גם באתר הInternet archive, אבל אין לנו את המקומות שבהם תפוז מסתירה את האשכול בגלל שהיו המון תגובות ("המשך") או את הקבצים המצורפים עצמם.
ד. בשביל לקבל את ההמשכים, אפשר לעשות משהו כזה:
grep "readMoreButton" * | grep href | sed -E 's/^(.*)href="//' | sed -E 's/"(.*)//' | grep forums
(זה לוקח את מחלקת הCSS שתפוז משתמשת בה בשביל הקישור ל"המשך", אפשר היה באותה מידה פשוט לחפש את המילה "המשך", רק בפורום כמו "טלוויזיה" זה יתן כמה תוצאות שווא). יש לנו רשימת URLים, שאפשר להוריד בצורה דומה לסעיף ג'.
ה. עדיף להעביר את העמוד הראשי של הפורום ושל הארכיון (אלו בלי הpagenumber) ידנית, כדי שהניווט באתר הארכיון יהיה מעט חלק יותר.
יש לי גם הליכים מעט ארוכים יותר בשביל לשמור את הקבצים המצורפים ואת השאלות נפוצות/מאמרים/קישורים לInternet archive (בפורום הזה העברתי את השאלות ידנית לאתר ארכיון אחר).