הפורום הישן

cesium

New member
מגובה בצורה די מלאה כאן.

(הערה קטנה: דף 2 בפורום יראה ריק אבל בעצם מכיל את כל הנתונים. בשביל לצפות בו צריך ללחוץ על מקש ימני, למטה לבחור Inspect, ולהוריד את הוי מdisplay none שנמצא בצד השני. מבדיקה מדגמית, יתר הדפים בפורום ובארכיון תקינים).

כנ"ל גם המאמרים.

רוב השאלות הנפוצות (חלק לא עלו בכלל באתר הישן).
 
נערך לאחרונה ב:

Lhuna3

Well-known member
הי, מותר לשאול איך גיבית את כל הארכיון?
אני גיביתי שרשורים ספציפיים מפורום טלויזיה למשל, אבל האם יש דרך קלה יחסית לגבות את כל הפורום, או שעברת עמוד עמוד?
בתודה.
 

cesium

New member
עשיתי אוטומציה (חלקית). אין כאן אוטומציה מלאה כי לא השקעתי הרבה מאמץ.
לגבי "קל יחסית", ההליך המתואר קל יחסית בשבילי כי יש לי רקע בתחום.

המשך התיאור הוא קצת טכני.

הרעיון הבסיסי הוא שלארכיון יש ממשק שקל לקרוא אליו ישירות - קריאת GET לweb.archive.org/save/ כאשר שאר הURL הוא אתר היעד תגרום לארכיון לעבור על אתר היעד ולשמור אותו אצלם. בסוף אם השמירה הצליחה, הAPI ישלח אליך את העמוד שהוא שמר, וזה מתברר כמאוד שימושי.

הערות:
א. יותר מדי קריאות בדקה יגרמו לשגיאת HTTP מספר 429.
ב. לעתים נדירות האתר יחזיר שגיאות 500, 502, 503, במקרים האלו כדאי לנסות שוב את הקריאה הספציפית. שגיאה 500 יכולה לקרות גם על עמודים מסוימים שהארכיון לא יכול לבלוע.
ג. לעתים ממש נדירות מקבלים קובץ בגודל 0. גם כאן כדאי לנסות שוב.
ד. אם בודקים באותו זמן בארכיון, יש מקרים שבהם לוקח קצת זמן עד שהוא יתעדכן. שמתי לב לאחרונה שעמודים שאף פעם לא היו בארכיון מתעדכנים מהר, אבל אם יש עותק קיים הארכיון עלול להתעכב.

ההליך הוא בערך כך במערכות יוניקסיות (בחלונות 10 אפשר להשתמש בWSL עם אותן הוראות בערך):

א. מצא את העמוד האחרון ידנית, בפורום הרגיל ובארכיון.

ב. צור URLים לכל הרשימה, מעמוד מספר 1 עד לעמוד האחרון שמצאנו בשלב הקודם. זה קל בגלל שהפורמט קבוע. לדוגמא:
seq 955 | xargs -i{} echo http://web.archive.org/save/www.tapuz.co.il/forums/archive/1072/pagenumber{}/%D7%AA%D7%A8%D7%91%D7%95%D7%AA_%D7%95%D7%90%D7%9E%D7%A0%D7%95%D7%AA/%D7%94%D7%A9%D7%A4%D7%94_%D7%94%D7%A2%D7%91%D7%A8%D7%99%D7%AA | tee > LIST

הפקודה הזו רק מציגה את הURLים למסך ושומרת אותם לקובץ.

ג. ברגע שיש לנו את הכתובות, אפשר לקרוא לwget שתבצע את הקריאה. למשל:
wget -iLIST -w1 --retry-on-http-error=429,500,502,503

אחרי שעושים את זה לפורום הרגיל ולארכיון, יש לנו קבצים שמכילים תוכן של כל העמודים והארכיון וכך גם באתר הInternet archive, אבל אין לנו את המקומות שבהם תפוז מסתירה את האשכול בגלל שהיו המון תגובות ("המשך") או את הקבצים המצורפים עצמם.

ד. בשביל לקבל את ההמשכים, אפשר לעשות משהו כזה:
grep "readMoreButton" * | grep href | sed -E 's/^(.*)href="//' | sed -E 's/"(.*)//' | grep forums
(זה לוקח את מחלקת הCSS שתפוז משתמשת בה בשביל הקישור ל"המשך", אפשר היה באותה מידה פשוט לחפש את המילה "המשך", רק בפורום כמו "טלוויזיה" זה יתן כמה תוצאות שווא). יש לנו רשימת URLים, שאפשר להוריד בצורה דומה לסעיף ג'.

ה. עדיף להעביר את העמוד הראשי של הפורום ושל הארכיון (אלו בלי הpagenumber) ידנית, כדי שהניווט באתר הארכיון יהיה מעט חלק יותר.

יש לי גם הליכים מעט ארוכים יותר בשביל לשמור את הקבצים המצורפים ואת השאלות נפוצות/מאמרים/קישורים לInternet archive (בפורום הזה העברתי את השאלות ידנית לאתר ארכיון אחר).
 

Lhuna3

Well-known member
עשיתי אוטומציה (חלקית). אין כאן אוטומציה מלאה כי לא השקעתי הרבה מאמץ.
לגבי "קל יחסית", ההליך המתואר קל יחסית בשבילי כי יש לי רקע בתחום.

המשך התיאור הוא קצת טכני.

הרעיון הבסיסי הוא שלארכיון יש ממשק שקל לקרוא אליו ישירות - קריאת GET לweb.archive.org/save/ כאשר שאר הURL הוא אתר היעד תגרום לארכיון לעבור על אתר היעד ולשמור אותו אצלם. בסוף אם השמירה הצליחה, הAPI ישלח אליך את העמוד שהוא שמר, וזה מתברר כמאוד שימושי.

הערות:
א. יותר מדי קריאות בדקה יגרמו לשגיאת HTTP מספר 429.
ב. לעתים נדירות האתר יחזיר שגיאות 500, 502, 503, במקרים האלו כדאי לנסות שוב את הקריאה הספציפית. שגיאה 500 יכולה לקרות גם על עמודים מסוימים שהארכיון לא יכול לבלוע.
ג. לעתים ממש נדירות מקבלים קובץ בגודל 0. גם כאן כדאי לנסות שוב.
ד. אם בודקים באותו זמן בארכיון, יש מקרים שבהם לוקח קצת זמן עד שהוא יתעדכן. שמתי לב לאחרונה שעמודים שאף פעם לא היו בארכיון מתעדכנים מהר, אבל אם יש עותק קיים הארכיון עלול להתעכב.

ההליך הוא בערך כך במערכות יוניקסיות (בחלונות 10 אפשר להשתמש בWSL עם אותן הוראות בערך):

א. מצא את העמוד האחרון ידנית, בפורום הרגיל ובארכיון.

ב. צור URLים לכל הרשימה, מעמוד מספר 1 עד לעמוד האחרון שמצאנו בשלב הקודם. זה קל בגלל שהפורמט קבוע. לדוגמא:
seq 955 | xargs -i{} echo http://web.archive.org/save/www.tapuz.co.il/forums/archive/1072/pagenumber{}/%D7%AA%D7%A8%D7%91%D7%95%D7%AA_%D7%95%D7%90%D7%9E%D7%A0%D7%95%D7%AA/%D7%94%D7%A9%D7%A4%D7%94_%D7%94%D7%A2%D7%91%D7%A8%D7%99%D7%AA | tee > LIST

הפקודה הזו רק מציגה את הURLים למסך ושומרת אותם לקובץ.

ג. ברגע שיש לנו את הכתובות, אפשר לקרוא לwget שתבצע את הקריאה. למשל:
wget -iLIST -w1 --retry-on-http-error=429,500,502,503

אחרי שעושים את זה לפורום הרגיל ולארכיון, יש לנו קבצים שמכילים תוכן של כל העמודים והארכיון וכך גם באתר הInternet archive, אבל אין לנו את המקומות שבהם תפוז מסתירה את האשכול בגלל שהיו המון תגובות ("המשך") או את הקבצים המצורפים עצמם.

ד. בשביל לקבל את ההמשכים, אפשר לעשות משהו כזה:
grep "readMoreButton" * | grep href | sed -E 's/^(.*)href="//' | sed -E 's/"(.*)//' | grep forums
(זה לוקח את מחלקת הCSS שתפוז משתמשת בה בשביל הקישור ל"המשך", אפשר היה באותה מידה פשוט לחפש את המילה "המשך", רק בפורום כמו "טלוויזיה" זה יתן כמה תוצאות שווא). יש לנו רשימת URLים, שאפשר להוריד בצורה דומה לסעיף ג'.

ה. עדיף להעביר את העמוד הראשי של הפורום ושל הארכיון (אלו בלי הpagenumber) ידנית, כדי שהניווט באתר הארכיון יהיה מעט חלק יותר.

יש לי גם הליכים מעט ארוכים יותר בשביל לשמור את הקבצים המצורפים ואת השאלות נפוצות/מאמרים/קישורים לInternet archive (בפורום הזה העברתי את השאלות ידנית לאתר ארכיון אחר).
וואו המון תודה! זה מעולה ויש מצב שאשתמש בזה גם לפחות חלקית.
תודה רבה רבה!
 

arseny92

Well-known member
מנהל
עשיתי אוטומציה (חלקית). אין כאן אוטומציה מלאה כי לא השקעתי הרבה מאמץ.
לגבי "קל יחסית", ההליך המתואר קל יחסית בשבילי כי יש לי רקע בתחום.

המשך התיאור הוא קצת טכני.

הרעיון הבסיסי הוא שלארכיון יש ממשק שקל לקרוא אליו ישירות - קריאת GET לweb.archive.org/save/ כאשר שאר הURL הוא אתר היעד תגרום לארכיון לעבור על אתר היעד ולשמור אותו אצלם. בסוף אם השמירה הצליחה, הAPI ישלח אליך את העמוד שהוא שמר, וזה מתברר כמאוד שימושי.

הערות:
א. יותר מדי קריאות בדקה יגרמו לשגיאת HTTP מספר 429.
ב. לעתים נדירות האתר יחזיר שגיאות 500, 502, 503, במקרים האלו כדאי לנסות שוב את הקריאה הספציפית. שגיאה 500 יכולה לקרות גם על עמודים מסוימים שהארכיון לא יכול לבלוע.
ג. לעתים ממש נדירות מקבלים קובץ בגודל 0. גם כאן כדאי לנסות שוב.
ד. אם בודקים באותו זמן בארכיון, יש מקרים שבהם לוקח קצת זמן עד שהוא יתעדכן. שמתי לב לאחרונה שעמודים שאף פעם לא היו בארכיון מתעדכנים מהר, אבל אם יש עותק קיים הארכיון עלול להתעכב.

ההליך הוא בערך כך במערכות יוניקסיות (בחלונות 10 אפשר להשתמש בWSL עם אותן הוראות בערך):

א. מצא את העמוד האחרון ידנית, בפורום הרגיל ובארכיון.

ב. צור URLים לכל הרשימה, מעמוד מספר 1 עד לעמוד האחרון שמצאנו בשלב הקודם. זה קל בגלל שהפורמט קבוע. לדוגמא:
seq 955 | xargs -i{} echo http://web.archive.org/save/www.tapuz.co.il/forums/archive/1072/pagenumber{}/%D7%AA%D7%A8%D7%91%D7%95%D7%AA_%D7%95%D7%90%D7%9E%D7%A0%D7%95%D7%AA/%D7%94%D7%A9%D7%A4%D7%94_%D7%94%D7%A2%D7%91%D7%A8%D7%99%D7%AA | tee > LIST

הפקודה הזו רק מציגה את הURLים למסך ושומרת אותם לקובץ.

ג. ברגע שיש לנו את הכתובות, אפשר לקרוא לwget שתבצע את הקריאה. למשל:
wget -iLIST -w1 --retry-on-http-error=429,500,502,503

אחרי שעושים את זה לפורום הרגיל ולארכיון, יש לנו קבצים שמכילים תוכן של כל העמודים והארכיון וכך גם באתר הInternet archive, אבל אין לנו את המקומות שבהם תפוז מסתירה את האשכול בגלל שהיו המון תגובות ("המשך") או את הקבצים המצורפים עצמם.

ד. בשביל לקבל את ההמשכים, אפשר לעשות משהו כזה:
grep "readMoreButton" * | grep href | sed -E 's/^(.*)href="//' | sed -E 's/"(.*)//' | grep forums
(זה לוקח את מחלקת הCSS שתפוז משתמשת בה בשביל הקישור ל"המשך", אפשר היה באותה מידה פשוט לחפש את המילה "המשך", רק בפורום כמו "טלוויזיה" זה יתן כמה תוצאות שווא). יש לנו רשימת URLים, שאפשר להוריד בצורה דומה לסעיף ג'.

ה. עדיף להעביר את העמוד הראשי של הפורום ושל הארכיון (אלו בלי הpagenumber) ידנית, כדי שהניווט באתר הארכיון יהיה מעט חלק יותר.

יש לי גם הליכים מעט ארוכים יותר בשביל לשמור את הקבצים המצורפים ואת השאלות נפוצות/מאמרים/קישורים לInternet archive (בפורום הזה העברתי את השאלות ידנית לאתר ארכיון אחר).
גם אם הבבקוד בלוק של קוד code לא עובד, inline code כן (ועם יישור לשמאל)
 
למעלה