איזה שיטות עיקריות יש לעצור מכל מיני בוטים בשרת WEB ?

שוּלה

New member
איזה שיטות עיקריות יש לעצור מכל מיני בוטים בשרת WEB ?

התקנתי לפני שבוע שרת אפצ'י על מכונה וירטואלית, אי שם (לא אמזון).
קניתי דומיין חדש, בדקתי שהגישה לשרת + עמוד בודד שכתוב under construction.

בדקתי היום את ה-access log, וזה חלק ממה שהיה שם (כפול 1000)

123.125.71.81 - - [26/May/2015:07:47:06 -0400] "GET /js/validemail.js HTTP/1.1" 404 472 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
114.80.102.62 - - [26/May/2015:07:47:46 -0400] "POST /api/manyou/my.php HTTP/1.0" 404 473 "http://www.028ujz.com/api/manyou/my.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.9) Gecko/20100315 Firefox/3.5.9"
101.226.65.102 - - [26/May/2015:07:51:15 -0400] "GET //code.jquery.com/jquery-1.11.2.min.js HTTP/1.1" 404 488 "http://028ujz.com//code.jquery.com/jquery-1.11.2.min.js" "Mozilla/5.0 (Linux; U; Android 4.4.2; zh-cn; GT-I9500 Build/KOT49H) AppleWebKit/537.36 (KHTML, like Gecko)Version/4.0 MQQBrowser/5.0 QQ-Manager Mobile Safari/537.36"
101.226.65.102 - - [26/May/2015:07:51:15 -0400] "GET //code.jquery.com/ui/1.11.4/jquery-ui.min.js HTTP/1.1" 404 494 "http://028ujz.com//code.jquery.com/ui/1.11.4/jquery-ui.min.js" "Mozilla/5.0 (Linux; U; Android 4.4.2; zh-cn; GT-I9500 Build/KOT49H) AppleWebKit/537.36 (KHTML, like Gecko)Version/4.0 MQQBrowser/5.0 QQ-Manager Mobile Safari/537.36"
46.161.41.199 - - [26/May/2015:07:56:20 -0400] "GET /member/tager/574/index.html HTTP/1.1" 404 478 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:26.1) Gecko/20100101 Firefox/26.0"

בקיצור, המון בוטים טוחנים לי את המחשב.
איזה דרכים מקובלות ופרקטיות יש כדי למנוע מכל הבוטים האלה גישה למחשב ?
(ולאפשר 3-4 מנועי חיפוש מובילים)
 

שוּלה

New member
נ.ב. אני יכול לשים עוד מכונה באותו מקום בחינם

חשבתי אולי לשים מכונה זעירה של פרוקסי או פיירוול, אבל אני לא מכיר את הטכנולוגיות החדשות, ומה באמת יעזור.
 

sehu

New member
זה טבעו של ה-web. יש בעיה פרקטית?

אם לא, למה צריך לעשות משהו? requests לדברים לא קיימים יקבלו 404 וזהו.
&nbsp
 

sehu

New member
השאלה העיקרית היא מאיפה ה-IP/כתובת שלך הגיעה לכל אלה

 

שוּלה

New member
הבעיות בעתיד: CPU, ולוגים.

ה-CPU והזכרון של המכונה עסוקים או יהיו עסוקים עם פניות של APACHE.
&nbsp
אבל כבר עכשיו יש לי 400 פניות ביום.
זה לא במימדים של DDOS, ברור, אבל כשיהיו שם תכנים, המספר של הפניות האלה יעלה בכמה סדרי גודל,
והשרת באמת יטפל בבקשות, ויגיש מידע לכל מיני רובוטים.
כשמדובר בסקריפטים (PHP, פניות לדטהבייס, וכו') הבוטים מהווים משקל משמעותי במחיר של השרת.
והלוגים, כבר עכשיו מתמלאים ודוחקים החוצה מידע רלוונטי.
&nbsp
 

sehu

New member
אני לא יודע איך הגיעו אליך, אבל אני לא רואה מה אפשר לעשות

אין לך דרך להבדיל בין משתמש אמיתי למשהו אוטומטי שלא ברור מה המטרה שלו. בכל מקרה הבקשות הן לעמודים לא קיימים, אז הטיפול של השרת הוא כבר מהיר.
&nbsp
אגב, Baidu הוא מנוע חיפוש.
&nbsp
 

sehu

New member
אם מדובר בפניות לעמודים קיימים, אתה יכול לסנן לפי zh-CN,

בהנחה שאתה רוצה להפלות סינים (לא יודע מי הקהל שלך).
 

שוּלה

New member
נראה לי שזאת התחלה טובה, לסנן לפי גיאוגרפיה

אין לי צורך בלקוחות ומבקרים מסין.
&nbsp
אני חושב שלפחות חלק מהפניות הן לפי IP.
&nbsp
כנראה שלא ניסחתי נכון - קניתי דומיין משומש! בשבילי הוא חדש, אבל יש לו כבר היסטוריה (לא בעייתית)
 

sehu

New member
עוד כמה נקודות...

400 פניות ליום זה כלום. אם התעבורה היא בגלל מה שהיה בדומיין לפני כן, זה רק ילך ויפחת. תהתחיל לחשוב על הנושא אם זה יהיה 400 פניות בשעה.
&nbsp
אם אתה מתכוון לסנן לפי זיהוי גיאוגרפי לפי IP, העבודה שתעשה בשביל הסינןן תיקח יותר כוח עיבוד מה-404 הנוכחיים. גם אם תלך לפי zh-cn ב-request headers לדעתי זה לא יהיה קל יותר מסתם 404 בגלל כתובת/קובץ שלא קיימים.
&nbsp
&nbsp
 

Admini

New member
יש שרתי web שמתמודדים גרוע עם 404

(למשל שרתי cache לסוגיהם)
&nbsp
ושם הפיתרון המוצע זה לאחסן קבצים נפוצים ריקים עם TTL ארוך גם אם לא צריך אותם (crossdomain, favicon, robots,....)
 
למעלה