Stránka 1 z 1
Boti v přístupech na stránku
Napsal: čtv 16. črc 2009, 16:04
od arxeiss
Mám počítadlo přístupů (toto:
http://pctforum.tyden.cz/viewtopic.php?f=53&t=143247) a ve statistice se mi ukzauje každý den mezi 00:00 až 02:00 jeden přístup, nejdříve jsem si říkal že to je asi nějaký hyperaktivní člověk, pak mi došlo že to je Google Bot, IP je 66.249.71.45 když jsem si to dal na stránce
http://www.sir.ir/ tak mi vylezlo že je to již zmiňovaný Google, proto bych se chtěl zeptat jestli se někde dají zjistit i IP ostatních Botů abych je mohl dát do podmínky.
Re: Boti v přístupech na stránku
Napsal: čtv 16. črc 2009, 16:58
od bubanek
Re: Boti v přístupech na stránku
Napsal: čtv 16. črc 2009, 18:49
od OndraSter
Mj. mají i v useragentu obvykle crawler nebo bot.
Re: Boti v přístupech na stránku
Napsal: pát 17. črc 2009, 15:13
od arxeiss
OndraSter píše:Mj. mají i v useragentu obvykle crawler nebo bot.
Mohl by jsi mi to please vysvětlit? Nějak nechápu.
A jěště to je tolik IP ze kterých mě může google navštívit?
http://www.iplists.com/google.txt atd...
Re: Boti v přístupech na stránku
Napsal: pát 17. črc 2009, 15:24
od OndraSter
V $_SERVER["HTTP_USER_AGENT"] je jakýsi identifikační text prohlížeče, pro Operu 10 to je třeba toto:
Opera/9.80 (Windows NT 6.0; U; en) Presto/2.2.15 Version/10.00
Když se podívám do logu a vygrepuju si boty, tak tam narazím třeba na useragenty:
ondraster.cz 74.52.43.10 - - [17/Jul/2009:14:31:30 +0200] "GET /robots.txt HTTP/1.0" 404 279 "-" "
gh-index-bot/Nutch-1.0 (GH Web Search.; lucene.apache.org; gh_email at someplace dot com)"
- to nevím co je zač
ondraster.cz 65.55.209.164 - - [17/Jul/2009:15:07:03 +0200] "GET /robots.txt HTTP/1.1" 404 275 "-" "
msnbot/1.1 (+http://search.msn.com/msnbot.htm)"
- MSN bot (MS Bing vyhledávač?)
ondraster.cz 66.249.68.211 - - [17/Jul/2009:06:58:06 +0200] "GET /registrace.php HTTP/1.1" 200 5564 "-" "
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
- Google
ondraster.cz 66.249.67.75 - - [17/Jul/2009:10:01:55 +0200] "GET /robots.txt HTTP/1.1" 404 279 "-" "
Googlebot-Image/1.0"
- Google images
atd
Dá se to z toho poznat, jestli je bot nebo ne, málokterý bot nemá v useragentu "bot".
// Ohledně poznáváni Googlebota jsem narazil na toto:
http://www.google.com/support/webmaster ... swer=80553
Re: Boti v přístupech na stránku
Napsal: pát 17. črc 2009, 19:21
od arxeiss
Jsem asi debil

ale v $_SERVER["HTTP_USER_AGENT"] jsou jenom informace o prohlížeči a ne? Teda zkoušel jsem echnout tu proměnnou z různých serverů a prohlížečů a prostě nikde to nevypsalo více než o prohlížečích.
Re: Boti v přístupech na stránku
Napsal: pát 17. črc 2009, 19:32
od Teuzz
A tvrdi snad Ondraster neco jineho? Ten citovany text je apache access log...
//Jaj, Ondrastere, klanim se, tohle me nenapadlo

Re: Boti v přístupech na stránku
Napsal: pát 17. črc 2009, 19:34
od OndraSter
OndraSter píše:V $_SERVER["HTTP_USER_AGENT"] je jakýsi identifikační text prohlížeče, ...
arxeiss píše:Jsem asi debil

ale v $_SERVER["HTTP_USER_AGENT"] jsou jenom informace o prohlížeči a ne?
Bot je taky prohlížeč...
Re: Boti v přístupech na stránku
Napsal: sob 18. črc 2009, 10:53
od arxeiss
takže tam stačí dát podmínku if(substr_count($_SERVER["HTTP_USER_AGENT"], 'bot')>0)
Re: Boti v přístupech na stránku
Napsal: sob 18. črc 2009, 11:50
od OndraSter
Mozilla, IE, Opera, ani jeden z nich nemá v useragentu bot (pokud jsem to nepřehlídl), takže ano.