/ Forside / Teknologi / Internet / Browser / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
Browser
#NavnPoint
Klaudi 20366
molokyle 12124
o.v.n. 8114
miritdk 4839
stl_s 3840
refi 3598
dk 2598
arlet 2470
tedd 2383
10  webnoob 2075
browsere med spider,crawler eller bot i na~
Fra : Leif Neland


Dato : 21-11-11 11:51

Kan man mon ikke regne med, at hvis man frasorterer de, hvor user_agent
indeholder 'spider','crawler' eller 'bot', så går det ikke ud over nogen
brower brugt af et menneske?

Det er for at frasortere botter til en hitcounter, så det skal ikke være
110% præcist.

Leif



 
 
Bertel Lund Hansen (21-11-2011)
Kommentar
Fra : Bertel Lund Hansen


Dato : 21-11-11 19:46

Leif Neland skrev:

> Kan man mon ikke regne med, at hvis man frasorterer de, hvor user_agent
> indeholder 'spider','crawler' eller 'bot', så går det ikke ud over nogen
> brower brugt af et menneske?

Jeg lavede på et tidspunkt et tjek på de agenter der besøgte
Fiduso. Det skyldtes at jeg opdagede at der var heftig trafik af
agenter der langt oversteg menneskebesøgene. I dag har jeg
frasorteret klienter der har "Slurp" eller "Yandex" i navnet. Det
reducerede trafikken med en Gbyte om måneden.

Jeg startede med at lave et script der opsamlede navne fra de
besøgende agenter, og så kunne jeg se hvilke der trak den
voldsomme trafik. Bagefter lagde jeg et filter i en htaccess-fil.

--
Bertel
http://bertel.lundhansen.dk/      http://fiduso.dk/

Leif Neland (22-11-2011)
Kommentar
Fra : Leif Neland


Dato : 22-11-11 00:14

Den 21-11-2011 19:45, Bertel Lund Hansen skrev:
> Leif Neland skrev:
>
>> Kan man mon ikke regne med, at hvis man frasorterer de, hvor user_agent
>> indeholder 'spider','crawler' eller 'bot', så går det ikke ud over nogen
>> brower brugt af et menneske?
>
> Jeg lavede på et tidspunkt et tjek på de agenter der besøgte
> Fiduso. Det skyldtes at jeg opdagede at der var heftig trafik af
> agenter der langt oversteg menneskebesøgene. I dag har jeg
> frasorteret klienter der har "Slurp" eller "Yandex" i navnet. Det
> reducerede trafikken med en Gbyte om måneden.
>
> Jeg startede med at lave et script der opsamlede navne fra de
> besøgende agenter, og så kunne jeg se hvilke der trak den
> voldsomme trafik. Bagefter lagde jeg et filter i en htaccess-fil.
>

Jeg vil ikke bortsortere alle bot's; det vil chefen nok ikke blive glad
for

Jeg vil bare ikke have dem talt med i hits.

Men jeg vil lige kigge på loggen om Slurp og Yandex er belastende.

Leif

Rune Jensen (22-11-2011)
Kommentar
Fra : Rune Jensen


Dato : 22-11-11 10:05

On 21 Nov., 19:45, Bertel Lund Hansen
<splitteminebrams...@lundhansen.dk> wrote:

> I dag har jeg
> frasorteret klienter der har "Slurp" eller "Yandex" i navnet. Det
> reducerede trafikken med en Gbyte om måneden.
>
> Jeg startede med at lave et script der opsamlede navne fra de
> besøgende agenter, og så kunne jeg se hvilke der trak den
> voldsomme trafik. Bagefter lagde jeg et filter i en htaccess-fil.

Det er ikke nødvendigt at lave så meget for det. Slurp er Yahoos bot,
og Yandex er en tjekkisk udgave af/konkurrent til Google. De er
godartede, derfor forstår de både metas og robots.txt. Noget i retning
af én linje for hver for at holde dem helt ude.


MVH
Rune Jensen

Bertel Lund Hansen (22-11-2011)
Kommentar
Fra : Bertel Lund Hansen


Dato : 22-11-11 19:52

Rune Jensen skrev:

> Det er ikke nødvendigt at lave så meget for det. Slurp er Yahoos bot,
> og Yandex er en tjekkisk udgave af/konkurrent til Google. De er
> godartede, derfor forstår de både metas og robots.txt. Noget i retning
> af én linje for hver for at holde dem helt ude.

Jamen, jeg bruger kun én linje til hver for at holde dem ude.

--
Bertel
http://bertel.lundhansen.dk/      http://fiduso.dk/

Rune Jensen (24-11-2011)
Kommentar
Fra : Rune Jensen


Dato : 24-11-11 08:13

On 22 Nov., 10:52, Bertel Lund Hansen
<splitteminebrams...@lundhansen.dk> wrote:
> Rune Jensen skrev:
>
> > Det er ikke nødvendigt at lave så meget for det. Slurp er Yahoos bot,
> > og Yandex er en tjekkisk udgave af/konkurrent til Google. De er
> > godartede, derfor forstår de både metas og robots.txt. Noget i retning
> > af én linje for hver for at holde dem helt ude.
>
> Jamen, jeg bruger kun én linje til hver for at holde dem ude.

Så har jeg måske misforstået. Min opfattelse var, du holdt dem ude med
server-kode eller .httaccess, hvilket er en godtnok lille, men
alligevel unødig belastning for serveren.


MVH
Rune Jensen

Bertel Lund Hansen (24-11-2011)
Kommentar
Fra : Bertel Lund Hansen


Dato : 24-11-11 17:47

Rune Jensen skrev:

> Så har jeg måske misforstået. Min opfattelse var, du holdt dem ude med
> server-kode eller .httaccess, hvilket er en godtnok lille, men
> alligevel unødig belastning for serveren.

htaccess:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Slurp [OR]
RewriteCond %{HTTP_USER_AGENT} Yandex
RewriteRule ^.* - [F,L]

--
Bertel
http://bertel.lundhansen.dk/      http://fiduso.dk/

Rune Jensen (22-11-2011)
Kommentar
Fra : Rune Jensen


Dato : 22-11-11 10:00

On 21 Nov., 11:50, "Leif Neland" <l...@neland.dk> wrote:
> Kan man mon ikke regne med, at hvis man frasorterer de, hvor user_agent
> indeholder 'spider','crawler' eller 'bot', så går det ikke ud over nogen
> brower brugt af et menneske?
>
> Det er for at frasortere botter til en hitcounter, så det skal ikke være
> 110% præcist.

Jeg har kørt med en sådan igennem flere år:

if inUserAgent("http://", "bot") then isBot=True

110% sikker er den ikke. Har oplevet én, som jeg er ret sikker på, er
efterligning af GoogleBot via Firefox extension (pga. surfing-
mønsteret).

Du kan så frasortere, hvis referer andet end din side (eller tom), for
ingen af de søgebotter vil have en referer, som ikke refererer til
den, de gennemsøger.

Men dette tager også kun de godartede botter. Du er vel nødt til at
have de ondartede med også.

isEvilBot = inUserAgent("Firefox 2.0","IE 6.0","JAVA") AND
GZIPNotSupported.

Du kan yderligere kende de onde fra de gode, fordi mange onde henter i
nøjagtigt ens rækkefølge, samt de overholder ikke god skik om et vist
tidsrum imellem nedhentninger. Man kan lave lidt "real time"
evalueringer over hastigheden på en bestemt bruger, men så langt kom
jeg aldrig selv, at jeg fik lavet et brugbart (analyse)script.


MVH
Rune Jensen

Søg
Reklame
Statistik
Spørgsmål : 177414
Tips : 31962
Nyheder : 719565
Indlæg : 6407822
Brugere : 218875

Månedens bedste
Årets bedste
Sidste års bedste