Trojaner-Board

Trojaner-Board (https://www.trojaner-board.de/)
-   Überwachung, Datenschutz und Spam (https://www.trojaner-board.de/uberwachung-datenschutz-spam/)
-   -   Crawler, Spider über htaccess. und robots.txt ausschließen (https://www.trojaner-board.de/174105-crawler-spider-htaccess-robots-txt-ausschliessen.html)

Nanafa 12.12.2015 20:53

Crawler, Spider über htaccess. und robots.txt ausschließen
 
Guten Abend,

ich versuche mich gerade im Ausschließen von Crawlern, bekomme das aber auf eigene Faust nicht hin.
Ich hatte über das Internet folgende "Auschluss-Datei" gefunden, die ich gerne übernehmen würde...:

Inhalt der Datei robots.txt. :

Code:

User-agent: SEOkicks
Disallow: /
User-agent: SEOkicks-Robot
Disallow: /

 
User-agent: sistrix
Disallow: /


User-agent: MajesticSEO
Disallow: /


User-agent: BacklinkCrawler
Disallow: /


User-agent: xovi
Disallow: /
User-agent: XoviBot
Disallow: /


User-agent: MJ12bot
Disallow: /


User-agent: spbot
Disallow: /


User-agent: SearchmetricsBot
Disallow: /


User-agent: search17
Disallow: /


User-agent: AhrefsBot
Disallow: /


User-agent: ia_archiver
Disallow: /


User-agent: TurnitinBot
Disallow: /


User-agent: SlySearch
Disallow: /


User-agent: findlinks
Disallow: /


User-agent: magpie-crawler
Disallow: /


User-agent: Pixray-Seeker
Disallow: /

 
User-agent: 008
Disallow: /       


User-agent: Ezooms
Disallow: /       


User-agent: lb-spider
Disallow: /       


User-agent: WBSearchBot
Disallow: /


User-agent: psbot
Disallow: /


User-agent: HuaweiSymantecSpider
Disallow: /


User-agent: EC2LinkFinder
Disallow: /


User-agent: htdig
Disallow: /


User-agent: SemrushBot
Disallow: /


User-agent: discobot
Disallow: /


User-agent: linkdex.com
Disallow: /


User-agent: SeznamBot
Disallow: /


User-agent: EdisterBot
Disallow: /


User-agent: SWEBot
Disallow: /


User-agent: picmole
Disallow: /


User-agent: Yeti
Disallow: /
User-agent: Yeti-Mobile
Disallow: /


User-agent: PagePeeker
Disallow: /


User-agent: CatchBot
Disallow: /


User-agent: yacybot
Disallow: /


User-agent: netEstateNECrawler
Disallow: /


User-agent: SurveyBot
Disallow: /


User-agent: COMODOSSLChecker
Disallow: /
User-agent: Comodo-Certificates-Spider
Disallow: /


User-agent: gonzo
Disallow: /


User-agent: schrein
Disallow: /


User-agent: AfiliasWebMiningTool
Disallow: /


User-agent: suggybot
Disallow: /


User-agent: bdbrandprotect
Disallow: /


User-agent: BPImageWalker
Disallow: /


User-agent: Updownerbot
Disallow: /


User-agent: lex
Disallow: /


User-agent: ContentCrawler
Disallow: /


User-agent: DCPbot
Disallow: /


User-agent: KaloogaBot
Disallow: /


User-agent: MLBot
Disallow: /
 

User-agent: iCjobs
Disallow: /


User-agent: oBot
Disallow: /


User-agent: WebmasterCoffee
Disallow: /


User-agent: Qualidator
Disallow: /


User-agent: Webinator
Disallow: /


User-agent: Scooter
Disallow: /


User-agent: thunderstone
Disallow: /


User-agent: larbin
Disallow: /


User-agent: OpidooBOT
Disallow: /


User-agent: ips-agent
Disallow: /


User-agent: TinEye
Disallow: /


User-agent: UnisterBot
Disallow: /
User-agent: Unister
Disallow: /


User-agent: ReverseGet
Disallow: /


User-agent: DotBot
Disallow: /

Inhalt der Datei .htaccess. :

Code:

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^SEOkicks [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SEOkicks-Robot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^sistrix [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^MajesticSEO [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^BacklinkCrawler [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^xovi [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^XoviBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^spbot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SearchmetricsBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^search17 [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^TurnitinBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SlySearch [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^findlinks [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^magpie-crawler [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Pixray-Seeker [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^008 [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Ezooms [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^lb-spider [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^WBSearchBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^psbot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^HuaweiSymantecSpider [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^EC2LinkFinder [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^htdig [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SemrushBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^discobot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^linkdex.com [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SeznamBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^EdisterBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SWEBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^picmole [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Yeti [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Yeti-Mobile [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^PagePeeker [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^CatchBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^yacybot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^netEstateNECrawler [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SurveyBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^COMODOSSLChecker [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Comodo-Certificates-Spider [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^gonzo [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^schrein [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^AfiliasWebMiningTool [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^suggybot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^bdbrandprotect [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^BPImageWalker [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Updownerbot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^lex [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^ContentCrawler [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^DCPbot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^KaloogaBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^MLBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^iCjobs [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^oBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^WebmasterCoffee [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Qualidator [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Webinator [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Scooter [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^thunderstone [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^larbin [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^OpidooBOT  [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^ips-agent [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^TinEye [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^UnisterBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Unister [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^ReverseGet [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^DotBot [NC]
RewriteRule ^.* - [F,L]

Und warum soll man Google-Bot nicht ausschließen? Sind diese Bots denn für irgendetwas gut, außer dass sie persönliche Daten abgreifen können?

Freue mich über Antwort,

LG Nanafa

Nanafa 30.12.2015 22:24

Guten Abend nochmal....


darf ich keine Antwort als "ist auch ne Antwort" verstehen? :wtf:


Lg

cosinus 31.12.2015 04:50

Keine Antwort darfst du auch gerne so verstehen, dass einfach noch niemand deinen Thread gelesen hat, der sich auf diesem Gebiet auskennt.

Was verstehst du unter persönliche Daten auf deinem Webserver? Wenn die öffentlich abgreifbar sind soll da die robots.txt wie helfen?? :wtf:

Nanafa 01.01.2016 04:49

Ok alles klar;) Frohes Neues.

Ich kenne mich zugebenermaßen in der Materie nicht so aus und habe mich nur über Google weitergebildet - und kam eben auf den Ratschlag, das Ausschließen von Crawlern auf beschriebene Weise zu handhaben...Kriege das aber nicht auf die Reihe...

Und zwecks Datenschutz etc kenne ich mich wie gesagt nicht aus, mir geht es da aber auch nicht um vermeintliche Werbung, die angepasst wird und o.ä., sondern darum, gerade in eher persönlich gehaltenen Foren nicht "ausgespäht" zu werden, weil da ja als angemeldete Mitglieder auch oft diese ganzen Spider unterwegs sind... Das war so die Logik, die ich mir dazu gedacht habe... Hoffe noch auf Antwort, und ansonsten muss ich mich da evtl mal noch weiter bilden:)

cosinus 01.01.2016 21:09

Zitat:

Zitat von Nanafa (Beitrag 1549515)
sondern darum, gerade in eher persönlich gehaltenen Foren nicht "ausgespäht" zu werden, weil da ja als angemeldete Mitglieder auch oft diese ganzen Spider unterwegs sind... Das war so die Logik, die ich mir dazu gedacht habe... Hoffe noch auf Antwort, und ansonsten muss ich mich da evtl mal noch weiter bilden:)

Lies doch mal zB https://de.wikipedia.org/wiki/Robots_Exclusion_Standard

Zitat:

Zitat von wiki
In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche ihrer Website für (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Website durch das Protokoll garantiert keine Geheimhaltung



Alle Zeitangaben in WEZ +1. Es ist jetzt 05:46 Uhr.

Copyright ©2000-2025, Trojaner-Board


Search Engine Optimization by vBSEO ©2011, Crawlability, Inc.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131