Zurück   Trojaner-Board > Malware entfernen > Überwachung, Datenschutz und Spam

Überwachung, Datenschutz und Spam: Crawler, Spider über htaccess. und robots.txt ausschließen

Windows 7 Fragen zu Verschlüsselung, Spam, Datenschutz & co. sind hier erwünscht. Hier geht es um Abwehr von Keyloggern oder aderen Spionagesoftware wie Spyware und Adware. Themen zum "Trojaner entfernen" oder "Malware Probleme" dürfen hier nur diskutiert werden. Benötigst du Hilfe beim Trojaner entfernen oder weil du dir einen Virus eingefangen hast, erstelle ein Thema in den oberen Bereinigungsforen.

Antwort
Alt 12.12.2015, 20:53   #1
Nanafa
 
Crawler, Spider über htaccess. und robots.txt ausschließen - Standard

Crawler, Spider über htaccess. und robots.txt ausschließen



Guten Abend,

ich versuche mich gerade im Ausschließen von Crawlern, bekomme das aber auf eigene Faust nicht hin.
Ich hatte über das Internet folgende "Auschluss-Datei" gefunden, die ich gerne übernehmen würde...:

Inhalt der Datei robots.txt. :

Code:
ATTFilter
User-agent: SEOkicks
Disallow: /
User-agent: SEOkicks-Robot
Disallow: /

 
User-agent: sistrix
Disallow: /


User-agent: MajesticSEO
Disallow: /


User-agent: BacklinkCrawler
Disallow: /


User-agent: xovi
Disallow: /
User-agent: XoviBot
Disallow: /


User-agent: MJ12bot
Disallow: /


User-agent: spbot
Disallow: /


User-agent: SearchmetricsBot
Disallow: /


User-agent: search17
Disallow: /


User-agent: AhrefsBot
Disallow: / 


User-agent: ia_archiver
Disallow: /


User-agent: TurnitinBot
Disallow: / 


User-agent: SlySearch
Disallow: / 


User-agent: findlinks
Disallow: / 


User-agent: magpie-crawler
Disallow: / 


User-agent: Pixray-Seeker
Disallow: / 

 
User-agent: 008
Disallow: /	


User-agent: Ezooms
Disallow: /	


User-agent: lb-spider
Disallow: /	


User-agent: WBSearchBot
Disallow: /


User-agent: psbot
Disallow: /


User-agent: HuaweiSymantecSpider
Disallow: / 


User-agent: EC2LinkFinder
Disallow: / 


User-agent: htdig
Disallow: / 


User-agent: SemrushBot
Disallow: / 


User-agent: discobot
Disallow: / 


User-agent: linkdex.com
Disallow: / 


User-agent: SeznamBot
Disallow: / 


User-agent: EdisterBot
Disallow: / 


User-agent: SWEBot
Disallow: / 


User-agent: picmole
Disallow: / 


User-agent: Yeti
Disallow: / 
User-agent: Yeti-Mobile
Disallow: / 


User-agent: PagePeeker
Disallow: / 


User-agent: CatchBot
Disallow: / 


User-agent: yacybot
Disallow: /


User-agent: netEstateNECrawler
Disallow: /


User-agent: SurveyBot
Disallow: /


User-agent: COMODOSSLChecker
Disallow: /
User-agent: Comodo-Certificates-Spider
Disallow: /


User-agent: gonzo
Disallow: /


User-agent: schrein
Disallow: /


User-agent: AfiliasWebMiningTool
Disallow: /


User-agent: suggybot
Disallow: /


User-agent: bdbrandprotect
Disallow: /


User-agent: BPImageWalker
Disallow: /


User-agent: Updownerbot
Disallow: /


User-agent: lex
Disallow: /


User-agent: ContentCrawler
Disallow: /


User-agent: DCPbot
Disallow: /


User-agent: KaloogaBot
Disallow: /


User-agent: MLBot
Disallow: /
 

User-agent: iCjobs
Disallow: /


User-agent: oBot
Disallow: /


User-agent: WebmasterCoffee
Disallow: /


User-agent: Qualidator
Disallow: /


User-agent: Webinator
Disallow: /


User-agent: Scooter
Disallow: /


User-agent: thunderstone
Disallow: /


User-agent: larbin
Disallow: /


User-agent: OpidooBOT 
Disallow: /


User-agent: ips-agent 
Disallow: /


User-agent: TinEye
Disallow: /


User-agent: UnisterBot
Disallow: /
User-agent: Unister
Disallow: /


User-agent: ReverseGet
Disallow: /


User-agent: DotBot
Disallow: /
         
Inhalt der Datei .htaccess. :

Code:
ATTFilter
RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^SEOkicks [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SEOkicks-Robot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^sistrix [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^MajesticSEO [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^BacklinkCrawler [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^xovi [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^XoviBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^spbot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SearchmetricsBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^search17 [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^TurnitinBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SlySearch [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^findlinks [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^magpie-crawler [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Pixray-Seeker [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^008 [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Ezooms [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^lb-spider [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^WBSearchBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^psbot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^HuaweiSymantecSpider [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^EC2LinkFinder [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^htdig [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SemrushBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^discobot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^linkdex.com [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SeznamBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^EdisterBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SWEBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^picmole [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Yeti [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Yeti-Mobile [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^PagePeeker [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^CatchBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^yacybot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^netEstateNECrawler [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^SurveyBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^COMODOSSLChecker [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Comodo-Certificates-Spider [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^gonzo [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^schrein [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^AfiliasWebMiningTool [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^suggybot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^bdbrandprotect [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^BPImageWalker [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Updownerbot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^lex [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^ContentCrawler [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^DCPbot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^KaloogaBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^MLBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^iCjobs [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^oBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^WebmasterCoffee [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Qualidator [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Webinator [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Scooter [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^thunderstone [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^larbin [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^OpidooBOT  [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^ips-agent [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^TinEye [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^UnisterBot [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^Unister [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^ReverseGet [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_USER_AGENT} ^DotBot [NC]
RewriteRule ^.* - [F,L]
         
Und warum soll man Google-Bot nicht ausschließen? Sind diese Bots denn für irgendetwas gut, außer dass sie persönliche Daten abgreifen können?

Freue mich über Antwort,

LG Nanafa

Alt 30.12.2015, 22:24   #2
Nanafa
 
Crawler, Spider über htaccess. und robots.txt ausschließen - Standard

Crawler, Spider über htaccess. und robots.txt ausschließen



Guten Abend nochmal....


darf ich keine Antwort als "ist auch ne Antwort" verstehen?


Lg
__________________


Alt 31.12.2015, 04:50   #3
cosinus
/// Winkelfunktion
/// TB-Süch-Tiger™
 
Crawler, Spider über htaccess. und robots.txt ausschließen - Standard

Crawler, Spider über htaccess. und robots.txt ausschließen



Keine Antwort darfst du auch gerne so verstehen, dass einfach noch niemand deinen Thread gelesen hat, der sich auf diesem Gebiet auskennt.

Was verstehst du unter persönliche Daten auf deinem Webserver? Wenn die öffentlich abgreifbar sind soll da die robots.txt wie helfen??
__________________
__________________

Alt 01.01.2016, 04:49   #4
Nanafa
 
Crawler, Spider über htaccess. und robots.txt ausschließen - Standard

Crawler, Spider über htaccess. und robots.txt ausschließen



Ok alles klar Frohes Neues.

Ich kenne mich zugebenermaßen in der Materie nicht so aus und habe mich nur über Google weitergebildet - und kam eben auf den Ratschlag, das Ausschließen von Crawlern auf beschriebene Weise zu handhaben...Kriege das aber nicht auf die Reihe...

Und zwecks Datenschutz etc kenne ich mich wie gesagt nicht aus, mir geht es da aber auch nicht um vermeintliche Werbung, die angepasst wird und o.ä., sondern darum, gerade in eher persönlich gehaltenen Foren nicht "ausgespäht" zu werden, weil da ja als angemeldete Mitglieder auch oft diese ganzen Spider unterwegs sind... Das war so die Logik, die ich mir dazu gedacht habe... Hoffe noch auf Antwort, und ansonsten muss ich mich da evtl mal noch weiter bilden

Alt 01.01.2016, 21:09   #5
cosinus
/// Winkelfunktion
/// TB-Süch-Tiger™
 
Crawler, Spider über htaccess. und robots.txt ausschließen - Standard

Crawler, Spider über htaccess. und robots.txt ausschließen



Zitat:
Zitat von Nanafa Beitrag anzeigen
sondern darum, gerade in eher persönlich gehaltenen Foren nicht "ausgespäht" zu werden, weil da ja als angemeldete Mitglieder auch oft diese ganzen Spider unterwegs sind... Das war so die Logik, die ich mir dazu gedacht habe... Hoffe noch auf Antwort, und ansonsten muss ich mich da evtl mal noch weiter bilden
Lies doch mal zB https://de.wikipedia.org/wiki/Robots_Exclusion_Standard

Zitat:
Zitat von wiki
In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche ihrer Website für (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern. Ein Ausgrenzen bestimmter Teile einer Website durch das Protokoll garantiert keine Geheimhaltung

__________________
Logfiles bitte immer in CODE-Tags posten

Antwort

Themen zu Crawler, Spider über htaccess. und robots.txt ausschließen
abend, antwort, ausschließen, code, daten, faust, folge, folgende, gefunde, guten, inter, interne, internet, irgendetwas, nicht, persönliche, versuche, warum, übernehmen




Ähnliche Themen: Crawler, Spider über htaccess. und robots.txt ausschließen


  1. Spam über meinen web.de Account versendet - Mails nur über MacBook und iPhone abgerufen
    Alles rund um Mac OSX & Linux - 02.12.2015 (11)
  2. Seagate Dashboard Backup Antivir und Malwarebytes haben mehrere Virgen gefunden PUA/Crawler.Gen, PUA/DownloadSponsor.Gen
    Log-Analyse und Auswertung - 15.07.2015 (7)
  3. Treiber über Geräte Manager oder über Software aus dem Internet Downloaden ?
    Netzwerk und Hardware - 11.04.2015 (8)
  4. Verschiedene Problem unter Windows, möchte Malwareverdacht ausschließen
    Plagegeister aller Art und deren Bekämpfung - 28.02.2014 (16)
  5. Internet langsam - nach Ausschließen von Technischen Problem Trojaner Check
    Plagegeister aller Art und deren Bekämpfung - 06.02.2014 (3)
  6. Crawler.com entfernen
    Anleitungen, FAQs & Links - 21.10.2013 (2)
  7. Phishing-Mail - Restrisiko ausschließen?
    Plagegeister aller Art und deren Bekämpfung - 31.07.2013 (23)
  8. Bluescreen ohne erkennbaren Grund - Vireninfektion ausschließen
    Log-Analyse und Auswertung - 24.07.2013 (7)
  9. Alle Server gehackt !? JS, htaccess - http://habboigratis.altervista.org
    Plagegeister aller Art und deren Bekämpfung - 05.02.2013 (3)
  10. Über 40GB freier Speicherplatz auf C:\ über Nacht verschwunden
    Plagegeister aller Art und deren Bekämpfung - 29.01.2013 (1)
  11. Probleme mit Anzeigetreiber - will Virus ausschließen.
    Log-Analyse und Auswertung - 25.12.2012 (0)
  12. Trojaner/Virus über malwarebyte gefunden; Infizierung über Link - was nun?
    Log-Analyse und Auswertung - 14.09.2012 (5)
  13. Facebook-Crawler sammelt mehr als 170 Millionen Datensätze
    Nachrichten - 28.07.2010 (0)
  14. Frage->AntiVir(aggressiv) ... Wie kann man dateien aus der suche ausschließen?
    Antiviren-, Firewall- und andere Schutzprogramme - 20.08.2008 (3)
  15. Kann mal bitte jemand die Logfile anschauen? Trojan.small/super spider
    Log-Analyse und Auswertung - 23.01.2005 (3)
  16. Verzweiflung: Super Spider nervt mich zu Tode - kann mir jemand helfen?
    Log-Analyse und Auswertung - 26.10.2004 (5)
  17. schwachköpfe ausschließen
    Lob, Kritik und Wünsche - 20.07.2003 (34)

Zum Thema Crawler, Spider über htaccess. und robots.txt ausschließen - Guten Abend, ich versuche mich gerade im Ausschließen von Crawlern, bekomme das aber auf eigene Faust nicht hin. Ich hatte über das Internet folgende "Auschluss-Datei" gefunden, die ich gerne übernehmen - Crawler, Spider über htaccess. und robots.txt ausschließen...
Archiv
Du betrachtest: Crawler, Spider über htaccess. und robots.txt ausschließen auf Trojaner-Board

Search Engine Optimization by vBSEO ©2011, Crawlability, Inc.