Google Hacking verhindern: Verzeichnisse schützen
Nachdem Sie erfahren haben, was man über Google Hacking alles finden kann und wie das funktioniert, wollen Sie sicher auch wissen, wie Sie verhindern können, selbst zum Opfer von Google Hacking zu werden. Die Antwort darauf ist ganz einfach: Stellen Sie nichts ins Netz, was nicht auch gefunden werden darf. Und schützen sie alles, was nur für bestimmte Benutzer(gruppen) vorgesehen ist, vor unbefugten Zugriffen. Beides ist leichter gesagt als getan.
Am Anfang steht die Sicherheitsrichtlinie
Es gibt viele technische Möglichkeiten, Ressourcen zu schützen. Aber um die richtig anwenden zu können, muss zuerst einmal festgelegt werden, was überhaupt geschützt werden soll bzw. muss. Eine gute Sicherheitsrichtlinie führt die zu schützenden Ressourcen auf, und beschreibt, wie sie geschützt werden sollen, welche Risiken akzeptabel sind und was passiert, wenn etwas passiert, es also zu unbefugten Zugriffen kommt.
Wie eine Sicherheitsrichtlinie entwickelt werden kann, werde ich vielleicht irgendwann in einer zukünftigen Folge beschreiben. Eine schon "etwas" ältere Beschreibung finden Sie in About Security #53 ff. Im Grunde ist diese Beschreibung auch heute noch gültig, viele Faktoren werden darin aber nicht berücksichtigt. Aber vielleicht haben Sie sogar schon eine Sicherheitsrichtlinie, ohne es zu wissen.
Schutzfunktionen der Webserver
Kommen wir nun zu den technischen Schutzmaßnahmen. Die Webserver sind zwar hauptsächlich für das Bereitstellen von Daten für die Öffentlichkeit gedacht, stellen aber auch einige Möglichkeiten bereit, Daten zu schützen. Bedenken Sie dabei aber immer, dass der Schutz die Ausnahme ist und schon ein kleiner Fehler zu einem Informationsleck führen kann. Alles, was auf keinen Fall an die Öffentlichkeit gelangen soll, hat auf einem Webserver mit Internetanschluss nichts zu suchen. Solche Daten gehören entweder auf einen Webserver im Intranet oder einen anderen, speziell für ihren Schutz ausgerichteten lokalen Server.
Theoretisch könnte auf einem Webserver ein rollenbasierter Zugriffsschutz eingerichtet werden, indem bestimmte Verzeichnisse nur für bestimmte Benutzer(gruppen) freigegeben werden. Praktisch ist das aber zu gefährlich, eine im falschen Verzeichnis gespeicherte Datei würde schnell in falsche Hände gelangen. Und bei einer Kompromittierung des Webservers wäre dieser Zugriffsschutz komplett wirkungslos, der Angreifer kann auf alle auf dem Webserver gespeicherten Dateien zugreifen.
Aber kommen wir jetzt zum eigentlichen Thema: Dem Schutz von Verzeichnissen vor Google Hacking.
Verzeichnislisten
Welche Gefahr von Verzeichnislisten ausgehen, haben Sie bereits erfahren. Verzeichnislisten sollten Sie daher generell ausschalten, sofern Sie nicht absichtlich den Besuchern das Durchstöbern des Webservers oder einzelner Verzeichnisse erlauben wollen.
Fehlende Indexdateien
Je nach Konfiguration geben manche Webserver eine Verzeichnisliste aus,
wenn in einem Verzeichnis keine der vorgegebenen Indexdateien wie
index.html
, index.php
oder
default.asp
enthalten ist. In jedes Verzeichnis gehört
deshalb eine Indexdatei, und wenn es eine leere Datei ist.
robots.txt
gegen Crawler
Um Crawler auszusperren, dient die Datei
robots.txt
.
Sie wird im Webroot-Verzeichnis gespeichert und legt fest, welche Dateien
und Verzeichnisse die Crawler nicht beachten sollen. Die Datei enthält
Einträge nach dem Muster
User-agent: [Name des Crawlers oder * als Wildcard]
Disallow: [Verbotene Verzeichnisse]
Außerdem kann die Datei durch #
markierte Zeilen mit
Kommentaren enthalten.
Beim Einsatz der robots.txt
-Datei müssen Sie zwei Dinge
beachten:
- Die Crawler müssen die Datei nicht beachten. Insbesondere bösartige Crawler, beispielsweise zum Sammeln von E-Mail-Adressen für Spammer, ignorieren sie.
- Die Datei ist für alle lesbar. Jeder kann sehen, welche
Verzeichnisse Sie nicht in die Suchmaschinen aufgenommen haben wollen.
Allein diese Information kann schon gefährlich sein, zum Beispiel wenn
dadurch im Rahmen eines Social-Engineering-Angriffs Insiderwissen
vorgetäuscht werden kann: "Ich habe meinen Zugangscode für
das Verzeichnis
/nichts/für/Suchmaschinen/
vergessen, wie lautet der?"
Einige Beispiele
Um alle Crawler aus dem Webserver auszusperren, genügen die Einträge
User-agent: *
Disallow: /
Um alle Crawler zuzulassen, kann die Datei leer bleiben bzw. gar nicht vorhanden sein, alternativ funktioniert es auch mit den Einträgen
User-agent: *
Disallow:
Um alle Crawler aus bestimmten Verzeichnissen auszusperren, dienen die Einträge
User-agent: *
Disallow: /bilder/
Disallow: /cgi-bin/
Disallow: /tmp/
und einzelne Dateien sperren Sie für alle Crawler mit den Einträgen
User-agent: *
Disallow: /pfad/zur/ersten/datei.html
Disallow: /die/zweite-datei.html
Disallow: /und/eine/dritte.php
Möchten Sie einen bestimmten Crawler aussperren, zum Beispiel Googles Bot
mit dem Namen Googlebot
, verwenden Sie die Zeile
User-agent: Googlebot
in Verbindung mit den gewünschten Disallow:
-Zeilen.
Auch eine beliebige Kombination ist möglich. Zum Beispiel würde die
robots.txt
-Datei
# Google darf alles indexieren
User-agent: Googlebot
Disallow:
# Googles Bildersuche soll die privaten Bilder ignorieren
User-agent: Googlebot-Image
Disallow: /bilder/privat/
# Ein-boeser-Spambot soll gefälligst draußen bleiben
User-agent: Ein-boeser-Spambot
Disallow: /
die in den Kommentaren angegebenen Regeln für die Crawler aufstellen.
Ob sich Ein-boeser-Spambot
daran hält, ist eine andere
Frage.
Hinweise für Crawler - und für Angreifer
Denken Sie beim Erstellen der robots.txt
daran, dass Sie auch
von Menschen gelesen werden kann. Insbesondere von solchen mit unlauteren
Absichten. Mit den Einträge
User-agent: *
Disallow: /geschaeftsberichte/bericht2012.pdf
Disallow: /geschaeftsberichte/bericht2013.pdf
Disallow: /geschaeftsberichte/bericht2014.pdf
verhindern Sie, dass ein Crawler die noch nicht zur Veröffentlichung
vorgesehenen Geschäftsberichte indexiert. Ein Angreifer würde die
Gelegenheit sicher nutzen, und nach dem Lesen der robots.txt
die darin aufgeführten Berichte herunterladen.
In der nächsten Folge werden weitere Maßnahmen gegen das Google Hacking vorgestellt.
Übersicht über alle Artikel zum Thema
- Google Hacking, ganz einfach
- Google Hacking - The Next Generation
- Google Hacking: Verzeichnislisten und Intranets
- Google Hacking: Webserver finden
- Google Hacking: Webanwendungen finden
- Google Hacking: Portale und Netzwerkhardware finden
- Google Hacking: Interessante Dateien finden
- Google Hacking verhindern: Verzeichnisse schützen
- Google Hacking verhindern, Teil 2
Trackbacks