Google Hacking verhindern: Verzeichnisse schützen

Geschrieben von Carsten Eilers am Donnerstag, 27. September 2012 um 13:25

Nachdem Sie erfahren haben, was man über Google Hacking alles finden kann und wie das funktioniert, wollen Sie sicher auch wissen, wie Sie verhindern können, selbst zum Opfer von Google Hacking zu werden. Die Antwort darauf ist ganz einfach: Stellen Sie nichts ins Netz, was nicht auch gefunden werden darf. Und schützen sie alles, was nur für bestimmte Benutzer(gruppen) vorgesehen ist, vor unbefugten Zugriffen. Beides ist leichter gesagt als getan.

Am Anfang steht die Sicherheitsrichtlinie

Es gibt viele technische Möglichkeiten, Ressourcen zu schützen. Aber um die richtig anwenden zu können, muss zuerst einmal festgelegt werden, was überhaupt geschützt werden soll bzw. muss. Eine gute Sicherheitsrichtlinie führt die zu schützenden Ressourcen auf, und beschreibt, wie sie geschützt werden sollen, welche Risiken akzeptabel sind und was passiert, wenn etwas passiert, es also zu unbefugten Zugriffen kommt.

Wie eine Sicherheitsrichtlinie entwickelt werden kann, werde ich vielleicht irgendwann in einer zukünftigen Folge beschreiben. Eine schon "etwas" ältere Beschreibung finden Sie in About Security #53 ff. Im Grunde ist diese Beschreibung auch heute noch gültig, viele Faktoren werden darin aber nicht berücksichtigt. Aber vielleicht haben Sie sogar schon eine Sicherheitsrichtlinie, ohne es zu wissen.

Schutzfunktionen der Webserver

Kommen wir nun zu den technischen Schutzmaßnahmen. Die Webserver sind zwar hauptsächlich für das Bereitstellen von Daten für die Öffentlichkeit gedacht, stellen aber auch einige Möglichkeiten bereit, Daten zu schützen. Bedenken Sie dabei aber immer, dass der Schutz die Ausnahme ist und schon ein kleiner Fehler zu einem Informationsleck führen kann. Alles, was auf keinen Fall an die Öffentlichkeit gelangen soll, hat auf einem Webserver mit Internetanschluss nichts zu suchen. Solche Daten gehören entweder auf einen Webserver im Intranet oder einen anderen, speziell für ihren Schutz ausgerichteten lokalen Server.

Theoretisch könnte auf einem Webserver ein rollenbasierter Zugriffsschutz eingerichtet werden, indem bestimmte Verzeichnisse nur für bestimmte Benutzer(gruppen) freigegeben werden. Praktisch ist das aber zu gefährlich, eine im falschen Verzeichnis gespeicherte Datei würde schnell in falsche Hände gelangen. Und bei einer Kompromittierung des Webservers wäre dieser Zugriffsschutz komplett wirkungslos, der Angreifer kann auf alle auf dem Webserver gespeicherten Dateien zugreifen.

Aber kommen wir jetzt zum eigentlichen Thema: Dem Schutz von Verzeichnissen vor Google Hacking.

Verzeichnislisten

Welche Gefahr von Verzeichnislisten ausgehen, haben Sie bereits erfahren. Verzeichnislisten sollten Sie daher generell ausschalten, sofern Sie nicht absichtlich den Besuchern das Durchstöbern des Webservers oder einzelner Verzeichnisse erlauben wollen.

Fehlende Indexdateien

Je nach Konfiguration geben manche Webserver eine Verzeichnisliste aus, wenn in einem Verzeichnis keine der vorgegebenen Indexdateien wie index.html, index.php oder default.asp enthalten ist. In jedes Verzeichnis gehört deshalb eine Indexdatei, und wenn es eine leere Datei ist.

`robots.txt` gegen Crawler

Um Crawler auszusperren, dient die Datei robots.txt. Sie wird im Webroot-Verzeichnis gespeichert und legt fest, welche Dateien und Verzeichnisse die Crawler nicht beachten sollen. Die Datei enthält Einträge nach dem Muster

User-agent: [Name des Crawlers oder * als Wildcard]
Disallow: [Verbotene Verzeichnisse]

Außerdem kann die Datei durch # markierte Zeilen mit Kommentaren enthalten.

Beim Einsatz der robots.txt-Datei müssen Sie zwei Dinge beachten:

Die Crawler müssen die Datei nicht beachten. Insbesondere bösartige Crawler, beispielsweise zum Sammeln von E-Mail-Adressen für Spammer, ignorieren sie.
Die Datei ist für alle lesbar. Jeder kann sehen, welche Verzeichnisse Sie nicht in die Suchmaschinen aufgenommen haben wollen. Allein diese Information kann schon gefährlich sein, zum Beispiel wenn dadurch im Rahmen eines Social-Engineering-Angriffs Insiderwissen vorgetäuscht werden kann: "Ich habe meinen Zugangscode für das Verzeichnis /nichts/für/Suchmaschinen/ vergessen, wie lautet der?"

Einige Beispiele

Um alle Crawler aus dem Webserver auszusperren, genügen die Einträge

User-agent: *
Disallow: /

Um alle Crawler zuzulassen, kann die Datei leer bleiben bzw. gar nicht vorhanden sein, alternativ funktioniert es auch mit den Einträgen

User-agent: *
Disallow:

Um alle Crawler aus bestimmten Verzeichnissen auszusperren, dienen die Einträge

User-agent: *
Disallow: /bilder/
Disallow: /cgi-bin/
Disallow: /tmp/

und einzelne Dateien sperren Sie für alle Crawler mit den Einträgen

User-agent: *
Disallow: /pfad/zur/ersten/datei.html
Disallow: /die/zweite-datei.html
Disallow: /und/eine/dritte.php

Möchten Sie einen bestimmten Crawler aussperren, zum Beispiel Googles Bot mit dem Namen Googlebot, verwenden Sie die Zeile

User-agent: Googlebot

in Verbindung mit den gewünschten Disallow:-Zeilen. Auch eine beliebige Kombination ist möglich. Zum Beispiel würde die robots.txt-Datei

# Google darf alles indexieren
User-agent: Googlebot
Disallow:

# Googles Bildersuche soll die privaten Bilder ignorieren
User-agent: Googlebot-Image
Disallow: /bilder/privat/

# Ein-boeser-Spambot soll gefälligst draußen bleiben
User-agent: Ein-boeser-Spambot
Disallow: /

die in den Kommentaren angegebenen Regeln für die Crawler aufstellen. Ob sich Ein-boeser-Spambot daran hält, ist eine andere Frage.

Hinweise für Crawler - und für Angreifer

Denken Sie beim Erstellen der robots.txt daran, dass Sie auch von Menschen gelesen werden kann. Insbesondere von solchen mit unlauteren Absichten. Mit den Einträge

User-agent: *
Disallow: /geschaeftsberichte/bericht2012.pdf
Disallow: /geschaeftsberichte/bericht2013.pdf
Disallow: /geschaeftsberichte/bericht2014.pdf

verhindern Sie, dass ein Crawler die noch nicht zur Veröffentlichung vorgesehenen Geschäftsberichte indexiert. Ein Angreifer würde die Gelegenheit sicher nutzen, und nach dem Lesen der robots.txt die darin aufgeführten Berichte herunterladen.

In der nächsten Folge werden weitere Maßnahmen gegen das Google Hacking vorgestellt.

Carsten Eilers