Skip Navigation

Datenspuren im Netz

»Der Gläserne Surfer« ist zu einem Schlagwort geworden, das die Diskussion um Datenspuren, Anonymität und Privatshäre im World Wide Web (und anderswo) polarisiert, ohne wirklich hilfreich zu sein.

Wer das Internet nutzt und daher mit Rechnersystemen auf der ganzen Welt kommuniziert, hinterläßt zwangsläufig Spuren, die einerseits beobachtet und ausgewertet werden können und andererseits – durch ihre digitale Natur – kaum verwischen.

Da die verwendeten Techniken sowohl zum Nutzen des Surfers als auch zu seinem Schaden eingesetzt werden können, läuft die Problematik in der Praxis auf drei wesentliche Fragen hinaus:

  • Welche Informationen gebe ich preis?
  • Wem vertraue ich persönliche Informationen an?
  • Wie kann ich die Weitergabe von Informationen beeinflussen?

Im Rahmen des Vortrages »Der gläserne Surfer – Datenspuren im Internet« für den CAST-Praxistag »Das Internet sicher nutzen« des Competence Center for Applied Security Technology (CAST) wurden diese Themen aufgearbeitet und in einer einführenden Übersicht präsentiert. Die Vortragsunterlagen stehen zum Download bereit (im PDF-Format).

Bitte beachten Sie, dass diese Seite und die Vortragsunterlagen zu Ihrer freien Verfügung stehen und gemäß der GNU Free Documentation License verwendet werden können. (Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License Version 1.2.).

Vom Webbrowser übermittelte Informationen

Bei jedem Aufruf einer Seite im WWW (durch Anklicken eines Links oder durch die Eingabe einer Adresse in der Adresszeile) aber auch zur Anzeige von Bildern und multimedialen Inhalten und beim Download von Dateien übermittelt der Browser neben dem Namen der angeforderten Ressource eine Reihe zusätzlicher Informationen an den betreffenden Server:

  • den Namen und Pfad der angeforderten Ressource, sowie die unterstützte HTTP-Version (Zeile 1)
  • den Namen des Servers zur evtl. Unterscheidung verschiedener virtueller Hosts auf dem Server (Host)
  • eine Identifikationskennung des Browsers (User-Agent), die neben dem Browsernamen, seiner Versionsnummer i.d.R. auch das verwendete Betriebssystem beinhaltet. Für den Seitenbetreiber ergibt sich daraus u.a. die Möglichkeit auf die speziellen Fähigkeiten verschiedener Browser einzugehen und ggf. angepasste Webseiten anzuzeigen. Geeignete Tools ermöglichen es, diese Kennung zu fälschen (z.B. kann sich Opera als Internet Explorer ausgeben).
  • eine Liste akzeptierter und preferierter Dateitypen (Accept), Sprachversionen (Accept-Language), Kompressionsarten (Accept-Encoding) und Zeichensätzen (Accept-Charset), die (sofern vom Server unterstützt) die Seitenübermittlung vereinfachen sollen.
  • die Adresse der verweisenden Seite (Referer), sofern vorhanden. Dem Seitenbetreiber gibt diese Information Aufschluss darüber, welche Seiten im WWW auf sein Angebot verweisen. Bei einem direkten Seitenzugriff (z.B. über Bookmarks/Favoriten) bleibt diese Information leer. Auch der Referer kann mit Tools gefälscht werden.
  • weitere Informationen zur Verbindungsart (Keep-Alive, Connection), die hier nicht erläutert werden sollen.
GET /home/ HTTP/1.1
Host: www.zeitform-services.de
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)
Accept: text/html;q=0.9,text/plain;q=0.8,image/jpeg,image/gif,*/*;q=0.1
Accept-Language: de-DE, de;q=0.80, en;q=0.60, en-US;q=0.40, en-GB;q=0.20
Accept-Encoding: gzip, deflate, compress;q=0.9
Accept-Charset: ISO-8859-1, utf-8;q=0.66, *;q=0.66
Keep-Alive: 300
Connection: keep-alive
Referer: http://www.zeitform-services.de

Der Server ermittelt aus der Seitenanforderung (Request) des Browsers, welche Daten an den Browser gesendet werden müssen und liefert diese Daten zusammen mit weiteren Informationen zurück:

  • Die HTTP-Version und eine Statusmeldung (z.B. »200 OK« oder eine Fehlermeldung) (Zeile 1)
  • Das aktuelle sekundengenaue Datum mit Zeitzone (Date)
  • Die Serverkennung mit dem Namen der Serversoftware und ggf. weiteren Informationen wie Versionsnummer, Betriebssystem und einer Liste von Servererweiterungen (Server). In der Regel werden Webadministratoren diesen Text kurz und wenig informativ halten, um potentiellen Eindringlingen die Arbeit zu erschweren.
  • Informationen zur Verbindungsart (Keep-Alive, Connection) und zum Format der übertragenen Daten (Transfer-Encoding, Content-Type)
  • Durch eine Leerzeile getrennt, die eigentlichen Daten (im Beipiel der gekürzte HTML-Code einer Webseite)
HTTP/1.1 200 OK
Date: Wed, 27 Feb 2002 16:37:19 GMT
Server: Apache
X-Powered-By: PHP/3.0.18
Keep-Alive: timeout=15, max=98
Connection: Keep-Alive
Transfer-Encoding: chunked
Content-Type: text/html

<html>
<head>
<title>zeitform Services - Homepage</title>
.........usw..........
</html>

Da das verwendete Protokoll (HTTP) sitzungslos ist, ist die Beziehung/Verbindung zwischen einem Webserver und dem Browser nach dem Aufrufen und dem Ausliefern einer Ressource beendet. Danach folgende Seitenaufrufe haben (mit Ausnahme des Referer-Feldes) keine Erinnerung an vorherige Verbindungen.

Der Webserver schreibt normalerweise für jeden Zugriff einen Eintrag in eine Log-Datei, um spätere statistische Auswertungen zu ermöglichen. Beim Apache Webserver (und anderen) umfassen diese Einträge die folgenden Informationen:

  • der Name des Rechners, der die Information angefordert hat, bzw. seine IP-Adresse. Rechner, die über eine Standleitung mit dem Internet verbunden sind, haben i.d.R. fixe IP-Adressen und sind darüber eindeutig identifizierbar. Rechner, die über Wählverbindungen (Modem, ISDN, aber auch DSL) zu Internet-Providern (z.B. T-Online, AOL) mit dem Internet verbunden sind, erhalten meist eine zufällige IP-Adresse aus einem Adress-Pool und sind nur in Kooperation mit dem Provider (und dessen Log-Dateien) eindeutig identifizierbar. Dies ist allerdings aus Datenschutzgründen nur für Strafverfolgungsbehörden möglich. Server-Administratoren können aus den zufälligen IP-Adressen bestenfalls regionale Informationen (z.B. den lokalen Einwahlknoten), nicht aber den tatsächlichen Rechner des Besuchers extrahieren. Dies gibt ein gewisses Maß an Anonymität für wiederholte Besuche einer Website. Weitere Anonymität kann über sog. Proxies (Zwischenspeicher) erlangt werden.
  • das sekundengenaue Datum des Zugriffs
  • die angeforderte Ressource
  • die Adresse der verweisenden Seite (Referer), sofern vorhanden
  • die Browserkennung (mit Browsernamen, -version, Betriebssystem)

Das Beispiel zeigt vier Zeilen aus der Log-Datei des Apache-Servers passend zu den o.g. Beispielen (Zeile 1) und folgenden Anforderungen für Bilder in der Seite.

electra.igd.fhg.de - - [27/Feb/2002:17:37:19 +0100]
  "GET /home/ HTTP/1.1" 200 18158
  "http://www.zeitform.de/home.phtml"
  "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)"

electra.igd.fhg.de - - [27/Feb/2002:17:37:19 +0100]
  "GET /images/menue/home.jpg HTTP/1.1" 200 4830
  "http://www.zeitform.de/home/"
  "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)"

electra.igd.fhg.de - - [27/Feb/2002:17:37:19 +0100]
  "GET /images/menue/m-home_f2.gif HTTP/1.1" 200 288
  "http://www.zeitform.de/home/"
  "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)"

electra.igd.fhg.de - - [27/Feb/2002:17:37:20 +0100]
  "GET /images/home/bg-zeitform.jpg HTTP/1.1" 200 1866
  "-"
  "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)"

Fazit: Mit jedem Seitenaufruf im WWW übermittelt der Browser des Besuchers Daten an den Webserver, der diese und weitere Informationen in Log-Dateien abspeichert und so Rückschlüsse auf den Besucher (wenn auch in geringem Umfang) ermöglicht:

  • die IP-Adresse des Rechners (relativ unkritisch bei Wählverbindungen, solange keine strafbaren Handlungen einhergehen; eher unkritisch bei der Verwendung von Proxies; problematischer bei festen IP-Adressen)
  • der Name und die Version der Browser- und Betriebssystemsoftware (meist unkritisch)
  • das Datum des Zugriffs auf die Ressourcen, der Name der angeforderten Ressourcen und die verweisende Seite (zusammengenommen die kritischste Komponente, da im eingeschränkten Umfang das Surfverhalten analysiert werden kann. Bedeutsam kritisch erst in Verbindung mit weiteren Informationen.)

Vom Benutzer willentlich übermittelte Informationen

Die Informationen, die der Browser selbstständig an Webserver übermittelt, sind für Seitenbetreiber nur bedingt verwertbar. Ihr Hauptmanko ist das Fehlen jeglicher Informationen über die Person des Besuchers selbst. Zwar kann über feste IP-Adressen ein einzelner Rechner identifiziert und wiedererkannt werden, nicht jedoch der aktuelle Benutzer dieses Systems (moderne Betriebssysteme sind Mehrbenutzer-Betriebssysteme).

Für personalisierte Inhalte auf Webseiten müssen also Techniken verwendet werden, die über die Statusinformationen des HTTP-Protokolls hinausgehen.

Persönliche Begrüßung bei Amazon

Die Personalisierung von Webseiten erfolgt fast immer durch eine Registrierung. Besucher melden sich beim Seitenbetreiber an, indem sie ein Formular ausfüllen, das Name, E-Mail-Adresse, Anschrift und weitere Kontaktdaten, u.U. auch Hobbies, Vorlieben oder andere persönliche Merkmale erfragt und nach dem Absenden in einer Datenbank speichert.

Auch amazon.de (wir haben amazon.de v.a. wegen seiner Bekanntheit als Beispiel gewählt, aber auch, weil wir den Service von amazon.de sehr schätzen und deren Webangebot gerne bewerben – und natürlich ausgiebig nutzen) ermöglicht eine Registrierung bzw. verlangt diese spätestens bei einer Bestellung. Nur so können über die Website bestellte Produkte den Bestellern zugeordnet werden.

Eine Speicherung von Benutzerdaten hat den Vorteil, dass Postanschrift und Zahlungsmodalitäten (z.B. die Kreditkartennummer) nicht bei jeder Bestellung erneut eingegeben werden müssen. Ob eine Speicherung unsicherer ist als eine wiederholte Eingabe bei jeder Bestellung, hängt wesentlich von den Sicherungsmaßnahmen des Anbieters ab. Da bekannte Anbieter einen erheblichen Imageschaden befürchten müssen, wenn Daten verloren gehen oder – schlimmer – gestohlen werden, können sicher umfangreiche Anstrengungen zur Absicherung der Daten erwartet werden (ebenso wie ein gehöriges Maß an Vertrauen durch den Kunden).

Registrierung persönlicher Daten bei amazon.de

Cookies

Um die in der Datenbank gespeicherten Benutzerinformationen bei einem wiederholten Aufruf der Webseiten dem tatsächlichen Benutzer zuordnen zu können, werden in den meisten Fällen »Cookies« verwendet. Bei Cookies handelt es sich um kleine Informationseinheiten, die vom Webserver an den Browser übermittelt werden und bei Bedarf (bei erneuten Seitenaufrufen) wieder abgefragt werden können.

Je nach Lebensdauer des Cookies (der Server legt dies fest) werden sie entweder temporär (bis zum Beenden der Browser-Applikation) im Speicher vorgehalten oder im lokalen Dateisystem des Benutzers abgelegt. Netscape verwendet dazu eine Datei namens cookies.txt zur Speicherung aller Cookies (ein Cookie pro Zeile), während der Internet Explorer eine Datei pro Cookie in einem Verzeichnis Cookies anlegt.

Da es sich bei Cookies um Textinformationen handelt, können sie mit jedem Texteditor betrachtet werden (Das folgende Beispiel zeigt einige willkürlich ausgewählte Cookies).

www.cnn.com       TRUE /      FALSE 1063356130 bitrate         med
www.thinkgeek.com TRUE /brain FALSE 1041397199 customerid      765433
.amazon.de        TRUE /      FALSE 2082754804 ubid-acbde      277-2745154-7353944
.amazon.de        TRUE /      FALSE 2147340464 ubid-main       172-5050484-7056317
.amazon.de        TRUE /      FALSE 2082754802 x-acbde         8CO8U1tyU0RmCwQJNTnLqJ
.amazon.de        TRUE /      FALSE 1020553199 session-id      302-3283769-9524865
.amazon.de        TRUE /      FALSE 1020553199 session-id-time 1027653200

Die im Cookie gespeicherten Informationen sind (durch Leerzeichen getrennt):

  • Die Domain, bzw. die Serveradresse, die den Cookie lesen oder schreiben darf. Dieses Sicherheitsfeature soll verhindern, dass fremde Server Cookies manipulieren oder auslesen können. Nur der Server, der ein Cookie gesetzt hat (und ggf. weitere Server derselben Domain) hat Zugriff auf diese Information. Dennoch sollten in einem Cookie niemals sensible Daten wie Passwörter oder andere Zugangsdaten gespeichert werden (oder gar Kreditkartennummern), da jeder lokale Benutzer die Cookie-Dateien in einem Texteditor öffnen und lesen kann. Darüberhinaus sind durch fehlerhafte Implementierungen von Webapplikationen sog. Cross-Site-Scripting Angriffe über JavaScript auf die Inhalte von Cookies möglich.
  • Ein Flagtrue« oder »false«), das festlegt, ob weitere Rechner der selben Domain den Cookie lesen und verändern dürfen.
  • der absolute Pfad, für den der Cookie innerhalb der Webseiten gültig ist (Im Beispiel meist /, lediglich der Cookie von www.thinkgeek.com ist nur unterhalb von /brain gültig.)
  • Ein weiteres Flag, das angibt, ob der Cookie nur über eine abgesicherte Verbindung (HTTPS) gültig ist (z.B. wenn sensible Informationen im Cookie gespeichert sind). Eine abgesicherte Verbindung (über SSL/TLS) verwendet Datenverschlüsselung und garantiert die Identität des Webservers.
  • Die Lebensdauer des Cookies als Unix-Timestamp (Sekunden seit 01.01.1970, 00:00)
  • Der Name des Cookies bzw. der gespeicherten Information
  • Der Wert des Cookies bzw. der gespeicherten Information (im Beispiel hat www.thinkgeek.com in der Variablen customerid den Wert 765433 als Kundennummer gespeichert.)

Im Regelfall werden Cookies vom Webserver verwendet, um Referenzen auf Datensätze in der Benutzerdatenbank abzulegen. So verweist z.B. eine Kundennummer auf einen Datensatz, in dem Name, Anschrift und weitere Kundendaten gespeichert sind. Bei einem erneuten Besuch der Seiten, übermittelt der Browser (ohne Eingreifen des Anwenders) alle relevanten Cookies an den Webserver, der damit eine Beziehung zum Besucher herstellen kann.

Streng genommen stellt auch dieses Verfahren keine zuverlässige Abbildung von Personen auf gespeicherte Datensätze sicher, sondern lediglich eine Abbildung von Benutzeraccounts zu Datensätzen. Beispielsweise können mehrere Personen einen Windows98-Rechner verwenden, dessen Browsersoftware auf den immer gleichen Satz an Cookies zurückgreift. Aus diesem Grund verlangt z.B. amazon.de eine erneute Angabe des Passwortes bevor Bestellvorgänge abgewickelt oder Benutzerdaten eingesehen und editiert werden können.

Fazit: Über Formulare zur Benutzerregistrierung sammeln Webseitenbetreiber Benutzerinformationen in Datenbanken. Diese Daten sind in der Regel mehr oder weniger gegen Missbrauch gesichert. Allerdings gibt es auch Anbieter, die diese Informationen an Partnerfirmen weitergeben. Seriöse Anbieter werden solche Maßnahmen in ihren AGBs dokumentieren.

Cookies bieten darüber hinaus die Möglichkeit zu einer differenzierten Personalisierung von Webseiten und einer Protokollierung des Besucherverhaltens in einem Webauftritt. Die Cookie-Technologie erweitert so das HTTP-Protokoll um Sitzungsinformationen. Seitenaufrufe bleiben in Erinnerung.

Weitere Methoden zur Informationsgewinnung

Das HTTP-Protokoll ist sitzungslos. D.h., jede Ressource (also jede Webseite, jedes Bild, etc.) wird einzeln beim Webserver angefordert und an den Browser ausgeliefert. Danach wird die Verbindung zwischen Browser und Webserver beendet (Dies ist nicht ganz korrekt, denn die Verbindung kann tatsächlich geöffnet bleiben. Für die hier angeführten Betrachtungen spielt dies allerdings keine Rolle). Cookies ermöglichen eine Zuordnung von Benutzern zu evtl. gespeicherten Datensätzen mit Benutzerinformationen. Nur der jeweilige Server und ggf. weitere Server aus der selben Domain können einen zugeordneten Cookie schreiben und lesen.

Wie kann diese Technologie sinnvoll eingesetzt werden?

Webbugs

Um eine Grafik oder ein Bild in einer Webseite anzuzeigen, muss im HTML-Quellcode der Webseite eine Referenz auf die Internet-Adresse (URL) des Bildes angegeben werden. Diese Referenz kann auf eine Bilddatei zeigen, die auf demselben Server liegt wie die Webseite oder auf eine Bilddatei, die auf einem fremden Server gespeichert ist. Für den Seitenbesucher ist der Unterschied nicht zu erkennen, nur ein Blick in den Quelltext offenbart diesen Umstand.

<img src="http://www.fremderserver.de/images/beispiel.gif">

In der gleichen Weise, in der Webseiten von Skripten (CGI, PHP, ASP) dynamisch erzeugt werden können, ist es auch möglich, Grafiken über ein Skript zu generieren und an den Browser auszuliefern. Auch hier erkennt der Besucher zunächst nicht, ob eine Grafik als Bilddatei vorliegt oder dynamisch erzeugt wurde.

<img src="http://www.fremderserver.de/cgi-bin/erzeugt_bild.cgi">

»Webbugs« (auch Clear-GIFs genannt) sind dynamisch erzeugte Bilder von geringer Größe (meist 1x1 Pixel) , die wegen ihrer transparenten Farbe in einer Webseite für den Besucher unsichtbar bleiben. Die Skripte erfüllen in der Regel zwei Funktionen: zum einen erzeugen sie das kleine unsichtbare Bild, zum anderen – und hier stehen dem Betreiber alle Möglichkeiten offen – können sie den Seitenaufruf protokollieren. Webbugs haben wie alle Ressourcen Zugriff auf die Cookies, die vom selben Server geschreiben wurden. In der Tat erhalten Webbugs erst durch Cookies oder Übergabeparameter an das Skript die Möglichkeit, das Surfverhalten des Besuchers mitzuverfolgen.

Aber auch in E-Mails werden Webbugs z.B. verwendet, um zu ermitteln, ob und wann der Empfänger die E-Mail gelesen hat (nur E-Mail-Progamme, die HTML-Mails darstellen können, unterstützen Webbugs).

Der Nachrichten-Dienst des Heinz Heise Verlages, heise online verwendet z.B. Webbugs zu statistischen Zwecken (wir haben heise online als Beispiel gewählt, weil wir dem Heise-Verlag wegen seiner guten Reputation unterstellen, sorgfältig mit Webbugs umzugehen).

Startseite von heise online Startseite von heise online mit sichtbar gemachten Webbugs

Wenn man betroffene Webseiten lokal speichert, in einen Texteditor lädt und nach Bilder der Größe 1x1 Pixel sucht, kann man über das Attribut border="1" Webbugs sichtbar machen.

Bannerwerbung und Cross-Site Tracking

Viele Webseitenbetreiber blenden zur Finanzierung ihres Angebotes Werbebanner ein. Werbebanner (allen voran die Werbebanner großer und bekannter Vermarkter wie Doubleclick) sind dynamische Werbegrafiken, die zumeist – mehr oder weniger – zufällig aus einem Pool von Grafiken ausgewählt und an den Browser übertragen werden. Kombiniert man Bannerwerbung mit Cookies oder der Webbug-Technologie, so kann sich die Auswahl der Werbung am Surfverhalten des Anwenders orientieren.

Cross-Site Tracking ermöglicht dabei das Verfolgen des Anwenders über eine Vielzahl von Webseiten hinweg (sofern sie alle Banner des gleichen Vermarkters einsetzen).

Ein Beispiel: Ein Anwender ruft in seinem Browser die Webseite eines Katzenliebhabers auf, auf der – zum Zwecke der Finanzierung – Werbebanner eines Vermarkters geschaltet sind. Das Skript zur Erzeugung des Banners setzt einen Cookie mit einer eindeutigen Benutzerkennung und speichert diese in einer Datenbank zusammen mit dem Namen der besuchten Seite (oder dem Namen einer registrierten Kategorie – z.B. Tiere/Katzen). Der Cookie kann nun von allen Seiten, die ebenfalls Banner des gleichen Vermarkters geschaltet haben, gelesen und modifiziert werden.

Als nächstes besucht der Anwender eine Nachrichtenseite zu aktuellen Fußballereignissen, die ebenfalls mit einem Werbebanner versehen ist. Erneut werden unter der eindeutigen Kennung Informationen in der Datenbank des Vermarktes abgelegt (Sport/Fußball). Vielleicht wird schon jetzt im Banner die Werbung eines Herstellers von Katzenfutter eingeblendet, vielleicht erst, wenn die Kategorie wiederholt gespeichert wurde.

Vermarkter mit einem großen Kundenstamm können so differenzierte Profile von Besuchern anlegen und zusammen mit anderen Informationen – z.B. kann leicht das Land des Besuchers aus der IP-Adresse oder der im Browser eingestellten Sprache ermittelt werden – gezielt Werbung schalten, die vom Besucher eher angenommen wird. Zusätzlich sind Datenbanken mit Benutzerprofilen wertvolle und veräußerbare Informationen, mit denen gehandelt werden kann, besonders dann, wenn sie über eine Personalisierung konkreten Personen (E-Mail-Adressen) zugeordnet werden können.

Fazit: Um sich vor entsprechenden Maßnahmen effektiv zu schützen, sollten Cookies von Vermarktern nicht akzeptiert (moderne Browser gestattem das wahlweise Setzen von Cookies) bzw. regelmäßige manuell gelöscht werden.

Veröffentlichte Informationen im Internet

Während die vorherigen Abschnitte sich mit den Datenspuren beschäftigt haben, die Surfer und Besucher von Webseiten im Internet hinterlassen, sollen im Folgenden kurz jene Spuren und Begleiterscheinungen angesprochen werden, die mit eigenen Veröffentlichungen einhergehen.

Homepage

Dank eines umfangreichen Angebotes an günstigem oder kostenlosem Webspace durch eine Vielzahl nationaler wie internationaler Provider, kann heute jeder eine private Homepage mit persönlichen Informationen ins WWW stellen. Zunächst können die selbst veröffentlichten Informationen und Meinungen als unproblematisch betrachtet werden (solange dadurch keine strafbaren Handlungen begangen werden).

Problematisch werden eigene Veröffentlichungen erst dann, wenn man sich von Ihnen distanzieren will oder ihre Veröffentlichung zurücknehmen möchte. Einmal im Internet veröffentlichte Informationen bleiben meist über lange Zeiten verfügbar und – schwerwiegender – auffindbar. Selbst wenn der eigene Webauftritt von dem Server des Providers gelöscht wurde, bleiben Kopien der Inhalte (teilweise vollständige Kopien) in den Archiven von Google, Internet Archive und anderen Suchmaschinen, Webverzeichnissen und Archivierungsdiensten zurück.

Das Beispiel zeigt die Ergebnisseite einer Suche mit Google nach den Stichwörtern »felix vahrenheide hannover«.

Ergebnisseite einer Suche mit Google

Während der direkte Link ins Leere zeigt, weil die gefundene Seite aus dem WWW entfernt wurde, und mit einer Fehlermeldung quittiert wird, führt der Klick auf »Cached« zu einer Kopie der Webseite in den Archiven von Google. Man kann erkennen, daß die Bilder fehlen, der Text ist aber vollständig lesbar.

Die Originalseite wurde gelöscht Die Kopie ist noch vorhanden

Google frischt nach einer gewissen Zeit seine Datenbanken auf, sodass die Kopien von gelöschten Auftritten aus den Archiven entfernt werden. Internet Archive allerdings versteht sich als digitale Bibliothek von Internetauftritten und speichert regelmäßig Kopien ausgewählter Webseiten aus historischem Interesse.

Newsgroups und Mailinglisten

Auch in Newsgroups und Mailinglisten veröffentlichte Informationen bleiben – teilweise über Jahrzehnte hinweg – in den meisten Fällen archiviert. Einmal veröffentlichte Informationen können praktisch nicht mehr aus dem Internet entfernt werden.

Auszug aus der Newsgroup de.etc.selbsthilfe.angst Auszug aus der Newsgroup de.etc.selbsthilfe.angst (Ausschnitt)

Fazit: Für Homepage-Betreiber und Anwender, die sich aktiv in Newsgroups und Mailinglisten beteiligen, gilt die Faustregel: "Einmal veröffentlichte Informationen können nicht mehr aus den Tiefen des Netzes entfernt werden". Wer private Informationen preisgibt oder öffentlich seine Meinung äußert sollte dies bedenken.

Strategien und Beispiele

Es existiert eine Vielzahl von Strategien mit unterschiedlichen Ebenen des Vertrauens zum Umgang mit Datenspuren im Internet, die jeweils von den Bedürfnissen der Anwender abhängen und hier kaum vollständig beleuchtet werden können. Weder das blinde Vertrauen in Serverbetreiber noch eine paranoide Haltung gegenüber Webseiten helfen, die Thematik befriedigend zu behandeln oder zu diskutieren. Vielmehr müssen Anwender in die Lage versetzt werden, Risiko und Nutzen einer Preisgabe von Informationen richtig abzuwägen und eine persönliche Einschätzung ihres Surfverhaltens zu gewinnen.

Die hier vorgestellten Lösungsansätze sind bestenfalls Anregungen, sich mit dem Thema näher zu befassen.

Cookie-Manager

Moderne Browser wie Mozilla bieten die Möglichkeit, eine Erlaubnis zum Setzen von Cookies auf der Basis von Servernamen und Domains vorzunehmen. Will ein Server einen Cookie setzen (und die übliche Praxis ist, dass man das gelegentlich erlauben will und gelegentlich resp. meistens nicht), so fragt eine Dialogbox, ob die Erlaubnis einmalig oder bis auf Widerruf erteilt oder verwehrt werden soll. Dies ist ein deutlicher Fortschritt gegenüber älteren Browsern, die Cookies entweder immer zulassen, immer verbieten oder jedesmal nachfragen.

Dialogbox des Mozilla Browsers zum Setzen von Cookies

Anti-Spyware-Tools

Tools wie Lavasofts Ad-Aware (für Windows) spüren nicht nur kritische Cookies im System auf, sondern auch zusammen mit Software von Drittanbietern installierte Spyware. Mit »Spyware« werden Programme und Bibliotheken bezeichnet, die aus unterschiedlichen Gründen (z.B. zu Werbezwecken) persönliche Daten des Anwenders oder Informationen über sein Rechnersystem sammeln und an Hersteller oder Vermarkter übermitteln.

Ergebnis einer Suche mit Ad-Aware unter Windows 2000

Anonyme Proxies

Normalerweise werden Anfragen nach Webseiten vom Browser direkt an den entsprechenden Server übermittelt und von diesem direkt ausgeliefert. Proxies fungieren als Zwischenspeicher, die Anfragen von Browsern entgegennehmen und an die entsprechenden Server weiterleiten, deren Antworten dann meist für weitere Anfragen nach der gleichen Ressource für einige Zeit speichern und an den anfragenden Browser weitergereichen. Proxies werden in Firmennetzen oft zusammen mit Firewalls eingesetzt, um das Intranet stärker abzusichern.

Der Nutzen eines Proxies im Kontext von Datenspuren liegt darin, daß alle Anfragen über den Proxy die IP-Adresse des anfragenden Rechners gegenüber dem Server verschleiern. Verwendet ein Unternehmen für den Zugriff auf das WWW einen Proxy, so können Server (ohne Cookies) nur den Proxy, nicht aber die Rechner im dahinterliegenden Netz identifizieren. Der eklatante Nachteil von Proxies ist in diesem Zusammenhang allerdings der Umstand, dass der Proxy selbst detailiert das Surfverhalten der angebundenen Rechner protokollieren kann.

host130.the-cloak.com - - [01/Mar/2002:16:18:12 +0100]
  "GET / HTTP/1.0" 302 0 "-"
  "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)"

host130.the-cloak.com - - [01/Mar/2002:16:18:14 +0100]
  "GET /home.phtml HTTP/1.0" 200 18145 "-"
  "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)"

host130.the-cloak.com - - [01/Mar/2002:16:18:26 +0100]
  "GET /js/functions.js HTTP/1.0" 200 10526
  "http://www.zeitform.de/home.phtml"
  "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)"

host130.the-cloak.com - - [01/Mar/2002:16:18:36 +0100]
  "GET /images/erste/back.jpg HTTP/1.0" 200 8146
  "http://www.zeitform.de/home.phtml"
  "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)"

Im Internet existieren eine Reihe von anonymen Proxies, die dem Anwender gestatten, eine Adresse einzugeben und ab diesem Zeitpunkt (wenn auch nicht gegenüber dem Proxy) anonym zu surfen. Der bekannteste Vertreter dieser Proxies ist Anonymizer.com mit einem kostenpflichtigen Angebot. Ein kostenloser Dienst ist z.B. The Cloak (das Beispiel zeigt einen Auszug aus der Log-Datei des Webservers. Der Hostname zeigt auf einen Proxy-Rechner).

Wer regelmäßig anonym auf Webangebote zugreifen und auch gegenüber dem Proxy unerkannt bleiben will, kann die Software JAP der TU Dresden als lokalen Proxy verwenden. JAP wurde in Java implementiert und ist damit für eine Vielzahl von Plattformen verfügbar. Die gewonnene Anonymität wird auch kritischen Anforderungen gerecht.

Tracenoizer

Das Projekt Tracenoizer sucht im WWW nach Informationen zu einem gegebenen Vor- und Nachnamen und generiert aus diesen Informationen eine Vielzahl von gefälschten Homepages, die vom Projekt (nach Anmeldung) gehostet und bei Suchmaschinen eingetragen werden. Ziel dieses Vorgehens ist es, die tatsächlich richtigen und auffindbaren Informationen in einer Flut an Fälschungen zu verstecken.

Tracenoizer: Nach der Eingabe des Vor- und Nachnamens ... ... erzeugt Tracenoizer eine fiktive Homepage ... ... und eine Reihe von weiteren Seiten

Technische Informationen

Vorgestellte Software/Tools

Beispiele

Ergänzende Links

| Mailserver | Webserver | Weitere Infos | Kontakt |
| Startseite | Mailserver | Webserver | Weitere Infos | Kontakt |