Ich bin alt genug, um mich daran zu erin­nern, dass das Wort „Voll­text­suche“ in den 1990er Jahren aufkam. „Kann“ ein Programm oder eine Daten­bank Voll­text­suche – oder lassen sich nur einzelne Felder, etwa Schlag­worte und Indices abfragen? Die Verwen­dungs­häu­fig­keit des Begriffs explo­dierte gegen die Jahr­tau­send­wende, seit 2006 ist sie wieder rück­läufig (im Engli­schen schon etwas früher). Warum sollte man auch länger danach fragen? Die ganze „Welt“, so will es scheinen, ist über den Such­schlitz des Grossen Weissen Robo­ters als Voll­text erschliessbar – zumin­dest soweit, wie die Welt ein Text ist. Google ist zur Schnitt­stelle zwischen uns und allem anderen geworden, und damit auch zur Schnitt­stelle zwischen uns und uns selbst. Doch wie genau – und was hat das mit Big Data zu tun?

Gegen­wärtig gibt es knapp eine Milli­arde Webseiten und rund 3,6 Milli­arden Internet-user. Auf Face­book sind aktuell monat­lich knapp zwei Milli­arden Nutzer aktiv (Tendenz selbst­ver­ständ­lich stei­gend). Seit 2004 spei­chert Google alle Such­ab­fragen, pro Tag sind dies über fünf Milli­arden; im selben Zeit­raum werden jeweils über 200 Milli­arden Emails versendet (sic! Spam aller­dings inklu­sive), oder, für den Autor dieser Zeilen beson­ders ermun­ternd, rund 4,6 Millionen Blog posts online gestellt. Täglich. Die Menge an Daten, die bei diesen und unzäh­ligen ähnli­chen Inter­ak­tionen akku­mu­liert wird, „big“ zu nennen, ist besten­falls eine frivole Unter­trei­bung: ‚schier unend­lich viel’ wäre präziser. Ein immer grös­serer, schnell wach­sender Anteil von buch­stäb­lich allem, was auf der Welt der Fall ist, fällt in Form von elek­tro­nisch gespei­cherten Daten an oder wird in eine solche Form gebracht.

Quelle: Amazon.de

Es ist klar, dass die geballte Markt­macht von Konzernen wie Google, Face­book oder Amazon, die viele dieser Daten akku­mu­lieren und damit Geschäfte machen, in vielerlei Hinsicht hoch­pro­ble­ma­tisch ist. Ebenso fraglos ist aller­dings, dass diese Daten­ma­schinen exis­tieren und stetig wachsen, weil wir alle über sie kommu­ni­zieren und uns mit der Welt verbinden. Der Sozio­loge Chris­toph Kucklick demons­triert in seinem 2014 erschienen Buch Die granu­lare Gesell­schaft. Wie das Digi­tale unsere Wirk­lich­keit auflöst anhand eindrück­li­cher Beispiele, wie die über uns akku­mu­lierten Daten dazu führen, dass wir nicht mehr darauf hoffen können, einfach nur, ange­nehm anonym, als Teil einer grossen Masse, einer Bevöl­ke­rung zu gelten, sondern in viel­fäl­tigster Weise als Einzelne mit je eigenen, unver­wech­sel­baren „Profilen“ adres­siert werden – durch Werbung, die uns Wünsche unter die Nase reibt, die wir als unsere eigenen aner­kennen müssen, durch poli­ti­sche Propa­ganda, die uns nur von jener Seite erreicht, für die wir längst schon heim­lich optieren, oder durch gezielte Fake News, die sauber auf unsere Vorur­teile zuge­schnitten sind… Zusammen mit der grösser werdenden sozialen Ungleich­heit als Effekt der Internet-Ökonomie lösen sich, so Kucklick, die aus dem 20., gar dem 19. Jahr­hun­dert über­kom­menen Formen des poli­ti­schen und gesell­schaft­li­chen Zusam­men­halts zuneh­mend auf. Wir seien auf dem Weg zu einer „granu­laren Gesell­schaft“.

Neue Formen des Fragens und des Wissens

Diese Effekte sind aller­dings nur eine Dimen­sion von Big Data. Wie immer man sie beur­teilen mag, sei daher hier für einmal dahin­ge­stellt. Denn mit Blick allein darauf bliebe weit­ge­hend ausge­blendet, dass Big Data gegen­wärtig auch dazu führt, unsere Möglich­keiten zu fragen und zu wissen in tief­grei­fender Weise zu verän­dern, wie man auch von Kucklick lernen kann. Doch um welche neuen Möglich­keiten handelt es sich? Sozi­al­wis­sen­schaften, aber auch Geis­tes­wis­sen­schaften haben bisher in aller Regel ihre Fragen auf reprä­sen­ta­tive Daten bezogen: auf Stich­proben und Samples, die als aussa­ge­kräftig genug gelten, um stell­ver­tre­tend für eine grös­sere Gesamt­heit unter­sucht zu werden, aber auch auf eine kleine Auswahl von als mass­ge­bend geltenden Autoren, von kano­ni­schen oder zumin­dest als ‚rele­vant’ inter­pre­tierten Texten. Keine Sozi­al­wis­sen­schaft­lerin hätte je den Anspruch erhoben, für eine Umfrage zur Partei­en­prä­fe­renz mit allen Wahl­be­rech­tigten gespro­chen zu haben, und kein Geis­tes­wis­sen­schaftler konnte je behaupten, in seinem Leben mehr als maximal, wenn über­haupt, ein paar Tausend Bücher lesen zu können.

Dass allein in diesem Jahr bis heute – Mitte Juni 2017 – welt­weit schon rund 1, 7 Millionen neue Titel publi­ziert wurden, oder dass im deut­schen Sprach­raum jähr­lich rund 90’000 neue Bücher erscheinen, mussten Geis­tes­wis­sen­schaftler, wenn sie nicht verzwei­feln wollten, aktiv verdrängen. Bezie­hungs­weise: in ähnli­cher Weise wie die Sozi­al­wis­sen­schaften haben sie subtile Verfahren und elabo­rierte Begrün­dungen entwi­ckelt, um ihre Auswahl als „reprä­sen­tativ“ zu bezeichnen. Diese Begrün­dungen konnten durchaus sinn­voll und die Samples oft sehr aussa­ge­kräftig sein. Aber gerade in jenen kultur­wis­sen­schaft­li­chen Diszi­plinen, die danach fragen, wie „die Vielen“, die „Leute“ die Welt wahr­nehmen, wie sie über Dinge nach­denken oder mit sich selbst umgehen, waren solche reprä­sen­ta­tiven, oft ziem­lich indi­rekten Verfahren meist nicht viel mehr als ein gelehrtes Tappen im Dunkeln.

Genau das scheint sich nun drama­tisch zu ändern. Bei Big Data geht es nicht mehr um „reprä­sen­ta­tive“ Daten, um Umfragen, Stich­proben, Auswahlen oder Inter­pre­ta­tionen, sondern um die Daten, die in realen Inter­ak­tionen und Vorgängen in der Welt anfallen, und zwar in ihrer „Grund­ge­samt­heit“, wie Sozi­al­wis­sen­schaftler sagen: für Vieles liegen jeweils alle Daten vor, und zwar in hand­hab­barer, bere­chen­barer Form, einheit­lich forma­tiert und zum Down­load bereit.

Ein bekanntes Beispiel dafür ist der Google Books Ngram Viewer – mein Hinweis zur Verwen­dungs­kon­junktur des Wortes „Voll­text­suche“ beruhte auf diesem neuen tool –, der zwar nicht wirk­lich alle je gedruckten Bücher umfasst, aber doch so viele Millionen Titel, dass der Begriff der Reprä­sen­ta­ti­vität im Feld der Geistes- und Kultur­wis­sen­schaften damit eine voll­ständig neue Bedeu­tung bekommt: Der Ngram Viewer greift auf unend­lich viel mehr Texte zu, als sie irgendein tradi­tio­nelles geis­tes­wis­sen­schaft­li­ches Verfahren auch in grossen Forschungs­ver­bünden je hätte verar­beiten und auswerten können. Und zwar, selbst­ver­ständ­lich, in Bruch­teilen einer Sekunde. Die Kurven, die er produ­ziert, zeigen im Verlauf eines frei wähl­baren Zeit­be­reichs nichts als die rela­tive Häufig­keit des Vorkom­mens eines Wortes oder eine Wort­folge in der Grund­ge­samt­heit aller Titel einer gewählten Sprache im jewei­ligen Jahr – und zwar völlig unab­hängig von ihrer im einzelnen Text je spezi­fi­schen Bedeu­tung. Die Resul­tate sind beein­dru­ckend. Es gibt, kurz gesagt, zur Zeit wohl kein besseres Instru­ment, um Thema­ti­sie­rungs- oder Proble­ma­ti­sie­rungs-Konjunk­turen zu messen und damit einen tiefen Einblick in histo­ri­sche Prozesse zu gewinnen.

Die Wahrheit sagen (2.0)

Quelle: ebay.com

Viel­leicht noch beein­dru­ckender sind aller­dings die Möglich­keiten, die die Analyse von Google-Anfragen bietet, über die der Ökonom, Daten-Analy­tiker und New York Times-Kolum­nist Seth Stephens-Davi­do­witz in seinem schwung­voll geschrie­benen Buch Ever­y­body Lies. Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are (Harper­Col­lins 2017) berichtet. „Alle lügen“, so Stephens-Davi­do­witz: man lügt Freunden gegen­über, man belügt sich selbst, oder man schwin­delt in Umfragen. Das sind nicht bösar­tige Lügen, sondern nur die übli­chen Versuche, sich ein wenig besser darzu­stellen, als man ist, Pein­lich­keiten zu vermeiden, und ähnli­ches. Nur in einer Situa­tion lüge man nicht: beim Eintippen einer Frage in Google. Sie sei wahr­haftig, schliess­lich erwarte man hier auch eine wahre, zumin­dest eine brauch­bare Antwort.

Die Belege, die Stephens-Davi­do­witz für diese These anführt, sind beein­dru­ckend, zuweilen auch bedrü­ckend. Weil das tool „Google Trends“ es erlaubt, die Meta­da­ten­sätze aller gespei­cherten, jeweils mit einem Geo-tag und einem Zeits­tempel verbun­denen Anfragen zu vermessen, konnte er zum Beispiel die Such­ab­fragen während des ameri­ka­ni­schen Wahl­kampfes 2016 analy­sieren, geglie­dert nach Staaten, ja sogar nach Coun­ties. Er stellte die Frage: Welche Such­worte korre­lierten in ihrer Vertei­lung und Häufig­keit am besten mit der Vertei­lung der Stimmen für Donald Trump? Die Antwort war eindeutig: Trump erhielt dort am meisten Stimmen, wo in Google-Such­ab­fragen am häufigsten das grob rassis­tisch konno­tierte, sozial geäch­tete Wort „nigger“ auftauchte. In ähnli­cher Weise konnte er unter anderem auch zeigen, dass während der Inau­gu­ra­ti­ons­rede von Barack Obama die Google-Such­an­frage nach „nigger jokes“ in die Höhe schoss.

Weit­ver­brei­teter Rassismus ist aber nicht die einzige unan­ge­nehme Wahr­heit, die sich auf diese Weise aus dem Big Data-Tresor von Google heraus­lesen lässt. Ein beson­ders krasses Beispiel ist die Frage, wie der – hunder­tau­send­fach einge­tippte – Satz „I want to have sex with…“ von Männern in den USA am häufigsten komplet­tiert wird: Nun, es ist „my mom“. Von allen Vari­anten dieses vergleichs­weise trivialen Satzes enden 16 Prozent auf diese Weise; dabei ist der auf die Mutter bezo­gene Inzest­wunsch zwar der häufigste, aber keines­wegs der einzige. Stephens-Davi­do­witz sagt wohl zu Recht, dass keine noch so gute Umfrage je zu einem solchen Ergebnis geführt hätte (man könnte die metho­di­schen Fragen, die sich hier stellen, natür­lich noch vertiefen), und die weiteren Beispiele, die er anführt, lassen vermuten, dass das kein zufäl­liges Resultat seines Data-Minings ist. Freud lässt grüssen.

Sexuelle Wünsche?

Etwas weniger finster sind die von Stephens-Davi­do­witz zusam­men­ge­tra­genen Evidenzen gegen die popu­läre Vorstel­lung, wir würden in Verspre­chern bzw. Verschrei­bern oder in Träumen verbor­gene sexu­elle Wünsche zum Ausdruck bringen, so etwa im Verschreiber „Penis­trian“ statt „Pede­strian“ (Fuss­gänger) und ähnli­ches. Stephens-Davi­do­witz hat auf der Basis eines Big Data-Bestandes von Millionen von Schreib­feh­lern, den Micro­soft-Wissen­schaftler zusam­men­ge­stellt haben, die häufigsten Buch­sta­ben­ver­tau­schungen heraus­ge­fil­tert und nach diesen Regeln ein Programm riesige Mengen belie­biger Worte schreiben lassen. Dabei kamen die sexuell konno­tier­baren Worte in genau der Häufig­keit vor, wie – nun, diese spezi­fi­schen Buch­staben über­haupt vertauscht werden. Die Maschine hat kein Unbe­wusstes, der Verschreiber „Penisrtian“ durch einen mensch­li­chen Autor war daher wohl auch nicht die Wirkung verbor­gener sexu­eller Wünsche, sondern eben nur – ein „Typo“ inner­halb der statis­ti­schen Wahr­schein­lich­keit seines Auftre­tens.

Ähnli­ches lässt sich über Träume sagen. Um die Häufig­keit von Träumen zu messen, die sexuell konno­tierte Früchte oder Gemüse enthalten, verwen­dete Stephens-Davi­do­witz den Daten­be­stand einer App, mit der Hunder­tau­sende anonym ihre Träume fest­halten. In allen Träumen mit Früchten nun kommt die Banane am zweit­häu­figsten vor, und die Gurke in allen Gemü­se­träumen am siebt­häu­figsten. Beides scheint auf eine starke Insis­tenz phal­li­scher sexu­eller Wünsche hinzu­deuten, die in den Träumen in dieser Form codiert werden. Diese – zuge­ge­ben­er­weise etwas hemds­är­me­lige – psycho­ana­ly­ti­sche Inter­pre­ta­tion hat aller­dings einen Haken: Bananen sind in den USA die am zweit­häu­figsten geges­sene Frucht über­haupt. Und die Gurke? Richtig, sie ist das am siebt­häu­figsten konsu­mierte Gemüse. Man weiss hier nicht so recht, ob Freud noch grüsst.

Selbstverhältnisse im Netz

Bei all diesen Beispielen geht es nicht um die flache Behaup­tung, mit ein paar Statis­tiken liesse sich die Psycho­ana­lyse „wider­legen“ und über­haupt alles „alte“ Wissen über Bord werfen. Inter­es­sant sind aber zwei Dinge: Erstens sind heute Daten­mengen und Daten­be­stände zugäng­lich, die für alte Fragen neue Antworten ermög­li­chen, ja über­haupt neue Formen des Fragens hervor­bringen. Wer als Histo­riker mit dem Ngram Viewer arbeitet, kann nicht wenige tradi­tio­nelle, geis­tes­wis­sen­schaft­lich gewon­nene Wahr­heiten revi­dieren, ergänzen, präzi­sieren – und zuweilen auch tatsäch­lich wider­legen. Ähnli­ches gilt, wie ange­deutet, für sozi­al­wis­sen­schaft­li­ches Wissen etwa über poli­ti­sche Präfe­renzen und Einstel­lungen.

Zwei­tens aber ist noch­mals auf die Haupt­these von Seth Stephens-Davi­do­witz hinzu­weisen: dass die vielen Hunderte von Millionen Menschen, die in ihren tägli­chen, milli­ar­den­fa­chen Fragen an Google nicht nur ‚die Wahr­heit sagen‘, weil sie wirk­liche Antworten erwarten, sondern dass Google für sie alle der stille, anonyme Ort ist, wo sie sich über sich selbst verstän­digen. Bezie­hungs­weise wir alle als isolierte, „granu­lare“ Einzelne über uns selbst: über unseren Körper, unsere Krank­heiten, unseren Sex, unsere Unsi­cher­heiten, unsere Wünsche, unseren Hass, unsere Ängste… Zusammen mit allen anderen „Diensten“, die das Netz zur Selbst­er­for­schung, zur Selbst­dar­stel­lung und zur gleich­zei­tigen Vernet­zung mit anderen bietet, entsteht hier etwas, was kaum mehr länger mit den für Gesell­schaften und Subjekte des 20. Jahr­hun­derts gültigen Kate­go­rien zu beschreiben ist. Was auch immer es sei: Wir werden es wohl entlang der Linien entzif­fern, die die Analyse von Big Data frei­legt.

Von Philipp Sarasin

Philipp Sarasin lehrt Geschichte der Neu­zeit an der Universität Zürich. Er ist Mit­be­gründer des Zentrums Geschichte des Wissens, Mitglied des wissen­schaft­lichen Beirats der Internet­plattform H-Soz-Kult und Heraus­geber von Geschichte der Gegenwart. Er kommentiert privat auf twitter.