Alles, was auf der Welt der Fall ist, erscheint zunehmend in elektronischer Form und im Netz. Die damit akkumulierten Big Data sind gegenwärtig daran, unser Wissen und unsere Selbstverhältnisse zu verändern.

Ich bin alt genug, um mich daran zu erin­nern, dass das Wort „Voll­text­suche“ in den 1990er Jahren aufkam. „Kann“ ein Programm oder eine Daten­bank Voll­text­suche – oder lassen sich nur einzelne Felder, etwa Schlag­worte und Indices abfragen? Die Verwen­dungs­häu­fig­keit des Begriffs explo­dierte gegen die Jahr­tau­send­wende, seit 2006 ist sie wieder rück­läufig (im Engli­schen schon etwas früher). Warum sollte man auch länger danach fragen? Die ganze „Welt“, so will es scheinen, ist über den Such­schlitz des Grossen Weissen Robo­ters als Voll­text erschliessbar – zumin­dest soweit, wie die Welt ein Text ist. Google ist zur Schnitt­stelle zwischen uns und allem anderen geworden, und damit auch zur Schnitt­stelle zwischen uns und uns selbst. Doch wie genau – und was hat das mit Big Data zu tun?

Gegen­wärtig gibt es knapp eine Milli­arde Webseiten und rund 3,6 Milli­arden Internet-user. Auf Face­book sind aktuell monat­lich knapp zwei Milli­arden Nutzer aktiv (Tendenz selbst­ver­ständ­lich stei­gend). Seit 2004 spei­chert Google alle Such­ab­fragen, pro Tag sind dies über fünf Milli­arden; im selben Zeit­raum werden jeweils über 200 Milli­arden Emails versendet (sic! Spam aller­dings inklu­sive), oder, für den Autor dieser Zeilen beson­ders ermun­ternd, rund 4,6 Millionen Blog posts online gestellt. Täglich. Die Menge an Daten, die bei diesen und unzäh­ligen ähnli­chen Inter­ak­tionen akku­mu­liert wird, „big“ zu nennen, ist besten­falls eine frivole Unter­trei­bung: ‚schier unend­lich viel’ wäre präziser. Ein immer grös­serer, schnell wach­sender Anteil von buch­stäb­lich allem, was auf der Welt der Fall ist, fällt in Form von elek­tro­nisch gespei­cherten Daten an oder wird in eine solche Form gebracht.

Quelle: Amazon.de

Es ist klar, dass die geballte Markt­macht von Konzernen wie Google, Face­book oder Amazon, die viele dieser Daten akku­mu­lieren und damit Geschäfte machen, in vielerlei Hinsicht hoch­pro­ble­ma­tisch ist. Ebenso fraglos ist aller­dings, dass diese Daten­ma­schinen exis­tieren und stetig wachsen, weil wir alle über sie kommu­ni­zieren und uns mit der Welt verbinden. Der Sozio­loge Chris­toph Kuck­lick demons­triert in seinem 2014 erschienen Buch Die granu­lare Gesell­schaft. Wie das Digi­tale unsere Wirk­lich­keit auflöst anhand eindrück­li­cher Beispiele, wie die über uns akku­mu­lierten Daten dazu führen, dass wir nicht mehr darauf hoffen können, einfach nur, ange­nehm anonym, als Teil einer grossen Masse, einer Bevöl­ke­rung zu gelten, sondern in viel­fäl­tigster Weise als Einzelne mit je eigenen, unver­wech­sel­baren „Profilen“ adres­siert werden – durch Werbung, die uns Wünsche unter die Nase reibt, die wir als unsere eigenen aner­kennen müssen, durch poli­ti­sche Propa­ganda, die uns nur von jener Seite erreicht, für die wir längst schon heim­lich optieren, oder durch gezielte Fake News, die sauber auf unsere Vorur­teile zuge­schnitten sind… Zusammen mit der grösser werdenden sozialen Ungleich­heit als Effekt der Internet-Ökonomie lösen sich, so Kuck­lick, die aus dem 20., gar dem 19. Jahr­hun­dert über­kom­menen Formen des poli­ti­schen und gesell­schaft­li­chen Zusam­men­halts zuneh­mend auf. Wir seien auf dem Weg zu einer „granu­laren Gesellschaft“.

Neue Formen des Fragens und des Wissens

Diese Effekte sind aller­dings nur eine Dimen­sion von Big Data. Wie immer man sie beur­teilen mag, sei daher hier für einmal dahin­ge­stellt. Denn mit Blick allein darauf bliebe weit­ge­hend ausge­blendet, dass Big Data gegen­wärtig auch dazu führt, unsere Möglich­keiten zu fragen und zu wissen in tief­grei­fender Weise zu verän­dern, wie man auch von Kuck­lick lernen kann. Doch um welche neuen Möglich­keiten handelt es sich? Sozi­al­wis­sen­schaften, aber auch Geis­tes­wis­sen­schaften haben bisher in aller Regel ihre Fragen auf reprä­sen­ta­tive Daten bezogen: auf Stich­proben und Samples, die als aussa­ge­kräftig genug gelten, um stell­ver­tre­tend für eine grös­sere Gesamt­heit unter­sucht zu werden, aber auch auf eine kleine Auswahl von als mass­ge­bend geltenden Autoren, von kano­ni­schen oder zumin­dest als ‚rele­vant’ inter­pre­tierten Texten. Keine Sozi­al­wis­sen­schaft­lerin hätte je den Anspruch erhoben, für eine Umfrage zur Partei­en­prä­fe­renz mit allen Wahl­be­rech­tigten gespro­chen zu haben, und kein Geis­tes­wis­sen­schaftler konnte je behaupten, in seinem Leben mehr als maximal, wenn über­haupt, ein paar Tausend Bücher lesen zu können.

Dass allein in diesem Jahr bis heute – Mitte Juni 2017 – welt­weit schon rund 1, 7 Millionen neue Titel publi­ziert wurden, oder dass im deut­schen Sprach­raum jähr­lich rund 90’000 neue Bücher erscheinen, mussten Geis­tes­wis­sen­schaftler, wenn sie nicht verzwei­feln wollten, aktiv verdrängen. Bezie­hungs­weise: in ähnli­cher Weise wie die Sozi­al­wis­sen­schaften haben sie subtile Verfahren und elabo­rierte Begrün­dungen entwi­ckelt, um ihre Auswahl als „reprä­sen­tativ“ zu bezeichnen. Diese Begrün­dungen konnten durchaus sinn­voll und die Samples oft sehr aussa­ge­kräftig sein. Aber gerade in jenen kultur­wis­sen­schaft­li­chen Diszi­plinen, die danach fragen, wie „die Vielen“, die „Leute“ die Welt wahr­nehmen, wie sie über Dinge nach­denken oder mit sich selbst umgehen, waren solche reprä­sen­ta­tiven, oft ziem­lich indi­rekten Verfahren meist nicht viel mehr als ein gelehrtes Tappen im Dunkeln.

Genau das scheint sich nun drama­tisch zu ändern. Bei Big Data geht es nicht mehr um „reprä­sen­ta­tive“ Daten, um Umfragen, Stich­proben, Auswahlen oder Inter­pre­ta­tionen, sondern um die Daten, die in realen Inter­ak­tionen und Vorgängen in der Welt anfallen, und zwar in ihrer „Grund­ge­samt­heit“, wie Sozi­al­wis­sen­schaftler sagen: für Vieles liegen jeweils alle Daten vor, und zwar in hand­hab­barer, bere­chen­barer Form, einheit­lich forma­tiert und zum Down­load bereit.

Ein bekanntes Beispiel dafür ist der Google Books Ngram Viewer – mein Hinweis zur Verwen­dungs­kon­junktur des Wortes „Voll­text­suche“ beruhte auf diesem neuen tool –, der zwar nicht wirk­lich alle je gedruckten Bücher umfasst, aber doch so viele Millionen Titel, dass der Begriff der Reprä­sen­ta­ti­vität im Feld der Geistes- und Kultur­wis­sen­schaften damit eine voll­ständig neue Bedeu­tung bekommt: Der Ngram Viewer greift auf unend­lich viel mehr Texte zu, als sie irgendein tradi­tio­nelles geis­tes­wis­sen­schaft­li­ches Verfahren auch in grossen Forschungs­ver­bünden je hätte verar­beiten und auswerten können. Und zwar, selbst­ver­ständ­lich, in Bruch­teilen einer Sekunde. Die Kurven, die er produ­ziert, zeigen im Verlauf eines frei wähl­baren Zeit­be­reichs nichts als die rela­tive Häufig­keit des Vorkom­mens eines Wortes oder eine Wort­folge in der Grund­ge­samt­heit aller Titel einer gewählten Sprache im jewei­ligen Jahr – und zwar völlig unab­hängig von ihrer im einzelnen Text je spezi­fi­schen Bedeu­tung. Die Resul­tate sind beein­dru­ckend. Es gibt, kurz gesagt, zur Zeit wohl kein besseres Instru­ment, um Thematisierungs- oder Problematisierungs-Konjunkturen zu messen und damit einen tiefen Einblick in histo­ri­sche Prozesse zu gewinnen.

Die Wahr­heit sagen (2.0)

Quelle: ebay.com

Viel­leicht noch beein­dru­ckender sind aller­dings die Möglich­keiten, die die Analyse von Google-Anfragen bietet, über die der Ökonom, Daten-Analytiker und New York Times-Kolum­nist Seth Stephens-Davidowitz in seinem schwung­voll geschrie­benen Buch Ever­y­body Lies. Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are (Harper­Collins 2017) berichtet. „Alle lügen“, so Stephens-Davidowitz: man lügt Freunden gegen­über, man belügt sich selbst, oder man schwin­delt in Umfragen. Das sind nicht bösar­tige Lügen, sondern nur die übli­chen Versuche, sich ein wenig besser darzu­stellen, als man ist, Pein­lich­keiten zu vermeiden, und ähnli­ches. Nur in einer Situa­tion lüge man nicht: beim Eintippen einer Frage in Google. Sie sei wahr­haftig, schliess­lich erwarte man hier auch eine wahre, zumin­dest eine brauch­bare Antwort.

Die Belege, die Stephens-Davidowitz für diese These anführt, sind beein­dru­ckend, zuweilen auch bedrü­ckend. Weil das tool „Google Trends“ es erlaubt, die Meta­da­ten­sätze aller gespei­cherten, jeweils mit einem Geo-tag und einem Zeit­stempel verbun­denen Anfragen zu vermessen, konnte er zum Beispiel die Such­ab­fragen während des ameri­ka­ni­schen Wahl­kampfes 2016 analy­sieren, geglie­dert nach Staaten, ja sogar nach Coun­ties. Er stellte die Frage: Welche Such­worte korre­lierten in ihrer Vertei­lung und Häufig­keit am besten mit der Vertei­lung der Stimmen für Donald Trump? Die Antwort war eindeutig: Trump erhielt dort am meisten Stimmen, wo in Google-Suchabfragen am häufigsten das grob rassis­tisch konno­tierte, sozial geäch­tete Wort „nigger“ auftauchte. In ähnli­cher Weise konnte er unter anderem auch zeigen, dass während der Inau­gu­ra­ti­ons­rede von Barack Obama die Google-Suchanfrage nach „nigger jokes“ in die Höhe schoss.

Sie können uns unter­stützen, indem Sie diesen Artikel teilen: 

Weit­ver­brei­teter Rassismus ist aber nicht die einzige unan­ge­nehme Wahr­heit, die sich auf diese Weise aus dem Big Data-Tresor von Google heraus­lesen lässt. Ein beson­ders krasses Beispiel ist die Frage, wie der – hunder­tau­send­fach einge­tippte – Satz „I want to have sex with…“ von Männern in den USA am häufigsten komplet­tiert wird: Nun, es ist „my mom“. Von allen Vari­anten dieses vergleichs­weise trivialen Satzes enden 16 Prozent auf diese Weise; dabei ist der auf die Mutter bezo­gene Inzest­wunsch zwar der häufigste, aber keines­wegs der einzige. Stephens-Davidowitz sagt wohl zu Recht, dass keine noch so gute Umfrage je zu einem solchen Ergebnis geführt hätte (man könnte die metho­di­schen Fragen, die sich hier stellen, natür­lich noch vertiefen), und die weiteren Beispiele, die er anführt, lassen vermuten, dass das kein zufäl­liges Resultat seines Data-Minings ist. Freud lässt grüssen.

Sexu­elle Wünsche?

Etwas weniger finster sind die von Stephens-Davidowitz zusam­men­ge­tra­genen Evidenzen gegen die popu­läre Vorstel­lung, wir würden in Verspre­chern bzw. Verschrei­bern oder in Träumen verbor­gene sexu­elle Wünsche zum Ausdruck bringen, so etwa im Verschreiber „Penis­trian“ statt „Pede­strian“ (Fuss­gänger) und ähnli­ches. Stephens-Davidowitz hat auf der Basis eines Big Data-Bestandes von Millionen von Schreib­feh­lern, den Microsoft-Wissenschaftler zusam­men­ge­stellt haben, die häufigsten Buch­sta­ben­ver­tau­schungen heraus­ge­fil­tert und nach diesen Regeln ein Programm riesige Mengen belie­biger Worte schreiben lassen. Dabei kamen die sexuell konno­tier­baren Worte in genau der Häufig­keit vor, wie – nun, diese spezi­fi­schen Buch­staben über­haupt vertauscht werden. Die Maschine hat kein Unbe­wusstes, der Verschreiber „Penisrtian“ durch einen mensch­li­chen Autor war daher wohl auch nicht die Wirkung verbor­gener sexu­eller Wünsche, sondern eben nur – ein „Typo“ inner­halb der statis­ti­schen Wahr­schein­lich­keit seines Auftretens.

Ähnli­ches lässt sich über Träume sagen. Um die Häufig­keit von Träumen zu messen, die sexuell konno­tierte Früchte oder Gemüse enthalten, verwen­dete Stephens-Davidowitz den Daten­be­stand einer App, mit der Hunder­tau­sende anonym ihre Träume fest­halten. In allen Träumen mit Früchten nun kommt die Banane am zweit­häu­figsten vor, und die Gurke in allen Gemü­se­träumen am siebt­häu­figsten. Beides scheint auf eine starke Insis­tenz phal­li­scher sexu­eller Wünsche hinzu­deuten, die in den Träumen in dieser Form codiert werden. Diese – zuge­ge­bener­weise etwas hemds­är­me­lige – psycho­ana­ly­ti­sche Inter­pre­ta­tion hat aller­dings einen Haken: Bananen sind in den USA die am zweit­häu­figsten geges­sene Frucht über­haupt. Und die Gurke? Richtig, sie ist das am siebt­häu­figsten konsu­mierte Gemüse. Man weiss hier nicht so recht, ob Freud noch grüsst.

Selbst­ver­hält­nisse im Netz

Bei all diesen Beispielen geht es nicht um die flache Behaup­tung, mit ein paar Statis­tiken liesse sich die Psycho­ana­lyse „wider­legen“ und über­haupt alles „alte“ Wissen über Bord werfen. Inter­es­sant sind aber zwei Dinge: Erstens sind heute Daten­mengen und Daten­be­stände zugäng­lich, die für alte Fragen neue Antworten ermög­li­chen, ja über­haupt neue Formen des Fragens hervor­bringen. Wer als Histo­riker mit dem Ngram Viewer arbeitet, kann nicht wenige tradi­tio­nelle, geis­tes­wis­sen­schaft­lich gewon­nene Wahr­heiten revi­dieren, ergänzen, präzi­sieren – und zuweilen auch tatsäch­lich wider­legen. Ähnli­ches gilt, wie ange­deutet, für sozi­al­wis­sen­schaft­li­ches Wissen etwa über poli­ti­sche Präfe­renzen und Einstellungen.

Zwei­tens aber ist noch­mals auf die Haupt­these von Seth Stephens-Davidowitz hinzu­weisen: dass die vielen Hunderte von Millionen Menschen, die in ihren tägli­chen, milli­ar­den­fa­chen Fragen an Google nicht nur ‚die Wahr­heit sagen‘, weil sie wirk­liche Antworten erwarten, sondern dass Google für sie alle der stille, anonyme Ort ist, wo sie sich über sich selbst verstän­digen. Bezie­hungs­weise wir alle als isolierte, „granu­lare“ Einzelne über uns selbst: über unseren Körper, unsere Krank­heiten, unseren Sex, unsere Unsi­cher­heiten, unsere Wünsche, unseren Hass, unsere Ängste… Zusammen mit allen anderen „Diensten“, die das Netz zur Selbst­er­for­schung, zur Selbst­dar­stel­lung und zur gleich­zei­tigen Vernet­zung mit anderen bietet, entsteht hier etwas, was kaum mehr länger mit den für Gesell­schaften und Subjekte des 20. Jahr­hun­derts gültigen Kate­go­rien zu beschreiben ist. Was auch immer es sei: Wir werden es wohl entlang der Linien entzif­fern, die die Analyse von Big Data freilegt.