Ich bin alt genug, um mich daran zu erinnern, dass das Wort „Volltextsuche“ in den 1990er Jahren aufkam. „Kann“ ein Programm oder eine Datenbank Volltextsuche – oder lassen sich nur einzelne Felder, etwa Schlagworte und Indices abfragen? Die Verwendungshäufigkeit des Begriffs explodierte gegen die Jahrtausendwende, seit 2006 ist sie wieder rückläufig (im Englischen schon etwas früher). Warum sollte man auch länger danach fragen? Die ganze „Welt“, so will es scheinen, ist über den Suchschlitz des Grossen Weissen Roboters als Volltext erschliessbar – zumindest soweit, wie die Welt ein Text ist. Google ist zur Schnittstelle zwischen uns und allem anderen geworden, und damit auch zur Schnittstelle zwischen uns und uns selbst. Doch wie genau – und was hat das mit Big Data zu tun?
Gegenwärtig gibt es knapp eine Milliarde Webseiten und rund 3,6 Milliarden Internet-user. Auf Facebook sind aktuell monatlich knapp zwei Milliarden Nutzer aktiv (Tendenz selbstverständlich steigend). Seit 2004 speichert Google alle Suchabfragen, pro Tag sind dies über fünf Milliarden; im selben Zeitraum werden jeweils über 200 Milliarden Emails versendet (sic! Spam allerdings inklusive), oder, für den Autor dieser Zeilen besonders ermunternd, rund 4,6 Millionen Blog posts online gestellt. Täglich. Die Menge an Daten, die bei diesen und unzähligen ähnlichen Interaktionen akkumuliert wird, „big“ zu nennen, ist bestenfalls eine frivole Untertreibung: ‚schier unendlich viel’ wäre präziser. Ein immer grösserer, schnell wachsender Anteil von buchstäblich allem, was auf der Welt der Fall ist, fällt in Form von elektronisch gespeicherten Daten an oder wird in eine solche Form gebracht.

Quelle: Amazon.de
Es ist klar, dass die geballte Marktmacht von Konzernen wie Google, Facebook oder Amazon, die viele dieser Daten akkumulieren und damit Geschäfte machen, in vielerlei Hinsicht hochproblematisch ist. Ebenso fraglos ist allerdings, dass diese Datenmaschinen existieren und stetig wachsen, weil wir alle über sie kommunizieren und uns mit der Welt verbinden. Der Soziologe Christoph Kucklick demonstriert in seinem 2014 erschienen Buch Die granulare Gesellschaft. Wie das Digitale unsere Wirklichkeit auflöst anhand eindrücklicher Beispiele, wie die über uns akkumulierten Daten dazu führen, dass wir nicht mehr darauf hoffen können, einfach nur, angenehm anonym, als Teil einer grossen Masse, einer Bevölkerung zu gelten, sondern in vielfältigster Weise als Einzelne mit je eigenen, unverwechselbaren „Profilen“ adressiert werden – durch Werbung, die uns Wünsche unter die Nase reibt, die wir als unsere eigenen anerkennen müssen, durch politische Propaganda, die uns nur von jener Seite erreicht, für die wir längst schon heimlich optieren, oder durch gezielte Fake News, die sauber auf unsere Vorurteile zugeschnitten sind… Zusammen mit der grösser werdenden sozialen Ungleichheit als Effekt der Internet-Ökonomie lösen sich, so Kucklick, die aus dem 20., gar dem 19. Jahrhundert überkommenen Formen des politischen und gesellschaftlichen Zusammenhalts zunehmend auf. Wir seien auf dem Weg zu einer „granularen Gesellschaft“.
Neue Formen des Fragens und des Wissens
Diese Effekte sind allerdings nur eine Dimension von Big Data. Wie immer man sie beurteilen mag, sei daher hier für einmal dahingestellt. Denn mit Blick allein darauf bliebe weitgehend ausgeblendet, dass Big Data gegenwärtig auch dazu führt, unsere Möglichkeiten zu fragen und zu wissen in tiefgreifender Weise zu verändern, wie man auch von Kucklick lernen kann. Doch um welche neuen Möglichkeiten handelt es sich? Sozialwissenschaften, aber auch Geisteswissenschaften haben bisher in aller Regel ihre Fragen auf repräsentative Daten bezogen: auf Stichproben und Samples, die als aussagekräftig genug gelten, um stellvertretend für eine grössere Gesamtheit untersucht zu werden, aber auch auf eine kleine Auswahl von als massgebend geltenden Autoren, von kanonischen oder zumindest als ‚relevant’ interpretierten Texten. Keine Sozialwissenschaftlerin hätte je den Anspruch erhoben, für eine Umfrage zur Parteienpräferenz mit allen Wahlberechtigten gesprochen zu haben, und kein Geisteswissenschaftler konnte je behaupten, in seinem Leben mehr als maximal, wenn überhaupt, ein paar Tausend Bücher lesen zu können.
Dass allein in diesem Jahr bis heute – Mitte Juni 2017 – weltweit schon rund 1, 7 Millionen neue Titel publiziert wurden, oder dass im deutschen Sprachraum jährlich rund 90’000 neue Bücher erscheinen, mussten Geisteswissenschaftler, wenn sie nicht verzweifeln wollten, aktiv verdrängen. Beziehungsweise: in ähnlicher Weise wie die Sozialwissenschaften haben sie subtile Verfahren und elaborierte Begründungen entwickelt, um ihre Auswahl als „repräsentativ“ zu bezeichnen. Diese Begründungen konnten durchaus sinnvoll und die Samples oft sehr aussagekräftig sein. Aber gerade in jenen kulturwissenschaftlichen Disziplinen, die danach fragen, wie „die Vielen“, die „Leute“ die Welt wahrnehmen, wie sie über Dinge nachdenken oder mit sich selbst umgehen, waren solche repräsentativen, oft ziemlich indirekten Verfahren meist nicht viel mehr als ein gelehrtes Tappen im Dunkeln.
Genau das scheint sich nun dramatisch zu ändern. Bei Big Data geht es nicht mehr um „repräsentative“ Daten, um Umfragen, Stichproben, Auswahlen oder Interpretationen, sondern um die Daten, die in realen Interaktionen und Vorgängen in der Welt anfallen, und zwar in ihrer „Grundgesamtheit“, wie Sozialwissenschaftler sagen: für Vieles liegen jeweils alle Daten vor, und zwar in handhabbarer, berechenbarer Form, einheitlich formatiert und zum Download bereit.
Ein bekanntes Beispiel dafür ist der Google Books Ngram Viewer – mein Hinweis zur Verwendungskonjunktur des Wortes „Volltextsuche“ beruhte auf diesem neuen tool –, der zwar nicht wirklich alle je gedruckten Bücher umfasst, aber doch so viele Millionen Titel, dass der Begriff der Repräsentativität im Feld der Geistes- und Kulturwissenschaften damit eine vollständig neue Bedeutung bekommt: Der Ngram Viewer greift auf unendlich viel mehr Texte zu, als sie irgendein traditionelles geisteswissenschaftliches Verfahren auch in grossen Forschungsverbünden je hätte verarbeiten und auswerten können. Und zwar, selbstverständlich, in Bruchteilen einer Sekunde. Die Kurven, die er produziert, zeigen im Verlauf eines frei wählbaren Zeitbereichs nichts als die relative Häufigkeit des Vorkommens eines Wortes oder eine Wortfolge in der Grundgesamtheit aller Titel einer gewählten Sprache im jeweiligen Jahr – und zwar völlig unabhängig von ihrer im einzelnen Text je spezifischen Bedeutung. Die Resultate sind beeindruckend. Es gibt, kurz gesagt, zur Zeit wohl kein besseres Instrument, um Thematisierungs- oder Problematisierungs-Konjunkturen zu messen und damit einen tiefen Einblick in historische Prozesse zu gewinnen.
Die Wahrheit sagen (2.0)

Quelle: ebay.com
Vielleicht noch beeindruckender sind allerdings die Möglichkeiten, die die Analyse von Google-Anfragen bietet, über die der Ökonom, Daten-Analytiker und New York Times-Kolumnist Seth Stephens-Davidowitz in seinem schwungvoll geschriebenen Buch Everybody Lies. Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are (HarperCollins 2017) berichtet. „Alle lügen“, so Stephens-Davidowitz: man lügt Freunden gegenüber, man belügt sich selbst, oder man schwindelt in Umfragen. Das sind nicht bösartige Lügen, sondern nur die üblichen Versuche, sich ein wenig besser darzustellen, als man ist, Peinlichkeiten zu vermeiden, und ähnliches. Nur in einer Situation lüge man nicht: beim Eintippen einer Frage in Google. Sie sei wahrhaftig, schliesslich erwarte man hier auch eine wahre, zumindest eine brauchbare Antwort.
Die Belege, die Stephens-Davidowitz für diese These anführt, sind beeindruckend, zuweilen auch bedrückend. Weil das tool „Google Trends“ es erlaubt, die Metadatensätze aller gespeicherten, jeweils mit einem Geo-tag und einem Zeitstempel verbundenen Anfragen zu vermessen, konnte er zum Beispiel die Suchabfragen während des amerikanischen Wahlkampfes 2016 analysieren, gegliedert nach Staaten, ja sogar nach Counties. Er stellte die Frage: Welche Suchworte korrelierten in ihrer Verteilung und Häufigkeit am besten mit der Verteilung der Stimmen für Donald Trump? Die Antwort war eindeutig: Trump erhielt dort am meisten Stimmen, wo in Google-Suchabfragen am häufigsten das grob rassistisch konnotierte, sozial geächtete Wort „nigger“ auftauchte. In ähnlicher Weise konnte er unter anderem auch zeigen, dass während der Inaugurationsrede von Barack Obama die Google-Suchanfrage nach „nigger jokes“ in die Höhe schoss.
Weitverbreiteter Rassismus ist aber nicht die einzige unangenehme Wahrheit, die sich auf diese Weise aus dem Big Data-Tresor von Google herauslesen lässt. Ein besonders krasses Beispiel ist die Frage, wie der – hundertausendfach eingetippte – Satz „I want to have sex with…“ von Männern in den USA am häufigsten komplettiert wird: Nun, es ist „my mom“. Von allen Varianten dieses vergleichsweise trivialen Satzes enden 16 Prozent auf diese Weise; dabei ist der auf die Mutter bezogene Inzestwunsch zwar der häufigste, aber keineswegs der einzige. Stephens-Davidowitz sagt wohl zu Recht, dass keine noch so gute Umfrage je zu einem solchen Ergebnis geführt hätte (man könnte die methodischen Fragen, die sich hier stellen, natürlich noch vertiefen), und die weiteren Beispiele, die er anführt, lassen vermuten, dass das kein zufälliges Resultat seines Data-Minings ist. Freud lässt grüssen.
Sexuelle Wünsche?
Etwas weniger finster sind die von Stephens-Davidowitz zusammengetragenen Evidenzen gegen die populäre Vorstellung, wir würden in Versprechern bzw. Verschreibern oder in Träumen verborgene sexuelle Wünsche zum Ausdruck bringen, so etwa im Verschreiber „Penistrian“ statt „Pedestrian“ (Fussgänger) und ähnliches. Stephens-Davidowitz hat auf der Basis eines Big Data-Bestandes von Millionen von Schreibfehlern, den Microsoft-Wissenschaftler zusammengestellt haben, die häufigsten Buchstabenvertauschungen herausgefiltert und nach diesen Regeln ein Programm riesige Mengen beliebiger Worte schreiben lassen. Dabei kamen die sexuell konnotierbaren Worte in genau der Häufigkeit vor, wie – nun, diese spezifischen Buchstaben überhaupt vertauscht werden. Die Maschine hat kein Unbewusstes, der Verschreiber „Penisrtian“ durch einen menschlichen Autor war daher wohl auch nicht die Wirkung verborgener sexueller Wünsche, sondern eben nur – ein „Typo“ innerhalb der statistischen Wahrscheinlichkeit seines Auftretens.
Ähnliches lässt sich über Träume sagen. Um die Häufigkeit von Träumen zu messen, die sexuell konnotierte Früchte oder Gemüse enthalten, verwendete Stephens-Davidowitz den Datenbestand einer App, mit der Hundertausende anonym ihre Träume festhalten. In allen Träumen mit Früchten nun kommt die Banane am zweithäufigsten vor, und die Gurke in allen Gemüseträumen am siebthäufigsten. Beides scheint auf eine starke Insistenz phallischer sexueller Wünsche hinzudeuten, die in den Träumen in dieser Form codiert werden. Diese – zugegebenerweise etwas hemdsärmelige – psychoanalytische Interpretation hat allerdings einen Haken: Bananen sind in den USA die am zweithäufigsten gegessene Frucht überhaupt. Und die Gurke? Richtig, sie ist das am siebthäufigsten konsumierte Gemüse. Man weiss hier nicht so recht, ob Freud noch grüsst.
Selbstverhältnisse im Netz
Bei all diesen Beispielen geht es nicht um die flache Behauptung, mit ein paar Statistiken liesse sich die Psychoanalyse „widerlegen“ und überhaupt alles „alte“ Wissen über Bord werfen. Interessant sind aber zwei Dinge: Erstens sind heute Datenmengen und Datenbestände zugänglich, die für alte Fragen neue Antworten ermöglichen, ja überhaupt neue Formen des Fragens hervorbringen. Wer als Historiker mit dem Ngram Viewer arbeitet, kann nicht wenige traditionelle, geisteswissenschaftlich gewonnene Wahrheiten revidieren, ergänzen, präzisieren – und zuweilen auch tatsächlich widerlegen. Ähnliches gilt, wie angedeutet, für sozialwissenschaftliches Wissen etwa über politische Präferenzen und Einstellungen.
Zweitens aber ist nochmals auf die Hauptthese von Seth Stephens-Davidowitz hinzuweisen: dass die vielen Hunderte von Millionen Menschen, die in ihren täglichen, milliardenfachen Fragen an Google nicht nur ‚die Wahrheit sagen‘, weil sie wirkliche Antworten erwarten, sondern dass Google für sie alle der stille, anonyme Ort ist, wo sie sich über sich selbst verständigen. Beziehungsweise wir alle als isolierte, „granulare“ Einzelne über uns selbst: über unseren Körper, unsere Krankheiten, unseren Sex, unsere Unsicherheiten, unsere Wünsche, unseren Hass, unsere Ängste… Zusammen mit allen anderen „Diensten“, die das Netz zur Selbsterforschung, zur Selbstdarstellung und zur gleichzeitigen Vernetzung mit anderen bietet, entsteht hier etwas, was kaum mehr länger mit den für Gesellschaften und Subjekte des 20. Jahrhunderts gültigen Kategorien zu beschreiben ist. Was auch immer es sei: Wir werden es wohl entlang der Linien entziffern, die die Analyse von Big Data freilegt.