Reizwörter

Ich bin alt genug, um mich daran zu erin­nern, dass das Wort „Voll­text­su­che“ in den 1990er Jahren aufkam. „Kann“ ein Programm oder eine Daten­bank Voll­text­su­che – oder lassen sich nur einzelne Felder, etwa Schlag­worte und Indi­ces abfra­gen? Die Verwen­dungs­häu­fig­keit des Begriffs explo­dierte gegen die Jahr­tau­send­wende, seit 2006 ist sie wieder rück­läu­fig (im Engli­schen schon etwas früher). Warum sollte man auch länger danach fragen? Die ganze „Welt“, so will es schei­nen, ist über den Such­schlitz des Gros­sen Weis­sen Robo­ters als Voll­text erschliess­bar – zumin­dest soweit, wie die Welt ein Text ist. Google ist zur Schnitt­stelle zwischen uns und allem ande­ren gewor­den, und damit auch zur Schnitt­stelle zwischen uns und uns selbst. Doch wie genau – und was hat das mit Big Data zu tun?

Gegen­wär­tig gibt es knapp eine Milli­arde Websei­ten und rund 3,6 Milli­ar­den Internet-user. Auf Face­book sind aktu­ell monat­lich knapp zwei Milli­ar­den Nutzer aktiv (Tendenz selbst­ver­ständ­lich stei­gend). Seit 2004 spei­chert Google alle Such­ab­fra­gen, pro Tag sind dies über fünf Milli­ar­den; im selben Zeit­raum werden jeweils über 200 Milli­ar­den Emails versen­det (sic! Spam aller­dings inklu­sive), oder, für den Autor dieser Zeilen beson­ders ermun­ternd, rund 4,6 Millio­nen Blog posts online gestellt. Täglich. Die Menge an Daten, die bei diesen und unzäh­li­gen ähnli­chen Inter­ak­tio­nen akku­mu­liert wird, „big“ zu nennen, ist besten­falls eine frivole Unter­trei­bung: ‚schier unend­lich viel’ wäre präzi­ser. Ein immer grös­se­rer, schnell wach­sen­der Anteil von buch­stäb­lich allem, was auf der Welt der Fall ist, fällt in Form von elek­tro­nisch gespei­cher­ten Daten an oder wird in eine solche Form gebracht.

Quelle: Amazon.de

Es ist klar, dass die geballte Markt­macht von Konzer­nen wie Google, Face­book oder Amazon, die viele dieser Daten akku­mu­lie­ren und damit Geschäfte machen, in vieler­lei Hinsicht hoch­pro­ble­ma­tisch ist. Ebenso frag­los ist aller­dings, dass diese Daten­ma­schi­nen exis­tie­ren und stetig wach­sen, weil wir alle über sie kommu­ni­zie­ren und uns mit der Welt verbin­den. Der Sozio­loge Chris­toph Kucklick demons­triert in seinem 2014 erschie­nen Buch Die granu­lare Gesell­schaft. Wie das Digi­tale unsere Wirk­lich­keit auflöst anhand eindrück­li­cher Beispiele, wie die über uns akku­mu­lier­ten Daten dazu führen, dass wir nicht mehr darauf hoffen können, einfach nur, ange­nehm anonym, als Teil einer gros­sen Masse, einer Bevöl­ke­rung zu gelten, sondern in viel­fäl­tigs­ter Weise als Einzelne mit je eige­nen, unver­wech­sel­ba­ren „Profi­len“ adres­siert werden – durch Werbung, die uns Wünsche unter die Nase reibt, die wir als unsere eige­nen aner­ken­nen müssen, durch poli­ti­sche Propa­ganda, die uns nur von jener Seite erreicht, für die wir längst schon heim­lich optie­ren, oder durch gezielte Fake News, die sauber auf unsere Vorur­teile zuge­schnit­ten sind… Zusam­men mit der grös­ser werden­den sozia­len Ungleich­heit als Effekt der Internet-Ökonomie lösen sich, so Kucklick, die aus dem 20., gar dem 19. Jahr­hun­dert über­kom­me­nen Formen des poli­ti­schen und gesell­schaft­li­chen Zusam­men­halts zuneh­mend auf. Wir seien auf dem Weg zu einer „granu­la­ren Gesellschaft“.

Neue Formen des Fragens und des Wissens

Diese Effekte sind aller­dings nur eine Dimen­sion von Big Data. Wie immer man sie beur­tei­len mag, sei daher hier für einmal dahin­ge­stellt. Denn mit Blick allein darauf bliebe weit­ge­hend ausge­blen­det, dass Big Data gegen­wär­tig auch dazu führt, unsere Möglich­kei­ten zu fragen und zu wissen in tief­grei­fen­der Weise zu verän­dern, wie man auch von Kucklick lernen kann. Doch um welche neuen Möglich­kei­ten handelt es sich? Sozi­al­wis­sen­schaf­ten, aber auch Geis­tes­wis­sen­schaf­ten haben bisher in aller Regel ihre Fragen auf reprä­sen­ta­tive Daten bezo­gen: auf Stich­pro­ben und Samples, die als aussa­ge­kräf­tig genug gelten, um stell­ver­tre­tend für eine grös­sere Gesamt­heit unter­sucht zu werden, aber auch auf eine kleine Auswahl von als mass­ge­bend gelten­den Auto­ren, von kano­ni­schen oder zumin­dest als ‚rele­vant’ inter­pre­tier­ten Texten. Keine Sozi­al­wis­sen­schaft­le­rin hätte je den Anspruch erho­ben, für eine Umfrage zur Partei­en­prä­fe­renz mit allen Wahl­be­rech­tig­ten gespro­chen zu haben, und kein Geis­tes­wis­sen­schaft­ler konnte je behaup­ten, in seinem Leben mehr als maxi­mal, wenn über­haupt, ein paar Tausend Bücher lesen zu können.

Dass allein in diesem Jahr bis heute – Mitte Juni 2017 – welt­weit schon rund 1, 7 Millio­nen neue Titel publi­ziert wurden, oder dass im deut­schen Sprach­raum jähr­lich rund 90'000 neue Bücher erschei­nen, muss­ten Geis­tes­wis­sen­schaft­ler, wenn sie nicht verzwei­feln woll­ten, aktiv verdrän­gen. Bezie­hungs­weise: in ähnli­cher Weise wie die Sozi­al­wis­sen­schaf­ten haben sie subtile Verfah­ren und elabo­rierte Begrün­dun­gen entwi­ckelt, um ihre Auswahl als „reprä­sen­ta­tiv“ zu bezeich­nen. Diese Begrün­dun­gen konn­ten durch­aus sinn­voll und die Samples oft sehr aussa­ge­kräf­tig sein. Aber gerade in jenen kultur­wis­sen­schaft­li­chen Diszi­pli­nen, die danach fragen, wie „die Vielen“, die „Leute“ die Welt wahr­neh­men, wie sie über Dinge nach­den­ken oder mit sich selbst umge­hen, waren solche reprä­sen­ta­ti­ven, oft ziem­lich indi­rek­ten Verfah­ren meist nicht viel mehr als ein gelehr­tes Tappen im Dunkeln.

Genau das scheint sich nun drama­tisch zu ändern. Bei Big Data geht es nicht mehr um „reprä­sen­ta­tive“ Daten, um Umfra­gen, Stich­pro­ben, Auswah­len oder Inter­pre­ta­tio­nen, sondern um die Daten, die in realen Inter­ak­tio­nen und Vorgän­gen in der Welt anfal­len, und zwar in ihrer „Grund­ge­samt­heit“, wie Sozi­al­wis­sen­schaft­ler sagen: für Vieles liegen jeweils alle Daten vor, und zwar in hand­hab­ba­rer, bere­chen­ba­rer Form, einheit­lich forma­tiert und zum Down­load bereit.

Ein bekann­tes Beispiel dafür ist der Google Books Ngram Viewer – mein Hinweis zur Verwen­dungs­kon­junk­tur des Wortes „Voll­text­su­che“ beruhte auf diesem neuen tool –, der zwar nicht wirk­lich alle je gedruck­ten Bücher umfasst, aber doch so viele Millio­nen Titel, dass der Begriff der Reprä­sen­ta­ti­vi­tät im Feld der Geistes- und Kultur­wis­sen­schaf­ten damit eine voll­stän­dig neue Bedeu­tung bekommt: Der Ngram Viewer greift auf unend­lich viel mehr Texte zu, als sie irgend­ein tradi­tio­nel­les geis­tes­wis­sen­schaft­li­ches Verfah­ren auch in gros­sen Forschungs­ver­bün­den je hätte verar­bei­ten und auswer­ten können. Und zwar, selbst­ver­ständ­lich, in Bruch­tei­len einer Sekunde. Die Kurven, die er produ­ziert, zeigen im Verlauf eines frei wähl­ba­ren Zeit­be­reichs nichts als die rela­tive Häufig­keit des Vorkom­mens eines Wortes oder eine Wort­folge in der Grund­ge­samt­heit aller Titel einer gewähl­ten Spra­che im jewei­li­gen Jahr – und zwar völlig unab­hän­gig von ihrer im einzel­nen Text je spezi­fi­schen Bedeu­tung. Die Resul­tate sind beein­dru­ckend. Es gibt, kurz gesagt, zur Zeit wohl kein besse­res Instru­ment, um Thematisierungs- oder Problematisierungs-Konjunkturen zu messen und damit einen tiefen Einblick in histo­ri­sche Prozesse zu gewinnen.

Die Wahr­heit sagen (2.0)

Quelle: ebay.com

Viel­leicht noch beein­dru­cken­der sind aller­dings die Möglich­kei­ten, die die Analyse von Google-Anfragen bietet, über die der Ökonom, Daten-Analytiker und New York Times-Kolum­nist Seth Stephens-Davidowitz in seinem schwung­voll geschrie­be­nen Buch Ever­y­body Lies. Big Data, New Data, and What the Inter­net Can Tell Us About Who We Really Are (Harper­Col­lins 2017) berich­tet. „Alle lügen“, so Stephens-Davidowitz: man lügt Freun­den gegen­über, man belügt sich selbst, oder man schwin­delt in Umfra­gen. Das sind nicht bösar­tige Lügen, sondern nur die übli­chen Versu­che, sich ein wenig besser darzu­stel­len, als man ist, Pein­lich­kei­ten zu vermei­den, und ähnli­ches. Nur in einer Situa­tion lüge man nicht: beim Eintip­pen einer Frage in Google. Sie sei wahr­haf­tig, schliess­lich erwarte man hier auch eine wahre, zumin­dest eine brauch­bare Antwort.

Die Belege, die Stephens-Davidowitz für diese These anführt, sind beein­dru­ckend, zuwei­len auch bedrü­ckend. Weil das tool „Google Trends“ es erlaubt, die Meta­da­ten­sätze aller gespei­cher­ten, jeweils mit einem Geo-tag und einem Zeits­tem­pel verbun­de­nen Anfra­gen zu vermes­sen, konnte er zum Beispiel die Such­ab­fra­gen während des ameri­ka­ni­schen Wahl­kamp­fes 2016 analy­sie­ren, geglie­dert nach Staa­ten, ja sogar nach Coun­ties. Er stellte die Frage: Welche Such­worte korre­lier­ten in ihrer Vertei­lung und Häufig­keit am besten mit der Vertei­lung der Stim­men für Donald Trump? Die Antwort war eindeu­tig: Trump erhielt dort am meis­ten Stim­men, wo in Google-Suchabfragen am häufigs­ten das grob rassis­tisch konno­tierte, sozial geäch­tete Wort „nigger“ auftauchte. In ähnli­cher Weise konnte er unter ande­rem auch zeigen, dass während der Inau­gu­ra­ti­ons­rede von Barack Obama die Google-Suchanfrage nach „nigger jokes“ in die Höhe schoss.

Weit­ver­brei­te­ter Rassis­mus ist aber nicht die einzige unan­ge­nehme Wahr­heit, die sich auf diese Weise aus dem Big Data-Tresor von Google heraus­le­sen lässt. Ein beson­ders kras­ses Beispiel ist die Frage, wie der – hunder­tau­send­fach einge­tippte – Satz „I want to have sex with...“ von Männern in den USA am häufigs­ten komplet­tiert wird: Nun, es ist „my mom“. Von allen Vari­an­ten dieses vergleichs­weise trivia­len Satzes enden 16 Prozent auf diese Weise; dabei ist der auf die Mutter bezo­gene Inzest­wunsch zwar der häufigste, aber keines­wegs der einzige. Stephens-Davidowitz sagt wohl zu Recht, dass keine noch so gute Umfrage je zu einem solchen Ergeb­nis geführt hätte (man könnte die metho­di­schen Fragen, die sich hier stel­len, natür­lich noch vertie­fen), und die weite­ren Beispiele, die er anführt, lassen vermu­ten, dass das kein zufäl­li­ges Resul­tat seines Data-Minings ist. Freud lässt grüssen.

Sexu­elle Wünsche?

Etwas weni­ger fins­ter sind die von Stephens-Davidowitz zusam­men­ge­tra­ge­nen Eviden­zen gegen die popu­läre Vorstel­lung, wir würden in Verspre­chern bzw. Verschrei­bern oder in Träu­men verbor­gene sexu­elle Wünsche zum Ausdruck brin­gen, so etwa im Verschrei­ber „Penis­trian“ statt „Pede­strian“ (Fuss­gän­ger) und ähnli­ches. Stephens-Davidowitz hat auf der Basis eines Big Data-Bestandes von Millio­nen von Schreib­feh­lern, den Microsoft-Wissenschaftler zusam­men­ge­stellt haben, die häufigs­ten Buch­sta­ben­ver­tau­schun­gen heraus­ge­fil­tert und nach diesen Regeln ein Programm riesige Mengen belie­bi­ger Worte schrei­ben lassen. Dabei kamen die sexu­ell konno­tier­ba­ren Worte in genau der Häufig­keit vor, wie – nun, diese spezi­fi­schen Buch­sta­ben über­haupt vertauscht werden. Die Maschine hat kein Unbe­wuss­tes, der Verschrei­ber „Penisrtian“ durch einen mensch­li­chen Autor war daher wohl auch nicht die Wirkung verbor­ge­ner sexu­el­ler Wünsche, sondern eben nur – ein „Typo“ inner­halb der statis­ti­schen Wahr­schein­lich­keit seines Auftretens.

Ähnli­ches lässt sich über Träume sagen. Um die Häufig­keit von Träu­men zu messen, die sexu­ell konno­tierte Früchte oder Gemüse enthal­ten, verwen­dete Stephens-Davidowitz den Daten­be­stand einer App, mit der Hunder­tau­sende anonym ihre Träume fest­hal­ten. In allen Träu­men mit Früch­ten nun kommt die Banane am zweit­häu­figs­ten vor, und die Gurke in allen Gemü­se­träu­men am siebt­häu­figs­ten. Beides scheint auf eine starke Insis­tenz phal­li­scher sexu­el­ler Wünsche hinzu­deu­ten, die in den Träu­men in dieser Form codiert werden. Diese – zuge­ge­ben­er­weise etwas hemds­är­me­lige – psycho­ana­ly­ti­sche Inter­pre­ta­tion hat aller­dings einen Haken: Bana­nen sind in den USA die am zweit­häu­figs­ten geges­sene Frucht über­haupt. Und die Gurke? Rich­tig, sie ist das am siebt­häu­figs­ten konsu­mierte Gemüse. Man weiss hier nicht so recht, ob Freud noch grüsst.

Selbst­ver­hält­nisse im Netz

Bei all diesen Beispie­len geht es nicht um die flache Behaup­tung, mit ein paar Statis­ti­ken liesse sich die Psycho­ana­lyse „wider­le­gen“ und über­haupt alles „alte“ Wissen über Bord werfen. Inter­es­sant sind aber zwei Dinge: Erstens sind heute Daten­men­gen und Daten­be­stände zugäng­lich, die für alte Fragen neue Antwor­ten ermög­li­chen, ja über­haupt neue Formen des Fragens hervor­brin­gen. Wer als Histo­ri­ker mit dem Ngram Viewer arbei­tet, kann nicht wenige tradi­tio­nelle, geis­tes­wis­sen­schaft­lich gewon­nene Wahr­hei­ten revi­die­ren, ergän­zen, präzi­sie­ren – und zuwei­len auch tatsäch­lich wider­le­gen. Ähnli­ches gilt, wie ange­deu­tet, für sozi­al­wis­sen­schaft­li­ches Wissen etwa über poli­ti­sche Präfe­ren­zen und Einstellungen.

Zwei­tens aber ist noch­mals auf die Haupt­these von Seth Stephens-Davidowitz hinzu­wei­sen: dass die vielen Hunderte von Millio­nen Menschen, die in ihren tägli­chen, milli­ar­den­fa­chen Fragen an Google nicht nur ‚die Wahr­heit sagen‘, weil sie wirk­li­che Antwor­ten erwar­ten, sondern dass Google für sie alle der stille, anonyme Ort ist, wo sie sich über sich selbst verstän­di­gen. Bezie­hungs­weise wir alle als isolierte, „granu­lare“ Einzelne über uns selbst: über unse­ren Körper, unsere Krank­hei­ten, unse­ren Sex, unsere Unsi­cher­hei­ten, unsere Wünsche, unse­ren Hass, unsere Ängste… Zusam­men mit allen ande­ren „Diens­ten“, die das Netz zur Selbst­er­for­schung, zur Selbst­dar­stel­lung und zur gleich­zei­ti­gen Vernet­zung mit ande­ren bietet, entsteht hier etwas, was kaum mehr länger mit den für Gesell­schaf­ten und Subjekte des 20. Jahr­hun­derts gülti­gen Kate­go­rien zu beschrei­ben ist. Was auch immer es sei: Wir werden es wohl entlang der Linien entzif­fern, die die Analyse von Big Data freilegt.

Von Philipp Sarasin

Philipp Sarasin lehrt Geschichte der Neu­zeit an der Universität Zürich. Er ist Mit­be­gründer des Zentrums Geschichte des Wissens, Mitglied des wissen­schaft­lichen Beirats der Internet­plattform H-Soz-Kult und Heraus­geber von Geschichte der Gegenwart. Er kommentiert privat auf twitter.