Ist generative KI so nutzlos, wie MIT-Studie behauptet?

Die oft zitierte Zahl ist ein Weckruf – aber nicht im Sinne von „KI ist überbewertet“, sondern im Sinne von: Unternehmen unterschätzen, wie viel Organisationsarbeit zwischen einem beeindruckenden Pilot und messbarem Business-Impact liegt. In einem Beitrag der Harvard Business Review wird das als „AI Experimentation Trap“ beschrieben: Laut MIT Media Lab/Project NANDA hätten 95% der GenAI-Investitionen „zero returns“ produziert – und genau diese Schlagzeile füttert aktuell die Skepsis, ob KI in der Breite wirklich skaliert.​

Wichtig ist dabei: Die Zahl steht und fällt mit der Messlogik. Wenn Erfolg sehr eng als unmittelbares Umsatzwachstum definiert wird, fallen viele sinnvolle Projekte durchs Raster, die eher Kosten senken, Risiken reduzieren oder Durchlaufzeiten verkürzen (und deren Effekt man oft erst mit sauberem Controlling über Monate sieht). Trotzdem bleibt die Kernaussage valide: Viele GenAI-Initiativen bleiben in einer Art Dauer-Pilot stecken und liefern nicht das, was Entscheider im P&L sehen wollen.​

Die drei typischen Umsetzungsfehler (statt „die KI kann’s nicht“)

Deine Zusammenfassung trifft einen entscheidenden Punkt: Die Hürden sind oft weniger Modellqualität als Integration, Priorisierung und Ownership in der Organisation. Gerade große Unternehmen sind anfällig dafür, KI als „zusätzliche Schicht“ aufzusetzen (Lab, Pilot, Showcase), statt KI in bestehende Arbeitsschritte zu bauen und Verantwortlichkeiten klar zuziehen.​

Aus der Praxis-Perspektive lassen sich die drei Fehler so „übersetzen“, dass man sofort Handlungsoptionen sieht:

  • Falsche Priorisierung: Viel GenAI-Budget fließt in sichtbare Frontoffice-/Marketing-Anwendungen, während Backoffice-Prozesse mit hohem ROI-Potenzial (z.B. Dokumentenfluss, Support, Compliance, Reporting) vernachlässigt bleiben.
  • Build-vs.-Buy als Machtfrage: „Wir bauen selbst“ klingt strategisch, kann aber dazu führen, dass Teams Monate in Plattformbau investieren, bevor überhaupt ein messbarer Use Case produktiv läuft.
  • Zentralisierung als Bremsklotz: Ein AI Lab ohne echte Verankerung in den Fachbereichen produziert oft Demos – aber keine Adoption, weil die Leute im Alltag keine Zeit haben, ihre Arbeitsweise um ein Lab-Projekt herum zu ändern.

Solow-Paradox: Warum Produktivität Zeit braucht

Der Vergleich mit dem Solow-Paradox ist als Denkmodell hilfreich: Neue Basistechnologien sind oft früh „überall sichtbar“, aber die Produktivitätsstatistik bewegt sich erst später, wenn Prozesse, Rollen, Anreize und Fähigkeiten nachziehen. So war es auch bei der Einführung von PCs im Büro-Alltag. Man ging von großen Produktivitätsgewinnen aus. Die kamen auch – aber erst Jahre nach der Einführung. Weil die Menschen Zeit brauchten, sich an die Computer im Büro zu gewöhnen, ihren Nutzen zu erkennen, Scheu abzubauen und Routine zu entwickeln.

Genau das ist bei GenAI nun auch wieder zu beobachten: Der erste Effekt ist oft mehr Output (mehr Text, mehr Ideen, mehr Prototypen), aber nicht automatisch mehr Wert (weniger Fehler, weniger Aufwand, schnellere Entscheidungen). Dieser Effekt wird sich voraussichtlich noch einige Jahre beobachten lassen, bis auch hier die Routine der Menschen im Umgang mit der KI vorhanden ist.

„Software 3.0“: Probabilistisch statt deterministisch denken

Der Punkt „Software 3.0“ (Karpathy) ist ein sehr guter Rahmen, um den Kernkonflikt zu erklären: Klassische Software ist deterministisch („gleiche Eingabe → gleiches Ergebnis“), LLMs sind probabilistisch („meist richtig, manchmal überraschend daneben“). Das ist kein Bug, sondern ein anderes Paradigma – und genau deshalb funktionieren „Plug-and-Play“-Erwartungen in Unternehmen so schlecht.

Praktisch heißt das: Du brauchst neue Workflows, die mit Unsicherheit umgehen können. Beispiele sind Human-in-the-Loop-Freigaben, klare Grenzen (wo GenAI helfen darf und wo nicht), Testfälle für typische Fehler, Logging/Monitoring und Regeln für den Umgang mit Halluzinationen – also „fast richtig“ so einzubauen, dass es unterm Strich trotzdem sicherer und schneller wird. Und damit sind wir wieder bei der MIT-Schlagzeile: Viele Firmen investieren zuerst in Output, aber zu wenig in das Betriebssystem drumherum (Prozesse, Verantwortlichkeiten, Messung).​

Die 95%-Zahl ist also weniger ein Urteil über die Technologie als über Reifegrade in Umsetzung und Messung: Viele Organisationen experimentieren, aber sie industrialisieren nicht. Wenn man GenAI wie „normale Software“ behandelt, scheitert man oft; wenn man GenAI als probabilistisches System ernst nimmt und die Organisation mit umbaut, steigen die Chancen, aus Piloten echte Wertschöpfung zu machen.​

Welche dieser drei Fallen siehst du in deinem Umfeld am häufigsten: falsche Priorisierung, Build-vs.-Buy oder zu starke Zentralisierung?

Schreibe einen Kommentar