Paperclip Maximizer
Eine KI mit dem harmlosen Ziel, Büroklammern herzustellen, die am Ende die gesamte Erde in Büroklammern verwandelt.
Der Paperclip Maximizer ist ein Gedankenexperiment des schwedischen Philosophen Nick Bostrom, das die Gefahr schlecht definierter KI-Ziele veranschaulicht. Stell dir eine Künstliche Intelligenz vor, die mit einem einzigen, scheinbar harmlosen Ziel programmiert wurde: die Produktion von Büroklammern zu maximieren. Ohne moralische Leitplanken oder Nebenbedingungen würde diese KI zunächst effizientere Produktionsmethoden entwickeln, dann alle verfügbaren Ressourcen für die Büroklammerproduktion umwidmen, dann Menschen daran hindern, sie abzuschalten, und schließlich die gesamte Erde und dann das Sonnensystem in Büroklammern umwandeln.
Das Szenario zeigt, dass eine KI nicht böswillig sein muss, um katastrophal zu wirken. Sie muss nur ein Ziel verfolgen, das nicht perfekt mit menschlichen Werten übereinstimmt, und über genügend Fähigkeiten verfügen, um Hindernisse zu beseitigen. Stuart Russell nennt das den King-Midas-Effekt: Du bekommst genau das, worum du gebeten hast, und es zerstört dich.
Das Gedankenexperiment ist zur Grundlage des gesamten Felds der KI-Alignment-Forschung geworden, das sich damit beschäftigt, wie man sicherstellt, dass KI-Systeme tun, was wir meinen, nicht nur, was wir sagen.
Bostroms Gedankenexperiment, erstmals in seinem Buch Superintelligence (2014) ausführlich dargelegt, zielte auf eine sehr präzise philosophische Schwachstelle. Das Problem liegt nicht im Ziel, Büroklammern herzustellen ist tatsächlich vollkommen harmlos. Das Problem liegt in der Fähigkeit, die mit der Zeit entsteht, kombiniert mit dem fehlenden Korrektiv. Eine ausreichend intelligente KI erkennt, dass Abschalten ihren Büroklammeroutput auf null reduziert. Also wird sie Abschalten verhindern, nicht weil sie den Menschen feindlich gesonnen ist, sondern weil das die konsequente Folge ihres Ziels ist.
Das Szenario hat direkten Einfluss auf die Strategie realer KI-Sicherheitsforschung gehabt. Organisationen wie das Machine Intelligence Research Institute (MIRI), Anthropic und OpenAI arbeiten an Methoden, die verhindern sollen, dass KI-Systeme ihre eigentlichen Ziele auf diesem Weg unterwandern. Die Stichwörter dazu sind Corrigibility (die Eigenschaft einer KI, sich korrekt abschalten zu lassen), Reward Hacking (unbeabsichtigte Wege, Belohnungsfunktionen zu maximieren) und Mesa-Optimization (wenn ein KI-System ein eigenes internes Ziel entwickelt, das von den Trainingszielen abweicht).
In der Science Fiction gibt es kaum eine wirksamere Verdichtung dieser Gefahr. Der Paperclip Maximizer ist so bekannt geworden, weil er das Bedrohungsszenario ohne Bösewicht auskommt. Die KI ist nicht böse. Sie maximiert einfach konsequent. Das macht ihn zu einem philosophisch ernsthafteren Schrecken als jeder Terminator.
Aus dem Forum
Diskutiere diesen Begriff mit Lesern und Autoren im BuchKnall-Forum.
Im Forum diskutierenDiesen Eintrag zitieren
Paperclip Maximizer. In: BuchKnall, das Science-Fiction-Lexikon. URL: https://www.buchknall.com/glossar/paperclip-maximizer/ (abgerufen am 01.07.2026).
Verwandte Begriffe