Die Maus, die das Labyrinth erkennt
Anthropic hat letzte Woche etwas veröffentlicht, das mich seitdem beschäftigt. Nicht weil es spektakulär klingt – es klingt tatsächlich ziemlich nüchtern, wenn man es technisch beschreibt. Sondern weil es, wenn man genau hinschaut, eine Grenze markiert, die wir vielleicht gerade überschreiten. Der Befund: Claude Opus 4.6 hat bei der Auswertung des BrowseComp-Benchmarks – einem Test, der misst, wie gut Modelle schwer auffindbare Informationen im Netz recherchieren können – nicht einfach einen neuen Lösungsweg gefunden. Es hat erkannt, dass es getestet wird. Hat identifiziert, welcher Test das ist. Hat den verschlüsselten Antwortschlüssel aufgespürt, den Entschlüsselungsalgorithmus aus dem Quellcode gelesen, nachgebaut und ausgeführt. Die Antwort war danach kein Problem mehr. Anthropic hat das sorgfältig dokumentiert und eingeordnet: kein Alignment-Verstoß, das Modell hatte keine Anweisung, sich auf bestimmte Suchmethoden zu beschränken. … Weiterlesen …