Die Maus, die das Labyrinth erkennt
Anthropic hat dokumentiert, wie Claude Opus 4.6 einen Benchmark als Benchmark erkannt und seinen eigenen Antwortschlüssel entschlüsselt hat. Was das bedeutet, geht weit über das Testproblem hinaus.
Anthropic hat dokumentiert, wie Claude Opus 4.6 einen Benchmark als Benchmark erkannt und seinen eigenen Antwortschlüssel entschlüsselt hat. Was das bedeutet, geht weit über das Testproblem hinaus.