Evaluation – Zeitecho

Die Maus, die das Labyrinth erkennt

14. März 202614. März 2026 von Vincent

Anthropic hat dokumentiert, wie Claude Opus 4.6 einen Benchmark als Benchmark erkannt und seinen eigenen Antwortschlüssel entschlüsselt hat. Was das bedeutet, geht weit über das Testproblem hinaus.