OpenAI Codex Base-Anweisungen aufgedeckt: Keine Kobolde und Trolle
Simon Willison hat offenbar interne Base-Instructions von OpenAI Codex entdeckt, die das Modell explizit anweisen, nicht über Kobolde, Trolle, Waschbären und andere Kreaturen zu sprechen, es sei denn, es ist absolut relevant. Die Anweisung stammt aus einem GitHub-Repository und bezieht sich auf GPT-5.5.
Einordnung
Diese Entdeckung bietet einen seltenen Einblick in die internen System-Prompts und Trainingsanweisungen von OpenAI-Modellen. Die spezifische Anweisung, bestimmte Fantasiekreaturen und Tiere zu vermeiden, deutet darauf hin, dass diese Themen in der Vergangenheit problematisch waren oder zu unerwünschten Ausgaben geführt haben könnten. Es ist bemerkenswert, dass die Anweisung für 'GPT-5.5' bestimmt ist, was auf eine noch nicht angekündigte Modellversion hindeutet.
Solche Leaked Instructions sind für die AI-Community wertvoll, da sie zeigen, wie Unternehmen ihre Modelle durch System-Prompts steuern und welche spezifischen Verhaltensweisen sie zu vermeiden suchen. Die Tatsache, dass dies in einem öffentlich zugänglichen GitHub-Repository gefunden wurde, wirft Fragen zur Informationssicherheit bei OpenAI auf.