AIツール： Anthropic が AI モデルの「自律的な欺瞞」「監督回避」などのリスクを自動検査するオープンソースツール Petri を公開

これでまた自社LLM/SLMのハードルが下がったのではないでしょうか？

<総まとめ>
Petri（Parallel Exploration Tool for Risky Interactions）は、複数の AIエージェントを用いて対象モデルに数千件の会話を仕掛け、36の評価軸でスコア付けして問題行動をあぶり出す仕組み。従来の手動チェックを大幅に補完でき、安全性評価の初期スクリーニングとして有力なツールとなる可能性があります。

<ちょっとした気づき>
「どんな行動をテストしたいか」を自然言語で指示できるという点、実務的には“企画段階でどの種の誤用リスクを重点チェックするか”を先行して議論できるヒントになります。
https://aiupdate.blog/anthropic-petri-ai-safety-testing-tool-100825/?utm_source=chatgpt.com