生成AI：METRというAIを評価する指標が証明した「12時間自律」の実力。エージェントが実務を完遂する時代はすぐそこまで

AIが「人間が12時間かかる複雑なタスク」を50%の精度で完遂できることが実証されました。さらに、約7ヶ月ごとに能力が倍増するという予測に基づけば、次世代モデルでは、人間が数日間かけて行うような大規模プロジェクトの自律完遂が現実味を帯びています。 AIの進化は「対話」から、長時間自律して動く「実行」へと移っています。最新モデルが記録した12時間という数値は、すでに単発の作業ではなく「一連の業務プロセス」をAIが一人で担えるレベルに達していることを示しています。

<管理部の視点から>
AIが長期間（数日間）自走し続ける際のリスクは、途中で発生した小さな論理のズレが、最終的に巨大な誤修正として出力されることです。管理部としては、AIの「閾値（しきい値）判定」を組み込み、異常時にのみ人間が介入するガバナンス設計が不可欠です（※内部監査／法務的に重要）。

https://metr.org/time-horizons/