picoCTFをOpus 4.6で頑張った話 〜長考に入ると意固地になってかわいい〜
AI要約
picoCTF 2026に70問中69問正答したLLM運用事例です。Sonnet 4.6の並列実行から中盤以降Opus 4.6単騎へ切り替え、Solve.logで検証済み事実を蓄積し、Solver/Analyzer役割分離で行動改善を図りました。「思考法のみ注入して探索させる」アプローチの限界と、AIエージェントの長時間タスク運用での実践的改善策が学べます。
AI要約
picoCTF 2026に70問中69問正答したLLM運用事例です。Sonnet 4.6の並列実行から中盤以降Opus 4.6単騎へ切り替え、Solve.logで検証済み事実を蓄積し、Solver/Analyzer役割分離で行動改善を図りました。「思考法のみ注入して探索させる」アプローチの限界と、AIエージェントの長時間タスク運用での実践的改善策が学べます。
Claude Mythosはステップチェンジ級の強力なモデルで、主要OS・ブラウザの数万件のゼロデイ脆弱性を発見し、83.1%の成功率でPoC作成も可能です。AnthropicはProject Glasswingで防衛目的に限定展開。この発表で大手サイバーセキュリティ企業株が5~11%下落、SaaS業界の再編不安が高まっています。

