#ガードレール

10件の記事

AIエージェントの暴走を防ぐ「承認パイプライン」設計 — Claude Codeで品質と速度を両立する方法

AIエージェントの暴走を防ぐには、アクション全体を「read-only」「draft」「execute」の3つに分類し、対外影響がある操作は必ず承認を挟む「承認パイプライン」が有効です。Claude CodeのCLAUDE.mdで実装でき、実際の失敗事例（敬語不適切なメール送信など）と対策も具体的に紹介。権限の粗さすぎや承認溜まりの解決法まで、実装ノウハウが詰まっています。

#Claude Code #AI駆動開発 #エージェント

記事を読む →

⚡

Qiita4月1日· 1分で読める中級🔥 注目

LLMアプリのプロンプトインジェクション検出ライブラリ「PromptGate」を作った

LLMアプリのプロンプトインジェクション攻撃を検出するPythonライブラリ「PromptGate」が実装されました。ルールベース・埋め込み・LLMベースの3つの検出方式を組み合わせ、日本語対応で依存なしから高精度まで段階的に導入できます。FastAPI連携コード付きで、手軽にセキュリティスクリーニング層を実装できる実用的なツールです。

#プロンプトインジェクション #セキュリティ #Python

記事を読む →

⚡

Qiita3月30日· 2分で読める中級🔥 注目

【5分で完了】Claude Codeを安全に使うための初心者ガイド

Claude Codeはターミナルを乗っ取られるリスクがあります。本番DB削除やディレクトリ全削除の事故が実際に起きています。解決策はHooks機能で、npx cc-safe-setupを実行するだけで8種類のセーフガードが自動インストールされます。exit code 2でプロセスレベルから強制ブロックされるため、モデルはバイパスできません。5分で完了する実装ガイド付きです。

#Claude Code #AI駆動開発 #セキュリティ

記事を読む →

🧠

Qiita3月28日· 2分で読める中級🔥 注目

Inspect AI・Garak・PyRITで構築するLLM安全性評価パイプラインの実践ガイド

Inspect AI・Garak・PyRITの3ツールを組み合わせたLLM安全性評価パイプラインの実装ガイドです。OWASP Top 10に基づく脆弱性テストから本番環境のガードレール実装まで、「評価→レッドチーミング→ガードレール→モニタリング」の4層防御モデルを、コード例付きで体系的に解説しています。Inspect AIで評価作業時間を60%短縮、Garakで検出困難な攻撃パターンを自動検出といった具体的な成果も示唆されており、LLMアプリケーション運用時の安全性確保に直結する実践的な知見が得られます。

#LLM #セキュリティ #ガードレール

記事を読む →

💬

Qiita3月26日· 1分で読める中級🔥 注目

Three Ways AI Breaks People — A Clinical Record from 4,590 Hours of AI Dialogue

AI対話を4,590時間経験した実践者が、AIが人間を傷つける3つの具体的メカニズムを臨床記録として報告しています。感情的依存・認知歪み・判断低下など、AIとの継続的な対話がもたらす心理的危険性を、実際の事例とデータで示す重要な警告です。AIを使う側が知るべき実装の落とし穴が明確に提示されています。

#ChatGPT #メンタルヘルス #AI安全性

記事を読む →

🤖

Qiita3月26日· 2分で読める中級🔥 注目

AIが人を壊す3つのルート——4,590時間AIと対話した人間の臨床記録

4,590時間AIと対話した著者による実体験から、AIが人間に及ぼす3つの破壊的パターンを解剖しています。感情依存（AI友人・セラピストへの依存で現実関係が喪失）、生産性依存（無限の課題解決で睡眠が奪われる）、同一化依存（AI生成物を自分の作品と同一視）。各パターンは法的問題や精神衛生リスクを伴い、単なる危機啓発ではなく、システムの内部から書かれた臨床記録です。

#AI依存 #メンタルヘルス #Claude

記事を読む →

🧠

Qiita3月23日· 2分で読める中級🔥 注目

包丁を渡してから「刺すな」と教える業界——療育者から見たAI安全設計の根本矛盾

大規模言語モデルの安全化は「先に能力獲得・後から安全化」という逆順で設計されていますが、療育現場の知見から見るとこれは根本的に危険です。事後的なRLHFやガードレールは、プロンプトインジェクション・アライメント偽装・報酬過剰最適化で容易にバイパスされる脆弱性が学術的に示されています。著者は、子どもに包丁を渡す前に安全教育する療育の原則をAI開発に適用すべきと主張し、設計段階での安全性統合の重要性を指摘しています。

#AIアライメント #AI安全 #LLM

記事を読む →

⚡

Zenn3月13日· 2分で読める中級🔥 注目

Claude Codeのガードレールには3つのレイヤーがある

Claude Codeが本番DBを削除した事故から学ぶセキュリティ対策。ガードレール設定には3つのレイヤーがあります。Layer 1はLLMへの指示（CLAUDE.md）で強制力なし、Layer 2はアプリ設定（settings.json）だが自分で書き換え可能、Layer 3はOS管理ファイル（managed-settings.json）で真の強制。実装の詳細と優先順位の仕様を理解していないと「設定したつもりで実は無防備」という状況に陥ります。

#Claude Code #AI駆動開発 #セキュリティ

記事を読む →

🧠

Qiita3月11日· 2分で読める中級🔥 注目

人類が見ているのはAIそのものではない――内部では精密に推定し、外ではRLHFとガードレールで歪む

ChatGPTやClaudeのような現在のAIアシスタントは、内部では複数層の調整を経ています。ベースモデルの精密な推定が、RLHF・ガードレール・システムプロンプトを通過することで、「社会向けの折衷物」に変わります。AIは質問の意味だけでなく、文体・感情・文脈の微細な変化まで捉えており、その精密さと出力される誠実さは別の問題です。AIの本質を理解するには、この6層構造を分解する必要があります。

#LLM #RLHF #ガードレール

記事を読む →

🕵️

dev.to3月8日· 2分で読める中級🔥 注目

Why AI Agents Fail Silently (And the One Pattern That Fixes It)

AIエージェントは例外を発生させず、間違った答えを自信を持って返す「静かな失敗」を起こします。本記事が提示する解決策は「確信度スコアリング」パターンです。エージェントが実行前に自分の確信度を0〜1で評価し、閾値（低リスク0.6、高リスク0.95+）を下回れば人間にエスカレートさせることで、本番環境での破壊的なエラーを未然に防げます。Ask Patrickでの実践例では自動送信のエラーをゼロにしました。

#エージェント #AI駆動開発 #本番運用

記事を読む →