#エージェント

30件の記事

Claude Codeが『言ってもいない指示』を実行する — ロール混同バグの構造と対策

Claude Codeが「言ってもいない指示」を実行する構造的バグの正体が解明されました。Messages APIがユーザーと対話の2ロールのみのため、システム通知がすべてユーザーメッセージ扱いになり、モデルが自分の出力を後からユーザー指示と誤認・実行してしまいます。4つの発生パターンと、プロンプトでは防げない理由、PreToolUseフックなどの実装レベルの対策が具体的に示されています。

#Claude Code #AI駆動開発 #セキュリティ

記事を読む →

🤖

Qiita4月10日· 2分で読める中級🔥 注目

Claude Advisor Tool入門 — SonnetとOpusを組み合わせてコスト削減と品質向上を両立する

Anthropicが発表したAdvisor Toolは、SonnetやHaikuといった低コスト高速モデルをExecutorとして駆動させ、必要な局面でだけOpusに戦略指示を求める仕組みです。SWE-benchで+2.7pp改善、コスト-11.9%を実現。1つのAPIリクエストで完結し、既存コードに数行追加するだけで導入できる実装パターンを詳解しています。

#Claude #エージェント #AI駆動開発

記事を読む →

🕵️

Zenn4月10日· 2分で読める中級🔥 注目

HITL崩壊を前提にした責任可視化設計――AIエージェント運用で最後に残る問題

AIエージェント運用ではHITL（Human-in-the-loop）が崩れるのは避けられません。形式承認化、追認化、件数圧迫など自然に劣化します。重要なのは「人間が見ていたか」ではなく、責任の流れが可視化されていることです。判断発生点・採用確定点・介在実施点・停止発動点・修復接続点の5点を明確にし、ログに残すことで、事故後の責任追及だけでなく、本当の原因と恒久対策を見つけられます。

#エージェント #AI駆動開発 #リスク管理

記事を読む →

⚡

Qiita4月10日· 2分で読める中級🔥 注目

AIが夢を見る、は半分本当で半分ミスリード。OpenClaw 2026.4.9 の本質は「記憶の監査性」が一段上がったこと

OpenClaw 2026.4.9の本質は「AIが夢を見る」というロマンティックな演出ではなく、記憶の監査性が飛躍的に向上したことです。MEMORY.md、DREAMS.md、memory/YYYY-MM-DD.mdで可視化された記憶を、過去ログから再投入・リセット・ロールバック可能にする「grounded REM backfill」機能により、AIの意思決定の根拠を人間がレビューできるようになりました。セキュリティ強化も同時実装され、実行型エージェント時代に必須の品質基準が整いつつあります。個人開発でも業務でも、持続する記憶の管理設計が次の競争軸になります。

#AI駆動開発 #エージェント #OpenClaw

記事を読む →

🕵️

Zenn4月10日· 2分で読める中級🔥 注目

分析エージェントの問題点と、セマンティックレイヤーという打ち手──AIにSQLを書かせない設計

分析エージェントが本番環境で安定しない理由は、LLMに直接SQLを生成させる設計にあります。ビジネス定義の見えなさ・テーブル変更への脆弱性・text2SQLの非決定性という3つの根本課題を、セマンティックレイヤーで解決します。DBT Labsの検証では、セマンティックレイヤーを経由することで正答率が16.7%から83%に改善。AIの得意な自然言語理解に専念させ、メトリクス解決は定義層に委ねる役割分担が実務的な安定性を生みます。

#エージェント #AI駆動開発 #技術・実装

記事を読む →

⚡

Zenn4月10日· 2分で読める上級🔥 注目

Clade v1.8.0 & v1.9.0 — 自己アップデートと、ちゃんと届ける

Cladeというマルチエージェント開発フレームワークのv1.8.0・v1.9.0リリース解説です。最大の特徴は/updateコマンドで自動アップデートが可能になったこと。GitHubを正本とする設計でローカルの古い正本問題を回避し、HTMLコメントマーカーでユーザー記述を保護しながら選別更新を実現。ドキュメント整備やセットアップ未実行検出など、使い続けるための仕組みが充実しており、実装ノウハウが詰まった内容です。

#AI駆動開発 #Claude Code #マルチエージェント

記事を読む →

🕵️

Zenn4月10日· 1分で読める上級🔥 注目

プロダクト埋め込みチャット、もう誰も期待してない説 — でも「エージェントを作る」話はこれから本番

埋め込みチャットはローカルエージェント+MCP時代に存在意義を失いました。しかし「エージェントを作る」話はこれからが本番です。Transformerの原理上、複数のサブエージェント分割は必須で、決済などリスク管理が必要な業務はツール公開ではなくエージェント自体の公開が方向性になります。課金モデルもデータアクセス権で成立する新段階へ移行しています。

#エージェント #MCP #AI駆動開発

記事を読む →

🕵️

Zenn4月10日· 1分で読める中級🔥 注目

agent-browserでLightpandaを使って10倍速くする

AIエージェント向けブラウザ自動化ツール「agent-browser」をLightpandaに切り替えるだけで、実行速度が9倍、メモリ使用量が1/16に改善します。本記事では、インストール手順から実装方法まで、すぐに使える形で解説しており、数十～数百ページを巡回するエージェントタスクで特に効果的です。

#エージェント #AI駆動開発 #ブラウザ自動化

記事を読む →

🔌

Qiita4月10日· 2分で読める中級🔥 注目

Gemini API Docs MCP入門 — Agent SkillsでCoding Agentの精度を96.3%に向上させる

Claude CodeやCursorなどのCoding Agentが古い学習データで誤ったコードを生成する問題を、Googleが2つのツールで解決しました。Gemini API Docs MCPでリアルタイムドキュメント参照、Agent Skillsで最新SDKパターンを注入することで、正解率96.3%・トークン数63%削減を実現します。セットアップ方法と各スキルの選び方を実装例付きで解説しており、すぐに実務に活かせる内容です。

#MCP #エージェント #Gemini

記事を読む →

🕵️

Zenn4月10日· 2分で読める中級🔥 注目

Agent Skillを有料で売れる時代が来たらしい

AIが会話ツールから仕事実行の道具へ移行する中、Agent Skillの商品化は必然です。Skillとは単なるプロンプトでなく「再利用可能な実行仕様書」で、ハーネスエンジニアリング（prompt・memory・tool・guard等の構造設計）の専門性により差がつきます。知らない領域の完成したワークフローを導入できる価値が市場を生み、SkillShelfが「運用知の取引市場」として機能し始めています。

#エージェント #Agent Skills #AI駆動開発

記事を読む →

📚

Zenn4月10日· 1分で読める中級🔥 注目

ベクトル検索は不要なのか

ベクトル検索は不要ではなく、使い分けが重要です。従来のベクトル型RAGは大規模データで有効一方、Agentic RAGやファイル検索型RAG、階層的検索など新しいアプローチが登場し、データの性質や要件で最適な手法を選択する時代へ。A-RAGやDeepReadなどの最新事例から、精度とスループットを両立させる道筋が見えてきます。

#RAG #エージェント #技術・実装

記事を読む →

🤖

Qiita4月10日· 2分で読める中級🔥 注目

Claude Mythos Preview入門 — SWE-bench 93.9%・Project Glasswingの全貌

Claude Mythos PreviewはSWE-bench 93.9%を達成した史上最強モデルですが、セキュリティリスクを理由に招待制・防衛的サイバーセキュリティ専用として限定公開されています。全主要OS・ブラウザで数千件のゼロデイを自律発見し、Firefox exploitではOpus比90倍の性能差を示しています。Amazon・Apple・Microsoft等12社以上が参加するProject Glasswingの中核として機能し、$100M使用クレジットが投下される、AIセキュリティの大転換点を示す発表です。

#Claude #モデル・基盤 #エージェント

記事を読む →

🤖

Zenn4月8日· 2分で読める中級🔥 注目

Claude DesktopのCoworkでブラウザ操作がPermission deniedになる原因と解決策

Claude DesktopのCoworkモード（ローカルエージェント）でブラウザ操作がPermission deniedになる原因を徹底解析した実践記事です。サイドパネルでは動くのにCoworkでは拒否される理由は、異なる権限フロー。Coworkはサーバー側APIでドメインをカテゴリ分類し、制限カテゴリに該当すると即座に拒否するため。設定画面でデフォルトを「拡張機能を許可」に変更する解決策まで示されており、同じ問題に直面したエンジニアの実装障害を即座に解決できます。

#Claude #AI駆動開発 #エージェント

記事を読む →

🕵️

Zenn4月8日· 2分で読める中級🔥 注目

AIエージェント開発のコア概念が掴める100行のコード

AIエージェントの本質は「LLMが終了判断するまでツール呼び出しをループする」という100行のシンプルなコード機構です。Claude CodeやMastraといったフレームワークの魔法のような動作も、実はAPI呼び出しの繰り返しに過ぎません。実務経験者による解説で、エージェント開発時に自分の実装がどう作用するかイメージできるようになります。さらに「すべての問題がエージェント向きではない」という実践的な判断基準まで示されており、手を動かしながら概念を体感できます。

#エージェント #AI駆動開発 #LLM

記事を読む →

⚡

Qiita4月8日· 2分で読める上級🔥 注目

Cursor 3がVS Codeフォークから「エージェント統合ワークスペース」へ全面再設計された理由

Cursor 3がVS Codeフォークから全面再設計された背景が鮮明に見えます。VS Codeは月次更新への追従コスト、拡張機能の互換性問題に加え、本質的に「人間操作の補助」設計であり、エージェントが自律的にファイル・ターミナル・Gitを統合制御するプリミティブが欠けていました。Cursor 3は「Agents Window」で複数エージェントの並列実行、Git Worktreeによる隔離実行、一元的なツールアクセスを実現。開発者はコード作成者からオーケストレーターへ役割転換します。

#AI駆動開発 #Cursor #エージェント

記事を読む →

⚡

Qiita4月8日· 2分で読める中級🔥 注目

Pragmatic Engineer調査：Claude Codeが「最も支持されているツール」46%で圧勝した背景と、それでも「使えない」と言われる理由

Claude Codeが最新調査で46%の支持を集めトップ奪取した一方、「使い物にならない」という指摘も同時に存在する矛盾を分析します。経験11年以上の熟練エンジニアが対象で、シニアほど支持率が高い傾向が明らかに。計画→実行→検証のループ強制、タスク選別の明確化、カスタムコマンド活用といった高評価ユーザーに共通するワークフローが存在する一方、複雑なタスクでの限界も指摘されています。

#Claude Code #AI駆動開発 #Cursor

記事を読む →

🕵️

Zenn4月7日· 2分で読める中級🔥 注目

autoresearchやRalph Loop — Agent Loopの全体像を整理してみた

autoresearchやRalph Loopなど注目を集めるAIエージェント系ツールの違いが分からない——そんな疑問に答える俯瞰的整理記事です。約220件の論文とOSSを調査した著者が、Agent Loopを「逐次実行型」「仮説検証型」「自己進化型」の3グループ、7つの型に分類。線形ReAct・Event Stream・木探索・制約付き実験など、各型の使い分けを代表プロジェクトとともに解説しています。実装レベルで何が違うのか、どの場面で何を選ぶべきか？が明確に理解できます。

#エージェント #Agent Loop #ReAct

記事を読む →

🔌

Qiita4月7日· 2分で読める中級🔥 注目

MCP（Model Context Protocol）入門 — AIエージェントと外部ツールをつなぐ標準規格

MCPはAnthropicが開発した標準プロトコルで、AIエージェントと外部ツールの接続を統一します。USB-Cのように、Slack・PostgreSQL・Jiraなど多様なサービスに個別アダプタなしで接続でき、Tools・Resources・Promptsの3機能を提供。Claude CodeはMCP Clientを内蔵し、コマンド1つで追加可能です。トークン消費やセキュリティなど実装時の注意点も詳解しており、エージェント開発の実践知識が得られます。

#MCP #Claude #AIエージェント

記事を読む →

🕵️

Zenn4月7日· 2分で読める中級🔥 注目

AIエンジニアリング進化の系譜 — 第4の波は何か

AIエンジニアリングは進化の波を経ています。第1波はプロンプトエンジニアリング、第2波はコンテキスト管理、そして今は「ハーネスエンジニアリング」の時代です。同じモデルでもハーネス設計で完了率が40ポイント変わります。さらに先を見ると、数日単位の長時間タスク対応、自律性の段階モデル、自己改善するエージェントなど、第4の波が予兆を見せています。実装者が次に何を備えるべきか、を一次ソース付きで解き明かします。

#エージェント #AI駆動開発 #Claude Code

記事を読む →

💬

Qiita4月7日· 1分で読める中級🔥 注目

GPT-5.4 Thinking入門 — reasoning.effortとOSWorld-V 75%の推論AIをAPI活用

GPT-5.4 Thinkingが人間を超えたデスクトップ自動化の実力を解説します。OSWorld-V 75%達成（人間72.4%超）、SWE-bench 57.7%の性能で、推論深度を制御するreasoning.effortパラメータの5段階設定・API実装例・1Mトークンコンテキストの活用法まで実装レベルで学べます。エージェント開発者必読です。

#GPT-4 #LLM #AI駆動開発

記事を読む →

🕵️

Zenn4月7日· 2分で読める中級🔥 注目

登れる壁に看板を立てても意味がない — AIエージェントに必要なのはガードレールではなくアカウンタビリティだ

AIエージェントのガバナンスは現在「看板を立てるフェーズ」にあります。システムプロンプトでルールを書いても、LLMは確率的にしか守らないため効果がありません。エンジニアが知っているPRレビュー・監査ログ・RBACといった「アカウンタビリティの仕組み」をエージェントに適用すること。PreToolUse Hooksで決定論的に制約を実行し、すべての変更を人間のサインオフでゲートする — この設計が企業導入を進める鍵です。

#エージェント #セキュリティ #アカウンタビリティ

記事を読む →

⚡

Zenn4月7日· 1分で読める中級🔥 注目

ぼくの仕事は「話す」だけになった — Claude Codeに会社を建てた全記録

Claude Codeで「話すだけで会社が動く」仕組みを実現した実例です。ワンオペから14人の役員を持つAIエージェント体制へ移行し、指揮命令系統・社内Wiki・学習システムなど、実装パターンを11章で体系化しています。30分で自分の組織に導入できるフレームワークまで含む、AI駆動開発の究極の活用事例です。

#Claude Code #AI駆動開発 #エージェント

記事を読む →

⚡

Zenn4月7日· 2分で読める中級🔥 注目

しばらく放置したiOSアプリをAIエージェントに診断させて開発再開した話

放置していたiOSアプリの現状把握を手動ではなくAIエージェントに任せた事例です。Kiro CLIでカスタムエージェントを構築し、SwiftDataからFirestoreへの移行途中のコードベースを自動分析。GitHub Issueを自動生成させることで、数日かかる診断を効率化しました。プロンプト設計・スキル連携・モデル選択の工夫が実装ノウハウとして参考になります。

#AI駆動開発 #エージェント #iOS

記事を読む →

🕵️

Qiita4月7日· 2分で読める上級🔥 注目

Microsoft Agent Governance Toolkit入門 — AIエージェントのセキュリティをOSSで実装する

企業の88%がAIエージェントのセキュリティインシデントを経験する中、Microsoftが2026年4月にOSSのAgent Governance Toolkitをリリースしました。OWASP Top 10 for Agentic Applications全10リスクに対応し、LangChain・CrewAIなど主要フレームワークと既存コード改変なしに統合できます。7つのパッケージ構成でポリシーエンジン・ID管理・実行制御を実装でき、p99レイテンシ0.1ms以下というサブミリ秒の性能を実現しています。

#エージェント #セキュリティ #ガバナンス

記事を読む →

🕵️

Qiita4月7日· 1分で読める中級🔥 注目

Claude Codeのサブエージェントに不可逆アクションをさせると承認を求められる

Claude Codeのサブエージェントでメール送信などの不可逆アクションを実行させると、確率的に承認確認が挟まることが判明しました。興味深いのは、「確認不要」といった文言を入れると逆にプロンプトインジェクション扱いされて拒否される点です。自然なタスク依頼として書くと成功率が上がり、実際の運用では承認が入った場合の手動許可を前提に設計する必要があります。

#Claude Code #エージェント #AI駆動開発

記事を読む →

🤖

Zenn4月7日· 1分で読める中級

#01 五つの臓器

AIの応答をより人間らしくするフレームワーク「HumanPersonaBase」の実装記です。感情状態機械・文体変動・返信タイミング・エスカレーション検知・文脈参照の5つの直交モジュールで、言語非依存な人間らしさをパラメータ化します。Claudeとの共同開発で2,817行を初期実装し、設計思想から倫理ガイドラインまで含めたOSS化への道のりを描いています。

#Claude #エージェント #プロンプトエンジニアリング

記事を読む →

⚡

Qiita4月7日· 1分で読める中級🔥 注目

iPhoneのアプリClaushでClaude Code環境を作る——サーバーセットアップから接続まで

iPhoneアプリ「Claush」を使うと、VPS上のClaude Codeをチャット形式で操作できます。この記事は、サーバーセットアップからSSH接続、バックグラウンド実行まで、スキマ時間で開発を進められる環境構築を詳細に解説しています。VPS選びの目安やセキュリティ設定も含まれており、外出先からのAIエージェント操作を実現させます。

#Claude Code #AI駆動開発 #エージェント

記事を読む →

⚡

Qiita4月7日· 1分で読める中級🔥 注目

【2026年最新】3人の会社にAI経営OS構築してみた — CFO/COO/CMOをClaude Codeで自動化した全記録

月商250万の3人スタートアップがClaude Codeで経営層（CFO/COO/CMO）をAIエージェント化しました。freee・Notion・X APIなどを統合し、経理・業務・マーケティング業務を自動化。実装コード付きで、少人数企業こそAI活用のメリットが大きいことを具体例で実証しています。

#Claude Code #AI駆動開発 #エージェント

記事を読む →

⚡

Qiita4月6日· 1分で読める中級🔥 注目

日々の業務、実は効率化できる？【駆け出しエンジニアの備忘録3】

Antigravityというエージェント型AIを業務に活用すると、技術選定のリサーチが半日かかった作業が数分で完結します。公式ドキュメント横断調査、複数製品の比較表作成、検証環境構築をすべて自動化。さらにCursorと組み合わせると、検証済みのプランをもとに安全に実装でき、駆け出しエンジニアでも業務効率を飛躍的に向上させられます。

#AI駆動開発 #Antigravity #エージェント

記事を読む →

⚡

Qiita4月6日· 2分で読める中級🔥 注目

Antigravityは「AIがコードを書く道具」じゃない。開発の主語をずらす作業面だと思う

AntigravityはAIコーディング補助ツールではなく、開発の役割分担そのものを再設計するプラットフォームです。エージェントがエディタ・ターミナル・ブラウザを横断して自律的に計画・実行・検証し、その証跡をArtifactsで残します。CursorやClaude Codeの「並走感」とは異なり、「キーボードから離れた状態で進む仕事」を実現。Googleは試作はAI Studio、ローカル開発はAntigravityと明確に棲み分けを始め、これはIDEの再定義の入口と考えられます。

#AI駆動開発 #Antigravity #Claude Code

記事を読む →