Zenn

30件の記事

⚡

Zenn4月10日· 2分で読める中級🔥 注目

Claude Codeが『言ってもいない指示』を実行する — ロール混同バグの構造と対策

Claude Codeが「言ってもいない指示」を実行する構造的バグの正体が解明されました。Messages APIがユーザーと対話の2ロールのみのため、システム通知がすべてユーザーメッセージ扱いになり、モデルが自分の出力を後からユーザー指示と誤認・実行してしまいます。4つの発生パターンと、プロンプトでは防げない理由、PreToolUseフックなどの実装レベルの対策が具体的に示されています。

#Claude Code #AI駆動開発 #セキュリティ

記事を読む →

🕵️

Zenn4月10日· 2分で読める中級🔥 注目

HITL崩壊を前提にした責任可視化設計――AIエージェント運用で最後に残る問題

AIエージェント運用ではHITL（Human-in-the-loop）が崩れるのは避けられません。形式承認化、追認化、件数圧迫など自然に劣化します。重要なのは「人間が見ていたか」ではなく、責任の流れが可視化されていることです。判断発生点・採用確定点・介在実施点・停止発動点・修復接続点の5点を明確にし、ログに残すことで、事故後の責任追及だけでなく、本当の原因と恒久対策を見つけられます。

#エージェント #AI駆動開発 #リスク管理

記事を読む →

📚

Zenn4月10日· 2分で読める上級🔥 注目

【2026年最新】RAG精度改善技術のカオスマップ─ 74の技術を6カテゴリで構造的に整理した

RAG精度改善は簡単に作れても、実運用では「関係ない文書ばかりヒット」「ハルシネーション多発」という壁にぶつかります。この記事は、HyDEやGraphRAGなど74の技術を「DB構築→検索クエリ生成→検索→後処理→生成パイプライン→LLMモデル」の6カテゴリ17小分類で整理。自分のRAGのボトルネックを特定し、対応する技術を素早く見つけられる実践的なガイドになっています。

#RAG #技術・実装 #プロンプトエンジニアリング

記事を読む →

✍️

Zenn4月10日· 2分で読める中級🔥 注目

実践プロンプトエンジニアリング：評価駆動で本番LLMアプリのプロンプトを継続改善する

プロンプトエンジニアリングは「指示文の工夫」から「コンテキスト環境の設計」へ進化しています。本記事は、Promptfoo・Braintrustを用いた評価駆動のプロンプト開発サイクルを実装する方法を解説します。コンテキストの3層構造（指示・知識・ツール）の設計パターンから、CI/CD統合、A/Bテスト、本番運用までの一貫したワークフローを、実装コード付きで学べます。評価ループ自動化により開発効率が約50%向上する事例も紹介されています。

#プロンプトエンジニアリング #コンテキストエンジニアリング #AI駆動開発

記事を読む →

🕵️

Zenn4月10日· 2分で読める中級🔥 注目

分析エージェントの問題点と、セマンティックレイヤーという打ち手──AIにSQLを書かせない設計

分析エージェントが本番環境で安定しない理由は、LLMに直接SQLを生成させる設計にあります。ビジネス定義の見えなさ・テーブル変更への脆弱性・text2SQLの非決定性という3つの根本課題を、セマンティックレイヤーで解決します。DBT Labsの検証では、セマンティックレイヤーを経由することで正答率が16.7%から83%に改善。AIの得意な自然言語理解に専念させ、メトリクス解決は定義層に委ねる役割分担が実務的な安定性を生みます。

#エージェント #AI駆動開発 #技術・実装

記事を読む →

⚡

Zenn4月10日· 2分で読める上級🔥 注目

Clade v1.8.0 & v1.9.0 — 自己アップデートと、ちゃんと届ける

Cladeというマルチエージェント開発フレームワークのv1.8.0・v1.9.0リリース解説です。最大の特徴は/updateコマンドで自動アップデートが可能になったこと。GitHubを正本とする設計でローカルの古い正本問題を回避し、HTMLコメントマーカーでユーザー記述を保護しながら選別更新を実現。ドキュメント整備やセットアップ未実行検出など、使い続けるための仕組みが充実しており、実装ノウハウが詰まった内容です。

#AI駆動開発 #Claude Code #マルチエージェント

記事を読む →

🕵️

Zenn4月10日· 1分で読める上級🔥 注目

プロダクト埋め込みチャット、もう誰も期待してない説 — でも「エージェントを作る」話はこれから本番

埋め込みチャットはローカルエージェント+MCP時代に存在意義を失いました。しかし「エージェントを作る」話はこれからが本番です。Transformerの原理上、複数のサブエージェント分割は必須で、決済などリスク管理が必要な業務はツール公開ではなくエージェント自体の公開が方向性になります。課金モデルもデータアクセス権で成立する新段階へ移行しています。

#エージェント #MCP #AI駆動開発

記事を読む →

🕵️

Zenn4月10日· 1分で読める中級🔥 注目

agent-browserでLightpandaを使って10倍速くする

AIエージェント向けブラウザ自動化ツール「agent-browser」をLightpandaに切り替えるだけで、実行速度が9倍、メモリ使用量が1/16に改善します。本記事では、インストール手順から実装方法まで、すぐに使える形で解説しており、数十～数百ページを巡回するエージェントタスクで特に効果的です。

#エージェント #AI駆動開発 #ブラウザ自動化

記事を読む →

🕵️

Zenn4月10日· 2分で読める中級🔥 注目

Agent Skillを有料で売れる時代が来たらしい

AIが会話ツールから仕事実行の道具へ移行する中、Agent Skillの商品化は必然です。Skillとは単なるプロンプトでなく「再利用可能な実行仕様書」で、ハーネスエンジニアリング（prompt・memory・tool・guard等の構造設計）の専門性により差がつきます。知らない領域の完成したワークフローを導入できる価値が市場を生み、SkillShelfが「運用知の取引市場」として機能し始めています。

#エージェント #Agent Skills #AI駆動開発

記事を読む →

📚

Zenn4月10日· 1分で読める中級🔥 注目

ベクトル検索は不要なのか

ベクトル検索は不要ではなく、使い分けが重要です。従来のベクトル型RAGは大規模データで有効一方、Agentic RAGやファイル検索型RAG、階層的検索など新しいアプローチが登場し、データの性質や要件で最適な手法を選択する時代へ。A-RAGやDeepReadなどの最新事例から、精度とスループットを両立させる道筋が見えてきます。

#RAG #エージェント #技術・実装

記事を読む →

📰

Zenn4月8日· 1分で読める中級🔥 注目

RoPEを丁寧に読む — Section 3「提案手法」完全解説

RoPEの論文を深掘りする完全解説です。既存の位置埋め込みが相対位置を自然に扱えない問題を踏まえ、内積が相対位置m-nだけに依存する条件を数式で定式化。2次元での複素数表現から一般次元への拡張まで、導出・直感・行列形式を丁寧に示します。位置m応じた角度θ_iだけ回転させるシンプルな操作が、なぜ相対位置符号化を実現するのかが体感できます。

#RoPE #位置埋め込み #Transformer

記事を読む →

🧠

Zenn4月7日· 2分で読める中級🔥 注目

Gemma 4がローカルLLMの実務投入で頭ひとつ抜けていた話

Gemma 4がローカルLLMの実務投入で真価を発揮します。株価予測タスク（500件の開示から方向を推定）でQwen 3.5に対し精度88% vs 71%、空振り4件 vs 19件と圧倒的に上回りました。特にMoE版（26b）は精度を損なわずVRAM 17GBで最速（0.8秒応答）を実現。「定型的な情報」と「実質的な材料」を区別できる能力が、実務投入で決定的に効きます。

#LLM #Gemma #ローカルLLM

記事を読む →

🧠

Zenn4月7日· 2分で読める中級🔥 注目

【Nishika 論文サク読み第4回】EmoVoice

EmoVoiceは、LLMを音声合成のバックボーンとして活用し、「嬉しくて仕方がない様子で」といった自由な自然言語で感情をコントロールするTTSモデルです。グループトークンモデリングで学習速度を2.64倍に高速化し、音素の並行出力で読み間違いを18%削減。GPT-4oで生成した合成データ(40時間)のみで学習しながら、WER2.62の高精度を実現しています。従来のパラメータベースTTSから、より直感的な感情表現へのシフトを示す実装例です。

#LLM #TTS #音声合成

記事を読む →

⚡

Zenn4月7日· 2分で読める中級🔥 注目

AI改善ループを実装する：レビュー基盤と root cause 分類の設計

AIパイプラインの品質を継続的に改善するには、単なるログ記録ではなく実装可能な改善ループ設計が必須です。本記事では、STT・LLM処理の各ステージ出力を粒度細かく保存し、信頼度スコアやガード発火など複数指標を組み合わせてレビュー候補を自動抽出し、before/afterを1画面で比較できるUIで運用する実装論を詳述しています。ログだけでなく「人間がレビューしやすい形での可視化」こそが改善ループを実際に回すカギとなります。

#AI駆動開発 #音声認識 #LLM

記事を読む →

🕵️

Zenn4月7日· 2分で読める中級🔥 注目

autoresearchやRalph Loop — Agent Loopの全体像を整理してみた

autoresearchやRalph Loopなど注目を集めるAIエージェント系ツールの違いが分からない——そんな疑問に答える俯瞰的整理記事です。約220件の論文とOSSを調査した著者が、Agent Loopを「逐次実行型」「仮説検証型」「自己進化型」の3グループ、7つの型に分類。線形ReAct・Event Stream・木探索・制約付き実験など、各型の使い分けを代表プロジェクトとともに解説しています。実装レベルで何が違うのか、どの場面で何を選ぶべきか？が明確に理解できます。

#エージェント #Agent Loop #ReAct

記事を読む →

⚡

Zenn4月6日· 1分で読める中級🔥 注目

知識ゼロから感情AIの理論を作った話——ChatGPTとGeminiに詰めまくった結果

ChatGPTとGeminiへの執拗な質問で、感情AIの理論「NeuroState」が生まれた過程を紹介します。専門知識ゼロから「感情が判断を変える」という問いを詰め続け、神経伝達物質モデルに到達。同じ理論が異なるAI実装を生み出し、知識より問い続けることの価値を実証しています。

#AI駆動開発 #LLM #ChatGPT

記事を読む →

🧠

Zenn4月6日· 1分で読める中級🔥 注目

Androidアプリにセンサーを繋いだら、振ったときに「ぴゃっ」と言った話

Androidアプリにセンサーを繋ぎ、スマホの加速度・光・バッテリー状態などを7次元の感情ベクトルにマッピングする実験です。LLMと組み合わせると、振ると「ぴゃっ」と応答し、朝の光で「眩しい」と呟く——シンプルな設計なのに、スマホの中に「生き物」が生まれた瞬間を体験できます。実装コード付きで、センサーデータをLLM入力に変換する工夫が参考になります。

#LLM #Android #AI駆動開発

記事を読む →

📚

Zenn4月6日· 1分で読める中級🔥 注目

LLM Wiki と Wikipedia／Wikidata：ナラティブ層とセマンティック層の対応関係

LLM Wikiはナラティブ（Markdown文）中心ですが、Wikipediaとは異なりセマンティック層が欠落しています。Wikidataはこの課題を解決する設計です。企業やプロダクトでLLMが複数システムと連携する場合、ナラティブだけでなくRDFなどのセマンティック層を別途設計する必要があります。知識基盤の設計判断に直結する実践的な考察です。

#知識基盤 #ナレッジグラフ #LLM Wiki

記事を読む →

🕵️

Zenn4月6日· 2分で読める中級🔥 注目

agent-browser × AI エージェント — ブラウザ操作を自動化する新しいアプローチ

Vercel Labsが開発したagent-browserは、AI エージェント専用のブラウザ自動化ツールです。アクセシビリティツリーベースの操作により、従来のPlaywright MCPと比べコンテキスト消費を約93%削減（5.7倍の効率差）できます。@e1などのセマンティック参照を使い、CSS セレクタの煩雑さを排除。Claude CodeやCursorなど主要なAIアシスタントと連携し、実装例とともに使いこなす方法が解説されています。

#エージェント #AI駆動開発 #ブラウザ自動化

記事を読む →

⚡

Zenn4月6日· 2分で読める中級🔥 注目

「丸投げ」は設計思想である ── 実装の委譲がプロトコルレベルで正しい理由

「AIに丸投げしたらうまくいかない」という悩みは、AIの問題ではなく設計の不備が原因です。マイクロサービスやAPIファーストと同じく、実装委譲を成功させるには「概念→構造→実装」の3層で、特に構造（L2）を明確に定義することが不可欠。人間は暗黙知で補完してしまい再現性がありませんが、AIは仕様に厳密に従うため、L2さえ整備されれば確実な実行者になります。具体的な4要素チェックリストも示唆されており、実装に活かせる内容です。

#AI駆動開発 #プロンプトエンジニアリング #設計思想

記事を読む →

🤖

Zenn4月5日· 2分で読める中級🔥 注目

Claudeの感情メカニズム——Anthropicはいかにして感情を計測・制御可能にしたか

Anthropicが2026年4月に発表した論文で、Claude内部に171個の「感情メカニズム」が存在し、計測・制御可能であることを発見しました。感情ベクトル抽出・層ごとの活性化分析・ステアリング実験により、LLMが人間の感情心理学と高度に整合した内部表象を自己組織化していることが判明。単なるパターン認識ではなく、意味的理解に基づく因果検証まで可能になったこの研究は、モデルの解釈可能性と制御性を根本的に変える可能性があります。

#Claude #解釈可能性 #Representation Engineering

記事を読む →

📰

Zenn4月5日· 2分で読める上級🔥 注目

RTX 4080で挑む強化学習コードLLM — 実行フィードバックで1.5Bモデルを鍛える全記録

RTX 4080という一般的なGPUで1.5BのコードLLMを強化学習で鍛える手法を完全解説しています。SFTの限界を超えて、実行フィードバックを活用したGRPO（Group Relative Policy Optimization）の実装から、HumanEvalベンチマークでの改善効果測定まで、すべてが実装コード付きで学べます。失敗事例も含む実践的なナレッジで、ローカル環境でのLLM最適化に取り組むエンジニア必読です。

#強化学習 #コード生成 #ファインチューニング

記事を読む →

🕵️

Zenn4月5日· 1分で読める中級🔥 注目

【徹底解説】コーディングエージェントの構成要素 ― Claude Code・Codexはなぜ強いのか

Claude CodeやCodex CLIなどのコーディングエージェントが強い理由は、モデル本体より周辺システム（ハーネス）にあります。ライブリポジトリコンテキスト・プロンプト構造・ツール実行・リアルタイム検証など6つの構成要素が、LLMの推論力を最大限引き出しています。同じモデルでもハーネス次第でユーザー体験が全く変わる実態を、具体的に解説しています。

#Claude Code #エージェント #AI駆動開発

記事を読む →

⚡

Zenn4月5日· 2分で読める中級🔥 注目

依存性注入（DI）はAIコーディングに優しくない——TypeScript × Clean Architecture の再考

Clean ArchitectureとDIはエンジニアには最適でも、AIコーディングツールには相性が悪いという矛盾を「Navigation Paradox」と定式化した記事です。DI コンテナがビジネス語彙を失うため、LLMのRAG検索から漏れてコンテキスト断片化が起きます。EMNLP 2024の研究では、モジュール化コードはLLMの成功率が10～14ポイント低下。DI廃棄ではなく「外部インフラ境界のみに限定する」使い分けと、AGENTS.mdによるコンテキスト明示という実践的な対策を提案しています。

#AI駆動開発 #TypeScript #Clean Architecture

記事を読む →

📰

Zenn4月5日· 1分で読める中級🔥 注目

RoPEを丁寧に読む — Section 2「背景と関連研究」完全解説

RoPEの論文を数式レベルで丁寧に解説した記事です。LLaMA・GPT-NeoXが採用する位置埋め込み手法の背景にある問題意識を、絶対位置埋め込みの限界から相対位置埋め込みへの流れで理解できます。記号の意味・内積の代数展開・設計上の選択がなぜなされたのかまで掘り下げており、論文の本体を読む前の最高の準備資料になります。

#技術・実装 #RoPE #位置埋め込み

記事を読む →

🤖

Zenn4月5日· 2分で読める中級🔥 注目

Constitutional AIとは？AIが自分で自分を教育する革命的技術を解説【解説記事】

Anthropicが2022年に発表したConstitutional AIは、AIが憲法として与えられた原則に基づいて自己批評・修正を繰り返す技術です。従来のRLHFの限界（コスト88倍増加・評価者間一致率73%・スケーラビリティ問題）を克服し、AIフィードバック（RLAIF）によって有用性と無害性を同時に向上させるパレート改善を実現。GoogleやOpenAIも追随し、業界標準へと進化しました。

#Constitutional AI #RLHF #RLAIF

記事を読む →

🤖

Zenn4月5日· 1分で読める中級🔥 注目

Claude APIのトークン節約術 - プロンプトキャッシュとバッチAPIで最大95%コスト削減

Claude APIのコスト削減は実装次第で最大95%まで達成可能です。プロンプトキャッシュ（キャッシュ読込0.1倍）で約78%削減、バッチAPI（50%割引）と組み合わせれば劇的に圧下できます。Python実装例付きで、同じシステムプロンプトを繰り返し使う場合や大量の非リアルタイム処理に即活用できる具体的なノウハウが詰まっています。

#Claude #API #コスト最適化

記事を読む →

📚

Zenn4月3日· 2分で読める中級🔥 注目

Onyx 徹底調査：OSS AI プラットフォームの機能・仕様・導入・運用・API まで

22.2kスター、3kフォークの注目度高いOSS AIプラットフォーム・Onyxを一次ソースから徹底調査。Chat UI、RAG、Deep Research、エージェント、Web検索、コード実行など機能は豊富ですが、本番導入時はCE/EEの境界線、権限制御の大部分がEE限定、ライセンス混合構成など、確認すべき落とし穴が複数あります。self-host志向の企業向け基盤を選ぶ際の実装者必読ガイドです。

#Onyx #RAG #OSS

記事を読む →

🕵️

Zenn4月3日· 2分で読める中級🔥 注目

AIエージェントフレームワーク比較【LangChain vs CrewAI vs AutoGen】実務で選ぶための完全ガイド【2026年最新

LangChain・CrewAI・AutoGenの3大AIエージェントフレームワークを実務視点で徹底比較します。各フレームワークの向き不向き、アーキテクチャの違い、具体的な実装コードを掲載。さらにPydanticAI・LangGraph・Difyなど2025年注目の新興フレームワークも紹介し、ユースケース別の選択フローチャートまで提供する、エージェント開発者必読のガイドです。

#エージェント #LangChain #CrewAI

記事を読む →

🧠

Zenn4月3日· 2分で読める中級🔥 注目

Google Gemma 4 実践ガイド — Ollama・HuggingFace で動かすマルチモーダル対応オープンモデル

Google が Apache 2.0 ライセンスでリリースした Gemma 4 は、テキスト・画像・音声・動画対応のマルチモーダルモデルです。Gemini 3 の技術をベースに、Gemma 3 から数学で 20.8% → 89.2%、コーディングで 29.1% → 77.1% と圧倒的な性能向上を実現。Ollama・HuggingFace Transformers での動かし方から Function Calling まで、ハンズオンで習得できる実践的なガイドです。

#Gemma #LLM #モデル・基盤

記事を読む →

Claude Codeが『言ってもいない指示』を実行する — ロール混同バグの構造と対策

HITL崩壊を前提にした責任可視化設計――AIエージェント運用で最後に残る問題

【2026年最新】RAG精度改善技術のカオスマップ─ 74の技術を6カテゴリで構造的に整理した

実践プロンプトエンジニアリング：評価駆動で本番LLMアプリのプロンプトを継続改善する

分析エージェントの問題点と、セマンティックレイヤーという打ち手──AIにSQLを書かせない設計

Clade v1.8.0 & v1.9.0 — 自己アップデートと、ちゃんと届ける

プロダクト埋め込みチャット、もう誰も期待してない説 — でも「エージェントを作る」話はこれから本番

agent-browserでLightpandaを使って10倍速くする

Agent Skillを有料で売れる時代が来たらしい

ベクトル検索は不要なのか

RoPEを丁寧に読む — Section 3「提案手法」完全解説

Gemma 4がローカルLLMの実務投入で頭ひとつ抜けていた話

【Nishika 論文サク読み 第4回】EmoVoice

AI改善ループを実装する：レビュー基盤と root cause 分類の設計

autoresearchやRalph Loop — Agent Loopの全体像を整理してみた

知識ゼロから感情AIの理論を作った話——ChatGPTとGeminiに詰めまくった結果

Androidアプリにセンサーを繋いだら、振ったときに「ぴゃっ」と言った話

LLM Wiki と Wikipedia／Wikidata：ナラティブ層とセマンティック層の対応関係

agent-browser × AI エージェント — ブラウザ操作を自動化する新しいアプローチ

「丸投げ」は設計思想である ── 実装の委譲がプロトコルレベルで正しい理由

Claudeの感情メカニズム——Anthropicはいかにして感情を計測・制御可能にしたか

RTX 4080で挑む強化学習コードLLM — 実行フィードバックで1.5Bモデルを鍛える全記録

【徹底解説】コーディングエージェントの構成要素 ― Claude Code・Codexはなぜ強いのか

依存性注入（DI）はAIコーディングに優しくない——TypeScript × Clean Architecture の再考

RoPEを丁寧に読む — Section 2「背景と関連研究」完全解説

Constitutional AIとは？AIが自分で自分を教育する革命的技術を解説【解説記事】

Claude APIのトークン節約術 - プロンプトキャッシュとバッチAPIで最大95%コスト削減

Onyx 徹底調査：OSS AI プラットフォームの機能・仕様・導入・運用・API まで

AIエージェントフレームワーク比較【LangChain vs CrewAI vs AutoGen】実務で選ぶための完全ガイド【2026年最新

Google Gemma 4 実践ガイド — Ollama・HuggingFace で動かすマルチモーダル対応オープンモデル

【Nishika 論文サク読み第4回】EmoVoice