#GPT-4

11件の記事

GPT-5.4 Thinking入門 — reasoning.effortとOSWorld-V 75%の推論AIをAPI活用

GPT-5.4 Thinkingが人間を超えたデスクトップ自動化の実力を解説します。OSWorld-V 75%達成（人間72.4%超）、SWE-bench 57.7%の性能で、推論深度を制御するreasoning.effortパラメータの5段階設定・API実装例・1Mトークンコンテキストの活用法まで実装レベルで学べます。エージェント開発者必読です。

#GPT-4 #LLM #AI駆動開発

記事を読む →

⚡

Zenn4月7日· 2分で読める中級🔥 注目

AIコードレビューツールが変える、ベトナムオフショア開発の新時代【2026年最新事例】

ベトナムオフショア開発でAIコードレビューを導入すると、バグ検出率が87%向上し、月間不具合が3.2件から0.3件に激減します。SonarQube・GPT-4・Claudeを組み合わせ、段階的に静的解析→ML品質予測→生成AIレビューを実装。初期投資500万円で年間効果2600万円、ROI480%を実現。日本のレビュー待ち時間も24時間から1.2時間に短縮できます。

#AI駆動開発 #コードレビュー #Claude

記事を読む →

🧠

Qiita3月24日· 1分で読める中級🔥 注目

「なんとなくAIっぽい」の正体を180本の記事で特定した

「なんとなくAIっぽい」と感じる理由を、6つのLLMで生成した180本の日本語記事から定量分析した研究です。AI頻出語・文章構造・修飾表現の3つの軸で「AIっぽさ」が決まることが判明。RLHFによる過度な丁寧化が商用モデルで顕著に現れ、見出しや箇条書きの多用も特徴です。実務者がAI生成コンテンツを見分ける眼を養えます。

#LLM #プロンプトエンジニアリング #Claude

記事を読む →

⚡

Qiita3月24日· 1分で読める中級🔥 注目

ChatGPTとClaudeの往復で消耗してる人へ。全エンジニアに教えたい「Whisk AI」が想像以上に快適だった話

ChatGPTとClaudeを行き来する消耗から解放されるWhisk AIの実力を検証します。複数モデルを1画面で瞬時に切り替え、コンテキストを失わずにリファクタリングできる爆速UI。シンタックスハイライト・軽量設計・複数サブスク一元管理で、エンジニアの「AI道具としての使い倒し方」が劇的に変わります。実コード例付きで体感できます。

#AI駆動開発 #Claude #GPT-4

記事を読む →

💬

Zenn3月19日· 1分で読める中級

GPTのReact習熟度も測る

Claude CodeのReact習熟度ベンチマークに続き、GPT-4.1とGPT-5.4を同じ評価基準で測定した結果を報告しています。複数のモデル間の性能差を具体的に比較でき、AIコーディング支援ツール選定の際の判断材料として活用できます。実装能力の客観的な測定方法が示されており、チーム導入時の意思決定に役立つ内容です。

#Claude Code #GPT-4 #AI駆動開発

記事を読む →

✍️

Qiita3月17日· 2分で読める中級

NotebookLMには劣るけれど論文要約GPT GPT 5.4 Thinking

NotebookLMより機能は限られますが、ChatGPT（GPT-4.5 Thinking）でも論文要約が実用的にできます。論文URLやPDFをアップロードすると、サーベイ論文かオリジナル研究かを自動判定し、Canvasを使った5〜7ページの対話的なHTMLスライドを生成。ロジックツリーやMermaid図解で論文の構造を可視化し、ChatGPT環境で論文調査を完結させたい実務者向けの実装ガイドです。

#プロンプトエンジニアリング #GPT-4 #Canvas

記事を読む →

💬

HackerNews3月9日· 2分で読める中級🔥 注目

I ran the same AI security test 4 times – 75% found critical bypasses

AIモデルのセキュリティテストを4回実施したところ、75%で異なるクリティカルな脆弱性が発見されました。同じコード・同じテストベクトルなのに、システムプロンプト漏洩、認証情報開示など別々の攻撃が成功。これはLLMの非決定性を証明し、1回限りの監査では無意味であること、統計的に複数回テストが必須であることを示唆しています。わずか$0.04で15分の検証が可能です。

#AI セキュリティ #プロンプトインジェクション #GPT-4

記事を読む →

🧠

Qiita3月8日· 1分で読める中級

LLMで架空の科学者をたくさん生成する

LLMで権利問題を避けながら架空の科学者を大量生成する手法です。時代・国籍・分野・性別の組み合わせで設計したクォータCSVをプロンプトに渡し、GPT-4.1-miniで名前・プロフィール・肖像画を生成。偏りを避けるため属性を戦略的に配分し、最終的に1万人規模を目指しています。実装例付きで、創作データセット生成の実践的なアプローチが学べます。

#LLM #GPT-4 #プロンプトエンジニアリング

記事を読む →

💬

Qiita3月7日· 2分で読める中級🔥 注目

GPT-5.4、正直かなり強い。今回の本質は「賢くなった」より「長く働けるAIになった」こと

GPT-5.4の真価は「賢さ」ではなく「長く働けるAI」になったことにあります。Computer Use・100万トークン・Tool Searchが組み合わさることで、仕様書や既存コードを抱えたまま計画・実行・見直しのループを回しやすくなり、AI駆動開発では「答えるAI」から「仕事を完全させるAI」へシフト。個人開発やスタートアップにとって、単なるモデル選定ではなく「どのAIにどこまで作業を持たせるか」の設計が競争力になる点が重要です。

#GPT-4 #AI駆動開発 #Claude Code

記事を読む →

💬

Qiita3月7日· 2分で読める中級🔥 注目

ChatGPTの各モデルはいつ提供されたのか？主要モデルの年表を図で整理してみた

ChatGPTのモデル進化を2022年11月から2026年3月までの年表で整理した記事です。GPT-3.5→GPT-4（約2年間）→GPT-4o→o系推論モデル→GPT-5系という流れを図解で可視化。2024年以降は「通常系」と「推論系」に分化し、GPT-5からはInstant/Thinking/Proのような用途別構成へ進化した点が興味深いです。モデル選択に迷うエンジニアの参考になります。

#GPT-4 #GPT-5 #ChatGPT

記事を読む →

💬

OpenAI4月2日· 1分で読める中級🔥 注目

PaperBench: Evaluating AI’s Ability to Replicate AI Research

OpenAIが「PaperBench」を公開。AIが実際のAI論文を再現できるかを測定するベンチマークだ。GPT-4やClaudeなどのLLMが、既存論文の実装・実験を独力で完成させられるか評価。AIの研究開発能力を定量化する初の試みで、将来「AI研究者」の実力を判定する基準になるかもしれない。

#AI評価 #ベンチマーク #AI研究

記事を読む →