コーディングAI比較

AIコーディング能力の比較。SWE-bench等の外部ベンチマークと独自テストの結果。

独自30テスト採点基準公開2026.04更新

SWE-bench Verified

外部ベンチマーク2026-03 更新出典 →

実際のGitHubイシューの自動修正能力。エージェント型でのコーディング能力を測定。

Claude Opus 4

72.5

Claude Sonnet 4

65.3

GPT-5.2

58.2

Gemini 2.5 Pro

Grok 3

48.7

指標: 解決率（%）

HumanEval+

外部ベンチマーク2026-02 更新出典 →

プログラミング問題の正答率。164問のPython問題＋追加テストケースで厳密に評価。

Claude Opus 4

95.1

GPT-5.2

92.3

Claude Sonnet 4

91.8

Gemini 2.5 Pro

88.7

Grok 3

85.2

指標: Pass@1（%）

コーディング（独自4テスト平均）

外部ベンチマーク2026-03 更新

GAS自動化・Python分析・HTML/CSS・デバッグの4テスト平均。日本語環境でのコーディング実力。

Claude

Grok

ChatGPT

85.5

Perplexity

57.5

Gemini

指標: 独自テスト平均（100点満点）

チャットAIのコーディング対応状況

モデル	対応	備考
Claude	○	コーディング99.0点（1位）。3テスト満点。
ChatGPT	○	コーディング85.5点。Code Interpreterが便利。
Grok	○	コーディング91.0点（2位）。
Perplexity	○	コーディング57.5点。入力制限がネック。
Gemini	○	コーディング46.0点。Python文字化け問題。
Microsoft Copilot	○	GitHub Copilot CLI (2026年2月GA) でターミナル操作可能。VS Code/IDE統合も。

他のカテゴリ

動画生成翻訳デザインリサーチ文章生成

「コーディングAI比較 #AI選び」

𝕏 ポスト