コーディングAI比較

AIコーディング能力の比較。SWE-bench等の外部ベンチマークと独自テストの結果。

独自30テスト採点基準公開2026.04更新

SWE-bench Verified

外部ベンチマーク2026-03 更新出典 →

実際のGitHubイシューの自動修正能力。エージェント型でのコーディング能力を測定。

Claude Opus 4
72.5
Claude Sonnet 4
65.3
GPT-5.2
58.2
Gemini 2.5 Pro
55
Grok 3
48.7
指標: 解決率(%)

HumanEval+

外部ベンチマーク2026-02 更新出典 →

プログラミング問題の正答率。164問のPython問題+追加テストケースで厳密に評価。

Claude Opus 4
95.1
GPT-5.2
92.3
Claude Sonnet 4
91.8
Gemini 2.5 Pro
88.7
Grok 3
85.2
指標: Pass@1(%)

コーディング(独自4テスト平均)

外部ベンチマーク2026-03 更新

GAS自動化・Python分析・HTML/CSS・デバッグの4テスト平均。日本語環境でのコーディング実力。

Claude
99
Grok
91
ChatGPT
85.5
Perplexity
57.5
Gemini
46
指標: 独自テスト平均(100点満点)

チャットAIのコーディング対応状況

モデル対応備考
Claudeコーディング99.0点(1位)。3テスト満点。
ChatGPTコーディング85.5点。Code Interpreterが便利。
Grokコーディング91.0点(2位)。
Perplexityコーディング57.5点。入力制限がネック。
Geminiコーディング46.0点。Python文字化け問題。
Microsoft CopilotGitHub Copilot CLI (2026年2月GA) でターミナル操作可能。VS Code/IDE統合も。

おすすめ

コーディングはClaude一択。独自テスト99.0点、SWE-bench 72.5%でいずれも1位。GitHub Copilotとの併用もおすすめ。
シェア
コーディングAI比較 #AI選び」
𝕏 ポスト