コーディングAI比較
AIコーディング能力の比較。SWE-bench等の外部ベンチマークと独自テストの結果。
独自30テスト採点基準公開2026.04更新
SWE-bench Verified
実際のGitHubイシューの自動修正能力。エージェント型でのコーディング能力を測定。
Claude Opus 4
72.5
Claude Sonnet 4
65.3
GPT-5.2
58.2
Gemini 2.5 Pro
55
Grok 3
48.7
指標: 解決率(%)
HumanEval+
プログラミング問題の正答率。164問のPython問題+追加テストケースで厳密に評価。
Claude Opus 4
95.1
GPT-5.2
92.3
Claude Sonnet 4
91.8
Gemini 2.5 Pro
88.7
Grok 3
85.2
指標: Pass@1(%)
コーディング(独自4テスト平均)
外部ベンチマーク2026-03 更新
GAS自動化・Python分析・HTML/CSS・デバッグの4テスト平均。日本語環境でのコーディング実力。
Claude
99
Grok
91
ChatGPT
85.5
Perplexity
57.5
Gemini
46
指標: 独自テスト平均(100点満点)
チャットAIのコーディング対応状況
| モデル | 対応 | 備考 |
|---|---|---|
| Claude | ○ | コーディング99.0点(1位)。3テスト満点。 |
| ChatGPT | ○ | コーディング85.5点。Code Interpreterが便利。 |
| Grok | ○ | コーディング91.0点(2位)。 |
| Perplexity | ○ | コーディング57.5点。入力制限がネック。 |
| Gemini | ○ | コーディング46.0点。Python文字化け問題。 |
| Microsoft Copilot | ○ | GitHub Copilot CLI (2026年2月GA) でターミナル操作可能。VS Code/IDE統合も。 |
おすすめ
コーディングはClaude一択。独自テスト99.0点、SWE-bench 72.5%でいずれも1位。GitHub Copilotとの併用もおすすめ。
シェア
「コーディングAI比較 #AI選び」