文章生成AI比較

ビジネス文書・クリエイティブ文章の生成能力比較。日本語品質に特化した評価。

独自30テスト採点基準公開2026.04更新

MMLU-Pro

外部ベンチマーク2026-02 更新出典 →

大学レベルの知識問題。推論能力の指標としても使用。

GPT-5.2

87.2

Claude Opus 4

85.5

Gemini 2.5 Pro

83.8

Claude Sonnet 4

82.1

Grok 3

78.5

指標: 正答率（%）

外部ベンチマーク2026-03 更新

営業メール・クレーム対応・企画書・議事録要約・SNS投稿・翻訳・ブログ等8テストの平均。

Grok

91.25

Claude

90.5

ChatGPT

90.25

Perplexity

84.75

Gemini

78.75

指標: 独自テスト平均（100点満点）

モデル	対応	備考
Claude	○	文章90.5点。クレーム対応98点が突出。
ChatGPT	○	文章90.25点。翻訳98点・ブログ98点。
Grok	○	文章91.25点（1位）。議事録100点。
Perplexity	○	文章84.75点。企画書90点。
Gemini	○	文章78.75点。企画書96点が強み。
Microsoft Copilot	○	Word Agentic機能 (2026年4月GA) でmulti-step執筆を自動化。Outlookメール作成も得意。

「文章生成AI比較 #AI選び」