翻訳AI比較

AI翻訳の精度比較。DeepL、Google翻訳等の専門ツールとチャットAIの翻訳能力を比較。

独自30テスト採点基準公開2026.04更新

WMT（英→日翻訳）

外部ベンチマーク2025-12 更新出典 →

WMT公式タスクの英→日翻訳。専門翻訳ツール（DeepL）とAIモデルを同条件で比較。

GPT-5.2

92.5

DeepL Pro

91.5

Claude Opus 4

90.8

Gemini 2.0

88.2

Google Translate

指標: BLEU + 人間評価の統合スコア

外部ベンチマーク2026-03 更新

ビジネス文書の英→日翻訳。自然さ・文化的配慮・専門用語の正確さを評価。

ChatGPT

Gemini

Claude

Grok

Perplexity

指標: 独自テストスコア（100点満点）

モデル	対応	備考
Claude	○	高品質な翻訳。文脈理解が深い。86点。
ChatGPT	○	翻訳テスト98点（1位）。自然な日本語。
Grok	○	翻訳86点。実用レベル。
Perplexity	○	翻訳84点。出典付き翻訳が特徴。
Gemini	○	翻訳92点。Google翻訳統合も利用可。
Microsoft Copilot	○	Word・Outlook内で翻訳機能を提供。M365統合で業務文書翻訳に向く。

「翻訳AI比較 #AI選び」