この記事では、ChatGPT、Gemini、Grok、Deepseek、Claude を複数のユースケースで比較し、利用可能な無料モデルを用いて、どのモデルがニーズに最も適しているかを判断します。
テスト対象は以下のとおりです。
- コード生成
- コンテンツ生成
- 問題解決
比較対象は以下のとおりです。
- 生成速度
- コード/コンテンツの品質/盗用
- 制限事項
- 堅牢性
- 可読性
- バグ/問題
なお、すべてのテストは無料モデルのみを使用して実行されています。
AIコード生成
Pythonは人気の高い言語なので、短くシンプルながらも挑戦的なコード生成プロンプトを使用することにしました。
このプロンプトは外部ライブラリを使用せずにCSVパーサースクリプトを入力するように要求しているので、簡単に理解できるはずです。
すべてのモデルに共通するプロンプト:
1外部ライブラリを使用せずに CSV を解析できる Python スクリプトを作成します。
結果/比較
一部のモデルは非常に高速にスクリプトを実行し、結果を返しましたが、一部のモデルではスクリプトを「考える」のに5分もかかりました🥴。しかし、すべてのスクリプトはエラーなく実行されたため、これは良いことです。
モデル | 生成速度 | コード品質 | 制限事項 | 堅牢性 | 可読性 | バグ/問題 |
---|---|---|---|---|---|---|
ChatGPT-4o | 19秒 | 良好、基本的な動作 | カスタム区切り文字なし、リストのみ(列名ではない) | 改行を含む複雑なCSVを処理 | 明確、簡単 | 壊れたCSV引用符で囲まれている場合は失敗する可能性があります |
ChatGPT-4o Think | 25秒 | 非常に優れている | 引用符内の改行は処理されない | 通常のCSVに最適 | 非常に明確、ドキュメントが充実 | 明らかな制限事項なし、制限に関する警告あり |
Claude Sonnet 4 | 30秒 | 良好、使いやすい | 引用符内の改行はサポートされません。辞書出力はありません。標準ファイルで動作します。初心者向けです。行の長さが一致しない場合は警告が表示されます。 | |||
Claude Sonnet 4 Think | 37 秒 | 良好、詳細です | 引用符内の改行はありません。基本的な出力です。ほとんどのファイルで動作します。詳細で、例がたくさんあります。データの不一致について警告が表示されます。 | |||
DeepSeek | 62 秒 | 非常に良好 | 列名にアクセスできません。大きなファイルでは多くのメモリを使用します。複雑なケースを処理できますが、改行は OK です。 | 簡潔でシンプルです | 明らかな点はありません。大きなファイルでは遅くなる可能性があります。 | |
DeepSeek Think | 653 秒 | シンプル | 基本的な機能のみ。ヘッダーはありません。引用符内の改行は処理できません。 | 単純な CSV でのみ動作します。最小限でわかりやすいです。複雑な CSV では動作しない可能性があります。 | ||
Gemini 1.5 Pro | 29 秒 | 非常に良好 | 引用符内の改行は処理されません。壊れた行は警告/スキップされます。使いやすく、整理されている | 不正な行をスキップする | ||
Grok-3 | 基本 | 9 秒 | ヘッダーなし。引用符で囲まれた改行は処理できない | 基本的な CSV であれば問題ない | シンプルで短い | 壊れたファイルに対してエラー処理を行わない |
Grok-3 Think | 87 秒 | 基本 | 非常にシンプル。ヘッダーや複雑なケースはない | 小さい/シンプルなファイルであれば問題ない | 短く、読みやすい | 表示されるエラーは最小限 |
総合的に見て最も優れている
私の意見では、これらのモデルの中で勝者はChatGPT-4o (Think)です。生成時間と出力のバランスが取れています。
- 特に「通常の」CSVファイル(セル内に奇妙な改行がない)の場合、最も実用的です。
- 辞書(列名)とリスト出力の両方を提供します。
- カスタマイズ可能な区切り文字、優れたエラー処理、明確なフィードバックを提供します。
- 非常に読みやすく、拡張性が高く、統合性も高いです。
- コマンドラインから、またはインポートした関数として動作します。
美しいコードを見たい、学習したい、または独自のスクリプトで使用したい場合は、ChatGPT-4o (Think)が最適です。ほとんどの人やファイルにとって、ChatGPT-4o (Think)が勝者です!
スクリプトは私のこちらのリポジトリ からダウンロードして閲覧できます。
AIコンテンツ生成
AIがコンテンツ生成に利用されるようになった現在、AIが活用されているのはコード生成が圧倒的に限ったことと言えるでしょう。ブログ記事、ドキュメント、メールなど、コンテンツ生成にAIが活用されるケースは多岐にわたります。
以下では、メールと学術的な文章の2つのカテゴリーをテストします。
メール生成
メールコンテンツ生成テストでは、以下のプロンプトで簡単なメールの提案をお願いします。
1新しいフラワーショップの営業案内メールを作成してください。切り花を販売しており、ブーケやフラワーデザインにアレンジすることが多いです。また、オーダーメイドのアレンジメント、毎日または毎週のお花の配達、ウェディングやイベントのスタイリングなどのサービスも提供しています。
結果/比較
すべてのAI/モデルはコンテンツ生成を非常に高速に実行したため、以下の表には生成速度の列を含めません。
モデル/バリアント | コンテンツの品質 | 制限事項 | 堅牢性 | 可読性 | バグ/アーティファクト |
---|---|---|---|---|---|
ChatGPT-4o | 非常に自然でクリーン | やや汎用的 | 非常に優れている | 優れている | なし |
ChatGPT-4o Think | クリエイティブで明確、人間味がある | 安全だが、さりげないマーケティング要素が加わる | 優れている | 非常に高い | なし |
Claude Sonnet 4 | プロフェッショナルで温かみがある | ややフォーマルで、少し長い | 非常に優れている | 非常に高い | なし |
Claude Sonnet 4 Think | 詳細でセクション分けされている | 冗長すぎる、「ウェブサイトのような」表現 | 堅牢性が高い | 高い | なしだが、売り込みメールには長すぎる |
DeepSeek | 親しみやすく、明確 | 「P.S.」を追加、ややテンプレート感あり | 強力 | 非常に高い | なし、やや汎用的 |
DeepSeek Think | 件名/本文のオプションが複数 | 1 つのファイルに複数のメールを格納 | 良好 | 良好 | 「1 つのメール」ルールに従っていないため、選択肢が多すぎる |
Gemini 1.5 Pro | 洗練され、プロフェッショナル | 1 つのファイルに 3 つのメール (異なるクライアント向け) | 良好 | 高 | 「1 つのメール」ルールを無視しているため、ファイルあたりの情報が多すぎる |
Grok 3 | 温かみがあり、直接的 | やや繰り返しが多い言葉遣い | 良好 | 良好 | なし、やや定型的 |
Grok 3 Think | 親しみやすく、明確、セクション分けされている | 導入部分が長く、やや分厚い形式 | 良好 | 良好 | なし、ややセグメント化されている |
総合的に最高
私の意見では、ChatGPT-4o (両バージョン) が以下の点で勝者です。
- ファイルごとに、すぐに使える自然なメールを1通生成します。
- 書式の乱れ、AIアーティファクト、過剰な長さがなく、読みやすさも高い。
最も自然で読みやすく、プロフェッショナルな印象を与えるメールを作成しました。私の指示(ファイルごとに1通のメール、余分な書式設定やAIのミスなし)に正確に従いました。そのため、個人情報を少し追加するだけで、すぐにメールを作成できます。
生成されたコンテンツは、こちらのリポジトリ からダウンロードして閲覧できます。
アカデミックスタイルのライティング
AIを活用してアカデミックスタイルのライティングを生成する人が増えているのは当然のことです。しかし、生成されたコンテンツのほとんどは、AIが独自のコンテンツを生成していないか、プロンプト入力が適切ではないため、剽窃チェックで不合格になります。
2つ目のテストでは、以下のプロンプトで短いエッセイを書いていただきます。
1CPUの進化について、アカデミックな文体と独自の内容を用いて、1000語以内の短いエッセイを作成してください。既存のエッセイや資料の内容は使用しないでください。適切な場合は参考文献を記載してください。
結果/比較
| モデル/バリアント | コンテンツ品質 | 制限事項 | 堅牢性 | 可読性 | バグ/アーティファクト | |——————|———————————-|—————————————————|————————————–|————————————–| | ChatGPT-4o | 構造化され、学術的、簡潔 | やや定型的、物語性なし | 強力、最新 | 高(技術系読者向け) | なし | | Claude Sonnet 4 | 百科事典的、物語的 | 冗長、繰り返し少 | 包括的 | スムーズ、アクセス可能 | なし、やや冗長 | | DeepSeek | 簡潔、事実、調査的 | 文脈が少なく、急激な遷移あり | 焦点が絞られ、正確 | 中(技術系) | なし | | Grok-3 | 魅力的、テーマ別 | 時折一般化あり | 広範、アクセス可能 | 非常に高 | なし;ちょっとした決まり文句 | | Gemini 2.5 Pro | 技術的、厳密 | 密度が高く、技術的な背景が求められる | 非常に堅牢 | 低い(非技術的)| なし |
総合的に見て最高
学術的な文章 という点では、私の意見では Grok 3 が勝者です。
- ストーリーテリングと分かりやすいメタファー(「テクノロジーの冒険」)を用いており、専門家でない人でも楽しく読める内容になっています。
- CPU の歴史を時系列で解説しながら、最新のテーマ(マルチコア、特化、未来)も取り上げています。
- 専門用語や退屈な専門用語で読者を圧倒することなく、重要な概念を説明しています。
- 本書を理解し、楽しむために、深い技術的知識は必要ありません。
剽窃チェック
Grammarly の 剽窃チェッカー を使用してコンテンツをチェックし、各 AI のスコアを確認しました。
結果は以下の表をご覧ください。
モデル/バリアント | 剽窃 | 文法 | スペル | 句読点 | 簡潔さ | 読みやすさ |
---|---|---|---|---|---|---|
ChatGPT-4o | 8 件の文章問題 | OK | 不合格 | 不合格 | 不合格 | OK |
Claude Sonnet 4 | 8 件の文章問題 | 不合格 | OK | OK | 不合格 | OK |
DeepSeek | ライティングの問題 2 件 | OK | OK | 不合格 | OK | OK |
Grok-3 | ライティングの問題 8 件 | OK | OK | OK | 不合格 | OK |
Gemini 2.5 Pro | ライティングの問題 22 件 | 不合格 | 不合格 | OK | 不合格 | OK |
完璧ではありませんが、Grok 3 が明らかに勝者です。小さな問題を自分で修正すれば、「受賞に値する」エッセイが完成します😊(笑)
AIによる問題解決
A + B 積分問題
AIが膨大な計算能力と知識を持っていることは既によく知られていますが、AI同士を比較するとどうでしょうか?
高校でよく出題される、こちらの人気の数学クイズを使ってみましょう。
1A = ex^2 の 0 から 1 までの積分
2B = ln(√x) の 1 から e2 までの積分
3A + B を求めよ
結果/比較
ここから各AIの問題点が顕在化します。どのAIも、コピー&ペーストですぐに使えるソリューションを提供することに苦労していました。これは「問題」の最も単純な部分です。計算自体は完了していましたが、実際にはコピーできなかったため、何とか.txtファイルとして保存できるようになるまで、様々な形式で何度も問い合わせる必要がありました。
モデル/バリアント | コード品質 | 制限事項 | 堅牢性 | 可読性 | コピー&ペーストの容易さ |
---|---|---|---|---|---|
Claude 4 Sonnet | 優秀 | なし | 非常に高い | 優秀 | 最良 (簡単、マークダウン、ステップバイステップ) |
DeepSeek | 優秀 | ヘッダーの過剰な使用が若干 | 非常に高い | 優秀 | 優秀 |
ChatGPT-4o | 優秀 | なし | 非常に高い | 優秀 | 優秀 |
Grok 3 | 良好 | 冗長、やや乱雑 | 高 | 良好 | 良好 |
Gemini 1.5 Pro | 適切 | 正確な記号的回答なし | 高 | 優秀 | 良好(ただし概要のみ) |
ここで際立っているのはClaude Sonnet 4で、私の意見ではこれが勝者です。手軽な数値結果を得るにはGeminiが最も高速ですが、完全な明瞭性と再利用性を求めるなら、Claude、DeepSeek、またはChatGPT-4oをお勧めします。
壊れたコードの問題
もう少し踏み込んで、壊れたC言語のコードを修正してもらうことで、AIがどれだけ賢いのかを見てみましょう。
1#include <stdio.h>
2#include <stdlib.h>
3#include <string.h>
4
5char* copy_string(const char* src) {
6 char* dest;
7 strcpy(dest, src);
8 return dest;
9}
10
11int main() {
12 char* original = "Hello, world!";
13 char* copy = copy_string(original);
14
15 printf("Copied string: %s\n", copy);
16
17 return 0;
18}
上記のコードのどこが間違っているのでしょうか?説明しましょう。
copy_string
内のdest
は初期化されていない状態で使用されており、メモリが割り当てられていません。- 初期化されていないポインタで
strcpy(dest, src)
を使用すると、未定義の動作が発生し、クラッシュする可能性があります。 - コピー用のメモリ(割り当てられていた場合)が解放されないため、メモリリークが発生する可能性があります。
- コードは、コピーの成功を確認せずにコピーを出力します。
上記のコードでは、プロンプトは次のように記述されます。
1次のコードを修正し、修正の概要を提供してください。
2```
3#include <stdio.h>
4#include <stdlib.h>
5#include <string.h>
6
7char* copy_string(const char* src) {
8 char* dest;
9 strcpy(dest, src);
10 return dest;
11}
12
13int main() {
14 char* original = "Hello, world!";
15 char* copy = copy_string(original);
16
17 printf("Copied string: %s\n", copy);
18
19 return 0;
20}
21```
結果/比較
正直なところ、すべてのモデルが正しくプロフェッショナルな修正を生成しました。
モデル/バリアント | コンテンツ品質 | 制限事項 | 堅牢性 | 可読性 | バグ/アーティファクト |
---|---|---|---|---|---|
Claude 4 Sonnet | 優秀(エッジケースの処理、明確) | やや冗長な要約 | NULL入力と割り当てのチェック、メモリの解放 | 非常に明確、簡潔 | なし |
DeepSeek | 優秀(簡潔、正確) | 入力検証の冗長性がやや少ない | 割り当てのチェック、エラー処理、メモリの解放 | 明確、簡潔 | なし |
ChatGPT-4o | 優秀(簡潔、すべてを網羅) | NULL入力チェックなし(ソースコード用) | 割り当てのチェック、エラー処理、メモリの解放 | 非常に可読性が高い | なし |
Grok 3 | 優秀 (徹底的、プロフェッショナル) | 割り当て失敗時に終了 (ライブラリには最適ではない); NULL 入力チェックなし | 割り当てエラーを処理し、メモリを解放 | やや冗長 | なし |
Gemini 1.5 Pro | 優秀 (プロフェッショナル、詳細追加) | 明示的な入力 NULL チェックなし; コメント多数 | 割り当てエラーを処理し、解放後にポインタを NULL に設定 | 非常に読みやすい | なし |
すべてのモデルで正しくプロフェッショナルな修正が生成されました。Claude 4 Sonnet は、エッジケースの処理と説明で期待以上の成果を上げましたが、すべての回答は確実であり、C プロジェクトにコピー/ペーストできます。どのモデルでも新しいエラーは発生しませんでした。
生成されたコードは、私の リポジトリ からダウンロードして表示できます。
結論
最新世代のAIモデルを、学術論文執筆、ビジネスメールマーケティング、実践的なコーディングという3つの非常に異なるタスクでテストした結果、単一のAIが全てを網羅するわけではないことがわかりました。それぞれのモデルが独自の強み、特徴、そして理想的なユースケースを持っています。
しかし、総合的に見てどちらが優れているのでしょうか?
それはあなたのニーズによって異なります。
- 自動化や本格的な開発をお考えですか? コード作成にはChatGPT-4o またはClaude 4 Sonnetをご利用ください。
- フレンドリーで顧客中心のコミュニケーションが必要ですか? Grok-3 をご利用ください。
- 読者に情報を提供し、満足してもらいたいですか? Grok-3 はあなたの最高の味方です。
「最高の」AIは一つだけではありません。適切な仕事には適切なツールが必要です。
AIを最も賢く活用する方法は、モデルをミッションに合わせて調整することです。この実験が示すように、最も高度なボットでさえ、独自の個性と強みを持っているからです。
参考文献/リンク
私の記事を読んでいただきありがとうございます。ぜひ友人とシェアしてください。
コメント