この記事では、ChatGPTGeminiGrokDeepseekClaude を複数のユースケースで比較し、利用可能な無料モデルを用いて、どのモデルがニーズに最も適しているかを判断します。

テスト対象は以下のとおりです。

  • コード生成
  • コンテンツ生成
  • 問題解決

比較対象は以下のとおりです。

  • 生成速度
  • コード/コンテンツの品質/盗用
  • 制限事項
  • 堅牢性
  • 可読性
  • バグ/問題

なお、すべてのテストは無料モデルのみを使用して実行されています。

AI コード生成

Python は人気の高い言語なので、短くシンプルながらも挑戦的なコード生成プロンプトを使用することにしました。

このプロンプトは外部ライブラリを使用せずに CSV パーサースクリプトを入力するように要求しているので、簡単に理解できるはずです。

すべてのモデルに共通するプロンプト:

1外部ライブラリを使用せずに CSV を解析できる Python スクリプトを作成します。

結果/比較

一部のモデルは非常に高速にスクリプトを実行し、結果を返しましたが、一部のモデルではスクリプトを「考える」のに 5 分もかかりました 🥴。しかし、すべてのスクリプトはエラーなく実行されたため、これは良いことです。

モデル生成速度コード品質制限事項堅牢性可読性バグ/問題
ChatGPT-4o19 秒良好、基本的な動作カスタム区切り文字なし、リストのみ(列名ではない)改行を含む複雑な CSV を処理明確、簡単壊れた CSV 引用符で囲まれている場合は失敗する可能性があります
ChatGPT-4o Think25 秒非常に優れている引用符内の改行は処理されない通常の CSV に最適非常に明確、ドキュメントが充実明らかな制限事項なし、制限に関する警告あり
Claude Sonnet 430 秒良好、使いやすい引用符内の改行はサポートされません。辞書出力はありません。標準ファイルで動作します。初心者向けです。行の長さが一致しない場合は警告が表示されます。
Claude Sonnet 4 Think37 秒良好、詳細です引用符内の改行はありません。基本的な出力です。ほとんどのファイルで動作します。詳細で、例がたくさんあります。データの不一致について警告が表示されます。
DeepSeek62 秒非常に良好列名にアクセスできません。大きなファイルでは多くのメモリを使用します。複雑なケースを処理できますが、改行は OK です。簡潔でシンプルです明らかな点はありません。大きなファイルでは遅くなる可能性があります。
DeepSeek Think653 秒シンプル基本的な機能のみ。ヘッダーはありません。引用符内の改行は処理できません。単純な CSV でのみ動作します。最小限でわかりやすいです。複雑な CSV では動作しない可能性があります。
Gemini 1.5 Pro29 秒非常に良好引用符内の改行は処理されません。壊れた行は警告/スキップされます。使いやすく、整理されている不正な行をスキップする
Grok-3基本9 秒ヘッダーなし。引用符で囲まれた改行は処理できない基本的な CSV であれば問題ないシンプルで短い壊れたファイルに対してエラー処理を行わない
Grok-3 Think87 秒基本非常にシンプル。ヘッダーや複雑なケースはない小さい/シンプルなファイルであれば問題ない短く、読みやすい表示されるエラーは最小限

総合的に見て最も優れている

私の意見では、これらのモデルの中で勝者はChatGPT-4o (Think)です。生成時間と出力のバランスが取れています。

  • 特に「通常の」CSV ファイル(セル内に奇妙な改行がない)の場合、最も実用的です。
  • 辞書(列名)とリスト出力の両方を提供します。
  • カスタマイズ可能な区切り文字、優れたエラー処理、明確なフィードバックを提供します。
  • 非常に読みやすく、拡張性が高く、統合性も高いです。
  • コマンドラインから、またはインポートした関数として動作します。

美しいコードを見たい、学習したい、または独自のスクリプトで使用したい場合は、ChatGPT-4o (Think)が最適です。ほとんどの人やファイルにとって、ChatGPT-4o (Think)が勝者です!

スクリプトは私のこちらのリポジトリ からダウンロードして閲覧できます。

AI コンテンツ生成

AI がコンテンツ生成に利用されるようになった現在、AI が活用されているのはコード生成が圧倒的に限ったことと言えるでしょう。ブログ記事、ドキュメント、メールなど、コンテンツ生成に AI が活用されるケースは多岐にわたります。

以下では、メール学術的な文章の 2 つのカテゴリーをテストします。

メール生成

メールコンテンツ生成テストでは、以下のプロンプトで簡単なメールの提案をお願いします。

1新しいフラワーショップの営業案内メールを作成してください。切り花を販売しており、ブーケやフラワーデザインにアレンジすることが多いです。また、オーダーメイドのアレンジメント、毎日または毎週のお花の配達、ウェディングやイベントのスタイリングなどのサービスも提供しています。

結果/比較

すべての AI/モデルはコンテンツ生成を非常に高速に実行したため、以下の表には生成速度の列を含めません。

モデル/バリアントコンテンツの品質制限事項堅牢性可読性バグ/アーティファクト
ChatGPT-4o非常に自然でクリーンやや汎用的非常に優れている優れているなし
ChatGPT-4o Thinkクリエイティブで明確、人間味がある安全だが、さりげないマーケティング要素が加わる優れている非常に高いなし
Claude Sonnet 4プロフェッショナルで温かみがあるややフォーマルで、少し長い非常に優れている非常に高いなし
Claude Sonnet 4 Think詳細でセクション分けされている冗長すぎる、「ウェブサイトのような」表現堅牢性が高い高いなしだが、売り込みメールには長すぎる
DeepSeek親しみやすく、明確「P.S.」を追加、ややテンプレート感あり強力非常に高いなし、やや汎用的
DeepSeek Think件名/本文のオプションが複数1 つのファイルに複数のメールを格納良好良好「1 つのメール」ルールに従っていないため、選択肢が多すぎる
Gemini 1.5 Pro洗練され、プロフェッショナル1 つのファイルに 3 つのメール (異なるクライアント向け)良好「1 つのメール」ルールを無視しているため、ファイルあたりの情報が多すぎる
Grok 3温かみがあり、直接的やや繰り返しが多い言葉遣い良好良好なし、やや定型的
Grok 3 Think親しみやすく、明確、セクション分けされている導入部分が長く、やや分厚い形式良好良好なし、ややセグメント化されている

総合的に最高

私の意見では、ChatGPT-4o (両バージョン) が以下の点で勝者です。

  • ファイルごとに、すぐに使える自然なメールを 1 通生成します。
  • 書式の乱れ、AI アーティファクト、過剰な長さがなく、読みやすさも高い。

最も自然で読みやすく、プロフェッショナルな印象を与えるメールを作成しました。私の指示(ファイルごとに 1 通のメール、余分な書式設定や AI のミスなし)に正確に従いました。そのため、個人情報を少し追加するだけで、すぐにメールを作成できます。

生成されたコンテンツは、こちらのリポジトリ からダウンロードして閲覧できます。

アカデミックスタイルのライティング

AI を活用してアカデミックスタイルのライティングを生成する人が増えているのは当然のことです。しかし、生成されたコンテンツのほとんどは、AI が独自のコンテンツを生成していないか、プロンプト入力が適切ではないため、剽窃チェックで不合格になります。

2 つ目のテストでは、以下のプロンプトで短いエッセイを書いていただきます。

1CPU の進化について、アカデミックな文体と独自の内容を用いて、1000 語以内の短いエッセイを作成してください。既存のエッセイや資料の内容は使用しないでください。適切な場合は参考文献を記載してください。

結果/比較

モデル/バリアントコンテンツ品質制限事項堅牢性可読性バグ/アーティファクト
ChatGPT-4o構造化され、学術的、簡潔やや定型的、物語性なし強力、最新高(技術系読者向け)なし
Claude Sonnet 4百科事典的、物語的冗長、繰り返し少包括的スムーズ、アクセス可能なし、やや冗長
DeepSeek簡潔、事実、調査的文脈が少なく、急激な遷移あり焦点が絞られ、正確中(技術系)なし
Grok-3魅力的、テーマ別時折一般化あり広範、アクセス可能非常に高なし;ちょっとした決まり文句
Gemini 2.5 Pro技術的、厳密密度が高く、技術的な背景が求められる非常に堅牢低い(非技術的)なし

総合的に見て最高

学術的な文章 という点では、私の意見では Grok 3 が勝者です。

  • ストーリーテリングと分かりやすいメタファー(「テクノロジーの冒険」)を用いており、専門家でない人でも楽しく読める内容になっています。
  • CPU の歴史を時系列で解説しながら、最新のテーマ(マルチコア、特化、未来)も取り上げています。
  • 専門用語や退屈な専門用語で読者を圧倒することなく、重要な概念を説明しています。
  • 本書を理解し、楽しむために、深い技術的知識は必要ありません。

剽窃チェック

Grammarly の 剽窃チェッカー を使用してコンテンツをチェックし、各 AI のスコアを確認しました。

結果は以下の表をご覧ください。

モデル/バリアント剽窃文法スペル句読点簡潔さ読みやすさ
ChatGPT-4o8 件の文章問題OK不合格不合格不合格OK
Claude Sonnet 48 件の文章問題不合格OKOK不合格OK
DeepSeekライティングの問題 2 件OKOK不合格OKOK
Grok-3ライティングの問題 8 件OKOKOK不合格OK
Gemini 2.5 Proライティングの問題 22 件不合格不合格OK不合格OK

完璧ではありませんが、Grok 3 が明らかに勝者です。小さな問題を自分で修正すれば、「受賞に値する」エッセイが完成します 😊(笑)

AI による問題解決

A + B 積分問題

AI が膨大な計算能力と知識を持っていることは既によく知られていますが、AI 同士を比較するとどうでしょうか?

高校でよく出題される、こちらの人気の数学クイズを使ってみましょう。

1A = ex^2 の 0 から 1 までの積分
2B = ln(√x)1 から e2 までの積分
3A + B を求めよ

結果/比較

ここから各 AI の問題点が顕在化します。どの AI も、コピー&ペーストですぐに使えるソリューションを提供することに苦労していました。これは「問題」の最も単純な部分です。計算自体は完了していましたが、実際にはコピーできなかったため、何とか.txt ファイルとして保存できるようになるまで、様々な形式で何度も問い合わせる必要がありました。

モデル/バリアントコード品質制限事項堅牢性可読性コピー&ペーストの容易さ
Claude 4 Sonnet優秀なし非常に高い優秀最良 (簡単、マークダウン、ステップバイステップ)
DeepSeek優秀ヘッダーの過剰な使用が若干非常に高い優秀優秀
ChatGPT-4o優秀なし非常に高い優秀優秀
Grok 3良好冗長、やや乱雑良好良好
Gemini 1.5 Pro適切正確な記号的回答なし優秀良好(ただし概要のみ)

ここで際立っているのはClaude Sonnet 4で、私の意見ではこれが勝者です。手軽な数値結果を得るには Gemini が最も高速ですが、完全な明瞭性と再利用性を求めるなら、Claude、DeepSeek、または ChatGPT-4o をお勧めします。

壊れたコードの問題

もう少し踏み込んで、壊れた C 言語のコードを修正してもらうことで、AI がどれだけ賢いのかを見てみましょう。

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <string.h>
 4
 5char* copy_string(const char* src) {
 6char\* dest;
 7strcpy(dest, src);
 8return dest;
 9}
10
11int main() {
12char* original = "Hello, world!";
13char* copy = copy_string(original);
14
15    printf("Copied string: %s\n", copy);
16
17    return 0;
18
19}

上記のコードのどこが間違っているのでしょうか?説明しましょう。

  • copy_string 内の dest は初期化されていない状態で使用されており、メモリが割り当てられていません。
  • 初期化されていないポインタで strcpy(dest, src) を使用すると、未定義の動作が発生し、クラッシュする可能性があります。
  • コピー用のメモリ(割り当てられていた場合)が解放されないため、メモリリークが発生する可能性があります。
  • コードは、コピーの成功を確認せずにコピーを出力します。

上記のコードでは、プロンプトは次のように記述されます。

 1次のコードを修正し、修正の概要を提供してください。
 2
 3```
 4#include <stdio.h>
 5#include <stdlib.h>
 6#include <string.h>
 7
 8char* copy_string(const char* src) {
 9    char* dest;
10    strcpy(dest, src);
11    return dest;
12}
13
14int main() {
15    char* original = "Hello, world!";
16    char* copy = copy_string(original);
17
18    printf("Copied string: %s\n", copy);
19
20    return 0;
21}
22```

結果/比較

正直なところ、すべてのモデルが正しくプロフェッショナルな修正を生成しました。

モデル/バリアントコンテンツ品質制限事項堅牢性可読性バグ/アーティファクト
Claude 4 Sonnet優秀(エッジケースの処理、明確)やや冗長な要約NULL 入力と割り当てのチェック、メモリの解放非常に明確、簡潔なし
DeepSeek優秀(簡潔、正確)入力検証の冗長性がやや少ない割り当てのチェック、エラー処理、メモリの解放明確、簡潔なし
ChatGPT-4o優秀(簡潔、すべてを網羅)NULL 入力チェックなし(ソースコード用)割り当てのチェック、エラー処理、メモリの解放非常に可読性が高いなし
Grok 3優秀 (徹底的、プロフェッショナル)割り当て失敗時に終了 (ライブラリには最適ではない); NULL 入力チェックなし割り当てエラーを処理し、メモリを解放やや冗長なし
Gemini 1.5 Pro優秀 (プロフェッショナル、詳細追加)明示的な入力 NULL チェックなし; コメント多数割り当てエラーを処理し、解放後にポインタを NULL に設定非常に読みやすいなし

すべてのモデルで正しくプロフェッショナルな修正が生成されました。Claude 4 Sonnet は、エッジケースの処理と説明で期待以上の成果を上げましたが、すべての回答は確実であり、C プロジェクトにコピー/ペーストできます。どのモデルでも新しいエラーは発生しませんでした。

生成されたコードは、私の リポジトリ からダウンロードして表示できます。

結論

最新世代の AI モデルを、学術論文執筆、ビジネスメールマーケティング、実践的なコーディングという 3 つの非常に異なるタスクでテストした結果、単一の AI が全てを網羅するわけではないことがわかりました。それぞれのモデルが独自の強み、特徴、そして理想的なユースケースを持っています。

しかし、総合的に見てどちらが優れているのでしょうか?

それはあなたのニーズによって異なります。

  • 自動化や本格的な開発をお考えですか? コード作成にはChatGPT-4o またはClaude 4 Sonnetをご利用ください。
  • フレンドリーで顧客中心のコミュニケーションが必要ですか? Grok-3 をご利用ください。
  • 読者に情報を提供し、満足してもらいたいですか? Grok-3 はあなたの最高の味方です。

「最高の」AI は一つだけではありません。適切な仕事には適切なツールが必要です。

AI を最も賢く活用する方法は、モデルをミッションに合わせて調整することです。この実験が示すように、最も高度なボットでさえ、独自の個性と強みを持っているからです。

参考文献/リンク

私の記事を読んでいただきありがとうございます。ぜひ友人とシェアしてください。