ChatGPT vs Gemini vs Grok vs Deepseek vs Claude

在本文中，我们将针对多种用例比较 ChatGPT、Gemini、Grok、Deepseek 和 Claude，并利用现有的免费模型，了解哪一款最适合您的需求。

我们将测试以下内容：

代码生成
内容生成
问题解决

我们将比较以下几个方面：

生成速度
代码/内容质量/抄袭
局限性
稳健性
可读性
错误/问题

提醒一下，所有测试均仅使用免费模型执行。

AI 代码生成

我决定使用一个简短易懂但又颇具挑战性的提示来生成代码，因为 Python 非常流行。

该提示要求输入一个 CSV 解析器脚本，无需使用任何外部库，因此应该很简单。

适用于所有模型的提示：

1创建一个可以解析 CSV 的 Python 脚本，无需使用外部库。

结果/比较

有些模型执行并返回脚本的速度非常快，而有些模型甚至需要 5 分钟的“思考”🥴。不过，所有脚本都执行时没有任何错误，这很不错。

模型	生成速度	代码质量	局限性	稳健性	可读性	错误/问题
ChatGPT-4o	19 秒	良好，基本	无自定义分隔符；仅列表（不按列名）	处理带有换行符的棘手 CSV 文件	清晰，直接	可能会因 CSV 引号损坏而失败
ChatGPT-4o Think	25 秒	优秀	无法处理引号内的换行符	非常适合普通 CSV 文件	非常清晰，文档齐全	没什么明显的限制，但会发出限制警告
Claude Sonnet 4	30 秒	良好，友好	不支持引号中的换行符；没有字典输出	适用于标准文件	适合初学者	如果行长度不匹配会发出警告
Claude Sonnet 4 Think	37 秒	良好，详细	引号中没有换行符；基本输出	适用于大多数文件	详细，大量示例	警告数据不匹配
DeepSeek	62 秒	非常好	没有列名访问；大文件会占用更多内存	处理复杂情况，换行符可以	干净，简单	没有明显的缺点；处理大文件可能会更慢
DeepSeek Think	653 秒	简单	仅限基本；没有标题；无法处理引号中的换行符	仅适用于简单的 CSV	最小，易于遵循	可能会在复杂的 CSV 上中断
Gemini 1.5 Pro	29 秒	非常好	无法处理引号中的换行符	警告/跳过损坏的行	友好、整洁	跳过格式错误的行
Grok-3	基础	9 秒	无标题；无法处理引号中的换行符	适用于基本 CSV 文件	简单、简短	对损坏的文件没有错误处理
Grok-3 Think	87 秒	基础	非常简单；没有标题或复杂的情况	适用于小型/简单文件	简短、可读	显示的错误最少

总体最佳

在我看来，这些模型中，ChatGPT-4o (Think) 更胜一筹。它在合理的生成时间和输出结果之间取得了平衡。

最实用，尤其适用于“普通” CSV 文件（单元格内没有奇怪的换行符）。
提供字典（列名）和列表输出。
可自定义分隔符，良好的错误处理和清晰的反馈。
非常易于阅读、扩展和集成。
可通过命令行运行，也可作为导入函数运行。

如果您想看到优美的代码、学习代码或在自己的脚本中使用它：ChatGPT-4o (Think) 是最佳选择。对于大多数人和大多数文件而言，ChatGPT-4o (Think) 才是赢家！

您可以在我的存储库下载并查看这些脚本。

AI 内容生成

代码生成是目前 AI 的唯一用途，因为越来越多的人使用 AI 来生成内容。内容范围涵盖博客文章、文档、电子邮件等等。

下面我们将测试两个类别：电子邮件 和 学术写作。

电子邮件生成

为了进行电子邮件内容生成测试，我将要求您提供一份简单的电子邮件推介，并附上以下提示：

1撰写一封关于我新开的花店的电子邮件。我出售鲜切花，通常用于插花或花卉设计。我还提供定制插花服务，每日或每周送花，并可能提供婚礼或活动造型等服务。

结果/比较

每个 AI/模型在生成内容时都执行得非常快，因此我不会在下表中包含“生成速度”列。

模型/变体	内容质量	局限性	稳健性	可读性	错误/伪像
ChatGPT-4o	非常自然，干净	略显普通	非常强大	优秀	无
ChatGPT-4o Think	创意，清晰，人性化	安全，但添加了微妙的营销	优秀	非常高	无
Claude Sonnet 4	专业，热情	略显正式，略长	非常强大	非常高	无
Claude Sonnet 4 Think	详细，分段	过于冗长，太像网站	稳健	高	无，但对于推销邮件来说太长
DeepSeek	友好，清晰	添加“附言”，略带模板感	强	非常高	无，但略显普通
DeepSeek Think	多个主题/正文选项	一个文件中包含多封完整邮件	好	好	未遵循“一封邮件”规则；选择太多
Gemini 1.5 Pro	精致，专业	一封邮件包含三封邮件（针对不同客户）	好	高	忽略“一封邮件”规则；每个文件内容太多
Grok 3	热情，直接	语言略有重复	好	好	无，但略显公式化
Grok 3 Think	友好，清晰，分段	长简介，格式略显“粗犷”	好	好	无，略显分段

总体最佳

我认为 ChatGPT-4o（两个版本）胜出，原因如下：

每个文件生成一封单一、即用、自然的电子邮件。
没有格式错误，没有 AI 伪像，没有过长的篇幅，并且可读性高。

它写出了最自然、易读且听起来最专业的邮件。它完全遵循了我的指示（每个文件一封邮件，没有多余的格式或 AI 错误），因此您只需添加一些个人信息即可立即使用它的邮件推介。

生成的内容可以在我的存储库此处下载和查看。

学术风格写作

越来越多的人使用人工智能来生成学术风格写作，这并不奇怪，然而，由于人工智能生成的内容缺乏独创性，或者输入的提示存在问题，大多数生成的内容都会因抄袭检查而失败。

第二次测试，我将要求考生根据以下提示撰写一篇短文：

1撰写一篇关于 CPU 演变的短文（最多 1000 字），采用学术写作风格，内容新颖独特。请勿使用已有文章或资料。请在合适的地方添加参考文献。

结果/比较

模型/变体	内容质量	局限性	稳健性	可读性	错误/缺陷
ChatGPT-4o	结构化、学术性、简洁	略显公式化；缺乏叙事风格	强大、最新	高（适合技术读者）	无
克劳德十四行诗 4	百科全书式、叙事	冗长、少量重复	全面	流畅、易懂	无；略显冗长
DeepSeek	简洁、基于事实、类似调查	上下文较少、过渡突兀	重点突出、准确	中等（技术性）	无
Grok-3	引人入胜、主题鲜明	偶尔泛泛而谈	广泛、易懂	非常高	无；略显陈词滥调
Gemini 2.5 Pro	技术性强，严谨	密集，需要技术背景	非常强大	较低（非技术性）	无

总体最佳

我认为，Grok 3 因其学术写作风格而荣获冠军。

本书采用叙事和通俗易懂的比喻（“技术之旅”），即使非专业人士也能轻松阅读。
本书按时间顺序带领读者回顾 CPU 的发展历史，同时涵盖现代主题（多核、专业化、未来）。
本书解释关键概念，不会让读者被专业术语或枯燥的技术细节所淹没。
本书无需深厚的技术背景即可轻松理解并享受阅读的乐趣。

抄袭检查

我使用了抄袭检查器从 Grammarly 检查内容并查看每个 AI 的位置。

您可以在下表中看到结果：

模型/变体	抄袭	语法	拼写	标点符号	简洁性	可读性
ChatGPT-4o	8 个写作问题	合格	不合格	不合格	不合格	合格
Claude Sonnet 4	8 个写作问题	不合格	合格	合格	不合格	合格
DeepSeek	2 个写作问题	合格	合格	不合格	合格	合格
Grok-3	8 个写作问题	合格	合格	合格	不合格	合格
Gemini 2.5 Pro	22 个写作问题	不合格	不合格	合格	不合格	合格

获胜者显然是 Grok 3，尽管它并不完美；你可以自己解决小问题并写出一篇“获奖”的文章 😊（哈哈）

人工智能问题解决

A + B 积分问题

众所周知，人工智能拥有大量的计算能力和知识，但它们之间如何比较呢？

让我们使用一些高中提供的流行数学测验：

1A = ex^2 从 0 到 1 的积分
2B = ln(√x) 从 1 到 e^2 的积分
3求 A + B

结果/比较

每个 AI 的问题都会在这里暴露出来。每个 AI 都很难提供一个现成的复制/粘贴解决方案，而这正是“问题”中最简单的部分。数学计算完成了，但实际上无法复制，所以我不得不用几种格式反复询问，直到最终能以某种方式将其保存为 .txt 文件。

模型/变体	代码质量	局限性	稳健性	可读性	复制粘贴友好性
克劳德四首十四行诗	优秀	无	非常高	优秀	最佳（简单、Markdown、分步）
DeepSeek	优秀	略微过度使用标题	非常高	优秀	优秀
ChatGPT-4o	优秀	无	非常高	优秀	优秀
Grok 3	良好	冗长，略显混乱	高	良好	良好
Gemini 1.5 Pro	尚可	无确切符号答案	高	优秀	良好（但仅为摘要）

这里最突出的是 Claude Sonnet 4，在我看来它是赢家。如果想要快速获得数值结果，Gemini 速度最快，但如果想要获得完全的清晰度和可复用性，请坚持使用 Claude、DeepSeek 或 ChatGPT-4o。

代码破损问题

让我们更进一步，看看人工智能的智能程度，要求修复一段破损的纯 C 代码：

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <string.h>
 4
 5char* copy_string(const char* src) {
 6char\* dest;
 7strcpy(dest, src);
 8return dest;
 9}
10
11int main() {
12char* original = "Hello, world!";
13char* copy = copy_string(original);
14
15    printf("Copied string: %s\n", copy);
16
17    return 0;
18
19}

上面的代码有什么问题？让我解释一下：

copy_string 中的 dest 未初始化，没有分配内存。
使用 strcpy(dest, src) 和未初始化的指针会导致未定义的行为，甚至可能导致崩溃。
用于复制的内存（如果已分配）永远不会被释放——潜在的内存泄漏。
代码打印了复制的内容，但没有检查是否成功。

使用上面的代码，我们将提示符格式化如下：

 1为我修复以下代码并提供修复摘要：
 2
 3```
 4#include <stdio.h>
 5#include <stdlib.h>
 6#include <string.h>
 7
 8char* copy_string(const char* src) {
 9    char* dest;
10    strcpy(dest, src);
11    return dest;
12}
13
14int main() {
15    char* original = "Hello, world!";
16    char* copy = copy_string(original);
17
18    printf("Copied string: %s\n", copy);
19
20    return 0;
21}
22```

结果/比较

说实话，每个模型都给出了正确且专业的修复方案。

模型/变体	内容质量	局限性	稳健性	可读性	错误/缺陷
Claude 4 Sonnet	优秀（边缘情况处理，清晰）	摘要略显冗长	检查 NULL 输入和分配；释放内存	非常清晰，简洁	无
DeepSeek	优秀（简洁，正确）	输入验证略显简洁	检查分配；错误处理；释放内存	清晰，简洁	无
ChatGPT-4o	优秀（简洁，涵盖所有内容）	无 NULL 输入检查（针对 src）	检查分配；错误处理；释放内存	可读性极佳	无
Grok 3	优秀（彻底，专业）	分配失败退出（不适用于库）；无 NULL 输入检查	处理分配错误；释放内存	略显冗长	无
Gemini 1.5 Pro	优秀（专业，额外细节）	无显式输入 NULL 检查；大量注释	处理分配错误，释放后设置指针为 NULL	可读性极佳	无

所有模型都给出了正确且专业的修复方案。Claude 4 Sonnet 在边缘情况处理和解释方面做得非常出色，但所有答案都十分可靠，适合复制/粘贴到 C 语言项目中。所有模型均未引入任何新错误。

生成的代码可在我的代码库中下载和查看。

结论

在对最新一代人工智能模型进行三项截然不同的任务（学术论文写作、商务电子邮件营销和实际编程）测试后，我发现没有哪一种人工智能能够包揽所有任务。相反，每种模型都有各自的优势、特点和理想用例。

但是，谁才是真正的赢家？

这取决于你的需求：

准备自动化或构建严肃的东西？那就用ChatGPT-4o或Claude 4 Sonnet来编写代码吧。
需要友好、以客户为中心的沟通？Grok-3。
想要信息丰富、愉悦读者？Grok-3是你最好的朋友。

没有单一的“最佳”人工智能，只有适合合适工作的合适工具。

使用人工智能最明智的方法是将模型与你的任务相匹配，因为正如这个实验所示，即使是最先进的机器人也有自己的个性和优势。

参考/链接

感谢您花时间阅读我的文章，请随时与朋友分享。

ChatGPT vs Gemini vs Grok vs Deepseek vs Claude

AI 代码生成

结果/比较

总体最佳

AI 内容生成

电子邮件生成

结果/比较

总体最佳

学术风格写作

结果/比较

总体最佳

抄袭检查

人工智能问题解决

A + B 积分问题

结果/比较

代码破损问题

结果/比较

结论

但是，谁才是真正的赢家？

参考/链接

评论

发表评论

ChatGPT vs Gemini vs Grok vs Deepseek vs Claude

AI 代码生成

结果/比较

总体最佳

AI 内容生成

电子邮件生成

结果/比较

总体最佳

学术风格写作

结果/比较

总体最佳

抄袭检查

人工智能问题解决

A + B 积分问题

结果/比较

代码破损问题

结果/比较

结论

但是，谁才是真正的赢家？

参考/链接

相关文章

评论

发表评论 取消回复

发表评论