在本文中,我们将针对多种用例比较 ChatGPTGeminiGrokDeepseekClaude,并利用现有的免费模型,了解哪一款最适合您的需求。

我们将测试以下内容:

  • 代码生成
  • 内容生成
  • 问题解决

我们将比较以下几个方面:

  • 生成速度
  • 代码/内容质量/抄袭
  • 局限性
  • 稳健性
  • 可读性
  • 错误/问题

提醒一下,所有测试均仅使用免费模型执行。

AI 代码生成

我决定使用一个简短易懂但又颇具挑战性的提示来生成代码,因为 Python 非常流行。

该提示要求输入一个 CSV 解析器脚本,无需使用任何外部库,因此应该很简单。

适用于所有模型的提示:

1创建一个可以解析 CSV 的 Python 脚本,无需使用外部库。

结果/比较

有些模型执行并返回脚本的速度非常快,而有些模型甚至需要 5 分钟的“思考”🥴。不过,所有脚本都执行时没有任何错误,这很不错。

模型生成速度代码质量局限性稳健性可读性错误/问题
ChatGPT-4o19 秒良好,基本无自定义分隔符;仅列表(不按列名)处理带有换行符的棘手 CSV 文件清晰,直接可能会因 CSV 引号损坏而失败
ChatGPT-4o Think25 秒优秀无法处理引号内的换行符非常适合普通 CSV 文件非常清晰,文档齐全没什么明显的限制,但会发出限制警告
Claude Sonnet 430 秒良好,友好不支持引号中的换行符;没有字典输出适用于标准文件适合初学者如果行长度不匹配会发出警告
Claude Sonnet 4 Think37 秒良好,详细引号中没有换行符;基本输出适用于大多数文件详细,大量示例警告数据不匹配
DeepSeek62 秒非常好没有列名访问;大文件会占用更多内存处理复杂情况,换行符可以干净,简单没有明显的缺点;处理大文件可能会更慢
DeepSeek Think653 秒简单仅限基本;没有标题;无法处理引号中的换行符仅适用于简单的 CSV最小,易于遵循可能会在复杂的 CSV 上中断
Gemini 1.5 Pro29 秒非常好无法处理引号中的换行符警告/跳过损坏的行友好、整洁跳过格式错误的行
Grok-3基础9 秒无标题;无法处理引号中的换行符适用于基本 CSV 文件简单、简短对损坏的文件没有错误处理
Grok-3 Think87 秒基础非常简单;没有标题或复杂的情况适用于小型/简单文件简短、可读显示的错误最少

总体最佳

在我看来,这些模型中,ChatGPT-4o (Think) 更胜一筹。它在合理的生成时间和输出结果之间取得了平衡。

  • 最实用,尤其适用于“普通” CSV 文件(单元格内没有奇怪的换行符)。
  • 提供字典(列名)和列表输出。
  • 可自定义分隔符,良好的错误处理和清晰的反馈。
  • 非常易于阅读、扩展和集成。
  • 可通过命令行运行,也可作为导入函数运行。

如果您想看到优美的代码、学习代码或在自己的脚本中使用它:ChatGPT-4o (Think) 是最佳选择。对于大多数人和大多数文件而言,ChatGPT-4o (Think) 才是赢家!

您可以在我的存储库 下载并查看这些脚本。

AI 内容生成

代码生成是目前 AI 的唯一用途,因为越来越多的人使用 AI 来生成内容。内容范围涵盖博客文章、文档、电子邮件等等。

下面我们将测试两个类别:电子邮件学术写作

电子邮件生成

为了进行电子邮件内容生成测试,我将要求您提供一份简单的电子邮件推介,并附上以下提示:

1撰写一封关于我新开的花店的电子邮件。我出售鲜切花,通常用于插花或花卉设计。我还提供定制插花服务,每日或每周送花,并可能提供婚礼或活动造型等服务。

结果/比较

每个 AI/模型在生成内容时都执行得非常快,因此我不会在下表中包含“生成速度”列。

模型/变体内容质量局限性稳健性可读性错误/伪像
ChatGPT-4o非常自然,干净略显普通非常强大优秀
ChatGPT-4o Think创意,清晰,人性化安全,但添加了微妙的营销优秀非常高
Claude Sonnet 4专业,热情略显正式,略长非常强大非常高
Claude Sonnet 4 Think详细,分段过于冗长,太像网站稳健无,但对于推销邮件来说太长
DeepSeek友好,清晰添加“附言”,略带模板感非常高无,但略显普通
DeepSeek Think多个主题/正文选项一个文件中包含多封完整邮件未遵循“一封邮件”规则;选择太多
Gemini 1.5 Pro精致,专业一封邮件包含三封邮件(针对不同客户)忽略“一封邮件”规则;每个文件内容太多
Grok 3热情,直接语言略有重复无,但略显公式化
Grok 3 Think友好,清晰,分段长简介,格式略显“粗犷”无,略显分段

总体最佳

我认为 ChatGPT-4o(两个版本)胜出,原因如下:

  • 每个文件生成一封单一、即用、自然的电子邮件。
  • 没有格式错误,没有 AI 伪像,没有过长的篇幅,并且可读性高。

它写出了最自然、易读且听起来最专业的邮件。它完全遵循了我的指示(每个文件一封邮件,没有多余的格式或 AI 错误),因此您只需添加一些个人信息即可立即使用它的邮件推介。

生成的内容可以在我的存储库此处 下载和查看。

学术风格写作

越来越多的人使用人工智能来生成学术风格写作,这并不奇怪,然而,由于人工智能生成的内容缺乏独创性,或者输入的提示存在问题,大多数生成的内容都会因抄袭检查而失败。

第二次测试,我将要求考生根据以下提示撰写一篇短文:

1撰写一篇关于 CPU 演变的短文(最多 1000 字),采用学术写作风格,内容新颖独特。请勿使用已有文章或资料。请在合适的地方添加参考文献。

结果/比较

模型/变体内容质量局限性稳健性可读性错误/缺陷
ChatGPT-4o结构化、学术性、简洁略显公式化;缺乏叙事风格强大、最新高(适合技术读者)
克劳德十四行诗 4百科全书式、叙事冗长、少量重复全面流畅、易懂无;略显冗长
DeepSeek简洁、基于事实、类似调查上下文较少、过渡突兀重点突出、准确中等(技术性)
Grok-3引人入胜、主题鲜明偶尔泛泛而谈广泛、易懂非常高无;略显陈词滥调
Gemini 2.5 Pro技术性强,严谨密集,需要技术背景非常强大较低(非技术性)

总体最佳

我认为,Grok 3 因其学术写作风格而荣获冠军。

  • 本书采用叙事和通俗易懂的比喻(“技术之旅”),即使非专业人士也能轻松阅读。
  • 本书按时间顺序带领读者回顾 CPU 的发展历史,同时涵盖现代主题(多核、专业化、未来)。
  • 本书解释关键概念,不会让读者被专业术语或枯燥的技术细节所淹没。
  • 本书无需深厚的技术背景即可轻松理解并享受阅读的乐趣。

抄袭检查

我使用了抄袭检查器 从 Grammarly 检查内容并查看每个 AI 的位置。

您可以在下表中看到结果:

模型/变体抄袭语法拼写标点符号简洁性可读性
ChatGPT-4o8 个写作问题合格不合格不合格不合格合格
Claude Sonnet 48 个写作问题不合格合格合格不合格合格
DeepSeek2 个写作问题合格合格不合格合格合格
Grok-38 个写作问题合格合格合格不合格合格
Gemini 2.5 Pro22 个写作问题不合格不合格合格不合格合格

获胜者显然是 Grok 3,尽管它并不完美;你可以自己解决小问题并写出一篇“获奖”的文章 😊(哈哈)

人工智能问题解决

A + B 积分问题

众所周知,人工智能拥有大量的计算能力和知识,但它们之间如何比较呢?

让我们使用一些高中提供的流行数学测验:

1A = ex^2 从 01 的积分
2B = ln(√x)1 到 e^2 的积分
3求 A + B

结果/比较

每个 AI 的问题都会在这里暴露出来。每个 AI 都很难提供一个现成的复制/粘贴解决方案,而这正是“问题”中最简单的部分。数学计算完成了,但实际上无法复制,所以我不得不用几种格式反复询问,直到最终能以某种方式将其保存为 .txt 文件。

模型/变体代码质量局限性稳健性可读性复制粘贴友好性
克劳德四首十四行诗优秀非常高优秀最佳(简单、Markdown、分步)
DeepSeek优秀略微过度使用标题非常高优秀优秀
ChatGPT-4o优秀非常高优秀优秀
Grok 3良好冗长,略显混乱良好良好
Gemini 1.5 Pro尚可无确切符号答案优秀良好(但仅为摘要)

这里最突出的是 Claude Sonnet 4,在我看来它是赢家。如果想要快速获得数值结果,Gemini 速度最快,但如果想要获得完全的清晰度和可复用性,请坚持使用 Claude、DeepSeek 或 ChatGPT-4o。

代码破损问题

让我们更进一步,看看人工智能的智能程度,要求修复一段破损的纯 C 代码:

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <string.h>
 4
 5char* copy_string(const char* src) {
 6char\* dest;
 7strcpy(dest, src);
 8return dest;
 9}
10
11int main() {
12char* original = "Hello, world!";
13char* copy = copy_string(original);
14
15    printf("Copied string: %s\n", copy);
16
17    return 0;
18
19}

上面的代码有什么问题?让我解释一下:

  • copy_string 中的 dest 未初始化,没有分配内存。
  • 使用 strcpy(dest, src) 和未初始化的指针会导致未定义的行为,甚至可能导致崩溃。
  • 用于复制的内存(如果已分配)永远不会被释放——潜在的内存泄漏。
  • 代码打印了复制的内容,但没有检查是否成功。

使用上面的代码,我们将提示符格式化如下:

 1为我修复以下代码并提供修复摘要:
 2
 3```
 4#include <stdio.h>
 5#include <stdlib.h>
 6#include <string.h>
 7
 8char* copy_string(const char* src) {
 9    char* dest;
10    strcpy(dest, src);
11    return dest;
12}
13
14int main() {
15    char* original = "Hello, world!";
16    char* copy = copy_string(original);
17
18    printf("Copied string: %s\n", copy);
19
20    return 0;
21}
22```

结果/比较

说实话,每个模型都给出了正确且专业的修复方案。

模型/变体内容质量局限性稳健性可读性错误/缺陷
Claude 4 Sonnet优秀(边缘情况处理,清晰)摘要略显冗长检查 NULL 输入和分配;释放内存非常清晰,简洁
DeepSeek优秀(简洁,正确)输入验证略显简洁检查分配;错误处理;释放内存清晰,简洁
ChatGPT-4o优秀(简洁,涵盖所有内容)无 NULL 输入检查(针对 src)检查分配;错误处理;释放内存可读性极佳
Grok 3优秀(彻底,专业)分配失败退出(不适用于库);无 NULL 输入检查处理分配错误;释放内存略显冗长
Gemini 1.5 Pro优秀(专业,额外细节)无显式输入 NULL 检查;大量注释处理分配错误,释放后设置指针为 NULL可读性极佳

所有模型都给出了正确且专业的修复方案。Claude 4 Sonnet 在边缘情况处理和解释方面做得非常出色,但所有答案都十分可靠,适合复制/粘贴到 C 语言项目中。所有模型均未引入任何新错误。

生成的代码可在我的代码库 中下载和查看。

结论

在对最新一代人工智能模型进行三项截然不同的任务(学术论文写作、商务电子邮件营销和实际编程)测试后,我发现没有哪一种人工智能能够包揽所有任务。相反,每种模型都有各自的优势、特点和理想用例。

但是,谁才是真正的赢家?

这取决于你的需求:

  • 准备自动化或构建严肃的东西?那就用ChatGPT-4oClaude 4 Sonnet来编写代码吧。
  • 需要友好、以客户为中心的沟通?Grok-3
  • 想要信息丰富、愉悦读者?Grok-3是你最好的朋友。

没有单一的“最佳”人工智能,只有适合合适工作的合适工具。

使用人工智能最明智的方法是将模型与你的任务相匹配,因为正如这个实验所示,即使是最先进的机器人也有自己的个性和优势。

参考/链接

感谢您花时间阅读我的文章,请随时与朋友分享。