在本文中,我们将针对多种用例比较 ChatGPT、Gemini、Grok、Deepseek 和 Claude,并利用现有的免费模型,了解哪一款最适合您的需求。
我们将测试以下内容:
- 代码生成
- 内容生成
- 问题解决
我们将比较以下几个方面:
- 生成速度
- 代码/内容质量/抄袭
- 局限性
- 稳健性
- 可读性
- 错误/问题
提醒一下,所有测试均仅使用免费模型执行。
AI 代码生成
我决定使用一个简短易懂但又颇具挑战性的提示来生成代码,因为 Python 非常流行。
该提示要求输入一个 CSV 解析器脚本,无需使用任何外部库,因此应该很简单。
适用于所有模型的提示:
1创建一个可以解析 CSV 的 Python 脚本,无需使用外部库。
结果/比较
有些模型执行并返回脚本的速度非常快,而有些模型甚至需要 5 分钟的“思考”🥴。不过,所有脚本都执行时没有任何错误,这很不错。
模型 | 生成速度 | 代码质量 | 局限性 | 稳健性 | 可读性 | 错误/问题 |
---|---|---|---|---|---|---|
ChatGPT-4o | 19 秒 | 良好,基本 | 无自定义分隔符;仅列表(不按列名) | 处理带有换行符的棘手 CSV 文件 | 清晰,直接 | 可能会因 CSV 引号损坏而失败 |
ChatGPT-4o Think | 25 秒 | 优秀 | 无法处理引号内的换行符 | 非常适合普通 CSV 文件 | 非常清晰,文档齐全 | 没什么明显的限制,但会发出限制警告 |
Claude Sonnet 4 | 30 秒 | 良好,友好 | 不支持引号中的换行符;没有字典输出 | 适用于标准文件 | 适合初学者 | 如果行长度不匹配会发出警告 |
Claude Sonnet 4 Think | 37 秒 | 良好,详细 | 引号中没有换行符;基本输出 | 适用于大多数文件 | 详细,大量示例 | 警告数据不匹配 |
DeepSeek | 62 秒 | 非常好 | 没有列名访问;大文件会占用更多内存 | 处理复杂情况,换行符可以 | 干净,简单 | 没有明显的缺点;处理大文件可能会更慢 |
DeepSeek Think | 653 秒 | 简单 | 仅限基本;没有标题;无法处理引号中的换行符 | 仅适用于简单的 CSV | 最小,易于遵循 | 可能会在复杂的 CSV 上中断 |
Gemini 1.5 Pro | 29 秒 | 非常好 | 无法处理引号中的换行符 | 警告/跳过损坏的行 | 友好、整洁 | 跳过格式错误的行 |
Grok-3 | 基础 | 9 秒 | 无标题;无法处理引号中的换行符 | 适用于基本 CSV 文件 | 简单、简短 | 对损坏的文件没有错误处理 |
Grok-3 Think | 87 秒 | 基础 | 非常简单;没有标题或复杂的情况 | 适用于小型/简单文件 | 简短、可读 | 显示的错误最少 |
总体最佳
在我看来,这些模型中,ChatGPT-4o (Think) 更胜一筹。它在合理的生成时间和输出结果之间取得了平衡。
- 最实用,尤其适用于“普通” CSV 文件(单元格内没有奇怪的换行符)。
- 提供字典(列名)和列表输出。
- 可自定义分隔符,良好的错误处理和清晰的反馈。
- 非常易于阅读、扩展和集成。
- 可通过命令行运行,也可作为导入函数运行。
如果您想看到优美的代码、学习代码或在自己的脚本中使用它:ChatGPT-4o (Think) 是最佳选择。对于大多数人和大多数文件而言,ChatGPT-4o (Think) 才是赢家!
您可以在我的存储库 下载并查看这些脚本。
AI 内容生成
代码生成是目前 AI 的唯一用途,因为越来越多的人使用 AI 来生成内容。内容范围涵盖博客文章、文档、电子邮件等等。
下面我们将测试两个类别:电子邮件 和 学术写作。
电子邮件生成
为了进行电子邮件内容生成测试,我将要求您提供一份简单的电子邮件推介,并附上以下提示:
1撰写一封关于我新开的花店的电子邮件。我出售鲜切花,通常用于插花或花卉设计。我还提供定制插花服务,每日或每周送花,并可能提供婚礼或活动造型等服务。
结果/比较
每个 AI/模型在生成内容时都执行得非常快,因此我不会在下表中包含“生成速度”列。
模型/变体 | 内容质量 | 局限性 | 稳健性 | 可读性 | 错误/伪像 |
---|---|---|---|---|---|
ChatGPT-4o | 非常自然,干净 | 略显普通 | 非常强大 | 优秀 | 无 |
ChatGPT-4o Think | 创意,清晰,人性化 | 安全,但添加了微妙的营销 | 优秀 | 非常高 | 无 |
Claude Sonnet 4 | 专业,热情 | 略显正式,略长 | 非常强大 | 非常高 | 无 |
Claude Sonnet 4 Think | 详细,分段 | 过于冗长,太像网站 | 稳健 | 高 | 无,但对于推销邮件来说太长 |
DeepSeek | 友好,清晰 | 添加“附言”,略带模板感 | 强 | 非常高 | 无,但略显普通 |
DeepSeek Think | 多个主题/正文选项 | 一个文件中包含多封完整邮件 | 好 | 好 | 未遵循“一封邮件”规则;选择太多 |
Gemini 1.5 Pro | 精致,专业 | 一封邮件包含三封邮件(针对不同客户) | 好 | 高 | 忽略“一封邮件”规则;每个文件内容太多 |
Grok 3 | 热情,直接 | 语言略有重复 | 好 | 好 | 无,但略显公式化 |
Grok 3 Think | 友好,清晰,分段 | 长简介,格式略显“粗犷” | 好 | 好 | 无,略显分段 |
总体最佳
我认为 ChatGPT-4o(两个版本)胜出,原因如下:
- 每个文件生成一封单一、即用、自然的电子邮件。
- 没有格式错误,没有 AI 伪像,没有过长的篇幅,并且可读性高。
它写出了最自然、易读且听起来最专业的邮件。它完全遵循了我的指示(每个文件一封邮件,没有多余的格式或 AI 错误),因此您只需添加一些个人信息即可立即使用它的邮件推介。
生成的内容可以在我的存储库此处 下载和查看。
学术风格写作
越来越多的人使用人工智能来生成学术风格写作,这并不奇怪,然而,由于人工智能生成的内容缺乏独创性,或者输入的提示存在问题,大多数生成的内容都会因抄袭检查而失败。
第二次测试,我将要求考生根据以下提示撰写一篇短文:
1撰写一篇关于 CPU 演变的短文(最多 1000 字),采用学术写作风格,内容新颖独特。请勿使用已有文章或资料。请在合适的地方添加参考文献。
结果/比较
模型/变体 | 内容质量 | 局限性 | 稳健性 | 可读性 | 错误/缺陷 |
---|---|---|---|---|---|
ChatGPT-4o | 结构化、学术性、简洁 | 略显公式化;缺乏叙事风格 | 强大、最新 | 高(适合技术读者) | 无 |
克劳德十四行诗 4 | 百科全书式、叙事 | 冗长、少量重复 | 全面 | 流畅、易懂 | 无;略显冗长 |
DeepSeek | 简洁、基于事实、类似调查 | 上下文较少、过渡突兀 | 重点突出、准确 | 中等(技术性) | 无 |
Grok-3 | 引人入胜、主题鲜明 | 偶尔泛泛而谈 | 广泛、易懂 | 非常高 | 无;略显陈词滥调 |
Gemini 2.5 Pro | 技术性强,严谨 | 密集,需要技术背景 | 非常强大 | 较低(非技术性) | 无 |
总体最佳
我认为,Grok 3 因其学术写作风格而荣获冠军。
- 本书采用叙事和通俗易懂的比喻(“技术之旅”),即使非专业人士也能轻松阅读。
- 本书按时间顺序带领读者回顾 CPU 的发展历史,同时涵盖现代主题(多核、专业化、未来)。
- 本书解释关键概念,不会让读者被专业术语或枯燥的技术细节所淹没。
- 本书无需深厚的技术背景即可轻松理解并享受阅读的乐趣。
抄袭检查
我使用了抄袭检查器 从 Grammarly 检查内容并查看每个 AI 的位置。
您可以在下表中看到结果:
模型/变体 | 抄袭 | 语法 | 拼写 | 标点符号 | 简洁性 | 可读性 |
---|---|---|---|---|---|---|
ChatGPT-4o | 8 个写作问题 | 合格 | 不合格 | 不合格 | 不合格 | 合格 |
Claude Sonnet 4 | 8 个写作问题 | 不合格 | 合格 | 合格 | 不合格 | 合格 |
DeepSeek | 2 个写作问题 | 合格 | 合格 | 不合格 | 合格 | 合格 |
Grok-3 | 8 个写作问题 | 合格 | 合格 | 合格 | 不合格 | 合格 |
Gemini 2.5 Pro | 22 个写作问题 | 不合格 | 不合格 | 合格 | 不合格 | 合格 |
获胜者显然是 Grok 3,尽管它并不完美;你可以自己解决小问题并写出一篇“获奖”的文章 😊(哈哈)
人工智能问题解决
A + B 积分问题
众所周知,人工智能拥有大量的计算能力和知识,但它们之间如何比较呢?
让我们使用一些高中提供的流行数学测验:
1A = ex^2 从 0 到 1 的积分
2B = ln(√x) 从 1 到 e^2 的积分
3求 A + B
结果/比较
每个 AI 的问题都会在这里暴露出来。每个 AI 都很难提供一个现成的复制/粘贴解决方案,而这正是“问题”中最简单的部分。数学计算完成了,但实际上无法复制,所以我不得不用几种格式反复询问,直到最终能以某种方式将其保存为 .txt 文件。
模型/变体 | 代码质量 | 局限性 | 稳健性 | 可读性 | 复制粘贴友好性 |
---|---|---|---|---|---|
克劳德四首十四行诗 | 优秀 | 无 | 非常高 | 优秀 | 最佳(简单、Markdown、分步) |
DeepSeek | 优秀 | 略微过度使用标题 | 非常高 | 优秀 | 优秀 |
ChatGPT-4o | 优秀 | 无 | 非常高 | 优秀 | 优秀 |
Grok 3 | 良好 | 冗长,略显混乱 | 高 | 良好 | 良好 |
Gemini 1.5 Pro | 尚可 | 无确切符号答案 | 高 | 优秀 | 良好(但仅为摘要) |
这里最突出的是 Claude Sonnet 4,在我看来它是赢家。如果想要快速获得数值结果,Gemini 速度最快,但如果想要获得完全的清晰度和可复用性,请坚持使用 Claude、DeepSeek 或 ChatGPT-4o。
代码破损问题
让我们更进一步,看看人工智能的智能程度,要求修复一段破损的纯 C 代码:
1#include <stdio.h>
2#include <stdlib.h>
3#include <string.h>
4
5char* copy_string(const char* src) {
6char\* dest;
7strcpy(dest, src);
8return dest;
9}
10
11int main() {
12char* original = "Hello, world!";
13char* copy = copy_string(original);
14
15 printf("Copied string: %s\n", copy);
16
17 return 0;
18
19}
上面的代码有什么问题?让我解释一下:
copy_string
中的dest
未初始化,没有分配内存。- 使用
strcpy(dest, src)
和未初始化的指针会导致未定义的行为,甚至可能导致崩溃。 - 用于复制的内存(如果已分配)永远不会被释放——潜在的内存泄漏。
- 代码打印了复制的内容,但没有检查是否成功。
使用上面的代码,我们将提示符格式化如下:
1为我修复以下代码并提供修复摘要:
2
3```
4#include <stdio.h>
5#include <stdlib.h>
6#include <string.h>
7
8char* copy_string(const char* src) {
9 char* dest;
10 strcpy(dest, src);
11 return dest;
12}
13
14int main() {
15 char* original = "Hello, world!";
16 char* copy = copy_string(original);
17
18 printf("Copied string: %s\n", copy);
19
20 return 0;
21}
22```
结果/比较
说实话,每个模型都给出了正确且专业的修复方案。
模型/变体 | 内容质量 | 局限性 | 稳健性 | 可读性 | 错误/缺陷 |
---|---|---|---|---|---|
Claude 4 Sonnet | 优秀(边缘情况处理,清晰) | 摘要略显冗长 | 检查 NULL 输入和分配;释放内存 | 非常清晰,简洁 | 无 |
DeepSeek | 优秀(简洁,正确) | 输入验证略显简洁 | 检查分配;错误处理;释放内存 | 清晰,简洁 | 无 |
ChatGPT-4o | 优秀(简洁,涵盖所有内容) | 无 NULL 输入检查(针对 src) | 检查分配;错误处理;释放内存 | 可读性极佳 | 无 |
Grok 3 | 优秀(彻底,专业) | 分配失败退出(不适用于库);无 NULL 输入检查 | 处理分配错误;释放内存 | 略显冗长 | 无 |
Gemini 1.5 Pro | 优秀(专业,额外细节) | 无显式输入 NULL 检查;大量注释 | 处理分配错误,释放后设置指针为 NULL | 可读性极佳 | 无 |
所有模型都给出了正确且专业的修复方案。Claude 4 Sonnet 在边缘情况处理和解释方面做得非常出色,但所有答案都十分可靠,适合复制/粘贴到 C 语言项目中。所有模型均未引入任何新错误。
生成的代码可在我的代码库 中下载和查看。
结论
在对最新一代人工智能模型进行三项截然不同的任务(学术论文写作、商务电子邮件营销和实际编程)测试后,我发现没有哪一种人工智能能够包揽所有任务。相反,每种模型都有各自的优势、特点和理想用例。
但是,谁才是真正的赢家?
这取决于你的需求:
- 准备自动化或构建严肃的东西?那就用ChatGPT-4o或Claude 4 Sonnet来编写代码吧。
- 需要友好、以客户为中心的沟通?Grok-3。
- 想要信息丰富、愉悦读者?Grok-3是你最好的朋友。
没有单一的“最佳”人工智能,只有适合合适工作的合适工具。
使用人工智能最明智的方法是将模型与你的任务相匹配,因为正如这个实验所示,即使是最先进的机器人也有自己的个性和优势。
参考/链接
感谢您花时间阅读我的文章,请随时与朋友分享。
评论