ChatGPT vs Gemini vs Grok vs Deepseek vs Claude

在本文中，我們將針對多種用例比較 ChatGPT、Gemini、Grok、Deepseek 和 Claude，並利用現有的免費模型，以了解哪一款最適合您的需求。

我們將測試以下內容：

程式碼生成
內容生成
問題解決

我們將比較以下幾個面向：

生成速度
程式碼/內容品質/抄襲
限制
穩健性
可讀性
錯誤/問題

提醒一下，所有測試均僅使用免費模型執行。

AI 程式碼生成

我決定使用一個簡短易懂但又頗具挑戰性的提示來產生程式碼，因為 Python 非常流行。

該提示要求輸入一個 CSV 解析器腳本，無需使用任何外部庫，因此應該很簡單。

適用於所有模型的提示：

1建立一個可以解析 CSV 的 Python 腳本，無需使用外部函式庫。

結果/比較

有些模型執行並返回腳本的速度非常快，而有些模型甚至需要 5 分鐘的「思考」🥴。不過，所有腳本都執行時沒有任何錯誤，這很不錯。

模型	產生速度	程式碼品質	限制	穩健性	可讀性	錯誤/問題
ChatGPT-4o	19 秒	良好，基礎	無自訂分隔符號；僅列出（不按列名）	處理帶有換行符的棘手 CSV	清晰，直接	可能因 CSV 引號損壞而失敗
ChatGPT-4o Think	25 秒	優秀	無法處理引號內的換行符	非常適合普通 CSV	非常清晰，文檔齊全	沒有明顯的限制，但會警告限制
Claude Sonnet 4	30 秒	良好，友好	不支援引號中的換行符；沒有字典輸出	適用於標準文件	適合初學者	如果行長度不匹配會發出警告
Claude Sonnet 4 Think	37 秒	良好，詳細	引號中沒有換行符；基本輸出	適用於大多數文件	詳細，大量示例	警告數據不匹配
DeepSeek	62 秒	非常好	沒有列名訪問；大文件會佔用更多內存	處理複雜情況，換行符可以	乾淨，簡單	沒有明顯的缺點；處理大文件可能會更慢
DeepSeek Think	653 秒	簡單	僅限基本；沒有標題；無法處理引號中的換行符	僅適用於簡單的 CSV	最小，易於遵循	可能會在復雜的 CSV 上中斷
Gemini 1.5 Pro	29 秒	非常好	無法處理引號中的換行符	警告/跳過損壞的行	友好、整潔	跳過格式錯誤的行
Grok-3	基礎	9 秒	無標題；無法處理引號中的換行符	適用於基本 CSV 文件	簡單、簡短	對損壞的文件沒有錯誤處理
Grok-3 Think	87 秒	基礎	非常簡單；沒有標題或複雜的情況	適用於小型/簡單文件	簡短、可讀	顯示的錯誤最少

整體最佳

在我看來，這些模型中，ChatGPT-4o (Think) 勝出。它在合理的生成時間和輸出結果之間取得了平衡。

非常實用，尤其適用於「普通」CSV 檔案（儲存格內沒有奇怪的換行符）。
提供字典（列名）和列表輸出。
可自訂分隔符，良好的錯誤處理和清晰的回饋。
非常易於閱讀、擴展和整合。
可從命令列運行，也可作為導入函數運行。

如果您想看到優美的程式碼、學習它或在自己的腳本中使用它：ChatGPT-4o (Think) 是最好的。對於大多數人和大多數文件來說，ChatGPT-4o (Think) 是贏家！

這些腳本可以在我的程式碼庫中下載和檢視。

AI 內容生成

程式碼產生是目前 AI 的唯一用途，因為越來越多的人使用 AI 來產生內容。內容範圍涵蓋部落格文章、文件、電子郵件等等。

以下我們將測試兩個類別：電子郵件 和 學術寫作。

電子郵件生成

為了進行電子郵件內容產生測試，我將要求您提供一份簡單的電子郵件推介，並附上以下提示：

1寫一封關於我新開的花店的電子郵件。我出售鮮切花，通常用於插花或花卉設計。我還提供客製化插花服務，每日或每週送花，並可能提供婚禮或活動造型等服務。

結果/比較

每個 AI/模型在生成內容時都執行得非常快，因此我不會在下表中包含「生成速度」列。

模型/變體	內容品質	限制	穩健性	可讀性	錯誤/偽影
ChatGPT-4o	非常自然，乾淨	略顯普通	非常強大	優	無
ChatGPT-4o Think	創意，清晰，人性化	安全，但添加了微妙的營銷	優秀	非常高	無
Claude Sonnet 4	專業，熱情	略顯正式，略長	非常強大	非常高	無
Claude Sonnet 4 Think	詳細，分段	過於冗長，太像網站	穩健	高	無，但對於推銷郵件來說太長
DeepSeek	友好，清晰	添加“附言”，略帶模板感	強	非常高	無，但略顯普通
DeepSeek Think	多個主題/正文選項	一個文件中包含多封完整郵件	好	好	未遵循“一封郵件”規則；選擇太多
Gemini 1.5 Pro	精緻，專業	一封郵件包含三封郵件（針對不同客戶）	好	高	忽略“一封郵件”規則；每個文件內容太多
Grok 3	熱情，直接	語言略有重複	好	好	無，但略顯公式化
Grok 3 Think	友好，清晰，分段	長簡介，格式略顯“粗獷”	好	好	無，略顯分段

整體最佳

我認為 ChatGPT-4o（兩個版本）勝出，原因如下：

每個文件產生一封簡潔、易用且自然的電子郵件。
沒有格式錯誤，沒有 AI 偽影，篇幅適中，可讀性高。

它寫出了最自然、易讀且聽起來最專業的郵件。它完全遵循了我的指示（每個文件產生一封郵件，沒有多餘的格式或 AI 錯誤），因此您只需添加一些個人資訊即可立即使用它的郵件推介。

產生的內容可在我的程式碼庫下載和檢視。

學術風格寫作

越來越多的人使用人工智慧來產生學術風格寫作，這並不奇怪，然而，由於人工智慧生成的內容缺乏獨創性，或者輸入的提示存在問題，大多數生成的內容都會因抄襲檢查而失敗。

第二次測試，我將要求考生根據以下提示撰寫一篇短文：

1撰寫一篇關於 CPU 演變的短文（最多 1000 字），採用學術寫作風格，內容新穎獨特。請勿使用已有文章或資料。請在適當的地方添加參考文獻。

結果/比較

模型/變體	內容品質	限制	穩健性	可讀性	錯誤/缺陷
ChatGPT-4o	結構化、學術性、簡潔	略顯公式化；缺乏敘事風格	強大、最新	高（適合技術讀者）	無
克勞德十四行詩 4	百科全書式、敘事	冗長、少量重複	全面	流暢、易懂	無；略顯冗長
DeepSeek	簡潔、基於事實、類似調查	上下文較少、過渡突兀	重點突出、準確	中等（技術性）	無
Grok-3	引人入勝、主題鮮明	偶爾泛泛而談	廣泛、易懂	非常高	無；略顯陳詞濫調
Gemini 2.5 Pro	技術性強，嚴謹	密集，需要技術背景	非常強大	較低（非技術性）	無

整體最佳

我認為，Grok 3 因其學術寫作風格而獲得冠軍。

本書採用敘事和簡單易懂的比喻（「科技之旅」），即使非專業人士也能輕鬆閱讀。
本書以時間順序帶領讀者回顧 CPU 的發展歷史，同時涵蓋現代主題（多核心、專業化、未來）。
本書解釋關鍵概念，不會讓讀者被專業術語或枯燥的技術細節所淹沒。
本書無需深厚的技術背景即可輕鬆理解並享受閱讀的樂趣。

抄襲檢查

我使用了抄襲檢查器從 Grammarly 檢查內容並查看每個 AI 的位置。

您可以在下表中看到結果：

模型/變體	抄襲	文法	拼字	標點符號	簡潔性	可讀性
ChatGPT-4o	8 個寫作問題	合格	不合格	不合格	不合格	合格
Claude Sonnet 4	8 個寫作問題	不合格	合格	合格	不合格	合格
DeepSeek	2 個寫作問題	合格	合格	不合格	合格	合格
Grok-3	8 個寫作問題	合格	合格	合格	不合格	合格
Gemini 2.5 Pro	22 寫作問題	不合格	不合格	合格	不合格	合格

獲勝者顯然是 Grok 3，儘管它並不完美；你可以自己解決小問題並寫出一篇「獲獎」的文章 😊（哈哈）

人工智慧問題解決

A + B 積分問題

眾所周知，人工智慧擁有大量的運算能力和知識，但它們之間如何比較？

讓我們使用一些高中提供的流行數學測驗：

1A = ex^2 從 0 到 1 的積分
2B = ln(√x) 從 1 到 e^2 的積分
3求 A + B

結果/比較

每個 AI 的問題都會在這裡暴露出來。每個 AI 都很難提供現成的複製/貼上解決方案，而這正是「問題」中最簡單的部分。數學計算完成了，但實際上無法複製，所以我必須用幾種格式反覆詢問，直到最終能以某種方式將其儲存為 .txt 檔案。

模型/變體	程式碼品質	限制	穩健性	可讀性	複製貼上友善性
克勞德四首十四行詩	優秀	無	非常高	優秀	最佳（簡單、Markdown、分步）
DeepSeek	優秀	稍微過度使用標題	非常高	優秀	優秀
ChatGPT-4o	優	無	非常高	優	優
Grok 3	好	冗長，略顯混亂	高	好	良好
Gemini 1.5 Pro	尚可	無確切符號答案	高	優	好（但僅為摘要）

這裡最突出的是 Claude Sonnet 4，在我看來它是贏家。如果想要快速獲得數值結果，Gemini 最快，但如果想要獲得完整的清晰度和可重複使用性，請堅持使用 Claude、DeepSeek 或 ChatGPT-4o。

程式碼破損問題

讓我們更進一步，看看人工智慧的智慧程度，要求修復一段破損的純 C 程式碼：

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <string.h>
 4
 5char* copy_string(const char* src) {
 6char\* dest;
 7strcpy(dest, src);
 8return dest;
 9}
10
11int main() {
12char* original = "Hello, world!";
13char* copy = copy_string(original);
14
15    printf("Copied string: %s\n", copy);
16
17    return 0;
18
19}

上面的程式碼有什麼問題？讓我解釋一下：

copy_string 中的 dest 未初始化，沒有分配記憶體。
使用 strcpy(dest, src) 和未初始化的指標會導致未定義的行為，甚至可能導致崩潰。
用於複製的記憶體（如果已分配）永遠不會被釋放——潛在的記憶體洩漏。
程式碼列印了複製的內容，但沒有檢查是否成功。

使用上面的程式碼，我們將提示符號格式化如下：

 1為我修復以下程式碼並提供修復摘要：
 2
 3```
 4#include <stdio.h>
 5#include <stdlib.h>
 6#include <string.h>
 7
 8char* copy_string(const char* src) {
 9    char* dest;
10    strcpy(dest, src);
11    return dest;
12}
13
14int main() {
15    char* original = "Hello, world!";
16    char* copy = copy_string(original);
17
18    printf("Copied string: %s\n", copy);
19
20    return 0;
21}
22```

結果/比較

說實話，每個模型都給出了正確且專業的修復方案。

模型/變體	內容品質	限制	穩健性	可讀性	錯誤/缺陷
Claude 4 Sonnet	優秀（邊緣情況處理，清晰）	摘要略顯冗長	檢查 NULL 輸入和分配；釋放內存	非常清晰，簡潔	無
DeepSeek	優秀（簡潔，正確）	輸入驗證略顯簡潔	檢查分配；錯誤處理；釋放內存	清晰，簡潔	無
ChatGPT-4o	優秀（簡潔，涵蓋所有內容）	無 NULL 輸入檢查（針對 src）	檢查分配；錯誤處理；釋放內存	可讀性極佳	無
Grok 3	優秀（全面、專業）	分配失敗時退出（不適用於庫）；無 NULL 輸入檢查	處理分配錯誤；釋放內存	略顯冗長	無
Gemini 1.5 Pro	優秀（專業、額外細節）	無明確輸入 NULL 檢查；大量註釋	處理分配錯誤，釋放後將指針設置為 NULL	可讀性極佳	無

所有模型均提供了正確且專業的修復方案。 Claude 4 Sonnet 在邊緣情況處理和解釋方面做得非常出色，但所有答案都可靠，適合複製/貼上到 C 項目中。所有模型均未引入任何新錯誤。

產生的程式碼可在我的程式碼庫中下載和檢視。

結論

在對最新一代人工智慧模式進行三項截然不同的任務（學術論文寫作、商務電子郵件行銷和實際程式設計）測試後，我發現沒有哪一種人工智慧能夠包辦所有任務。相反，每種模型都有各自的優點、特點和理想用例。

但是，誰才是真正的贏家？

這取決於你的需求：

準備自動化或建造嚴肅的東西？使用 ChatGPT-4o 或 Claude 4 Sonnet 進行程式碼開發。
需要友好、以客戶為中心的溝通？ Grok-3 是你的最佳選擇。
想要傳達訊息並取悅讀者？ Grok-3 是你最好的朋友。

沒有單一的「最佳」人工智慧，只有適合合適工作的工具。

使用人工智慧最明智的方法是將模型與你的任務相匹配，因為正如這個實驗所示，即使是最先進的機器人也有自己的個性和優勢。

參考/鏈接

感謝您花時間閱讀我的文章，請隨時與朋友分享。

ChatGPT vs Gemini vs Grok vs Deepseek vs Claude

AI 程式碼生成

結果/比較

整體最佳

AI 內容生成

電子郵件生成

結果/比較

整體最佳

學術風格寫作

結果/比較

整體最佳

抄襲檢查

人工智慧問題解決

A + B 積分問題

結果/比較

程式碼破損問題

結果/比較

結論

但是，誰才是真正的贏家？

參考/鏈接

評論

發表評論

ChatGPT vs Gemini vs Grok vs Deepseek vs Claude

AI 程式碼生成

結果/比較

整體最佳

AI 內容生成

電子郵件生成

結果/比較

整體最佳

學術風格寫作

結果/比較

整體最佳

抄襲檢查

人工智慧問題解決

A + B 積分問題

結果/比較

程式碼破損問題

結果/比較

結論

但是，誰才是真正的贏家？

參考/鏈接

相關文章

評論

發表評論 取消回复

發表評論