在本文中,我們將針對多種用例比較 ChatGPTGeminiGrokDeepseekClaude,並利用現有的免費模型,以了解哪一款最適合您的需求。

我們將測試以下內容:

  • 程式碼生成
  • 內容生成
  • 問題解決

我們將比較以下幾個面向:

  • 生成速度
  • 程式碼/內容品質/抄襲
  • 限制
  • 穩健性
  • 可讀性
  • 錯誤/問題

提醒一下,所有測試均僅使用免費模型執行。

AI 程式碼生成

我決定使用一個簡短易懂但又頗具挑戰性的提示來產生程式碼,因為 Python 非常流行。

該提示要求輸入一個 CSV 解析器腳本,無需使用任何外部庫,因此應該很簡單。

適用於所有模型的提示:

1建立一個可以解析 CSV 的 Python 腳本,無需使用外部函式庫。

結果/比較

有些模型執行並返回腳本的速度非常快,而有些模型甚至需要 5 分鐘的「思考」🥴。不過,所有腳本都執行時沒有任何錯誤,這很不錯。

模型產生速度程式碼品質限制穩健性可讀性錯誤/問題
ChatGPT-4o19 秒良好,基礎無自訂分隔符號;僅列出(不按列名)處理帶有換行符的棘手 CSV清晰,直接可能因 CSV 引號損壞而失敗
ChatGPT-4o Think25 秒優秀無法處理引號內的換行符非常適合普通 CSV非常清晰,文檔齊全沒有明顯的限制,但會警告限制
Claude Sonnet 430 秒良好,友好不支援引號中的換行符;沒有字典輸出適用於標準文件適合初學者如果行長度不匹配會發出警告
Claude Sonnet 4 Think37 秒良好,詳細引號中沒有換行符;基本輸出適用於大多數文件詳細,大量示例警告數據不匹配
DeepSeek62 秒非常好沒有列名訪問;大文件會佔用更多內存處理複雜情況,換行符可以乾淨,簡單沒有明顯的缺點;處理大文件可能會更慢
DeepSeek Think653 秒簡單僅限基本;沒有標題;無法處理引號中的換行符僅適用於簡單的 CSV最小,易於遵循可能會在復雜的 CSV 上中斷
Gemini 1.5 Pro29 秒非常好無法處理引號中的換行符警告/跳過損壞的行友好、整潔跳過格式錯誤的行
Grok-3基礎9 秒無標題;無法處理引號中的換行符適用於基本 CSV 文件簡單、簡短對損壞的文件沒有錯誤處理
Grok-3 Think87 秒基礎非常簡單;沒有標題或複雜的情況適用於小型/簡單文件簡短、可讀顯示的錯誤最少

整體最佳

在我看來,這些模型中,ChatGPT-4o (Think) 勝出。它在合理的生成時間和輸出結果之間取得了平衡。

  • 非常實用,尤其適用於「普通」CSV 檔案(儲存格內沒有奇怪的換行符)。
  • 提供字典(列名)和列表輸出。
  • 可自訂分隔符,良好的錯誤處理和清晰的回饋。
  • 非常易於閱讀、擴展和整合。
  • 可從命令列運行,也可作為導入函數運行。

如果您想看到優美的程式碼、學習它或在自己的腳本中使用它:ChatGPT-4o (Think) 是最好的。對於大多數人和大多數文件來說,ChatGPT-4o (Think) 是贏家!

這些腳本可以在我的程式碼庫 中下載和檢視。

AI 內容生成

程式碼產生是目前 AI 的唯一用途,因為越來越多的人使用 AI 來產生內容。內容範圍涵蓋部落格文章、文件、電子郵件等等。

以下我們將測試兩個類別:電子郵件學術寫作

電子郵件生成

為了進行電子郵件內容產生測試,我將要求您提供一份簡單的電子郵件推介,並附上以下提示:

1寫一封關於我新開的花店的電子郵件。我出售鮮切花,通常用於插花或花卉設計。我還提供客製化插花服務,每日或每週送花,並可能提供婚禮或活動造型等服務。

結果/比較

每個 AI/模型在生成內容時都執行得非常快,因此我不會在下表中包含「生成速度」列。

模型/變體內容品質限制穩健性可讀性錯誤/偽影
ChatGPT-4o非常自然,乾淨略顯普通非常強大
ChatGPT-4o Think創意,清晰,人性化安全,但添加了微妙的營銷優秀非常高
Claude Sonnet 4專業,熱情略顯正式,略長非常強大非常高
Claude Sonnet 4 Think詳細,分段過於冗長,太像網站穩健無,但對於推銷郵件來說太長
DeepSeek友好,清晰添加“附言”,略帶模板感非常高無,但略顯普通
DeepSeek Think多個主題/正文選項一個文件中包含多封完整郵件未遵循“一封郵件”規則;選擇太多
Gemini 1.5 Pro精緻,專業一封郵件包含三封郵件(針對不同客戶)忽略“一封郵件”規則;每個文件內容太多
Grok 3熱情,直接語言略有重複無,但略顯公式化
Grok 3 Think友好,清晰,分段長簡介,格式略顯“粗獷”無,略顯分段

整體最佳

我認為 ChatGPT-4o(兩個版本)勝出,原因如下:

  • 每個文件產生一封簡潔、易用且自然的電子郵件。
  • 沒有格式錯誤,沒有 AI 偽影,篇幅適中,可讀性高。

它寫出了最自然、易讀且聽起來最專業的郵件。它完全遵循了我的指示(每個文件產生一封郵件,沒有多餘的格式或 AI 錯誤),因此您只需添加一些個人資訊即可立即使用它的郵件推介。

產生的內容可在我的程式碼庫 下載和檢視。

學術風格寫作

越來越多的人使用人工智慧來產生學術風格寫作,這並不奇怪,然而,由於人工智慧生成的內容缺乏獨創性,或者輸入的提示存在問題,大多數生成的內容都會因抄襲檢查而失敗。

第二次測試,我將要求考生根據以下提示撰寫一篇短文:

1撰寫一篇關於 CPU 演變的短文(最多 1000 字),採用學術寫作風格,內容新穎獨特。請勿使用已有文章或資料。請在適當的地方添加參考文獻。

結果/比較

模型/變體內容品質限制穩健性可讀性錯誤/缺陷
ChatGPT-4o結構化、學術性、簡潔略顯公式化;缺乏敘事風格強大、最新高(適合技術讀者)
克勞德十四行詩 4百科全書式、敘事冗長、少量重複全面流暢、易懂無;略顯冗長
DeepSeek簡潔、基於事實、類似調查上下文較少、過渡突兀重點突出、準確中等(技術性)
Grok-3引人入勝、主題鮮明偶爾泛泛而談廣泛、易懂非常高無;略顯陳詞濫調
Gemini 2.5 Pro技術性強,嚴謹密集,需要技術背景非常強大較低(非技術性)

整體最佳

我認為,Grok 3 因其學術寫作風格而獲得冠軍。

  • 本書採用敘事和簡單易懂的比喻(「科技之旅」),即使非專業人士也能輕鬆閱讀。
  • 本書以時間順序帶領讀者回顧 CPU 的發展歷史,同時涵蓋現代主題(多核心、專業化、未來)。
  • 本書解釋關鍵概念,不會讓讀者被專業術語或枯燥的技術細節所淹沒。
  • 本書無需深厚的技術背景即可輕鬆理解並享受閱讀的樂趣。

抄襲檢查

我使用了抄襲檢查器 從 Grammarly 檢查內容並查看每個 AI 的位置。

您可以在下表中看到結果:

模型/變體抄襲文法拼字標點符號簡潔性可讀性
ChatGPT-4o8 個寫作問題合格不合格不合格不合格合格
Claude Sonnet 48 個寫作問題不合格合格合格不合格合格
DeepSeek2 個寫作問題合格合格不合格合格合格
Grok-38 個寫作問題合格合格合格不合格合格
Gemini 2.5 Pro22 寫作問題不合格不合格合格不合格合格

獲勝者顯然是 Grok 3,儘管它並不完美;你可以自己解決小問題並寫出一篇「獲獎」的文章 😊(哈哈)

人工智慧問題解決

A + B 積分問題

眾所周知,人工智慧擁有大量的運算能力和知識,但它們之間如何比較?

讓我們使用一些高中提供的流行數學測驗:

1A = ex^2 從 01 的積分
2B = ln(√x)1 到 e^2 的積分
3求 A + B

結果/比較

每個 AI 的問題都會在這裡暴露出來。每個 AI 都很難提供現成的複製/貼上解決方案,而這正是「問題」中最簡單的部分。數學計算完成了,但實際上無法複製,所以我必須用幾種格式反覆詢問,直到最終能以某種方式將其儲存為 .txt 檔案。

模型/變體程式碼品質限制穩健性可讀性複製貼上友善性
克勞德四首十四行詩優秀非常高優秀最佳(簡單、Markdown、分步)
DeepSeek優秀稍微過度使用標題非常高優秀優秀
ChatGPT-4o非常高
Grok 3冗長,略顯混亂良好
Gemini 1.5 Pro尚可無確切符號答案好(但僅為摘要)

這裡最突出的是 Claude Sonnet 4,在我看來它是贏家。如果想要快速獲得數值結果,Gemini 最快,但如果想要獲得完整的清晰度和可重複使用性,請堅持使用 Claude、DeepSeek 或 ChatGPT-4o。

程式碼破損問題

讓我們更進一步,看看人工智慧的智慧程度,要求修復一段破損的純 C 程式碼:

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <string.h>
 4
 5char* copy_string(const char* src) {
 6char\* dest;
 7strcpy(dest, src);
 8return dest;
 9}
10
11int main() {
12char* original = "Hello, world!";
13char* copy = copy_string(original);
14
15    printf("Copied string: %s\n", copy);
16
17    return 0;
18
19}

上面的程式碼有什麼問題?讓我解釋一下:

  • copy_string 中的 dest 未初始化,沒有分配記憶體。
  • 使用 strcpy(dest, src) 和未初始化的指標會導致未定義的行為,甚至可能導致崩潰。
  • 用於複製的記憶體(如果已分配)永遠不會被釋放——潛在的記憶體洩漏。
  • 程式碼列印了複製的內容,但沒有檢查是否成功。

使用上面的程式碼,我們將提示符號格式化如下:

 1為我修復以下程式碼並提供修復摘要:
 2
 3```
 4#include <stdio.h>
 5#include <stdlib.h>
 6#include <string.h>
 7
 8char* copy_string(const char* src) {
 9    char* dest;
10    strcpy(dest, src);
11    return dest;
12}
13
14int main() {
15    char* original = "Hello, world!";
16    char* copy = copy_string(original);
17
18    printf("Copied string: %s\n", copy);
19
20    return 0;
21}
22```

結果/比較

說實話,每個模型都給出了正確且專業的修復方案。

模型/變體內容品質限制穩健性可讀性錯誤/缺陷
Claude 4 Sonnet優秀(邊緣情況處理,清晰)摘要略顯冗長檢查 NULL 輸入和分配;釋放內存非常清晰,簡潔
DeepSeek優秀(簡潔,正確)輸入驗證略顯簡潔檢查分配;錯誤處理;釋放內存清晰,簡潔
ChatGPT-4o優秀(簡潔,涵蓋所有內容)無 NULL 輸入檢查(針對 src)檢查分配;錯誤處理;釋放內存可讀性極佳
Grok 3優秀(全面、專業)分配失敗時退出(不適用於庫);無 NULL 輸入檢查處理分配錯誤;釋放內存略顯冗長
Gemini 1.5 Pro優秀(專業、額外細節)無明確輸入 NULL 檢查;大量註釋處理分配錯誤,釋放後將指針設置為 NULL可讀性極佳

所有模型均提供了正確且專業的修復方案。 Claude 4 Sonnet 在邊緣情況處理和解釋方面做得非常出色,但所有答案都可靠,適合複製/貼上到 C 項目中。所有模型均未引入任何新錯誤。

產生的程式碼可在我的程式碼庫 中下載和檢視。

結論

在對最新一代人工智慧模式進行三項截然不同的任務(學術論文寫作、商務電子郵件行銷和實際程式設計)測試後,我發現沒有哪一種人工智慧能夠包辦所有任務。相反,每種模型都有各自的優點、特點和理想用例。

但是,誰才是真正的贏家?

這取決於你的需求:

  • 準備自動化或建造嚴肅的東西?使用 ChatGPT-4o 或 Claude 4 Sonnet 進行程式碼開發。
  • 需要友好、以客戶為中心的溝通? Grok-3 是你的最佳選擇。
  • 想要傳達訊息並取悅讀者? Grok-3 是你最好的朋友。

沒有單一的「最佳」人工智慧,只有適合合適工作的工具。

使用人工智慧最明智的方法是將模型與你的任務相匹配,因為正如這個實驗所示,即使是最先進的機器人也有自己的個性和優勢。

參考/鏈接

感謝您花時間閱讀我的文章,請隨時與朋友分享。