在本文中,我們將針對多種用例比較 ChatGPT、Gemini、Grok、Deepseek 和 Claude,並利用現有的免費模型,以了解哪一款最適合您的需求。
我們將測試以下內容:
- 程式碼生成
- 內容生成
- 問題解決
我們將比較以下幾個面向:
- 生成速度
- 程式碼/內容品質/抄襲
- 限制
- 穩健性
- 可讀性
- 錯誤/問題
提醒一下,所有測試均僅使用免費模型執行。
AI 程式碼生成
我決定使用一個簡短易懂但又頗具挑戰性的提示來產生程式碼,因為 Python 非常流行。
該提示要求輸入一個 CSV 解析器腳本,無需使用任何外部庫,因此應該很簡單。
適用於所有模型的提示:
1建立一個可以解析 CSV 的 Python 腳本,無需使用外部函式庫。
結果/比較
有些模型執行並返回腳本的速度非常快,而有些模型甚至需要 5 分鐘的「思考」🥴。不過,所有腳本都執行時沒有任何錯誤,這很不錯。
模型 | 產生速度 | 程式碼品質 | 限制 | 穩健性 | 可讀性 | 錯誤/問題 |
---|---|---|---|---|---|---|
ChatGPT-4o | 19 秒 | 良好,基礎 | 無自訂分隔符號;僅列出(不按列名) | 處理帶有換行符的棘手 CSV | 清晰,直接 | 可能因 CSV 引號損壞而失敗 |
ChatGPT-4o Think | 25 秒 | 優秀 | 無法處理引號內的換行符 | 非常適合普通 CSV | 非常清晰,文檔齊全 | 沒有明顯的限制,但會警告限制 |
Claude Sonnet 4 | 30 秒 | 良好,友好 | 不支援引號中的換行符;沒有字典輸出 | 適用於標準文件 | 適合初學者 | 如果行長度不匹配會發出警告 |
Claude Sonnet 4 Think | 37 秒 | 良好,詳細 | 引號中沒有換行符;基本輸出 | 適用於大多數文件 | 詳細,大量示例 | 警告數據不匹配 |
DeepSeek | 62 秒 | 非常好 | 沒有列名訪問;大文件會佔用更多內存 | 處理複雜情況,換行符可以 | 乾淨,簡單 | 沒有明顯的缺點;處理大文件可能會更慢 |
DeepSeek Think | 653 秒 | 簡單 | 僅限基本;沒有標題;無法處理引號中的換行符 | 僅適用於簡單的 CSV | 最小,易於遵循 | 可能會在復雜的 CSV 上中斷 |
Gemini 1.5 Pro | 29 秒 | 非常好 | 無法處理引號中的換行符 | 警告/跳過損壞的行 | 友好、整潔 | 跳過格式錯誤的行 |
Grok-3 | 基礎 | 9 秒 | 無標題;無法處理引號中的換行符 | 適用於基本 CSV 文件 | 簡單、簡短 | 對損壞的文件沒有錯誤處理 |
Grok-3 Think | 87 秒 | 基礎 | 非常簡單;沒有標題或複雜的情況 | 適用於小型/簡單文件 | 簡短、可讀 | 顯示的錯誤最少 |
整體最佳
在我看來,這些模型中,ChatGPT-4o (Think) 勝出。它在合理的生成時間和輸出結果之間取得了平衡。
- 非常實用,尤其適用於「普通」CSV 檔案(儲存格內沒有奇怪的換行符)。
- 提供字典(列名)和列表輸出。
- 可自訂分隔符,良好的錯誤處理和清晰的回饋。
- 非常易於閱讀、擴展和整合。
- 可從命令列運行,也可作為導入函數運行。
如果您想看到優美的程式碼、學習它或在自己的腳本中使用它:ChatGPT-4o (Think) 是最好的。對於大多數人和大多數文件來說,ChatGPT-4o (Think) 是贏家!
這些腳本可以在我的程式碼庫 中下載和檢視。
AI 內容生成
程式碼產生是目前 AI 的唯一用途,因為越來越多的人使用 AI 來產生內容。內容範圍涵蓋部落格文章、文件、電子郵件等等。
以下我們將測試兩個類別:電子郵件 和 學術寫作。
電子郵件生成
為了進行電子郵件內容產生測試,我將要求您提供一份簡單的電子郵件推介,並附上以下提示:
1寫一封關於我新開的花店的電子郵件。我出售鮮切花,通常用於插花或花卉設計。我還提供客製化插花服務,每日或每週送花,並可能提供婚禮或活動造型等服務。
結果/比較
每個 AI/模型在生成內容時都執行得非常快,因此我不會在下表中包含「生成速度」列。
模型/變體 | 內容品質 | 限制 | 穩健性 | 可讀性 | 錯誤/偽影 |
---|---|---|---|---|---|
ChatGPT-4o | 非常自然,乾淨 | 略顯普通 | 非常強大 | 優 | 無 |
ChatGPT-4o Think | 創意,清晰,人性化 | 安全,但添加了微妙的營銷 | 優秀 | 非常高 | 無 |
Claude Sonnet 4 | 專業,熱情 | 略顯正式,略長 | 非常強大 | 非常高 | 無 |
Claude Sonnet 4 Think | 詳細,分段 | 過於冗長,太像網站 | 穩健 | 高 | 無,但對於推銷郵件來說太長 |
DeepSeek | 友好,清晰 | 添加“附言”,略帶模板感 | 強 | 非常高 | 無,但略顯普通 |
DeepSeek Think | 多個主題/正文選項 | 一個文件中包含多封完整郵件 | 好 | 好 | 未遵循“一封郵件”規則;選擇太多 |
Gemini 1.5 Pro | 精緻,專業 | 一封郵件包含三封郵件(針對不同客戶) | 好 | 高 | 忽略“一封郵件”規則;每個文件內容太多 |
Grok 3 | 熱情,直接 | 語言略有重複 | 好 | 好 | 無,但略顯公式化 |
Grok 3 Think | 友好,清晰,分段 | 長簡介,格式略顯“粗獷” | 好 | 好 | 無,略顯分段 |
整體最佳
我認為 ChatGPT-4o(兩個版本)勝出,原因如下:
- 每個文件產生一封簡潔、易用且自然的電子郵件。
- 沒有格式錯誤,沒有 AI 偽影,篇幅適中,可讀性高。
它寫出了最自然、易讀且聽起來最專業的郵件。它完全遵循了我的指示(每個文件產生一封郵件,沒有多餘的格式或 AI 錯誤),因此您只需添加一些個人資訊即可立即使用它的郵件推介。
產生的內容可在我的程式碼庫 下載和檢視。
學術風格寫作
越來越多的人使用人工智慧來產生學術風格寫作,這並不奇怪,然而,由於人工智慧生成的內容缺乏獨創性,或者輸入的提示存在問題,大多數生成的內容都會因抄襲檢查而失敗。
第二次測試,我將要求考生根據以下提示撰寫一篇短文:
1撰寫一篇關於 CPU 演變的短文(最多 1000 字),採用學術寫作風格,內容新穎獨特。請勿使用已有文章或資料。請在適當的地方添加參考文獻。
結果/比較
模型/變體 | 內容品質 | 限制 | 穩健性 | 可讀性 | 錯誤/缺陷 |
---|---|---|---|---|---|
ChatGPT-4o | 結構化、學術性、簡潔 | 略顯公式化;缺乏敘事風格 | 強大、最新 | 高(適合技術讀者) | 無 |
克勞德十四行詩 4 | 百科全書式、敘事 | 冗長、少量重複 | 全面 | 流暢、易懂 | 無;略顯冗長 |
DeepSeek | 簡潔、基於事實、類似調查 | 上下文較少、過渡突兀 | 重點突出、準確 | 中等(技術性) | 無 |
Grok-3 | 引人入勝、主題鮮明 | 偶爾泛泛而談 | 廣泛、易懂 | 非常高 | 無;略顯陳詞濫調 |
Gemini 2.5 Pro | 技術性強,嚴謹 | 密集,需要技術背景 | 非常強大 | 較低(非技術性) | 無 |
整體最佳
我認為,Grok 3 因其學術寫作風格而獲得冠軍。
- 本書採用敘事和簡單易懂的比喻(「科技之旅」),即使非專業人士也能輕鬆閱讀。
- 本書以時間順序帶領讀者回顧 CPU 的發展歷史,同時涵蓋現代主題(多核心、專業化、未來)。
- 本書解釋關鍵概念,不會讓讀者被專業術語或枯燥的技術細節所淹沒。
- 本書無需深厚的技術背景即可輕鬆理解並享受閱讀的樂趣。
抄襲檢查
我使用了抄襲檢查器 從 Grammarly 檢查內容並查看每個 AI 的位置。
您可以在下表中看到結果:
模型/變體 | 抄襲 | 文法 | 拼字 | 標點符號 | 簡潔性 | 可讀性 |
---|---|---|---|---|---|---|
ChatGPT-4o | 8 個寫作問題 | 合格 | 不合格 | 不合格 | 不合格 | 合格 |
Claude Sonnet 4 | 8 個寫作問題 | 不合格 | 合格 | 合格 | 不合格 | 合格 |
DeepSeek | 2 個寫作問題 | 合格 | 合格 | 不合格 | 合格 | 合格 |
Grok-3 | 8 個寫作問題 | 合格 | 合格 | 合格 | 不合格 | 合格 |
Gemini 2.5 Pro | 22 寫作問題 | 不合格 | 不合格 | 合格 | 不合格 | 合格 |
獲勝者顯然是 Grok 3,儘管它並不完美;你可以自己解決小問題並寫出一篇「獲獎」的文章 😊(哈哈)
人工智慧問題解決
A + B 積分問題
眾所周知,人工智慧擁有大量的運算能力和知識,但它們之間如何比較?
讓我們使用一些高中提供的流行數學測驗:
1A = ex^2 從 0 到 1 的積分
2B = ln(√x) 從 1 到 e^2 的積分
3求 A + B
結果/比較
每個 AI 的問題都會在這裡暴露出來。每個 AI 都很難提供現成的複製/貼上解決方案,而這正是「問題」中最簡單的部分。數學計算完成了,但實際上無法複製,所以我必須用幾種格式反覆詢問,直到最終能以某種方式將其儲存為 .txt 檔案。
模型/變體 | 程式碼品質 | 限制 | 穩健性 | 可讀性 | 複製貼上友善性 |
---|---|---|---|---|---|
克勞德四首十四行詩 | 優秀 | 無 | 非常高 | 優秀 | 最佳(簡單、Markdown、分步) |
DeepSeek | 優秀 | 稍微過度使用標題 | 非常高 | 優秀 | 優秀 |
ChatGPT-4o | 優 | 無 | 非常高 | 優 | 優 |
Grok 3 | 好 | 冗長,略顯混亂 | 高 | 好 | 良好 |
Gemini 1.5 Pro | 尚可 | 無確切符號答案 | 高 | 優 | 好(但僅為摘要) |
這裡最突出的是 Claude Sonnet 4,在我看來它是贏家。如果想要快速獲得數值結果,Gemini 最快,但如果想要獲得完整的清晰度和可重複使用性,請堅持使用 Claude、DeepSeek 或 ChatGPT-4o。
程式碼破損問題
讓我們更進一步,看看人工智慧的智慧程度,要求修復一段破損的純 C 程式碼:
1#include <stdio.h>
2#include <stdlib.h>
3#include <string.h>
4
5char* copy_string(const char* src) {
6char\* dest;
7strcpy(dest, src);
8return dest;
9}
10
11int main() {
12char* original = "Hello, world!";
13char* copy = copy_string(original);
14
15 printf("Copied string: %s\n", copy);
16
17 return 0;
18
19}
上面的程式碼有什麼問題?讓我解釋一下:
copy_string
中的dest
未初始化,沒有分配記憶體。- 使用
strcpy(dest, src)
和未初始化的指標會導致未定義的行為,甚至可能導致崩潰。 - 用於複製的記憶體(如果已分配)永遠不會被釋放——潛在的記憶體洩漏。
- 程式碼列印了複製的內容,但沒有檢查是否成功。
使用上面的程式碼,我們將提示符號格式化如下:
1為我修復以下程式碼並提供修復摘要:
2
3```
4#include <stdio.h>
5#include <stdlib.h>
6#include <string.h>
7
8char* copy_string(const char* src) {
9 char* dest;
10 strcpy(dest, src);
11 return dest;
12}
13
14int main() {
15 char* original = "Hello, world!";
16 char* copy = copy_string(original);
17
18 printf("Copied string: %s\n", copy);
19
20 return 0;
21}
22```
結果/比較
說實話,每個模型都給出了正確且專業的修復方案。
模型/變體 | 內容品質 | 限制 | 穩健性 | 可讀性 | 錯誤/缺陷 |
---|---|---|---|---|---|
Claude 4 Sonnet | 優秀(邊緣情況處理,清晰) | 摘要略顯冗長 | 檢查 NULL 輸入和分配;釋放內存 | 非常清晰,簡潔 | 無 |
DeepSeek | 優秀(簡潔,正確) | 輸入驗證略顯簡潔 | 檢查分配;錯誤處理;釋放內存 | 清晰,簡潔 | 無 |
ChatGPT-4o | 優秀(簡潔,涵蓋所有內容) | 無 NULL 輸入檢查(針對 src) | 檢查分配;錯誤處理;釋放內存 | 可讀性極佳 | 無 |
Grok 3 | 優秀(全面、專業) | 分配失敗時退出(不適用於庫);無 NULL 輸入檢查 | 處理分配錯誤;釋放內存 | 略顯冗長 | 無 |
Gemini 1.5 Pro | 優秀(專業、額外細節) | 無明確輸入 NULL 檢查;大量註釋 | 處理分配錯誤,釋放後將指針設置為 NULL | 可讀性極佳 | 無 |
所有模型均提供了正確且專業的修復方案。 Claude 4 Sonnet 在邊緣情況處理和解釋方面做得非常出色,但所有答案都可靠,適合複製/貼上到 C 項目中。所有模型均未引入任何新錯誤。
產生的程式碼可在我的程式碼庫 中下載和檢視。
結論
在對最新一代人工智慧模式進行三項截然不同的任務(學術論文寫作、商務電子郵件行銷和實際程式設計)測試後,我發現沒有哪一種人工智慧能夠包辦所有任務。相反,每種模型都有各自的優點、特點和理想用例。
但是,誰才是真正的贏家?
這取決於你的需求:
- 準備自動化或建造嚴肅的東西?使用 ChatGPT-4o 或 Claude 4 Sonnet 進行程式碼開發。
- 需要友好、以客戶為中心的溝通? Grok-3 是你的最佳選擇。
- 想要傳達訊息並取悅讀者? Grok-3 是你最好的朋友。
沒有單一的「最佳」人工智慧,只有適合合適工作的工具。
使用人工智慧最明智的方法是將模型與你的任務相匹配,因為正如這個實驗所示,即使是最先進的機器人也有自己的個性和優勢。
參考/鏈接
感謝您花時間閱讀我的文章,請隨時與朋友分享。
評論