Trong bài viết này, chúng tôi sẽ so sánh ChatGPT với Gemini với Grok với Deepseek với Claude trong một số trường hợp sử dụng để hiểu mô hình nào phù hợp nhất với nhu cầu của bạn bằng cách sử dụng các mô hình miễn phí có sẵn.
Chúng tôi sẽ kiểm tra những điều sau:
- Tạo mã
- Tạo nội dung
- Giải quyết vấn đề
Chúng tôi sẽ so sánh các khía cạnh sau:
- Tốc độ tạo mã
- Chất lượng mã/nội dung/Đạo văn
- Hạn chế
- Độ tin cậy
- Khả năng đọc
- Lỗi/Vấn đề
Xin nhắc lại, tất cả các bài kiểm tra chỉ được thực hiện bằng các mô hình miễn phí.
Tạo mã AI
Tôi quyết định sử dụng một lời nhắc ngắn gọn, đơn giản nhưng đầy thách thức để tạo mã bằng Python làm ngôn ngữ mong muốn vì nó khá phổ biến.
Lời nhắc yêu cầu một tập lệnh phân tích cú pháp CSV mà không sử dụng bất kỳ thư viện bên ngoài nào, vì vậy nó sẽ rất đơn giản.
Lời nhắc cho tất cả các mô hình:
1Tạo một tập lệnh python có thể phân tích cú pháp CSV mà không cần sử dụng thư viện bên ngoài.
Kết quả/So sánh
Một số mô hình thực thi và trả về tập lệnh rất nhanh, trong khi một số mô hình thậm chí mất đến 5 phút để “suy nghĩ” về nó. Tuy nhiên, tất cả các tập lệnh đều được thực thi mà không có bất kỳ lỗi nào, điều này thật tuyệt.
Mô hình | Tốc độ tạo | Chất lượng mã | Hạn chế | Độ mạnh mẽ | Khả năng đọc | Lỗi/Vấn đề |
---|---|---|---|---|---|---|
ChatGPT-4o | 19 giây | Tốt, cơ bản | Không có dấu phân cách tùy chỉnh; chỉ có danh sách (không theo tên cột) | Xử lý các tệp CSV phức tạp với dòng mới | Rõ ràng, trực quan | Có thể gặp lỗi với dấu ngoặc kép CSV bị hỏng |
ChatGPT-4o Think | 25 giây | Xuất sắc | Không xử lý dòng mới trong dấu ngoặc kép | Tuyệt vời cho các tệp CSV thông thường | Rất rõ ràng, được ghi chép đầy đủ | Không có lỗi rõ ràng, cảnh báo về giới hạn |
Claude Sonnet 4 | 30 giây | Tốt, thân thiện | Không hỗ trợ dòng mới trong dấu ngoặc kép; không có đầu ra dict | Hoạt động với các tệp tiêu chuẩn | Thân thiện với người mới bắt đầu | Cảnh báo nếu độ dài hàng không khớp |
Claude Sonnet 4 Think | 37 giây | Tốt, chi tiết | Không có dòng mới trong dấu ngoặc kép; đầu ra cơ bản | Hoạt động với hầu hết các tệp | Chi tiết, nhiều ví dụ | Cảnh báo về dữ liệu không khớp |
DeepSeek | 62 giây | Rất tốt | Không truy cập tên cột; sử dụng nhiều bộ nhớ hơn cho các tệp lớn | Xử lý các trường hợp phức tạp, dòng mới ổn | Gọn gàng, đơn giản | Không rõ ràng; có thể chậm hơn trên các tệp lớn |
DeepSeek Think | 653 giây | Đơn giản | Chỉ cơ bản; không có tiêu đề; không thể xử lý dòng mới trong dấu ngoặc kép | Chỉ hoạt động với các tệp CSV đơn giản | Tối thiểu, dễ theo dõi | Có thể bị lỗi trên các tệp CSV phức tạp |
Gemini 1.5 Pro | 29 giây | Rất tốt | Không xử lý dòng mới trong dấu ngoặc kép | Cảnh báo/bỏ qua các hàng bị hỏng | Thân thiện, gọn gàng | Bỏ qua các dòng không đúng định dạng |
Grok-3 | Cơ bản | 9 giây | Không có tiêu đề; không thể xử lý dòng mới trong dấu ngoặc kép | Phù hợp với tệp CSV cơ bản | Đơn giản, ngắn gọn | Không xử lý lỗi cho tệp bị hỏng |
Grok-3 Think | 87 giây | Cơ bản | Rất đơn giản; không có tiêu đề hoặc trường hợp phức tạp | Phù hợp với tệp nhỏ/đơn giản | Ngắn gọn, dễ đọc | Hiển thị ít lỗi |
Tốt nhất về tổng thể
Theo tôi, người chiến thắng trong số các mô hình này là ChatGPT-4o (Think). Sự cân bằng giữa thời gian tạo và đầu ra hợp lý.
- Thiết thực nhất, đặc biệt là đối với các tệp CSV “thông thường” (không có dấu xuống dòng lạ bên trong các ô).
- Cung cấp cả từ điển (tên cột) và đầu ra danh sách.
- Dấu phân cách có thể tùy chỉnh, xử lý lỗi tốt và phản hồi rõ ràng.
- Rất dễ đọc, mở rộng và tích hợp.
- Hoạt động từ dòng lệnh hoặc dưới dạng hàm được nhập.
Nếu bạn muốn xem mã đẹp, học hỏi hoặc sử dụng nó trong các tập lệnh của riêng bạn: ChatGPT-4o (Think) là tốt nhất. Đối với hầu hết mọi người và hầu hết các tệp, ChatGPT-4o (Think) là người chiến thắng!
Các tập lệnh có thể tải xuống và xem trên kho lưu trữ tại đây .
Tạo nội dung bằng AI
Tạo mã cho đến nay là mục đích duy nhất mà AI được sử dụng, vì ngày càng nhiều người sử dụng AI để tạo nội dung. Nội dung này bao gồm các bài đăng trên blog, tài liệu, email, v.v.
Dưới đây, chúng tôi sẽ thử nghiệm hai hạng mục: Email và Viết theo phong cách học thuật.
Tạo Email
Đối với bài kiểm tra tạo nội dung Email, tôi sẽ yêu cầu một email chào hàng đơn giản với lời nhắc sau:
1Tạo email giới thiệu về cửa hàng hoa mới của tôi. Tôi bán hoa cắt cành, thường được cắm thành bó hoặc thiết kế hoa. Tôi cũng cung cấp dịch vụ cắm hoa theo yêu cầu, giao hoa hàng ngày hoặc hàng tuần, và có thể cung cấp các dịch vụ như trang trí tiệc cưới hoặc sự kiện.
Kết quả/So sánh
Mỗi AI/mô hình đều thực hiện việc tạo nội dung cực kỳ nhanh chóng, vì vậy tôi sẽ không đưa cột Tốc độ Tạo bên dưới vào bảng.
Mô hình/Biến thể | Chất lượng Nội dung | Hạn chế | Độ mạnh mẽ | Khả năng đọc | Lỗi/Hiện tượng |
---|---|---|---|---|---|
ChatGPT-4o | Rất tự nhiên, rõ ràng | Hơi chung chung | Rất mạnh | Xuất sắc | Không có |
ChatGPT-4o Suy nghĩ | Sáng tạo, rõ ràng, nhân văn | An toàn, nhưng có thêm yếu tố tiếp thị tinh tế | Xuất sắc | Rất cao | Không có |
Claude Sonnet 4 | Chuyên nghiệp, ấm áp | Hơi trang trọng, hơi dài | Rất mạnh | Rất cao | Không có |
Claude Sonnet 4 Suy nghĩ | Chi tiết, phân mục | Quá dài dòng, quá “giống trang web” | Mạnh mẽ | Cao | Không có, nhưng quá dài đối với một email chào hàng |
DeepSeek | Thân thiện, rõ ràng | Thêm “P.S.”, hơi mang tính khuôn mẫu | Mạnh | Rất cao | Không có, nhưng hơi chung chung |
DeepSeek Think | Nhiều tùy chọn chủ đề/nội dung | Nhiều email đầy đủ trong một tệp | Tốt | Tốt | KHÔNG tuân theo quy tắc “một email”; quá nhiều lựa chọn |
Gemini 1.5 Pro | Tinh tế, chuyên nghiệp | Ba email trong một (dành cho khách hàng khác) | Tốt | Cao | Bỏ qua quy tắc “một email”; quá nhiều email cho mỗi tệp |
Grok 3 | Ấm áp, trực tiếp | Ngôn ngữ hơi lặp lại | Tốt | Tốt | Không có, nhưng hơi rập khuôn |
Grok 3 Think | Thân thiện, rõ ràng, có phân đoạn | Phần giới thiệu dài, định dạng hơi “cồng kềnh” | Tốt | Tốt | Không có, chỉ hơi phân đoạn |
Tốt nhất về tổng thể
Theo tôi, ChatGPT-4o (cả hai phiên bản) đều chiến thắng vì:
- Tạo ra một email tự nhiên, sẵn sàng sử dụng cho mỗi tệp.
- Không có lỗi định dạng, không có hiện tượng AI, không quá dài và dễ đọc.
Nó viết email tự nhiên, dễ đọc và chuyên nghiệp nhất. Nó tuân thủ chính xác hướng dẫn của tôi (một email cho mỗi tệp, không có lỗi định dạng hoặc AI), vì vậy bạn có thể sử dụng email chào hàng ngay lập tức chỉ với một vài thông tin cá nhân được thêm vào.
Nội dung được tạo ra có thể tải xuống và xem trên kho lưu trữ của tôi tại đây .
Viết theo phong cách học thuật
Không có gì ngạc nhiên khi ngày càng nhiều người sử dụng AI để tạo ra bài viết theo phong cách học thuật, tuy nhiên, hầu hết nội dung được tạo ra sẽ không đạt yêu cầu kiểm tra đạo văn vì AI không tạo ra nội dung độc đáo, hoặc vì đầu vào không phù hợp.
Trong bài kiểm tra thứ hai, tôi sẽ yêu cầu một bài luận ngắn với yêu cầu sau:
1Viết một bài luận ngắn (tối đa 1000 từ) về sự phát triển của CPU, sử dụng phong cách viết học thuật và nội dung độc đáo. Không sử dụng nội dung từ các bài luận hoặc nguồn đã có sẵn. Vui lòng ghi rõ nguồn tham khảo nếu cần.
Kết quả/So sánh
Mô hình/Biến thể | Chất lượng Nội dung | Hạn chế | Độ mạnh mẽ | Khả năng đọc | Lỗi/Hiện tượng |
---|---|---|---|---|---|
ChatGPT-4o | Có cấu trúc, học thuật, súc tích | Hơi rập khuôn; không có phong cách tường thuật | Mạnh mẽ, cập nhật | Cao (dành cho độc giả kỹ thuật) | Không có |
Claude Sonnet 4 | Bách khoa toàn thư, tường thuật | Dài dòng, ít lặp lại | Toàn diện | Mượt mà, dễ hiểu | Không có; hơi dài dòng |
DeepSeek | Ngắn gọn, thực tế, giống khảo sát | Ít ngữ cảnh, chuyển tiếp đột ngột | Tập trung, chính xác | Trung bình (kỹ thuật) | Không có |
Grok-3 | Hấp dẫn, theo chủ đề | Đôi khi khái quát hóa | Rộng, dễ hiểu | Rất cao | Không có; hơi sáo rỗng |
Gemini 2.5 Pro | Kỹ thuật, nghiêm ngặt | Dày đặc, yêu cầu nền tảng kỹ thuật | Rất mạnh mẽ | Thấp hơn (không kỹ thuật) | Không có |
Tốt nhất chung cuộc
Theo tôi, tác giả chiến thắng là Grok 3 vì phong cách viết học thuật.
- Sử dụng lối kể chuyện và ẩn dụ dễ hiểu (“hành trình công nghệ”), khiến người đọc không chuyên cũng dễ đọc.
- Dẫn dắt người đọc theo trình tự thời gian qua lịch sử CPU, đồng thời đề cập đến các chủ đề hiện đại (đa lõi, chuyên môn hóa, tương lai).
- Giải thích các khái niệm chính mà không làm người đọc choáng ngợp bởi thuật ngữ chuyên ngành hay các thuật ngữ kỹ thuật khô khan.
- Bạn không cần kiến thức chuyên môn sâu rộng để theo dõi và thưởng thức tác phẩm.
Kiểm tra đạo văn
Tôi đã sử dụng Trình kiểm tra đạo văn của Grammarly để kiểm tra nội dung và xem từng AI đang ở vị trí nào.
Bạn có thể xem kết quả trong bảng sau:
Mô hình/Biến thể | Đạo văn | Ngữ pháp | Chính tả | Dấu câu | Ngắn gọn | Dễ đọc |
---|---|---|---|---|---|---|
ChatGPT-4o | 8 lỗi viết | OK | KHÔNG ĐẠT | KHÔNG ĐẠT | KHÔNG ĐẠT | OK |
Claude Sonnet 4 | 8 lỗi viết | KHÔNG ĐẠT | OK | OK | KHÔNG ĐẠT | OK |
DeepSeek | 2 lỗi viết | OK | KHÔNG ĐẠT | OK | OK | OK |
Grok-3 | 8 lỗi viết | OK | OK | OK | KHÔNG ĐẠT | OK |
Gemini 2.5 Pro | 22 lỗi viết | KHÔNG ĐẠT | KHÔNG ĐẠT | OK | KHÔNG ĐẠT | OK |
Người chiến thắng rõ ràng là Grok 3 mặc dù nó không hoàn hảo; bạn có thể tự sửa những lỗi nhỏ và có một bài luận “đạt giải” 😊 (lol)
Giải quyết vấn đề AI
Bài toán tích phân A + B
Ai cũng biết rằng AI đã lãng phí rất nhiều sức mạnh tính toán và kiến thức, nhưng chúng so sánh với nhau như thế nào?
Hãy cùng xem xét bài kiểm tra toán phổ biến này được cung cấp ở một số trường trung học:
1A = Tích phân từ 0 đến 1 của ex^2
2B = Tích phân từ 1 đến e2 của ln(√x)
3Tìm A + B
Kết quả/So sánh
Đây chính là lúc các vấn đề của mọi AI bắt đầu lộ diện. Mọi AI đều gặp khó khăn trong việc cung cấp giải pháp sao chép/dán sẵn sàng, vốn là phần đơn giản nhất của “vấn đề”. Các phép tính đã được thực hiện, nhưng thực tế không thể sao chép được, vì vậy tôi đã phải hỏi đi hỏi lại nhiều lần ở nhiều định dạng khác nhau cho đến khi có thể lưu nó dưới dạng tệp .txt cho bạn.
Mô hình/Biến thể | Chất lượng mã | Hạn chế | Độ mạnh mẽ | Khả năng đọc | Tính thân thiện với sao chép-dán |
---|---|---|---|---|---|
Claude 4 Sonnet | Xuất sắc | Không có | Rất cao | Xuất sắc | Tốt nhất (dễ, giảm giá, từng bước) |
DeepSeek | Xuất sắc | Lạm dụng tiêu đề một chút | Rất cao | Xuất sắc | Xuất sắc |
ChatGPT-4o | Xuất sắc | Không có | Rất cao | Xuất sắc | Xuất sắc |
Grok 3 | Tốt | Dài dòng, hơi lộn xộn | Cao | Tốt | Tốt |
Gemini 1.5 Pro | Đủ | Không có câu trả lời tượng trưng chính xác | Cao | Xuất sắc | Tốt (nhưng chỉ tóm tắt) |
Câu nổi bật nhất ở đây là Claude Sonnet 4, theo tôi là câu chiến thắng. Để có kết quả số nhanh chóng, Gemini là nhanh nhất, nhưng để có độ rõ ràng và khả năng tái sử dụng hoàn toàn, hãy sử dụng Claude, DeepSeek hoặc ChatGPT-4o.
Vấn đề mã bị hỏng
Hãy cùng nâng tầm vấn đề này lên một tầm cao mới và xem trí tuệ nhân tạo (AI) thông minh đến mức nào, bằng cách yêu cầu sửa một đoạn mã C đơn giản bị hỏng:
1#include <stdio.h>
2#include <stdlib.h>
3#include <string.h>
4
5char* copy_string(const char* src) {
6 char* dest;
7 strcpy(dest, src);
8 return dest;
9}
10
11int main() {
12 char* original = "Hello, world!";
13 char* copy = copy_string(original);
14
15 printf("Copied string: %s\n", copy);
16
17 return 0;
18}
Có vấn đề gì với đoạn mã trên? Để tôi giải thích:
dest
trongcopy_string
được sử dụng chưa được khởi tạo, không được cấp phát bộ nhớ.- Sử dụng
strcpy(dest, src)
với một con trỏ chưa được khởi tạo sẽ gây ra hành vi không xác định và có khả năng gây ra sự cố. - Bộ nhớ cho bản sao (nếu đã được cấp phát) không bao giờ được giải phóng—có khả năng gây rò rỉ bộ nhớ.
- Đoạn mã in ra bản sao mà không kiểm tra thành công.
Với đoạn mã trên, chúng ta xây dựng lời nhắc như sau:
1Sửa đoạn mã sau cho tôi và cung cấp tóm tắt về các bản sửa lỗi:
2```
3#include <stdio.h>
4#include <stdlib.h>
5#include <string.h>
6
7char* copy_string(const char* src) {
8 char* dest;
9 strcpy(dest, src);
10 return dest;
11}
12
13int main() {
14 char* original = "Hello, world!";
15 char* copy = copy_string(original);
16
17 printf("Copied string: %s\n", copy);
18
19 return 0;
20}
21```
Kết quả/So sánh
Thành thật mà nói, mỗi mô hình đều đưa ra bản sửa lỗi chính xác và chuyên nghiệp.
Mô hình/Biến thể | Chất lượng Nội dung | Hạn chế | Độ mạnh mẽ | Khả năng đọc | Lỗi/Hiện vật |
---|---|---|---|---|---|
Claude 4 Sonnet | Xuất sắc (xử lý trường hợp ngoại lệ, rõ ràng) | Tóm tắt hơi dài dòng | Kiểm tra đầu vào và phân bổ NULL; giải phóng bộ nhớ | Rất rõ ràng, mạch lạc | Không có |
DeepSeek | Xuất sắc (ngắn gọn, chính xác) | Ít dài dòng hơn một chút về xác thực đầu vào | Kiểm tra phân bổ; xử lý lỗi; giải phóng bộ nhớ | Rõ ràng, súc tích | Không có |
ChatGPT-4o | Xuất sắc (ngắn gọn, bao gồm tất cả) | Không kiểm tra đầu vào NULL (cho src) | Kiểm tra phân bổ; xử lý lỗi; giải phóng bộ nhớ | Rất dễ đọc | Không có |
Grok 3 | Xuất sắc (kỹ lưỡng, chuyên nghiệp) | Thoát khi phân bổ lỗi (không tốt nhất cho thư viện); không kiểm tra đầu vào NULL | Xử lý lỗi phân bổ; giải phóng bộ nhớ | Hơi dài dòng | Không có |
Gemini 1.5 Pro | Tuyệt vời (chuyên nghiệp, chi tiết bổ sung) | Không có kiểm tra NULL đầu vào rõ ràng; nhiều bình luận | Xử lý lỗi phân bổ, đặt con trỏ NULL sau khi giải phóng | Rất dễ đọc | Không có |
Tất cả các mô hình đều đưa ra bản sửa lỗi chính xác và chuyên nghiệp. Claude 4 Sonnet đã xử lý và giải thích các trường hợp ngoại lệ một cách xuất sắc, nhưng tất cả các câu trả lời đều chắc chắn và phù hợp để sao chép/dán vào một dự án C. Không có mô hình nào đưa ra bất kỳ lỗi mới nào.
Các mã được tạo ra có thể tải xuống và xem trên kho lưu trữ tại đây .
Kết luận
Sau khi thử nghiệm thế hệ mô hình AI mới nhất trên ba nhiệm vụ rất khác nhau như viết luận học thuật, tiếp thị qua email doanh nghiệp và lập trình thực hành, tôi nhận thấy không có AI nào có thể thống trị tất cả. Thay vào đó, mỗi mô hình đều có những điểm mạnh, điểm độc đáo và trường hợp sử dụng lý tưởng riêng.
Nhưng, ai sẽ chiến thắng chung cuộc?
Điều này phụ thuộc vào nhu cầu của bạn:
- Sẵn sàng tự động hóa hoặc xây dựng một thứ gì đó nghiêm túc? Hãy dùng ChatGPT-4o hoặc Claude 4 Sonnet để viết mã.
- Cần giao tiếp thân thiện, tập trung vào khách hàng? Grok-3.
- Muốn cung cấp thông tin và làm hài lòng độc giả? Grok-3 chính là người bạn đồng hành tốt nhất của bạn.
Không có AI nào “tốt nhất”, chỉ có công cụ phù hợp cho đúng công việc.
Cách thông minh nhất để sử dụng AI là kết hợp mô hình với nhiệm vụ của bạn, bởi vì như thí nghiệm này cho thấy, ngay cả những bot tiên tiến nhất cũng có cá tính và thế mạnh riêng.
Tài liệu tham khảo/Liên kết
Cảm ơn bạn đã dành thời gian đọc bài viết của tôi và hãy chia sẻ nó với bạn bè.
Bình luận