Trong bài viết này, chúng tôi sẽ so sánh ChatGPT với Gemini với Grok với Deepseek với Claude trong một số trường hợp sử dụng để hiểu mô hình nào phù hợp nhất với nhu cầu của bạn bằng cách sử dụng các mô hình miễn phí có sẵn.

Chúng tôi sẽ kiểm tra những điều sau:

  • Tạo mã
  • Tạo nội dung
  • Giải quyết vấn đề

Chúng tôi sẽ so sánh các khía cạnh sau:

  • Tốc độ tạo mã
  • Chất lượng mã/nội dung/Đạo văn
  • Hạn chế
  • Độ tin cậy
  • Khả năng đọc
  • Lỗi/Vấn đề

Xin nhắc lại, tất cả các bài kiểm tra chỉ được thực hiện bằng các mô hình miễn phí.

Tạo mã AI

Tôi quyết định sử dụng một lời nhắc ngắn gọn, đơn giản nhưng đầy thách thức để tạo mã bằng Python làm ngôn ngữ mong muốn vì nó khá phổ biến.

Lời nhắc yêu cầu một tập lệnh phân tích cú pháp CSV mà không sử dụng bất kỳ thư viện bên ngoài nào, vì vậy nó sẽ rất đơn giản.

Lời nhắc cho tất cả các mô hình:

1Tạo một tập lệnh python có thể phân tích cú pháp CSV mà không cần sử dụng thư viện bên ngoài.

Kết quả/So sánh

Một số mô hình thực thi và trả về tập lệnh rất nhanh, trong khi một số mô hình thậm chí mất đến 5 phút để “suy nghĩ” về nó. Tuy nhiên, tất cả các tập lệnh đều được thực thi mà không có bất kỳ lỗi nào, điều này thật tuyệt.

Mô hìnhTốc độ tạoChất lượng mãHạn chếĐộ mạnh mẽKhả năng đọcLỗi/Vấn đề
ChatGPT-4o19 giâyTốt, cơ bảnKhông có dấu phân cách tùy chỉnh; chỉ có danh sách (không theo tên cột)Xử lý các tệp CSV phức tạp với dòng mớiRõ ràng, trực quanCó thể gặp lỗi với dấu ngoặc kép CSV bị hỏng
ChatGPT-4o Think25 giâyXuất sắcKhông xử lý dòng mới trong dấu ngoặc képTuyệt vời cho các tệp CSV thông thườngRất rõ ràng, được ghi chép đầy đủKhông có lỗi rõ ràng, cảnh báo về giới hạn
Claude Sonnet 430 giâyTốt, thân thiệnKhông hỗ trợ dòng mới trong dấu ngoặc kép; không có đầu ra dictHoạt động với các tệp tiêu chuẩnThân thiện với người mới bắt đầuCảnh báo nếu độ dài hàng không khớp
Claude Sonnet 4 Think37 giâyTốt, chi tiếtKhông có dòng mới trong dấu ngoặc kép; đầu ra cơ bảnHoạt động với hầu hết các tệpChi tiết, nhiều ví dụCảnh báo về dữ liệu không khớp
DeepSeek62 giâyRất tốtKhông truy cập tên cột; sử dụng nhiều bộ nhớ hơn cho các tệp lớnXử lý các trường hợp phức tạp, dòng mới ổnGọn gàng, đơn giảnKhông rõ ràng; có thể chậm hơn trên các tệp lớn
DeepSeek Think653 giâyĐơn giảnChỉ cơ bản; không có tiêu đề; không thể xử lý dòng mới trong dấu ngoặc képChỉ hoạt động với các tệp CSV đơn giảnTối thiểu, dễ theo dõiCó thể bị lỗi trên các tệp CSV phức tạp
Gemini 1.5 Pro29 giâyRất tốtKhông xử lý dòng mới trong dấu ngoặc képCảnh báo/bỏ qua các hàng bị hỏngThân thiện, gọn gàngBỏ qua các dòng không đúng định dạng
Grok-3Cơ bản9 giâyKhông có tiêu đề; không thể xử lý dòng mới trong dấu ngoặc képPhù hợp với tệp CSV cơ bảnĐơn giản, ngắn gọnKhông xử lý lỗi cho tệp bị hỏng
Grok-3 Think87 giâyCơ bảnRất đơn giản; không có tiêu đề hoặc trường hợp phức tạpPhù hợp với tệp nhỏ/đơn giảnNgắn gọn, dễ đọcHiển thị ít lỗi

Tốt nhất về tổng thể

Theo tôi, người chiến thắng trong số các mô hình này là ChatGPT-4o (Think). Sự cân bằng giữa thời gian tạo và đầu ra hợp lý.

  • Thiết thực nhất, đặc biệt là đối với các tệp CSV “thông thường” (không có dấu xuống dòng lạ bên trong các ô).
  • Cung cấp cả từ điển (tên cột) và đầu ra danh sách.
  • Dấu phân cách có thể tùy chỉnh, xử lý lỗi tốt và phản hồi rõ ràng.
  • Rất dễ đọc, mở rộng và tích hợp.
  • Hoạt động từ dòng lệnh hoặc dưới dạng hàm được nhập.

Nếu bạn muốn xem mã đẹp, học hỏi hoặc sử dụng nó trong các tập lệnh của riêng bạn: ChatGPT-4o (Think) là tốt nhất. Đối với hầu hết mọi người và hầu hết các tệp, ChatGPT-4o (Think) là người chiến thắng!

Các tập lệnh có thể tải xuống và xem trên kho lưu trữ tại đây .

Tạo nội dung bằng AI

Tạo mã cho đến nay là mục đích duy nhất mà AI được sử dụng, vì ngày càng nhiều người sử dụng AI để tạo nội dung. Nội dung này bao gồm các bài đăng trên blog, tài liệu, email, v.v.

Dưới đây, chúng tôi sẽ thử nghiệm hai hạng mục: EmailViết theo phong cách học thuật.

Tạo Email

Đối với bài kiểm tra tạo nội dung Email, tôi sẽ yêu cầu một email chào hàng đơn giản với lời nhắc sau:

1Tạo email giới thiệu về cửa hàng hoa mới của tôi. Tôi bán hoa cắt cành, thường được cắm thành bó hoặc thiết kế hoa. Tôi cũng cung cấp dịch vụ cắm hoa theo yêu cầu, giao hoa hàng ngày hoặc hàng tuần, và có thể cung cấp các dịch vụ như trang trí tiệc cưới hoặc sự kiện.

Kết quả/So sánh

Mỗi AI/mô hình đều thực hiện việc tạo nội dung cực kỳ nhanh chóng, vì vậy tôi sẽ không đưa cột Tốc độ Tạo bên dưới vào bảng.

Mô hình/Biến thểChất lượng Nội dungHạn chếĐộ mạnh mẽKhả năng đọcLỗi/Hiện tượng
ChatGPT-4oRất tự nhiên, rõ ràngHơi chung chungRất mạnhXuất sắcKhông có
ChatGPT-4o Suy nghĩSáng tạo, rõ ràng, nhân vănAn toàn, nhưng có thêm yếu tố tiếp thị tinh tếXuất sắcRất caoKhông có
Claude Sonnet 4Chuyên nghiệp, ấm ápHơi trang trọng, hơi dàiRất mạnhRất caoKhông có
Claude Sonnet 4 Suy nghĩChi tiết, phân mụcQuá dài dòng, quá “giống trang web”Mạnh mẽCaoKhông có, nhưng quá dài đối với một email chào hàng
DeepSeekThân thiện, rõ ràngThêm “P.S.”, hơi mang tính khuôn mẫuMạnhRất caoKhông có, nhưng hơi chung chung
DeepSeek ThinkNhiều tùy chọn chủ đề/nội dungNhiều email đầy đủ trong một tệpTốtTốtKHÔNG tuân theo quy tắc “một email”; quá nhiều lựa chọn
Gemini 1.5 ProTinh tế, chuyên nghiệpBa email trong một (dành cho khách hàng khác)TốtCaoBỏ qua quy tắc “một email”; quá nhiều email cho mỗi tệp
Grok 3Ấm áp, trực tiếpNgôn ngữ hơi lặp lạiTốtTốtKhông có, nhưng hơi rập khuôn
Grok 3 ThinkThân thiện, rõ ràng, có phân đoạnPhần giới thiệu dài, định dạng hơi “cồng kềnh”TốtTốtKhông có, chỉ hơi phân đoạn

Tốt nhất về tổng thể

Theo tôi, ChatGPT-4o (cả hai phiên bản) đều chiến thắng vì:

  • Tạo ra một email tự nhiên, sẵn sàng sử dụng cho mỗi tệp.
  • Không có lỗi định dạng, không có hiện tượng AI, không quá dài và dễ đọc.

Nó viết email tự nhiên, dễ đọc và chuyên nghiệp nhất. Nó tuân thủ chính xác hướng dẫn của tôi (một email cho mỗi tệp, không có lỗi định dạng hoặc AI), vì vậy bạn có thể sử dụng email chào hàng ngay lập tức chỉ với một vài thông tin cá nhân được thêm vào.

Nội dung được tạo ra có thể tải xuống và xem trên kho lưu trữ của tôi tại đây .

Viết theo phong cách học thuật

Không có gì ngạc nhiên khi ngày càng nhiều người sử dụng AI để tạo ra bài viết theo phong cách học thuật, tuy nhiên, hầu hết nội dung được tạo ra sẽ không đạt yêu cầu kiểm tra đạo văn vì AI không tạo ra nội dung độc đáo, hoặc vì đầu vào không phù hợp.

Trong bài kiểm tra thứ hai, tôi sẽ yêu cầu một bài luận ngắn với yêu cầu sau:

1Viết một bài luận ngắn (tối đa 1000 từ) về sự phát triển của CPU, sử dụng phong cách viết học thuật và nội dung độc đáo. Không sử dụng nội dung từ các bài luận hoặc nguồn đã có sẵn. Vui lòng ghi rõ nguồn tham khảo nếu cần.

Kết quả/So sánh

Mô hình/Biến thểChất lượng Nội dungHạn chếĐộ mạnh mẽKhả năng đọcLỗi/Hiện tượng
ChatGPT-4oCó cấu trúc, học thuật, súc tíchHơi rập khuôn; không có phong cách tường thuậtMạnh mẽ, cập nhậtCao (dành cho độc giả kỹ thuật)Không có
Claude Sonnet 4Bách khoa toàn thư, tường thuậtDài dòng, ít lặp lạiToàn diệnMượt mà, dễ hiểuKhông có; hơi dài dòng
DeepSeekNgắn gọn, thực tế, giống khảo sátÍt ngữ cảnh, chuyển tiếp đột ngộtTập trung, chính xácTrung bình (kỹ thuật)Không có
Grok-3Hấp dẫn, theo chủ đềĐôi khi khái quát hóaRộng, dễ hiểuRất caoKhông có; hơi sáo rỗng
Gemini 2.5 ProKỹ thuật, nghiêm ngặtDày đặc, yêu cầu nền tảng kỹ thuậtRất mạnh mẽThấp hơn (không kỹ thuật)Không có

Tốt nhất chung cuộc

Theo tôi, tác giả chiến thắng là Grok 3phong cách viết học thuật.

  • Sử dụng lối kể chuyện và ẩn dụ dễ hiểu (“hành trình công nghệ”), khiến người đọc không chuyên cũng dễ đọc.
  • Dẫn dắt người đọc theo trình tự thời gian qua lịch sử CPU, đồng thời đề cập đến các chủ đề hiện đại (đa lõi, chuyên môn hóa, tương lai).
  • Giải thích các khái niệm chính mà không làm người đọc choáng ngợp bởi thuật ngữ chuyên ngành hay các thuật ngữ kỹ thuật khô khan.
  • Bạn không cần kiến thức chuyên môn sâu rộng để theo dõi và thưởng thức tác phẩm.

Kiểm tra đạo văn

Tôi đã sử dụng Trình kiểm tra đạo văn của Grammarly để kiểm tra nội dung và xem từng AI đang ở vị trí nào.

Bạn có thể xem kết quả trong bảng sau:

Mô hình/Biến thểĐạo vănNgữ phápChính tảDấu câuNgắn gọnDễ đọc
ChatGPT-4o8 lỗi viếtOKKHÔNG ĐẠTKHÔNG ĐẠTKHÔNG ĐẠTOK
Claude Sonnet 48 lỗi viếtKHÔNG ĐẠTOKOKKHÔNG ĐẠTOK
DeepSeek2 lỗi viếtOKKHÔNG ĐẠTOKOKOK
Grok-38 lỗi viếtOKOKOKKHÔNG ĐẠTOK
Gemini 2.5 Pro22 lỗi viếtKHÔNG ĐẠTKHÔNG ĐẠTOKKHÔNG ĐẠTOK

Người chiến thắng rõ ràng là Grok 3 mặc dù nó không hoàn hảo; bạn có thể tự sửa những lỗi nhỏ và có một bài luận “đạt giải” 😊 (lol)

Giải quyết vấn đề AI

Bài toán tích phân A + B

Ai cũng biết rằng AI đã lãng phí rất nhiều sức mạnh tính toán và kiến thức, nhưng chúng so sánh với nhau như thế nào?

Hãy cùng xem xét bài kiểm tra toán phổ biến này được cung cấp ở một số trường trung học:

1A = Tích phân từ 0 đến 1 của ex^2
2B = Tích phân từ 1 đến e2 của ln(√x)
3Tìm A + B

Kết quả/So sánh

Đây chính là lúc các vấn đề của mọi AI bắt đầu lộ diện. Mọi AI đều gặp khó khăn trong việc cung cấp giải pháp sao chép/dán sẵn sàng, vốn là phần đơn giản nhất của “vấn đề”. Các phép tính đã được thực hiện, nhưng thực tế không thể sao chép được, vì vậy tôi đã phải hỏi đi hỏi lại nhiều lần ở nhiều định dạng khác nhau cho đến khi có thể lưu nó dưới dạng tệp .txt cho bạn.

Mô hình/Biến thểChất lượng mãHạn chếĐộ mạnh mẽKhả năng đọcTính thân thiện với sao chép-dán
Claude 4 SonnetXuất sắcKhông cóRất caoXuất sắcTốt nhất (dễ, giảm giá, từng bước)
DeepSeekXuất sắcLạm dụng tiêu đề một chútRất caoXuất sắcXuất sắc
ChatGPT-4oXuất sắcKhông cóRất caoXuất sắcXuất sắc
Grok 3TốtDài dòng, hơi lộn xộnCaoTốtTốt
Gemini 1.5 ProĐủKhông có câu trả lời tượng trưng chính xácCaoXuất sắcTốt (nhưng chỉ tóm tắt)

Câu nổi bật nhất ở đây là Claude Sonnet 4, theo tôi là câu chiến thắng. Để có kết quả số nhanh chóng, Gemini là nhanh nhất, nhưng để có độ rõ ràng và khả năng tái sử dụng hoàn toàn, hãy sử dụng Claude, DeepSeek hoặc ChatGPT-4o.

Vấn đề mã bị hỏng

Hãy cùng nâng tầm vấn đề này lên một tầm cao mới và xem trí tuệ nhân tạo (AI) thông minh đến mức nào, bằng cách yêu cầu sửa một đoạn mã C đơn giản bị hỏng:

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <string.h>
 4
 5char* copy_string(const char* src) {
 6    char* dest;
 7    strcpy(dest, src);
 8    return dest;
 9}
10
11int main() {
12    char* original = "Hello, world!";
13    char* copy = copy_string(original);
14
15    printf("Copied string: %s\n", copy);
16
17    return 0;
18}

Có vấn đề gì với đoạn mã trên? Để tôi giải thích:

  • dest trong copy_string được sử dụng chưa được khởi tạo, không được cấp phát bộ nhớ.
  • Sử dụng strcpy(dest, src) với một con trỏ chưa được khởi tạo sẽ gây ra hành vi không xác định và có khả năng gây ra sự cố.
  • Bộ nhớ cho bản sao (nếu đã được cấp phát) không bao giờ được giải phóng—có khả năng gây rò rỉ bộ nhớ.
  • Đoạn mã in ra bản sao mà không kiểm tra thành công.

Với đoạn mã trên, chúng ta xây dựng lời nhắc như sau:

 1Sửa đoạn mã sau cho tôi và cung cấp tóm tắt về các bản sửa lỗi:
 2```
 3#include <stdio.h>
 4#include <stdlib.h>
 5#include <string.h>
 6
 7char* copy_string(const char* src) {
 8    char* dest;
 9    strcpy(dest, src);
10    return dest;
11}
12
13int main() {
14    char* original = "Hello, world!";
15    char* copy = copy_string(original);
16
17    printf("Copied string: %s\n", copy);
18
19    return 0;
20}
21```

Kết quả/So sánh

Thành thật mà nói, mỗi mô hình đều đưa ra bản sửa lỗi chính xác và chuyên nghiệp.

Mô hình/Biến thểChất lượng Nội dungHạn chếĐộ mạnh mẽKhả năng đọcLỗi/Hiện vật
Claude 4 SonnetXuất sắc (xử lý trường hợp ngoại lệ, rõ ràng)Tóm tắt hơi dài dòngKiểm tra đầu vào và phân bổ NULL; giải phóng bộ nhớRất rõ ràng, mạch lạcKhông có
DeepSeekXuất sắc (ngắn gọn, chính xác)Ít dài dòng hơn một chút về xác thực đầu vàoKiểm tra phân bổ; xử lý lỗi; giải phóng bộ nhớRõ ràng, súc tíchKhông có
ChatGPT-4oXuất sắc (ngắn gọn, bao gồm tất cả)Không kiểm tra đầu vào NULL (cho src)Kiểm tra phân bổ; xử lý lỗi; giải phóng bộ nhớRất dễ đọcKhông có
Grok 3Xuất sắc (kỹ lưỡng, chuyên nghiệp)Thoát khi phân bổ lỗi (không tốt nhất cho thư viện); không kiểm tra đầu vào NULLXử lý lỗi phân bổ; giải phóng bộ nhớHơi dài dòngKhông có
Gemini 1.5 ProTuyệt vời (chuyên nghiệp, chi tiết bổ sung)Không có kiểm tra NULL đầu vào rõ ràng; nhiều bình luậnXử lý lỗi phân bổ, đặt con trỏ NULL sau khi giải phóngRất dễ đọcKhông có

Tất cả các mô hình đều đưa ra bản sửa lỗi chính xác và chuyên nghiệp. Claude 4 Sonnet đã xử lý và giải thích các trường hợp ngoại lệ một cách xuất sắc, nhưng tất cả các câu trả lời đều chắc chắn và phù hợp để sao chép/dán vào một dự án C. Không có mô hình nào đưa ra bất kỳ lỗi mới nào.

Các mã được tạo ra có thể tải xuống và xem trên kho lưu trữ tại đây .

Kết luận

Sau khi thử nghiệm thế hệ mô hình AI mới nhất trên ba nhiệm vụ rất khác nhau như viết luận học thuật, tiếp thị qua email doanh nghiệp và lập trình thực hành, tôi nhận thấy không có AI nào có thể thống trị tất cả. Thay vào đó, mỗi mô hình đều có những điểm mạnh, điểm độc đáo và trường hợp sử dụng lý tưởng riêng.

Nhưng, ai sẽ chiến thắng chung cuộc?

Điều này phụ thuộc vào nhu cầu của bạn:

  • Sẵn sàng tự động hóa hoặc xây dựng một thứ gì đó nghiêm túc? Hãy dùng ChatGPT-4o hoặc Claude 4 Sonnet để viết mã.
  • Cần giao tiếp thân thiện, tập trung vào khách hàng? Grok-3.
  • Muốn cung cấp thông tin và làm hài lòng độc giả? Grok-3 chính là người bạn đồng hành tốt nhất của bạn.

Không có AI nào “tốt nhất”, chỉ có công cụ phù hợp cho đúng công việc.

Cách thông minh nhất để sử dụng AI là kết hợp mô hình với nhiệm vụ của bạn, bởi vì như thí nghiệm này cho thấy, ngay cả những bot tiên tiến nhất cũng có cá tính và thế mạnh riêng.

Tài liệu tham khảo/Liên kết

Cảm ơn bạn đã dành thời gian đọc bài viết của tôi và hãy chia sẻ nó với bạn bè.