이 게시물에서는 사용 가능한 무료 모델을 사용하여 ChatGPT, Gemini, Grok, Deepseek, Claude를 여러 사용 사례에 대해 비교하여 어떤 모델이 사용자의 요구 사항에 가장 적합한지 파악해 보겠습니다.

테스트할 항목은 다음과 같습니다.

  • 코드 생성
  • 콘텐츠 생성
  • 문제 해결

비교할 항목은 다음과 같습니다.

  • 생성 속도
  • 코드/콘텐츠 품질/표절
  • 제약 사항
  • 견고성
  • 가독성
  • 버그/문제

참고로, 모든 테스트는 무료 모델만 사용하여 실행되었습니다.

AI 코드 생성

파이썬은 꽤 널리 사용되는 언어이므로, 원하는 언어로 파이썬을 사용하여 짧고 간단하지만 어려운 코드 생성 프롬프트를 사용하기로 했습니다.

이 프롬프트는 외부 라이브러리를 사용하지 않고 CSV 파서 스크립트를 요청하므로 간단할 것입니다.

모든 모델에 대한 프롬프트:

1외부 라이브러리를 사용하지 않고 CSV를 구문 분석할 수 있는 Python 스크립트를 만듭니다.

결과/비교

일부 모델은 스크립트를 매우 빠르게 실행하고 반환했지만, 일부 모델은 스크립트를 “생각하는” 데 5분밖에 걸리지 않았습니다. 하지만 모든 스크립트가 오류 없이 실행되어 좋았습니다.

모델생성 속도코드 품질제약 사항견고성가독성버그/문제
ChatGPT-4o19초좋음, 기본적사용자 지정 구분 기호 없음; 목록만 지원(열 이름 제외)줄바꿈이 있는 까다로운 CSV도 처리명확하고 간단함깨진 CSV 따옴표로 인해 실패할 수 있음
ChatGPT-4o Think25초매우 좋음따옴표 안의 줄바꿈은 처리하지 않음일반 CSV에 적합매우 명확하고 잘 문서화됨명확하지 않음, 제한 사항에 대한 경고
Claude Sonnet 430초좋음, 사용자 친화적따옴표 안의 줄바꿈을 지원하지 않음; dict 출력 없음표준 파일에서 작동초보자 친화적행 길이가 일치하지 않을 경우 경고
Claude Sonnet 4 Think37초좋음, 상세함따옴표 안의 줄바꿈 없음; 기본적인 출력대부분의 파일에서 작동상세함, 많은 예제데이터 불일치에 대해 경고
DeepSeek62초매우 좋음열 이름 접근 없음; 큰 파일에서 메모리 사용량 증가복잡한 경우, 줄바꿈 처리 양호깔끔하고 간단함명확하지 않음; 큰 파일에서는 느릴 수 있음
DeepSeek Think653초간단함기본만 지원; 헤더 없음; 따옴표 안의 줄바꿈 처리 불가간단한 CSV에서만 작동최소, 따라하기 쉬움복잡한 CSV에서는 작동하지 않을 수 있음
Gemini 1.5 Pro29초매우 좋음따옴표 안의 줄바꿈 처리 불가깨진 행 경고/건너뛰기사용자 친화적이고 깔끔함잘못된 줄 건너뛰기
Grok-3기본9초헤더 없음; 따옴표 안의 줄바꿈 처리 불가기본 CSV 파일 사용 가능간단하고 짧음깨진 파일 오류 처리 없음
Grok-3 Think87초기본매우 간단함; 헤더나 복잡한 대소문자 없음작거나 간단한 파일 사용 가능짧고 읽기 쉬움오류 최소화

전반적으로 최고

제 생각에 이 모델들 중 가장 뛰어난 모델은 ChatGPT-4o(Think)입니다. 적절한 생성 시간과 출력 사이의 균형을 이룹니다.

  • 특히 “일반” CSV 파일(셀 내부에 이상한 줄바꿈 없음)에서 가장 실용적입니다.
  • 사전(열 이름)과 목록 출력을 모두 제공합니다.
  • 사용자 지정 구분 기호, 우수한 오류 처리, 명확한 피드백을 제공합니다.
  • 읽기, 확장 및 통합이 매우 쉽습니다.
  • 명령줄에서 또는 가져온 함수로 작동합니다.

아름다운 코드를 보고 싶거나, 배우고 싶거나, 자신의 스크립트에 사용하고 싶다면 ChatGPT-4o(Think)가 최고입니다. 대부분의 사람과 대부분의 파일에는 ChatGPT-4o(Think)가 최고입니다!

스크립트는 내 저장소 에서 다운로드하여 볼 수 있습니다.

AI 콘텐츠 생성

요즘 AI는 코드 생성에만 집중하고 있습니다. 점점 더 많은 사람들이 AI를 사용하여 콘텐츠를 생성하고 있기 때문입니다. 콘텐츠 생성에는 블로그 게시물, 문서, 이메일 등이 포함됩니다.

아래에서는 이메일학술적 글쓰기 두 가지 범주를 테스트해 보겠습니다.

이메일 생성

이메일 콘텐츠 생성 테스트에서는 다음과 같은 간단한 이메일 피치를 요청하겠습니다.

1새로 오픈한 꽃집에 대한 이메일 홍보를 작성해 주세요. 저는 절화를 판매하는데, 종종 꽃다발이나 꽃꽂이로 활용합니다. 맞춤 꽃꽂이 서비스도 제공하며, 매일 또는 매주 꽃을 배달해 드리고, 웨딩이나 이벤트 스타일링 서비스도 제공할 수 있습니다.

결과/비교

모든 AI/모델이 콘텐츠 생성 속도가 엄청나게 빠르기 때문에 아래 표에 생성 속도 열은 포함하지 않겠습니다.

모델/변형콘텐츠 품질제약견고성가독성버그/아티팩트
ChatGPT-4o매우 자연스럽고 깔끔함약간 일반적임매우 강력함훌륭함없음
ChatGPT-4o Think창의적이고 명확하며 인간적임안전하지만 미묘한 마케팅 요소가 추가됨훌륭함매우 높음없음
Claude Sonnet 4전문적이고 따뜻함약간 격식 있고 약간 길음매우 강력함매우 높음없음
Claude Sonnet 4 Think상세하고 섹션화됨지나치게 장황하고 “웹사이트 스타일"임견고함높음없음, 하지만 피치 이메일에는 너무 길음
DeepSeek친절하고 명확함“추신” 추가, 약간의 템플릿 느낌강함매우 높음없음, 하지만 약간 일반적임
DeepSeek Think여러 제목/본문 옵션한 파일에 여러 개의 전체 이메일좋음좋음“한 이메일” 규칙을 따르지 않음; 선택지가 너무 많음
Gemini 1.5 Pro세련되고 전문적임세 개의 이메일을 한 파일에 (다양한 클라이언트용)좋음높음“한 이메일” 규칙을 무시함; 파일당 너무 많음
Grok 3따뜻하고 직접적임약간 반복적인 언어좋음좋음없음, 하지만 약간 공식적임
Grok 3 Think친절하고 명확함, 섹션화긴 소개, 약간 “뭉뚱그려진” 형식좋음좋음없음, 약간 세분화됨

전반적으로 최고

제 생각에는 ChatGPT-4o(두 버전 모두)가 다음과 같은 이유로 더 좋습니다.

  • 파일당 하나의 즉시 사용 가능한 자연스러운 이메일을 생성합니다.
  • 형식 오류, AI 오류, 과도한 길이 없이 가독성이 높습니다.

가장 자연스럽고 읽기 쉬우며 전문적인 느낌의 이메일을 작성했습니다. 제 지시 사항을 정확히 따랐습니다(파일당 하나의 이메일, 추가 형식이나 AI 오류 없음). 따라서 몇 가지 개인 정보만 추가하면 이메일 피치를 바로 사용할 수 있습니다.

생성된 콘텐츠는 제 저장소 에서 다운로드하여 볼 수 있습니다.

학술적 글쓰기

AI를 이용하여 학술적 글쓰기를 작성하는 사람들이 점점 늘어나는 것은 놀라운 일이 아닙니다. 하지만 생성된 콘텐츠 대부분은 표절 검사에서 탈락합니다. AI가 독창적인 콘텐츠를 생성하지 못하거나, 입력이 신속하게 이루어지지 않기 때문입니다.

두 번째 시험에서는 다음과 같은 주제를 가진 짧은 에세이를 제출해 주시기 바랍니다.

1학술적인 글쓰기 스타일과 독창적인 내용을 활용하여 CPU의 진화에 대한 짧은 에세이(최대 1,000단어)를 작성하십시오. 기존 에세이 또는 자료의 내용은 사용하지 마십시오. 필요한 경우 참고문헌을 포함하십시오.

결과/비교

모델/변형콘텐츠 품질한계견고성가독성버그/아티팩트
ChatGPT-4o체계적이고, 학술적이며, 간결함약간 공식적임; 서사적 매력 없음강력함, 최신성높음 (기술 독자 대상)없음
클로드 소네트 4백과사전적, 서사적장황함, 약간의 반복포괄적임매끄럽고 접근 가능없음; 약간 장황함
DeepSeek간결함, 사실적, 설문 조사 유사맥락 부족, 갑작스러운 전환집중력, 정확성보통 (기술적)없음
Grok-3매력적이고, 주제 지향적임간헐적 일반화광범위하고 접근 가능매우 높음없음; 약간의 진부함
Gemini 2.5 Pro기술적, 엄격함밀도가 높고 기술적 배경을 기대함매우 견고함낮음(비기술적)없음

종합 최고

제 생각에 학술적인 글쓰기 측면에서 Grok 3이 우승작입니다.

  • 스토리텔링과 이해하기 쉬운 비유(“기술 오디세이”)를 사용하여 비전문가도 읽기 편합니다.
  • CPU 역사를 연대순으로 설명하면서 최신 주제(멀티 코어, 전문 분야, 미래)를 다룹니다.
  • 전문 용어나 딱딱한 기술적인 내용으로 독자를 압도하지 않고 핵심 개념을 설명합니다.
  • 깊은 기술적 배경 지식이 없어도 읽고 즐길 수 있습니다.

표절 검사

Grammarly의 표절 검사기 를 사용하여 콘텐츠를 검사하고 각 AI의 수준을 확인했습니다.

다음 표에서 결과를 확인할 수 있습니다.

모델/변형표절문법맞춤법구두점간결성가독성
ChatGPT-4o쓰기 문제 8개OKFAILFAILFAILOK
Claude Sonnet 4쓰기 문제 8개FAILOKOKFAILOK
DeepSeek쓰기 문제 2개OKOKFAILOKOK
Grok-3쓰기 문제 8개OKOKOKFAILOK
Gemini 2.5 Pro22개 작문 문제FAILFAILOKFAILOK

완벽하지는 않지만, Grok 3이 확실히 우승작입니다. 작은 문제들은 직접 해결하고 “수상 경력에 빛나는” 에세이를 만들어 보세요 😊 (ㅎㅎ)

AI 문제 해결

A + B 적분 문제

AI가 엄청난 양의 컴퓨팅 파워와 지식을 낭비하고 있다는 것은 이미 잘 알려진 사실입니다. 하지만 AI를 서로 비교하면 어떨까요?

일부 고등학교에서 제공하는 인기 있는 수학 퀴즈를 사용해 보겠습니다.

1A = 0에서 1까지의 ex^2 적분
2B = 1에서 ln(√x)의 e2까지의 적분
3A + B를 구하세요

결과/비교

모든 AI의 문제점이 드러나기 시작하는 부분입니다. 모든 AI가 “문제"의 가장 간단한 부분인 복사/붙여넣기 솔루션을 제공하는 데 어려움을 겪었습니다. 계산은 완료되었지만 실제로 복사할 수 없었기 때문에 여러 형식으로 여러 번 요청한 끝에 .txt 파일로 저장할 수 있었습니다.

모델/변형코드 품질제한 사항견고성가독성복사/붙여넣기 편의성
클로드 4 소네트매우 좋음없음매우 높음매우 좋음최고 (쉬움, 마크다운, 단계별)
딥시크매우 좋음헤더 과다 사용매우 높음매우 좋음훌륭함
ChatGPT-4o매우 좋음없음매우 높음매우 좋음훌륭함
Grok 3좋음장황하고 약간 어수선함높음좋음좋음
Gemini 1.5 Pro적절함정확한 기호 답변 없음높음훌륭함좋음 (단, 요약만 가능)

제 생각에는 Claude Sonnet 4가 가장 눈에 띕니다. 빠른 숫자 결과를 얻으려면 Gemini가 가장 빠르지만, 완벽한 명확성과 재사용성을 위해서는 Claude, DeepSeek 또는 ChatGPT-4o를 사용하는 것이 좋습니다.

깨진 코드 문제

한 단계 더 나아가, 깨진 일반 C 코드를 수정하도록 요청하여 AI들이 얼마나 똑똑한지 확인해 보겠습니다.

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <string.h>
 4
 5char* copy_string(const char* src) {
 6    char* dest;
 7    strcpy(dest, src);
 8    return dest;
 9}
10
11int main() {
12    char* original = "Hello, world!";
13    char* copy = copy_string(original);
14
15    printf("Copied string: %s\n", copy);
16
17    return 0;
18}

위 코드의 문제점은 무엇일까요? 설명해 드리겠습니다.

  • copy_stringdest가 초기화되지 않은 상태로 사용되며, 메모리가 할당되지 않았습니다.
  • 초기화되지 않은 포인터로 strcpy(dest, src)를 사용하면 정의되지 않은 동작이 발생하고 충돌이 발생할 가능성이 높습니다.
  • 복사본에 할당된 메모리는 해제되지 않아 메모리 누수가 발생할 수 있습니다.
  • 이 코드는 성공 여부를 확인하지 않고 복사본을 출력합니다.

위 코드에서 프롬프트를 다음과 같이 구성합니다.

 1다음 코드를 수정해 주시고 수정 사항 요약을 제공해 주세요.
 2```
 3#include <stdio.h>
 4#include <stdlib.h>
 5#include <string.h>
 6
 7char* copy_string(const char* src) {
 8    char* dest;
 9    strcpy(dest, src);
10    return dest;
11}
12
13int main() {
14    char* original = "Hello, world!";
15    char* copy = copy_string(original);
16
17    printf("Copied string: %s\n", copy);
18
19    return 0;
20}
21```

결과/비교

솔직히 말해서, 모든 모델이 정확하고 전문적인 수정을 보여주었습니다.

모델/변형콘텐츠 품질제약 사항견고성가독성버그/아티팩트
클로드 4 소네트훌륭함(에지 케이스 처리, 명확함)약간 장황한 요약NULL 입력 및 할당 확인, 메모리 해제매우 명확하고 깔끔함없음
딥시크훌륭함(간결함, 정확함)입력 검증에서 약간 덜 장황함할당 확인, 오류 처리, 메모리 해제명확하고 간결함없음
ChatGPT-4o훌륭함(간결함, 모든 것을 포괄함)NULL 입력 확인 없음(소스 코드)할당 확인, 오류 처리, 메모리 해제매우 가독성 좋음없음
Grok 3훌륭함(철저함, 전문적)할당 실패 시 종료(라이브러리에 적합하지 않음); NULL 입력 확인 없음할당 오류 처리; 메모리 해제약간 장황함없음
Gemini 1.5 Pro훌륭함(전문적, 세부적)명시적인 입력 NULL 확인 없음; 주석 많음할당 오류 처리, 해제 후 포인터 NULL 설정매우 가독성 좋음없음

모든 모델에서 정확하고 전문적인 수정이 이루어졌습니다. Claude 4 Sonnet은 예외 처리 및 설명 면에서 매우 뛰어났지만, 모든 답변은 탄탄하며 C 프로젝트에 복사/붙여넣기에 적합합니다. 어떤 모델에서도 새로운 오류가 발생하지 않았습니다.

생성된 코드는 제 저장소 에서 다운로드하여 볼 수 있습니다.

결론

학술 에세이 작성, 비즈니스 이메일 마케팅, 실무 코딩 등 세 가지 매우 다른 작업에 최신 AI 모델을 테스트해 본 결과, 단 하나의 AI가 모든 작업을 지배하는 것은 아니라는 것을 알게 되었습니다. 각 모델은 고유한 강점, 특징, 그리고 이상적인 사용 사례를 가지고 있습니다.

그렇다면 누가 최종 승자일까요?

다음과 같은 필요에 따라 달라집니다.

  • 자동화를 하거나 중요한 작업을 개발할 준비가 되셨나요? ChatGPT-4o 또는 Claude 4 Sonnet을 사용하여 코드를 작성하세요.
  • 친절하고 고객 중심적인 커뮤니케이션이 필요하신가요? Grok-3를 사용하세요.
  • 독자에게 정보와 즐거움을 제공하고 싶으신가요? Grok-3가 최고의 파트너입니다.

“최고의” AI는 단 하나만 있는 것이 아니라, 적절한 작업에 적합한 도구가 있을 뿐입니다.

AI를 사용하는 가장 현명한 방법은 모델을 임무에 맞게 조정하는 것입니다. 이 실험에서 알 수 있듯이, 가장 진보된 봇조차도 고유한 개성과 강점을 가지고 있기 때문입니다.

참고 자료/링크

제 글을 읽어주셔서 감사합니다. 친구들과 공유해 주시면 감사하겠습니다.