이 게시물에서는 사용 가능한 무료 모델을 사용하여 ChatGPT, Gemini, Grok, Deepseek, Claude를 여러 사용 사례에 대해 비교하여 어떤 모델이 사용자의 요구 사항에 가장 적합한지 파악해 보겠습니다.
테스트할 항목은 다음과 같습니다.
- 코드 생성
- 콘텐츠 생성
- 문제 해결
비교할 항목은 다음과 같습니다.
- 생성 속도
- 코드/콘텐츠 품질/표절
- 제약 사항
- 견고성
- 가독성
- 버그/문제
참고로, 모든 테스트는 무료 모델만 사용하여 실행되었습니다.
AI 코드 생성
파이썬은 꽤 널리 사용되는 언어이므로, 원하는 언어로 파이썬을 사용하여 짧고 간단하지만 어려운 코드 생성 프롬프트를 사용하기로 했습니다.
이 프롬프트는 외부 라이브러리를 사용하지 않고 CSV 파서 스크립트를 요청하므로 간단할 것입니다.
모든 모델에 대한 프롬프트:
1외부 라이브러리를 사용하지 않고 CSV를 구문 분석할 수 있는 Python 스크립트를 만듭니다.
결과/비교
일부 모델은 스크립트를 매우 빠르게 실행하고 반환했지만, 일부 모델은 스크립트를 “생각하는” 데 5분밖에 걸리지 않았습니다. 하지만 모든 스크립트가 오류 없이 실행되어 좋았습니다.
모델 | 생성 속도 | 코드 품질 | 제약 사항 | 견고성 | 가독성 | 버그/문제 |
---|---|---|---|---|---|---|
ChatGPT-4o | 19초 | 좋음, 기본적 | 사용자 지정 구분 기호 없음; 목록만 지원(열 이름 제외) | 줄바꿈이 있는 까다로운 CSV도 처리 | 명확하고 간단함 | 깨진 CSV 따옴표로 인해 실패할 수 있음 |
ChatGPT-4o Think | 25초 | 매우 좋음 | 따옴표 안의 줄바꿈은 처리하지 않음 | 일반 CSV에 적합 | 매우 명확하고 잘 문서화됨 | 명확하지 않음, 제한 사항에 대한 경고 |
Claude Sonnet 4 | 30초 | 좋음, 사용자 친화적 | 따옴표 안의 줄바꿈을 지원하지 않음; dict 출력 없음 | 표준 파일에서 작동 | 초보자 친화적 | 행 길이가 일치하지 않을 경우 경고 |
Claude Sonnet 4 Think | 37초 | 좋음, 상세함 | 따옴표 안의 줄바꿈 없음; 기본적인 출력 | 대부분의 파일에서 작동 | 상세함, 많은 예제 | 데이터 불일치에 대해 경고 |
DeepSeek | 62초 | 매우 좋음 | 열 이름 접근 없음; 큰 파일에서 메모리 사용량 증가 | 복잡한 경우, 줄바꿈 처리 양호 | 깔끔하고 간단함 | 명확하지 않음; 큰 파일에서는 느릴 수 있음 |
DeepSeek Think | 653초 | 간단함 | 기본만 지원; 헤더 없음; 따옴표 안의 줄바꿈 처리 불가 | 간단한 CSV에서만 작동 | 최소, 따라하기 쉬움 | 복잡한 CSV에서는 작동하지 않을 수 있음 |
Gemini 1.5 Pro | 29초 | 매우 좋음 | 따옴표 안의 줄바꿈 처리 불가 | 깨진 행 경고/건너뛰기 | 사용자 친화적이고 깔끔함 | 잘못된 줄 건너뛰기 |
Grok-3 | 기본 | 9초 | 헤더 없음; 따옴표 안의 줄바꿈 처리 불가 | 기본 CSV 파일 사용 가능 | 간단하고 짧음 | 깨진 파일 오류 처리 없음 |
Grok-3 Think | 87초 | 기본 | 매우 간단함; 헤더나 복잡한 대소문자 없음 | 작거나 간단한 파일 사용 가능 | 짧고 읽기 쉬움 | 오류 최소화 |
전반적으로 최고
제 생각에 이 모델들 중 가장 뛰어난 모델은 ChatGPT-4o(Think)입니다. 적절한 생성 시간과 출력 사이의 균형을 이룹니다.
- 특히 “일반” CSV 파일(셀 내부에 이상한 줄바꿈 없음)에서 가장 실용적입니다.
- 사전(열 이름)과 목록 출력을 모두 제공합니다.
- 사용자 지정 구분 기호, 우수한 오류 처리, 명확한 피드백을 제공합니다.
- 읽기, 확장 및 통합이 매우 쉽습니다.
- 명령줄에서 또는 가져온 함수로 작동합니다.
아름다운 코드를 보고 싶거나, 배우고 싶거나, 자신의 스크립트에 사용하고 싶다면 ChatGPT-4o(Think)가 최고입니다. 대부분의 사람과 대부분의 파일에는 ChatGPT-4o(Think)가 최고입니다!
스크립트는 내 저장소 에서 다운로드하여 볼 수 있습니다.
AI 콘텐츠 생성
요즘 AI는 코드 생성에만 집중하고 있습니다. 점점 더 많은 사람들이 AI를 사용하여 콘텐츠를 생성하고 있기 때문입니다. 콘텐츠 생성에는 블로그 게시물, 문서, 이메일 등이 포함됩니다.
아래에서는 이메일과 학술적 글쓰기 두 가지 범주를 테스트해 보겠습니다.
이메일 생성
이메일 콘텐츠 생성 테스트에서는 다음과 같은 간단한 이메일 피치를 요청하겠습니다.
1새로 오픈한 꽃집에 대한 이메일 홍보를 작성해 주세요. 저는 절화를 판매하는데, 종종 꽃다발이나 꽃꽂이로 활용합니다. 맞춤 꽃꽂이 서비스도 제공하며, 매일 또는 매주 꽃을 배달해 드리고, 웨딩이나 이벤트 스타일링 서비스도 제공할 수 있습니다.
결과/비교
모든 AI/모델이 콘텐츠 생성 속도가 엄청나게 빠르기 때문에 아래 표에 생성 속도 열은 포함하지 않겠습니다.
모델/변형 | 콘텐츠 품질 | 제약 | 견고성 | 가독성 | 버그/아티팩트 |
---|---|---|---|---|---|
ChatGPT-4o | 매우 자연스럽고 깔끔함 | 약간 일반적임 | 매우 강력함 | 훌륭함 | 없음 |
ChatGPT-4o Think | 창의적이고 명확하며 인간적임 | 안전하지만 미묘한 마케팅 요소가 추가됨 | 훌륭함 | 매우 높음 | 없음 |
Claude Sonnet 4 | 전문적이고 따뜻함 | 약간 격식 있고 약간 길음 | 매우 강력함 | 매우 높음 | 없음 |
Claude Sonnet 4 Think | 상세하고 섹션화됨 | 지나치게 장황하고 “웹사이트 스타일"임 | 견고함 | 높음 | 없음, 하지만 피치 이메일에는 너무 길음 |
DeepSeek | 친절하고 명확함 | “추신” 추가, 약간의 템플릿 느낌 | 강함 | 매우 높음 | 없음, 하지만 약간 일반적임 |
DeepSeek Think | 여러 제목/본문 옵션 | 한 파일에 여러 개의 전체 이메일 | 좋음 | 좋음 | “한 이메일” 규칙을 따르지 않음; 선택지가 너무 많음 |
Gemini 1.5 Pro | 세련되고 전문적임 | 세 개의 이메일을 한 파일에 (다양한 클라이언트용) | 좋음 | 높음 | “한 이메일” 규칙을 무시함; 파일당 너무 많음 |
Grok 3 | 따뜻하고 직접적임 | 약간 반복적인 언어 | 좋음 | 좋음 | 없음, 하지만 약간 공식적임 |
Grok 3 Think | 친절하고 명확함, 섹션화 | 긴 소개, 약간 “뭉뚱그려진” 형식 | 좋음 | 좋음 | 없음, 약간 세분화됨 |
전반적으로 최고
제 생각에는 ChatGPT-4o(두 버전 모두)가 다음과 같은 이유로 더 좋습니다.
- 파일당 하나의 즉시 사용 가능한 자연스러운 이메일을 생성합니다.
- 형식 오류, AI 오류, 과도한 길이 없이 가독성이 높습니다.
가장 자연스럽고 읽기 쉬우며 전문적인 느낌의 이메일을 작성했습니다. 제 지시 사항을 정확히 따랐습니다(파일당 하나의 이메일, 추가 형식이나 AI 오류 없음). 따라서 몇 가지 개인 정보만 추가하면 이메일 피치를 바로 사용할 수 있습니다.
생성된 콘텐츠는 제 저장소 에서 다운로드하여 볼 수 있습니다.
학술적 글쓰기
AI를 이용하여 학술적 글쓰기를 작성하는 사람들이 점점 늘어나는 것은 놀라운 일이 아닙니다. 하지만 생성된 콘텐츠 대부분은 표절 검사에서 탈락합니다. AI가 독창적인 콘텐츠를 생성하지 못하거나, 입력이 신속하게 이루어지지 않기 때문입니다.
두 번째 시험에서는 다음과 같은 주제를 가진 짧은 에세이를 제출해 주시기 바랍니다.
1학술적인 글쓰기 스타일과 독창적인 내용을 활용하여 CPU의 진화에 대한 짧은 에세이(최대 1,000단어)를 작성하십시오. 기존 에세이 또는 자료의 내용은 사용하지 마십시오. 필요한 경우 참고문헌을 포함하십시오.
결과/비교
모델/변형 | 콘텐츠 품질 | 한계 | 견고성 | 가독성 | 버그/아티팩트 |
---|---|---|---|---|---|
ChatGPT-4o | 체계적이고, 학술적이며, 간결함 | 약간 공식적임; 서사적 매력 없음 | 강력함, 최신성 | 높음 (기술 독자 대상) | 없음 |
클로드 소네트 4 | 백과사전적, 서사적 | 장황함, 약간의 반복 | 포괄적임 | 매끄럽고 접근 가능 | 없음; 약간 장황함 |
DeepSeek | 간결함, 사실적, 설문 조사 유사 | 맥락 부족, 갑작스러운 전환 | 집중력, 정확성 | 보통 (기술적) | 없음 |
Grok-3 | 매력적이고, 주제 지향적임 | 간헐적 일반화 | 광범위하고 접근 가능 | 매우 높음 | 없음; 약간의 진부함 |
Gemini 2.5 Pro | 기술적, 엄격함 | 밀도가 높고 기술적 배경을 기대함 | 매우 견고함 | 낮음(비기술적) | 없음 |
종합 최고
제 생각에 학술적인 글쓰기 측면에서 Grok 3이 우승작입니다.
- 스토리텔링과 이해하기 쉬운 비유(“기술 오디세이”)를 사용하여 비전문가도 읽기 편합니다.
- CPU 역사를 연대순으로 설명하면서 최신 주제(멀티 코어, 전문 분야, 미래)를 다룹니다.
- 전문 용어나 딱딱한 기술적인 내용으로 독자를 압도하지 않고 핵심 개념을 설명합니다.
- 깊은 기술적 배경 지식이 없어도 읽고 즐길 수 있습니다.
표절 검사
Grammarly의 표절 검사기 를 사용하여 콘텐츠를 검사하고 각 AI의 수준을 확인했습니다.
다음 표에서 결과를 확인할 수 있습니다.
모델/변형 | 표절 | 문법 | 맞춤법 | 구두점 | 간결성 | 가독성 |
---|---|---|---|---|---|---|
ChatGPT-4o | 쓰기 문제 8개 | OK | FAIL | FAIL | FAIL | OK |
Claude Sonnet 4 | 쓰기 문제 8개 | FAIL | OK | OK | FAIL | OK |
DeepSeek | 쓰기 문제 2개 | OK | OK | FAIL | OK | OK |
Grok-3 | 쓰기 문제 8개 | OK | OK | OK | FAIL | OK |
Gemini 2.5 Pro | 22개 작문 문제 | FAIL | FAIL | OK | FAIL | OK |
완벽하지는 않지만, Grok 3이 확실히 우승작입니다. 작은 문제들은 직접 해결하고 “수상 경력에 빛나는” 에세이를 만들어 보세요 😊 (ㅎㅎ)
AI 문제 해결
A + B 적분 문제
AI가 엄청난 양의 컴퓨팅 파워와 지식을 낭비하고 있다는 것은 이미 잘 알려진 사실입니다. 하지만 AI를 서로 비교하면 어떨까요?
일부 고등학교에서 제공하는 인기 있는 수학 퀴즈를 사용해 보겠습니다.
1A = 0에서 1까지의 ex^2 적분
2B = 1에서 ln(√x)의 e2까지의 적분
3A + B를 구하세요
결과/비교
모든 AI의 문제점이 드러나기 시작하는 부분입니다. 모든 AI가 “문제"의 가장 간단한 부분인 복사/붙여넣기 솔루션을 제공하는 데 어려움을 겪었습니다. 계산은 완료되었지만 실제로 복사할 수 없었기 때문에 여러 형식으로 여러 번 요청한 끝에 .txt 파일로 저장할 수 있었습니다.
모델/변형 | 코드 품질 | 제한 사항 | 견고성 | 가독성 | 복사/붙여넣기 편의성 |
---|---|---|---|---|---|
클로드 4 소네트 | 매우 좋음 | 없음 | 매우 높음 | 매우 좋음 | 최고 (쉬움, 마크다운, 단계별) |
딥시크 | 매우 좋음 | 헤더 과다 사용 | 매우 높음 | 매우 좋음 | 훌륭함 |
ChatGPT-4o | 매우 좋음 | 없음 | 매우 높음 | 매우 좋음 | 훌륭함 |
Grok 3 | 좋음 | 장황하고 약간 어수선함 | 높음 | 좋음 | 좋음 |
Gemini 1.5 Pro | 적절함 | 정확한 기호 답변 없음 | 높음 | 훌륭함 | 좋음 (단, 요약만 가능) |
제 생각에는 Claude Sonnet 4가 가장 눈에 띕니다. 빠른 숫자 결과를 얻으려면 Gemini가 가장 빠르지만, 완벽한 명확성과 재사용성을 위해서는 Claude, DeepSeek 또는 ChatGPT-4o를 사용하는 것이 좋습니다.
깨진 코드 문제
한 단계 더 나아가, 깨진 일반 C 코드를 수정하도록 요청하여 AI들이 얼마나 똑똑한지 확인해 보겠습니다.
1#include <stdio.h>
2#include <stdlib.h>
3#include <string.h>
4
5char* copy_string(const char* src) {
6 char* dest;
7 strcpy(dest, src);
8 return dest;
9}
10
11int main() {
12 char* original = "Hello, world!";
13 char* copy = copy_string(original);
14
15 printf("Copied string: %s\n", copy);
16
17 return 0;
18}
위 코드의 문제점은 무엇일까요? 설명해 드리겠습니다.
copy_string
의dest
가 초기화되지 않은 상태로 사용되며, 메모리가 할당되지 않았습니다.- 초기화되지 않은 포인터로
strcpy(dest, src)
를 사용하면 정의되지 않은 동작이 발생하고 충돌이 발생할 가능성이 높습니다. - 복사본에 할당된 메모리는 해제되지 않아 메모리 누수가 발생할 수 있습니다.
- 이 코드는 성공 여부를 확인하지 않고 복사본을 출력합니다.
위 코드에서 프롬프트를 다음과 같이 구성합니다.
1다음 코드를 수정해 주시고 수정 사항 요약을 제공해 주세요.
2```
3#include <stdio.h>
4#include <stdlib.h>
5#include <string.h>
6
7char* copy_string(const char* src) {
8 char* dest;
9 strcpy(dest, src);
10 return dest;
11}
12
13int main() {
14 char* original = "Hello, world!";
15 char* copy = copy_string(original);
16
17 printf("Copied string: %s\n", copy);
18
19 return 0;
20}
21```
결과/비교
솔직히 말해서, 모든 모델이 정확하고 전문적인 수정을 보여주었습니다.
모델/변형 | 콘텐츠 품질 | 제약 사항 | 견고성 | 가독성 | 버그/아티팩트 |
---|---|---|---|---|---|
클로드 4 소네트 | 훌륭함(에지 케이스 처리, 명확함) | 약간 장황한 요약 | NULL 입력 및 할당 확인, 메모리 해제 | 매우 명확하고 깔끔함 | 없음 |
딥시크 | 훌륭함(간결함, 정확함) | 입력 검증에서 약간 덜 장황함 | 할당 확인, 오류 처리, 메모리 해제 | 명확하고 간결함 | 없음 |
ChatGPT-4o | 훌륭함(간결함, 모든 것을 포괄함) | NULL 입력 확인 없음(소스 코드) | 할당 확인, 오류 처리, 메모리 해제 | 매우 가독성 좋음 | 없음 |
Grok 3 | 훌륭함(철저함, 전문적) | 할당 실패 시 종료(라이브러리에 적합하지 않음); NULL 입력 확인 없음 | 할당 오류 처리; 메모리 해제 | 약간 장황함 | 없음 |
Gemini 1.5 Pro | 훌륭함(전문적, 세부적) | 명시적인 입력 NULL 확인 없음; 주석 많음 | 할당 오류 처리, 해제 후 포인터 NULL 설정 | 매우 가독성 좋음 | 없음 |
모든 모델에서 정확하고 전문적인 수정이 이루어졌습니다. Claude 4 Sonnet은 예외 처리 및 설명 면에서 매우 뛰어났지만, 모든 답변은 탄탄하며 C 프로젝트에 복사/붙여넣기에 적합합니다. 어떤 모델에서도 새로운 오류가 발생하지 않았습니다.
생성된 코드는 제 저장소 에서 다운로드하여 볼 수 있습니다.
결론
학술 에세이 작성, 비즈니스 이메일 마케팅, 실무 코딩 등 세 가지 매우 다른 작업에 최신 AI 모델을 테스트해 본 결과, 단 하나의 AI가 모든 작업을 지배하는 것은 아니라는 것을 알게 되었습니다. 각 모델은 고유한 강점, 특징, 그리고 이상적인 사용 사례를 가지고 있습니다.
그렇다면 누가 최종 승자일까요?
다음과 같은 필요에 따라 달라집니다.
- 자동화를 하거나 중요한 작업을 개발할 준비가 되셨나요? ChatGPT-4o 또는 Claude 4 Sonnet을 사용하여 코드를 작성하세요.
- 친절하고 고객 중심적인 커뮤니케이션이 필요하신가요? Grok-3를 사용하세요.
- 독자에게 정보와 즐거움을 제공하고 싶으신가요? Grok-3가 최고의 파트너입니다.
“최고의” AI는 단 하나만 있는 것이 아니라, 적절한 작업에 적합한 도구가 있을 뿐입니다.
AI를 사용하는 가장 현명한 방법은 모델을 임무에 맞게 조정하는 것입니다. 이 실험에서 알 수 있듯이, 가장 진보된 봇조차도 고유한 개성과 강점을 가지고 있기 때문입니다.
참고 자료/링크
제 글을 읽어주셔서 감사합니다. 친구들과 공유해 주시면 감사하겠습니다.
댓글