Ebben a bejegyzésben összehasonlítjuk a ChatGPT vs. Gemini vs. Grok vs. Deepseek vs. Claude teszteket számos felhasználási esetben, hogy megértsük, melyik felel meg leginkább az Ön igényeinek a rendelkezésre álló ingyenes modellek segítségével.
A következőket fogjuk tesztelni:
- Kódgenerálás
- Tartalomgenerálás
- Problémamegoldás
A következő szempontokat fogjuk összehasonlítani:
- Generálási sebesség
- Kód/Tartalom minősége/Plagizálás
- Korlátozások
- Robusztusság
- Olvashatóság
- Hibák/Problémák
Emlékeztetőül, minden tesztet csak ingyenes modellekkel futtatunk le.
MI kódgenerálás
Úgy döntöttem, hogy egy rövid és egyszerű, mégis kihívást jelentő promptot használok a kódgeneráláshoz, Pythont használva a kívánt nyelvként, mivel az elég népszerű.
A prompt egy CSV elemző szkriptet kér külső könyvtárak használata nélkül, így egyszerűnek kell lennie.
Prompt minden modellhez:
1Hozz létre egy Python szkriptet, amely külső könyvtár használata nélkül képes CSV fájlok elemzésére.
Eredmények/Összehasonlítás
Néhány modell nagyon gyorsan végrehajtott és adott vissza egy szkriptet, míg egyes modelleknek akár 5 percre is szüksége volt a “gondolkodásra” 🥴. Az összes szkript azonban hiba nélkül lefutott, ami jó.
Modell | Generálási sebesség | Kódminőség | Korlátozások | Robusztusság | Olvashatóság | Hibák/Problémák |
---|---|---|---|---|---|---|
ChatGPT-4o | 19 másodperc | Jó, alapvető | Nincs egyéni elválasztójel; csak listák (nem oszlopnév szerint) | Kezeli a bonyolult CSV-ket új sorokkal | Világos, egyértelmű | Hibás CSV idézőjelek esetén hibás lehet |
ChatGPT-4o Gondolkodj | 25 másodperc | Kiváló | Nem kezeli az új sorokat az idézőjeleken belül | Nagyszerű a normál CSV-khez | Nagyon világos, jól dokumentált | Nem nyilvánvaló, figyelmeztet a korlátokra |
Claude Sonnet 4 | 30 másodperc | Jó, felhasználóbarát | Nem támogatja az új sorokat az idézőjelek között; nincs szótárkimenet | Standard fájlokhoz működik | Kezdőbarát | Figyelmeztet, ha a sorok hossza nem egyezik |
Claude Sonnet 4 Think | 37 másodperc | Jó, részletes | Nincsenek sortörések az idézőjelek között; alapvető kimenet | A legtöbb fájlhoz működik | Részletes, sok példa | Figyelmeztet az adateltérésekre |
DeepSeek | 62 másodperc | Nagyon jó | Nincs oszlopnév-hozzáférés; több memóriát használ nagy fájlokhoz | Kezeli az összetett eseteket, sortöréseket OK | Letisztult, egyszerű | Nem nyilvánvaló; nagy fájloknál lassabb lehet |
DeepSeek Think | 653 másodperc | Egyszerű | Csak alap; nincsenek fejlécek; nem tudja kezelni az idézőjelek között lévő sortöréseket | Csak egyszerű CSV fájlokhoz működik | Minimalista, könnyen követhető | Összetett CSV fájloknál hibás lehet |
Gemini 1.5 Pro | 29 másodperc | Nagyon jó | Nem kezeli az idézőjelek között lévő sortöréseket | Figyelmeztet/kihagyja a hibás sorokat | Felhasználóbarát, rendezett | Kihagyja a hibásan formázott sorokat |
Grok-3 | Alap | 9 másodperc | Nincsenek fejlécek; Nem kezeli az idézőjelek közötti új sorokat | Alap CSV-khez megfelelő | Egyszerű, rövid | Nincs hibakezelés hibás fájlok esetén |
Grok-3 Think | 87 másodperc | Alap | Nagyon egyszerű; nincsenek fejlécek vagy bonyolult kis- és nagybetűk | Kis/egyszerű fájlokhoz megfelelő | Rövid, olvasható | Minimális hibák jelennek meg |
Összességében a legjobb
Véleményem szerint a modellek közül a ChatGPT-4o (Think) a nyertes. Egyensúlyt teremt a megfelelő generálási idő és a kimenet között.
- A legpraktikusabb, különösen a “normál” CSV fájlok esetében (nincsenek furcsa új sorok a cellákon belül).
- Szótárat (oszlopnevek) és listakimenetet is kínál.
- Testreszabható elválasztójel, jó hibakezelés és egyértelmű visszajelzés.
- Nagyon könnyen olvasható, bővíthető és integrálható.
- Parancssorból vagy importált függvényként működik.
Ha gyönyörű kódot szeretnél látni, megtanulni vagy saját szkriptekben használni: a ChatGPT-4o (Think) a legjobb. A legtöbb ember és a legtöbb fájl számára a ChatGPT-4o (Think) a nyerő!
A szkriptek letölthetők és megtekinthetők a repozitóriumomban itt .
Mesterséges intelligencia általi tartalomgenerálás
A kódgenerálás messze az egyetlen dolog, amire manapság a mesterséges intelligenciát használják, mivel egyre többen használnak mesterséges intelligenciát tartalomkészítésre. Ez blogbejegyzésektől kezdve dokumentumokon át e-mailekig és egyebekig terjed.
Az alábbiakban két kategóriát fogunk tesztelni: E-mail és Akadémiai stílusú írás.
E-mail generálás
Az e-mail tartalomgenerálási tesztünkhöz egy egyszerű e-mail pitchet fogok kérni a következő prompttal:
1Írj egy e-mailes prezentációt az új virágüzletemről. Vágott virágokat árulok, gyakran csokrokba vagy virágdíszekbe rendezve. Egyedi virágkompozíciókat is kínálok, napi vagy heti virágszállítást vállalok, és olyan szolgáltatásokat is kínálok, mint az esküvők vagy rendezvények stylingolása.
Eredmények/Összehasonlítás
Minden MI/modell nevetségesen gyorsan generálta a tartalmat, ezért a Generálási Sebesség oszlopot nem fogom belefoglalni az alábbi táblázatba.
Modell/Változat | Tartalomminőség | Korlátozások | Robusztusság | Olvashatóság | Hibák/Művek |
---|---|---|---|---|---|
ChatGPT-4o | Nagyon természetes, tiszta | Kissé általános | Nagyon erős | Kiváló | Nincs |
ChatGPT-4o Gondolat | Kreatív, világos, emberi | Biztonságos, de finom marketinget ad hozzá | Kiváló | Nagyon magas | Nincs |
Claude Sonnet 4 | Professzionális, meleg | Kissé formális, kicsit hosszú | Nagyon erős | Nagyon magas | Nincs |
Claude Sonnet 4 Gondolat | Részletes, tagolt | Túl bőbeszédű, túl “weboldalszerű” | Robusztus | Magas | Nincs, de túl hosszú egy pitch emailhez |
DeepSeek | Barátságos, világos | “Ui.:” megjegyzés hozzáadása, enyhe sablonos érzet | Erős | Nagyon magas | Nincs, de kissé általános |
DeepSeek Think | Több tárgy/törzs opció | Több teljes e-mail egy fájlban | Jó | Jó | NEM követte az “egy e-mail” szabályt; túl sok választási lehetőség |
Gemini 1.5 Pro | Letisztult, professzionális | Három e-mail egyben (különböző ügyfeleknek) | Jó | Magas | Figyelmen kívül hagyta az “egy e-mail” szabályt; túl sok fájlonként |
Grok 3 | Meleg, közvetlen | Enyhén ismétlődő nyelvezet | Jó | Jó | Nincs, de kissé sablonos |
Grok 3 Think | Barátságos, világos, szakaszos | Hosszú bevezetés, kissé “vaskos” formátum | Jó | Jó | Nincs, csak kissé szegmentált |
Összességében a legjobb
Véleményem szerint a ChatGPT-4o (mindkét verzió) a következő okok miatt nyer:
- Fájlonként egyetlen, használatra kész, természetes e-mailt hoz létre.
- Nincsenek formázási furcsaságok, mesterséges intelligencia által okozott hibák, nincs túlzott hosszúság, és könnyen olvasható.
A legtermészetesebb, legkönnyebben olvasható és professzionális hangzású e-mailt írta. Pontosan követte az utasításaimat (fájlonként egy e-mail, nincsenek extra formázások vagy mesterséges intelligencia által okozott hibák), így az e-mail pitch azonnal használható, mindössze néhány személyes adat hozzáadásával.
A létrehozott tartalom letölthető és megtekinthető a repozitóriumomban itt .
Akadémiai stílusú írás
Nem meglepő, hogy egyre többen használnak mesterséges intelligenciát (MI) akadémiai stílusú írások létrehozásához, azonban a létrehozott tartalom nagy része a plágiumellenőrzések miatt megbukik, mivel vagy a MI nem generál egyedi tartalmat, vagy a gyors bevitel miatt.
A második teszthez egy rövid esszét kérek a következő prompttal:
1Írj egy rövid esszét (maximum 1000 szó) a processzorok (CPU-k) fejlődéséről, akadémiai stílusban és egyedi tartalommal. Ne használj fel már létező esszékből vagy forrásokból származó tartalmat. Ahol szükséges, tüntesd fel a hivatkozásokat.
Eredmények/Összehasonlítás
| Modell/Változat | Tartalomminőség | Korlátozások | Robusztusság | Olvashatóság | Hibák/Műhibák | |———————-|———————————————–|————————-|———————–| | ChatGPT-4o | Strukturált, tudományos, tömör | Enyhén sablonos; nincs narratív érzék | Erős, naprakész | Magas (technikai olvasók számára) | Nincs | | Claude Sonnet 4 | Enciklopédikus, narratív | Bőbeszédű, kisebb ismétlésekkel | Átfogó | Gördülékeny, hozzáférhető | Nincs; kissé bőbeszédű | | DeepSeek | Tömör, tényszerű, felmérésszerű | Kevesebb kontextus, hirtelen átmenetek | Fókuszált, pontos | Mérsékelt (technikai) | Nincs | | Grok-3 | Lenyűgöző, tematikus | Alkalmankénti általánosítás | Tág, hozzáférhető | Nagyon magas | Nincs; kisebb klisé | | Gemini 2.5 Pro | Technikai, szigorú | Sűrű, technikai hátteret vár | Nagyon robusztus | Alsóbb (nem műszaki)| Nincs |
Összességében a legjobb
Véleményem szerint a Grok 3 a nyertes az akadémiai stílusú írás kategóriában.
- Történetmesélést és közérthető metaforákat használ (“technológiai odüsszeia”), így kellemes olvasmány a nem szakemberek számára is.
- Kronologikus sorrendben vezeti végig az olvasót a CPU-történeten, miközben modern témákat is érint (többmagos processzorok, specializáció, a jövő).
- A kulcsfogalmakat szakzsargonnal vagy száraz technikai részletekkel való elárasztás nélkül magyarázza el.
- Nincs szükség mélyreható műszaki háttérre ahhoz, hogy követni és élvezni lehessen a olvasmányt.
Plágiumkereső
A Grammarly Plagiumkeresőjét használtam a tartalom ellenőrzéséhez és az egyes mesterséges intelligenciák helyzetének megállapításához.
Az eredményeket a következő táblázatban láthatja:
Modell/Változat | Plágium | Nyelvtan | Helyesírás | Írásjelek | Tömörség | Olvashatóság |
---|---|---|---|---|---|---|
ChatGPT-4o | 8 írási probléma | OK | NEM MEGFELELŐ | NEM MEGFELELŐ | NEM MEGFELELŐ | OK |
Claude Sonnet 4 | 8 írási probléma | NEM MEGFELELŐ | OK | NEM MEGFELELŐ | OK | |
DeepSeek | 2 írási probléma | OK | NEM MEGFELELŐ | OK | OK | |
Grok-3 | 8 írási probléma | OK | OK | NEM MEGFELELŐ | OK | |
Gemini 2.5 Pro | 22 írási probléma | NEM MEGFELELŐ | NEM MEGFELELŐ | OK | NEM MEGFELELŐ | OK |
A győztes egyértelműen a Grok 3, bár nem egészen tökéletes; a kisebb hibákat magad is kijavíthatod, és egy “díjnyertes” esszét írhatsz 😊 (lol)
MI problémamegoldás
A + B integrálfeladat
Köztudott, hogy a MI-k számítási teljesítménye és tudása elenyésző, de hogyan viszonyulnak egymáshoz?
Használjuk ezt a népszerű matematikai kvízt, amelyet néhány középiskolában kínálnak:
1A = 0-tól 1-ig terjedő integrál az ex^2 függvényben
2B = ln(√x) függvény 1-től e2-ig terjedő integrálja
3Keresse meg A + B összefüggést
Eredmények/Összehasonlítás
Itt kezdenek megmutatkozni minden MI problémái. Minden egyes MI küzdött azzal, hogy kész másolható/beilleszthető megoldást kínáljon, ami a “probléma” legegyszerűbb része. A matematika megvolt, de valójában nem volt másolható, ezért többször kellett kérdeznem különböző formátumokban, mire valahogy .txt fájlként tudtam menteni.
Modell/Változat | Kódminőség | Korlátozások | Robusztusság | Olvashatóság | Másolás-beillesztés barátság |
---|---|---|---|---|---|
Claude 4 Sonnet | Kiváló | Nincs | Nagyon magas | Kiváló | Legjobb (könnyű, markdown, lépésenkénti) |
DeepSeek | Kiváló | Enyhe fejléc túlhasználat | Nagyon magas | Kiváló | Kiváló |
ChatGPT-4o | Kiváló | Nincs | Nagyon magas | Kiváló | Kiváló |
Grok 3 | Jó | Bőbeszédű, kissé zsúfolt | Magas | Jó | Jó |
Ami itt kiemelkedik, az a Claude Sonnet 4, ami véleményem szerint a győztes. Gyors numerikus eredményhez a Gemini a leggyorsabb, de a teljes áttekinthetőség és újrafelhasználhatóság érdekében maradj a Claude-nál, a DeepSeek-nél vagy a ChatGPT-4o-nál.
Hibás Kód Probléma
Fokozzuk ezt egy kicsit, és nézzük meg, mennyire okosak a mesterséges intelligenciák, azzal, hogy egy hibás, egyszerű C kódrészletet próbálunk megjavítani:
1#include <stdio.h>
2#include <stdlib.h>
3#include <string.h>
4
5char* copy_string(const char* src) {
6 char* dest;
7 strcpy(dest, src);
8 return dest;
9}
10
11int main() {
12 char* original = "Hello, world!";
13 char* copy = copy_string(original);
14
15 printf("Copied string: %s\n", copy);
16
17 return 0;
18}
Mi a baj a fenti kóddal? Hadd magyarázzam el:
- A
copy_string
-ben találhatódest
függvényt inicializálatlanul használjuk, nincs lefoglalt memória. - Az
strcpy(dest, src)
függvény használata inicializálatlan mutatóval definiálatlan viselkedést és valószínűleg összeomlást okoz. - A másolat memóriája (ha lefoglalták) soha nem szabadul fel – ez potenciális memóriaszivárgás.
- A kód kinyomtatja a másolatot a sikeresség ellenőrzése nélkül.
A fenti kóddal a következőképpen fogalmazzuk meg a promptot:
1Javítsd ki nekem a következő kódot, és add meg a javítások összefoglalását:
2```
3#include <stdio.h>
4#include <stdlib.h>
5#include <string.h>
6
7char* copy_string(const char* src) {
8 char* dest;
9 strcpy(dest, src);
10 return dest;
11}
12
13int main() {
14 char* original = "Hello, world!";
15 char* copy = copy_string(original);
16
17 printf("Copied string: %s\n", copy);
18
19 return 0;
20}
21```
Eredmények/Összehasonlítás
Őszintén szólva, minden modell helyes és professzionális javítást eredményezett.
Modell/Változat | Tartalomminőség | Korlátozások | Robusztusság | Olvashatóság | Hibák/Művek |
---|---|---|---|---|---|
Claude 4 Sonnet | Kiváló (szélsőséges esetek kezelése, világos) | Kissé részletes összefoglaló | NULL bemenet és kiosztás ellenőrzése; memória felszabadítása | Nagyon világos, áttekinthető | Nincs |
DeepSeek | Kiváló (tömör, helyes) | Kissé kevésbé részletes a bemenet validálásában | Kiosztás ellenőrzése; hibakezelés; memória felszabadítása | Világos, tömör | Nincs |
ChatGPT-4o | Kiváló (tömör, mindent lefed) | Nincs NULL bemenet ellenőrzése (forráshoz) | Kiosztás ellenőrzése; hibakezelés; memória felszabadítása | Nagyon olvasható | Nincs |
Grok 3 | Kiváló (alapos, professzionális) | Kilépés alloc hiba esetén (nem a legjobb választás könyvtárakhoz); nincs NULL bemeneti ellenőrzés | Kezeli az alloc hibákat; memóriát szabadít fel | Kissé részletes | Nincs |
Gemini 1.5 Pro | Kiváló (professzionális, extra részletesség) | Nincs explicit NULL bemeneti ellenőrzés; sok megjegyzés | Kezeli az alloc hibákat, a mutatót NULL-ra állítja fel felszabadítás után | Nagyon olvasható | Nincs |
Minden modell helyes és professzionális javítást produkált. A Claude 4 Sonnet túlteljesítette a szélső esetek kezelését és magyarázatát, de minden válasz szilárd és alkalmas másolásra/beillesztésre egy C projektbe. Egyik modell sem vezetett be új hibákat.
A generált kódok letölthetők és megtekinthetők a repositoriumomon itt .
Konklúzió
Miután a legújabb generációs MI-modelleket három nagyon különböző feladaton teszteltem, mint például az akadémiai esszéírás, az üzleti e-mail marketing és a gyakorlati kódolás, azt tapasztaltam, hogy egyetlen MI sem uralja az összeset. Ehelyett minden modellnek megvannak a saját erősségei, furcsaságai és ideális felhasználási esetei.
De ki nyer összességében?
Attól függ, mire van szükséged:
- Készen állsz az automatizálásra, vagy valami komolyabb dolgot akarsz építeni? Válaszd a ChatGPT-4o-t vagy a Claude 4 Sonnet-et a kódhoz.
- Barátságos, ügyfélközpontú kommunikációra van szükséged? Grok-3.
- Szeretnéd tájékoztatni és örömet szerezni az olvasóknak? Grok-3 a legjobb barátod.
Nincs egyetlen “legjobb” MI, csak a megfelelő eszköz a megfelelő feladathoz.
A MI használatának legokosabb módja, ha a modellt a küldetésedhez igazítod, mert ahogy ez a kísérlet is mutatja, még a legfejlettebb botoknak is megvannak a saját személyiségeik és erősségeik.
Hivatkozások/Linkek
Köszönöm, hogy időt szántál a cikkem elolvasására, és kérlek, oszd meg barátaiddal is.
Hozzászólások