Ebben a bejegyzésben összehasonlítjuk a ChatGPT vs. Gemini vs. Grok vs. Deepseek vs. Claude teszteket számos felhasználási esetben, hogy megértsük, melyik felel meg leginkább az Ön igényeinek a rendelkezésre álló ingyenes modellek segítségével.

A következőket fogjuk tesztelni:

  • Kódgenerálás
  • Tartalomgenerálás
  • Problémamegoldás

A következő szempontokat fogjuk összehasonlítani:

  • Generálási sebesség
  • Kód/Tartalom minősége/Plagizálás
  • Korlátozások
  • Robusztusság
  • Olvashatóság
  • Hibák/Problémák

Emlékeztetőül, minden tesztet csak ingyenes modellekkel futtatunk le.

MI kódgenerálás

Úgy döntöttem, hogy egy rövid és egyszerű, mégis kihívást jelentő promptot használok a kódgeneráláshoz, Pythont használva a kívánt nyelvként, mivel az elég népszerű.

A prompt egy CSV elemző szkriptet kér külső könyvtárak használata nélkül, így egyszerűnek kell lennie.

Prompt minden modellhez:

1Hozz létre egy Python szkriptet, amely külső könyvtár használata nélkül képes CSV fájlok elemzésére.

Eredmények/Összehasonlítás

Néhány modell nagyon gyorsan végrehajtott és adott vissza egy szkriptet, míg egyes modelleknek akár 5 percre is szüksége volt a “gondolkodásra” 🥴. Az összes szkript azonban hiba nélkül lefutott, ami jó.

ModellGenerálási sebességKódminőségKorlátozásokRobusztusságOlvashatóságHibák/Problémák
ChatGPT-4o19 másodpercJó, alapvetőNincs egyéni elválasztójel; csak listák (nem oszlopnév szerint)Kezeli a bonyolult CSV-ket új sorokkalVilágos, egyértelműHibás CSV idézőjelek esetén hibás lehet
ChatGPT-4o Gondolkodj25 másodpercKiválóNem kezeli az új sorokat az idézőjeleken belülNagyszerű a normál CSV-khezNagyon világos, jól dokumentáltNem nyilvánvaló, figyelmeztet a korlátokra
Claude Sonnet 430 másodpercJó, felhasználóbarátNem támogatja az új sorokat az idézőjelek között; nincs szótárkimenetStandard fájlokhoz működikKezdőbarátFigyelmeztet, ha a sorok hossza nem egyezik
Claude Sonnet 4 Think37 másodpercJó, részletesNincsenek sortörések az idézőjelek között; alapvető kimenetA legtöbb fájlhoz működikRészletes, sok példaFigyelmeztet az adateltérésekre
DeepSeek62 másodpercNagyon jóNincs oszlopnév-hozzáférés; több memóriát használ nagy fájlokhozKezeli az összetett eseteket, sortöréseket OKLetisztult, egyszerűNem nyilvánvaló; nagy fájloknál lassabb lehet
DeepSeek Think653 másodpercEgyszerűCsak alap; nincsenek fejlécek; nem tudja kezelni az idézőjelek között lévő sortöréseketCsak egyszerű CSV fájlokhoz működikMinimalista, könnyen követhetőÖsszetett CSV fájloknál hibás lehet
Gemini 1.5 Pro29 másodpercNagyon jóNem kezeli az idézőjelek között lévő sortöréseketFigyelmeztet/kihagyja a hibás sorokatFelhasználóbarát, rendezettKihagyja a hibásan formázott sorokat
Grok-3Alap9 másodpercNincsenek fejlécek; Nem kezeli az idézőjelek közötti új sorokatAlap CSV-khez megfelelőEgyszerű, rövidNincs hibakezelés hibás fájlok esetén
Grok-3 Think87 másodpercAlapNagyon egyszerű; nincsenek fejlécek vagy bonyolult kis- és nagybetűkKis/egyszerű fájlokhoz megfelelőRövid, olvashatóMinimális hibák jelennek meg

Összességében a legjobb

Véleményem szerint a modellek közül a ChatGPT-4o (Think) a nyertes. Egyensúlyt teremt a megfelelő generálási idő és a kimenet között.

  • A legpraktikusabb, különösen a “normál” CSV fájlok esetében (nincsenek furcsa új sorok a cellákon belül).
  • Szótárat (oszlopnevek) és listakimenetet is kínál.
  • Testreszabható elválasztójel, jó hibakezelés és egyértelmű visszajelzés.
  • Nagyon könnyen olvasható, bővíthető és integrálható.
  • Parancssorból vagy importált függvényként működik.

Ha gyönyörű kódot szeretnél látni, megtanulni vagy saját szkriptekben használni: a ChatGPT-4o (Think) a legjobb. A legtöbb ember és a legtöbb fájl számára a ChatGPT-4o (Think) a nyerő!

A szkriptek letölthetők és megtekinthetők a repozitóriumomban itt .

Mesterséges intelligencia általi tartalomgenerálás

A kódgenerálás messze az egyetlen dolog, amire manapság a mesterséges intelligenciát használják, mivel egyre többen használnak mesterséges intelligenciát tartalomkészítésre. Ez blogbejegyzésektől kezdve dokumentumokon át e-mailekig és egyebekig terjed.

Az alábbiakban két kategóriát fogunk tesztelni: E-mail és Akadémiai stílusú írás.

E-mail generálás

Az e-mail tartalomgenerálási tesztünkhöz egy egyszerű e-mail pitchet fogok kérni a következő prompttal:

1Írj egy e-mailes prezentációt az új virágüzletemről. Vágott virágokat árulok, gyakran csokrokba vagy virágdíszekbe rendezve. Egyedi virágkompozíciókat is kínálok, napi vagy heti virágszállítást vállalok, és olyan szolgáltatásokat is kínálok, mint az esküvők vagy rendezvények stylingolása.

Eredmények/Összehasonlítás

Minden MI/modell nevetségesen gyorsan generálta a tartalmat, ezért a Generálási Sebesség oszlopot nem fogom belefoglalni az alábbi táblázatba.

Modell/VáltozatTartalomminőségKorlátozásokRobusztusságOlvashatóságHibák/Művek
ChatGPT-4oNagyon természetes, tisztaKissé általánosNagyon erősKiválóNincs
ChatGPT-4o GondolatKreatív, világos, emberiBiztonságos, de finom marketinget ad hozzáKiválóNagyon magasNincs
Claude Sonnet 4Professzionális, melegKissé formális, kicsit hosszúNagyon erősNagyon magasNincs
Claude Sonnet 4 GondolatRészletes, tagoltTúl bőbeszédű, túl “weboldalszerű”RobusztusMagasNincs, de túl hosszú egy pitch emailhez
DeepSeekBarátságos, világos“Ui.:” megjegyzés hozzáadása, enyhe sablonos érzetErősNagyon magasNincs, de kissé általános
DeepSeek ThinkTöbb tárgy/törzs opcióTöbb teljes e-mail egy fájlbanNEM követte az “egy e-mail” szabályt; túl sok választási lehetőség
Gemini 1.5 ProLetisztult, professzionálisHárom e-mail egyben (különböző ügyfeleknek)MagasFigyelmen kívül hagyta az “egy e-mail” szabályt; túl sok fájlonként
Grok 3Meleg, közvetlenEnyhén ismétlődő nyelvezetNincs, de kissé sablonos
Grok 3 ThinkBarátságos, világos, szakaszosHosszú bevezetés, kissé “vaskos” formátumNincs, csak kissé szegmentált

Összességében a legjobb

Véleményem szerint a ChatGPT-4o (mindkét verzió) a következő okok miatt nyer:

  • Fájlonként egyetlen, használatra kész, természetes e-mailt hoz létre.
  • Nincsenek formázási furcsaságok, mesterséges intelligencia által okozott hibák, nincs túlzott hosszúság, és könnyen olvasható.

A legtermészetesebb, legkönnyebben olvasható és professzionális hangzású e-mailt írta. Pontosan követte az utasításaimat (fájlonként egy e-mail, nincsenek extra formázások vagy mesterséges intelligencia által okozott hibák), így az e-mail pitch azonnal használható, mindössze néhány személyes adat hozzáadásával.

A létrehozott tartalom letölthető és megtekinthető a repozitóriumomban itt .

Akadémiai stílusú írás

Nem meglepő, hogy egyre többen használnak mesterséges intelligenciát (MI) akadémiai stílusú írások létrehozásához, azonban a létrehozott tartalom nagy része a plágiumellenőrzések miatt megbukik, mivel vagy a MI nem generál egyedi tartalmat, vagy a gyors bevitel miatt.

A második teszthez egy rövid esszét kérek a következő prompttal:

1Írj egy rövid esszét (maximum 1000 szó) a processzorok (CPU-k) fejlődéséről, akadémiai stílusban és egyedi tartalommal. Ne használj fel már létező esszékből vagy forrásokból származó tartalmat. Ahol szükséges, tüntesd fel a hivatkozásokat.

Eredmények/Összehasonlítás

| Modell/Változat | Tartalomminőség | Korlátozások | Robusztusság | Olvashatóság | Hibák/Műhibák | |———————-|———————————————–|————————-|———————–| | ChatGPT-4o | Strukturált, tudományos, tömör | Enyhén sablonos; nincs narratív érzék | Erős, naprakész | Magas (technikai olvasók számára) | Nincs | | Claude Sonnet 4 | Enciklopédikus, narratív | Bőbeszédű, kisebb ismétlésekkel | Átfogó | Gördülékeny, hozzáférhető | Nincs; kissé bőbeszédű | | DeepSeek | Tömör, tényszerű, felmérésszerű | Kevesebb kontextus, hirtelen átmenetek | Fókuszált, pontos | Mérsékelt (technikai) | Nincs | | Grok-3 | Lenyűgöző, tematikus | Alkalmankénti általánosítás | Tág, hozzáférhető | Nagyon magas | Nincs; kisebb klisé | | Gemini 2.5 Pro | Technikai, szigorú | Sűrű, technikai hátteret vár | Nagyon robusztus | Alsóbb (nem műszaki)| Nincs |

Összességében a legjobb

Véleményem szerint a Grok 3 a nyertes az akadémiai stílusú írás kategóriában.

  • Történetmesélést és közérthető metaforákat használ (“technológiai odüsszeia”), így kellemes olvasmány a nem szakemberek számára is.
  • Kronologikus sorrendben vezeti végig az olvasót a CPU-történeten, miközben modern témákat is érint (többmagos processzorok, specializáció, a jövő).
  • A kulcsfogalmakat szakzsargonnal vagy száraz technikai részletekkel való elárasztás nélkül magyarázza el.
  • Nincs szükség mélyreható műszaki háttérre ahhoz, hogy követni és élvezni lehessen a olvasmányt.

Plágiumkereső

A Grammarly Plagiumkeresőjét használtam a tartalom ellenőrzéséhez és az egyes mesterséges intelligenciák helyzetének megállapításához.

Az eredményeket a következő táblázatban láthatja:

Modell/VáltozatPlágiumNyelvtanHelyesírásÍrásjelekTömörségOlvashatóság
ChatGPT-4o8 írási problémaOKNEM MEGFELELŐNEM MEGFELELŐNEM MEGFELELŐOK
Claude Sonnet 48 írási problémaNEM MEGFELELŐOKNEM MEGFELELŐOK
DeepSeek2 írási problémaOKNEM MEGFELELŐOKOK
Grok-38 írási problémaOKOKNEM MEGFELELŐOK
Gemini 2.5 Pro22 írási problémaNEM MEGFELELŐNEM MEGFELELŐOKNEM MEGFELELŐOK

A győztes egyértelműen a Grok 3, bár nem egészen tökéletes; a kisebb hibákat magad is kijavíthatod, és egy “díjnyertes” esszét írhatsz 😊 (lol)

MI problémamegoldás

A + B integrálfeladat

Köztudott, hogy a MI-k számítási teljesítménye és tudása elenyésző, de hogyan viszonyulnak egymáshoz?

Használjuk ezt a népszerű matematikai kvízt, amelyet néhány középiskolában kínálnak:

1A = 0-tól 1-ig terjedő integrál az ex^2 függvényben
2B = ln(√x) függvény 1-től e2-ig terjedő integrálja
3Keresse meg A + B összefüggést

Eredmények/Összehasonlítás

Itt kezdenek megmutatkozni minden MI problémái. Minden egyes MI küzdött azzal, hogy kész másolható/beilleszthető megoldást kínáljon, ami a “probléma” legegyszerűbb része. A matematika megvolt, de valójában nem volt másolható, ezért többször kellett kérdeznem különböző formátumokban, mire valahogy .txt fájlként tudtam menteni.

Modell/VáltozatKódminőségKorlátozásokRobusztusságOlvashatóságMásolás-beillesztés barátság
Claude 4 SonnetKiválóNincsNagyon magasKiválóLegjobb (könnyű, markdown, lépésenkénti)
DeepSeekKiválóEnyhe fejléc túlhasználatNagyon magasKiválóKiváló
ChatGPT-4oKiválóNincsNagyon magasKiválóKiváló
Grok 3Bőbeszédű, kissé zsúfoltMagas

Ami itt kiemelkedik, az a Claude Sonnet 4, ami véleményem szerint a győztes. Gyors numerikus eredményhez a Gemini a leggyorsabb, de a teljes áttekinthetőség és újrafelhasználhatóság érdekében maradj a Claude-nál, a DeepSeek-nél vagy a ChatGPT-4o-nál.

Hibás Kód Probléma

Fokozzuk ezt egy kicsit, és nézzük meg, mennyire okosak a mesterséges intelligenciák, azzal, hogy egy hibás, egyszerű C kódrészletet próbálunk megjavítani:

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <string.h>
 4
 5char* copy_string(const char* src) {
 6    char* dest;
 7    strcpy(dest, src);
 8    return dest;
 9}
10
11int main() {
12    char* original = "Hello, world!";
13    char* copy = copy_string(original);
14
15    printf("Copied string: %s\n", copy);
16
17    return 0;
18}

Mi a baj a fenti kóddal? Hadd magyarázzam el:

  • A copy_string-ben található dest függvényt inicializálatlanul használjuk, nincs lefoglalt memória.
  • Az strcpy(dest, src) függvény használata inicializálatlan mutatóval definiálatlan viselkedést és valószínűleg összeomlást okoz.
  • A másolat memóriája (ha lefoglalták) soha nem szabadul fel – ez potenciális memóriaszivárgás.
  • A kód kinyomtatja a másolatot a sikeresség ellenőrzése nélkül.

A fenti kóddal a következőképpen fogalmazzuk meg a promptot:

 1Javítsd ki nekem a következő kódot, és add meg a javítások összefoglalását:
 2```
 3#include <stdio.h>
 4#include <stdlib.h>
 5#include <string.h>
 6
 7char* copy_string(const char* src) {
 8    char* dest;
 9    strcpy(dest, src);
10    return dest;
11}
12
13int main() {
14    char* original = "Hello, world!";
15    char* copy = copy_string(original);
16
17    printf("Copied string: %s\n", copy);
18
19    return 0;
20}
21```

Eredmények/Összehasonlítás

Őszintén szólva, minden modell helyes és professzionális javítást eredményezett.

Modell/VáltozatTartalomminőségKorlátozásokRobusztusságOlvashatóságHibák/Művek
Claude 4 SonnetKiváló (szélsőséges esetek kezelése, világos)Kissé részletes összefoglalóNULL bemenet és kiosztás ellenőrzése; memória felszabadításaNagyon világos, áttekinthetőNincs
DeepSeekKiváló (tömör, helyes)Kissé kevésbé részletes a bemenet validálásábanKiosztás ellenőrzése; hibakezelés; memória felszabadításaVilágos, tömörNincs
ChatGPT-4oKiváló (tömör, mindent lefed)Nincs NULL bemenet ellenőrzése (forráshoz)Kiosztás ellenőrzése; hibakezelés; memória felszabadításaNagyon olvashatóNincs
Grok 3Kiváló (alapos, professzionális)Kilépés alloc hiba esetén (nem a legjobb választás könyvtárakhoz); nincs NULL bemeneti ellenőrzésKezeli az alloc hibákat; memóriát szabadít felKissé részletesNincs
Gemini 1.5 ProKiváló (professzionális, extra részletesség)Nincs explicit NULL bemeneti ellenőrzés; sok megjegyzésKezeli az alloc hibákat, a mutatót NULL-ra állítja fel felszabadítás utánNagyon olvashatóNincs

Minden modell helyes és professzionális javítást produkált. A Claude 4 Sonnet túlteljesítette a szélső esetek kezelését és magyarázatát, de minden válasz szilárd és alkalmas másolásra/beillesztésre egy C projektbe. Egyik modell sem vezetett be új hibákat.

A generált kódok letölthetők és megtekinthetők a repositoriumomon itt .

Konklúzió

Miután a legújabb generációs MI-modelleket három nagyon különböző feladaton teszteltem, mint például az akadémiai esszéírás, az üzleti e-mail marketing és a gyakorlati kódolás, azt tapasztaltam, hogy egyetlen MI sem uralja az összeset. Ehelyett minden modellnek megvannak a saját erősségei, furcsaságai és ideális felhasználási esetei.

De ki nyer összességében?

Attól függ, mire van szükséged:

  • Készen állsz az automatizálásra, vagy valami komolyabb dolgot akarsz építeni? Válaszd a ChatGPT-4o-t vagy a Claude 4 Sonnet-et a kódhoz.
  • Barátságos, ügyfélközpontú kommunikációra van szükséged? Grok-3.
  • Szeretnéd tájékoztatni és örömet szerezni az olvasóknak? Grok-3 a legjobb barátod.

Nincs egyetlen “legjobb” MI, csak a megfelelő eszköz a megfelelő feladathoz.

A MI használatának legokosabb módja, ha a modellt a küldetésedhez igazítod, mert ahogy ez a kísérlet is mutatja, még a legfejlettebb botoknak is megvannak a saját személyiségeik és erősségeik.

Hivatkozások/Linkek

Köszönöm, hogy időt szántál a cikkem elolvasására, és kérlek, oszd meg barátaiddal is.