In diesem Beitrag vergleichen wir ChatGPT, Gemini, Grok, Deepseek und Claude anhand verschiedener Anwendungsfälle, um herauszufinden, welches der verfügbaren kostenlosen Modelle am besten zu Ihren Anforderungen passt.

Wir testen folgende Aspekte:

– Codegenerierung – Inhaltsgenerierung – Problemlösung

Wir vergleichen folgende Aspekte:

– Generierungsgeschwindigkeit – Code-/Inhaltsqualität/Plagiat – Einschränkungen – Robustheit – Lesbarkeit – Fehler/Probleme

Zur Erinnerung: Alle Tests werden ausschließlich mit kostenlosen Modellen durchgeführt.

KI-Codegenerierung

Ich habe mich für eine kurze und einfache, aber dennoch anspruchsvolle Eingabeaufforderung zur Codegenerierung entschieden. Aufgrund der großen Beliebtheit von Python als gewünschte Sprache ist die Eingabeaufforderung sehr simpel.

Die Eingabeaufforderung erfordert ein CSV-Parser-Skript ohne Verwendung externer Bibliotheken und sollte daher unkompliziert sein.

Eingabeaufforderung für alle Modelle:

1Erstellen Sie ein Python-Skript, das CSVs analysieren kann, ohne eine externe Bibliothek zu verwenden.

Ergebnisse/Vergleich

Einige Modelle führten ein Skript sehr schnell aus und gaben es zurück, während andere sogar 5 Minuten zum Nachdenken brauchten. Alle Skripte wurden jedoch fehlerfrei ausgeführt, was sehr erfreulich ist.

ModellGenerierungsgeschwindigkeitCodequalitätEinschränkungenRobustheitLesbarkeitFehler/Probleme
ChatGPT-4o19 SekundenGut, einfachKeine benutzerdefinierten Trennzeichen; nur Listen (nicht nach Spaltennamen)Verarbeitet knifflige CSVs mit ZeilenumbrüchenÜbersichtlich, unkompliziertKann bei fehlerhaften CSV-Anführungszeichen fehlschlagen
ChatGPT-4o Think25 SekundenAusgezeichnetVerarbeitet keine Zeilenumbrüche innerhalb von AnführungszeichenHervorragend für normale CSVsSehr übersichtlich, gut dokumentiertKeine offensichtlichen Fehler, warnt vor Einschränkungen
Claude Sonnet 430 SekundenGut, benutzerfreundlichUnterstützt keine Zeilenumbrüche in Anführungszeichen; keine dict-AusgabeFunktioniert mit StandarddateienAnfängerfreundlichWarnt bei abweichenden Zeilenlängen
Claude Sonnet 4 Think37 SekundenGut, detailliertKeine Zeilenumbrüche in Anführungszeichen; einfache AusgabeFunktioniert mit den meisten DateienDetailliert, viele BeispieleWarnt bei Datenkonflikten
DeepSeek62 SekundenSehr gutKein Zugriff auf Spaltennamen; verbraucht mehr Speicher bei großen DateienBehandelt komplexe Fälle, Zeilenumbrüche OKSauber, einfachNichts Offensichtliches; kann bei großen Dateien langsamer sein
DeepSeek Think653 SekundenEinfachNur einfach; keine Header; kann keine Zeilenumbrüche in Anführungszeichen verarbeitenFunktioniert nur mit einfachen CSVsMinimal, leicht verständlichKann bei komplexen CSVs abbrechen
Gemini 1.5 Pro29 SekundenSehr gutBehandelt keine Zeilenumbrüche in AnführungszeichenWarnt vor Zeilenumbrüchen/überspringt dieseBenutzerfreundlich, übersichtlichÜberspringt fehlerhafte Zeilen
Grok-3Einfach9 SekundenKeine Überschriften; Zeilenumbrüche in Anführungszeichen werden nicht verarbeitetOK für einfache CSV-DateienEinfach, kurzKeine Fehlerbehandlung für beschädigte Dateien
Grok-3 Think87 SekundenEinfachSehr einfach; keine Überschriften oder komplexe FälleGut für kleine/einfache DateienKurz, lesbarMinimale Fehleranzeige

Insgesamt am besten

Meiner Meinung nach ist ChatGPT-4o (Think) der Gewinner dieser Modelle. Ein ausgewogenes Verhältnis zwischen angemessener Generierungszeit und Ausgabe.

– Äußerst praktisch, insbesondere für „normale“ CSV-Dateien (keine seltsamen Zeilenumbrüche innerhalb von Zellen). – Bietet sowohl Wörterbuch- (Spaltennamen) als auch Listenausgabe. – Anpassbare Trennzeichen, gute Fehlerbehandlung und klares Feedback. – Sehr einfach zu lesen, zu erweitern und zu integrieren. – Funktioniert über die Kommandozeile oder als importierte Funktion.

Wenn Sie ansprechenden Code sehen, lernen oder in Ihren eigenen Skripten verwenden möchten: ChatGPT-4o (Think) ist die beste Wahl. Für die meisten Benutzer und die meisten Dateien ist ChatGPT-4o (Think) der Gewinner!

Die Skripte können in meinem Repository hier heruntergeladen und angezeigt werden.

KI-basierte Inhaltsgenerierung

Codegenerierung ist bei weitem der einzige Einsatzzweck von KI, da immer mehr Menschen KI zur Inhaltsgenerierung nutzen. Dies reicht von Blogbeiträgen über Dokumente bis hin zu E-Mails und vielem mehr.

Im Folgenden testen wir zwei Kategorien: E-Mail und Wissenschaftliches Schreiben.

E-Mail-Generierung

Für unseren Test zur E-Mail-Inhaltsgenerierung bitte ich um einen einfachen E-Mail-Pitch mit folgender Aufforderung:

1Erstellen Sie eine E-Mail-Präsentation über meinen neuen Blumenladen. Ich verkaufe Schnittblumen, oft zu Sträußen oder Blumenarrangements arrangiert. Ich biete auch individuelle Arrangements an, biete tägliche oder wöchentliche Blumenlieferungen an und biete möglicherweise Dienstleistungen wie Hochzeits- oder Event-Styling an.

Ergebnisse/Vergleich

Jede KI/jedes Modell generierte den Inhalt unglaublich schnell, daher werde ich die Spalte „Generierungsgeschwindigkeit“ unten in der Tabelle nicht berücksichtigen.

Modell/VarianteInhaltsqualitätEinschränkungenRobustheitLesbarkeitFehler/Artefakte
ChatGPT-4oSehr natürlich, sauberEtwas generischSehr starkAusgezeichnetKeine
ChatGPT-4o ThinkKreativ, klar, menschlichSicher, fügt aber subtiles Marketing hinzuAusgezeichnetSehr hochKeine
Claude Sonnet 4Professionell, herzlichEtwas förmlich, etwas langSehr starkSehr hochKeine
Claude Sonnet 4 ThinkDetailliert, unterteiltÜbermäßig ausführlich, zu „website-artig“RobustHochKeine, aber zu lang für eine Pitch-E-Mail
DeepSeekFreundlich, klarFügt „P.S.“ hinzu, leichter VorlagencharakterStarkSehr hochKeine, aber etwas allgemein
DeepSeek ThinkMehrere Betreff-/TextoptionenMehrere vollständige E-Mails in einer DateiGutGutRegel „eine E-Mail“ NICHT befolgt; zu viele Auswahlmöglichkeiten
Gemini 1.5 ProAusgefeilt, professionellDrei E-Mails in einer (für unterschiedliche Kunden)GutHochRegel „eine E-Mail“ ignoriert; zu viele pro Datei
Grok 3Herzlich, direktLeicht repetitive SpracheGutGutKeine, aber etwas formelhaft
Grok 3 ThinkFreundlich, klar, gegliedertLange Einleitung, etwas „klobiges“ FormatGutGutKeine, nur etwas segmentiert

Gesamtsieger

Meiner Meinung nach gewinnt ChatGPT-4o (beide Versionen) aufgrund folgender Vorteile:

– Erstellung einer einzigen, gebrauchsfertigen, natürlichen E-Mail pro Datei. – Keine Formatierungsfehler, keine KI-Artefakte, keine übermäßige Länge und hohe Lesbarkeit.

Es erstellte die natürlichste, am besten lesbare und professionellste E-Mail. Es befolgte meine Anweisungen genau (eine E-Mail pro Datei, keine zusätzlichen Formatierungs- oder KI-Fehler), sodass Sie den E-Mail-Pitch mit nur wenigen zusätzlichen persönlichen Angaben sofort verwenden können.

Die generierten Inhalte stehen in meinem Repository hier zum Download und zur Ansicht bereit.

Akademisches Schreiben

Es ist keine Überraschung, dass immer mehr Menschen KI nutzen, um akademisches Schreiben zu erstellen. Die meisten der generierten Inhalte scheitern jedoch an der Plagiatsprüfung, weil die KI entweder keine einzigartigen Inhalte generiert oder die Eingabeaufforderung fehlt.

Für unseren zweiten Test bitte ich um einen kurzen Aufsatz mit folgender Aufgabe:

1Verfassen Sie einen kurzen Aufsatz (max. 1000 Wörter) über die Entwicklung von CPUs im akademischen Stil und mit einzigartigem Inhalt. Verwenden Sie keine Inhalte aus bereits vorhandenen Aufsätzen oder Quellen. Fügen Sie gegebenenfalls Referenzen hinzu.

Ergebnisse/Vergleich

Modell/VarianteInhaltsqualitätEinschränkungenRobustheitLesbarkeitFehler/Artefakte
ChatGPT-4oStrukturiert, wissenschaftlich, prägnantLeicht formelhaft; kein erzählerisches FlairAussagekräftig, aktuellHoch (für technische Leser)Keine
Claude Sonnet 4Enzyklopädisch, narrativAusführlich, geringe WiederholungenUmfassendFlüssig, verständlichKeine; leicht wortreich
DeepSeekPrägnant, sachlich, umfrageartigWeniger Kontext, abrupte ÜbergängeFokussiert, präziseModerat (technisch)Keine
Grok-3Ansprechend, thematischGelegentliche VerallgemeinerungenBreit, verständlichSehr hochKeine; leichtes Klischee
Gemini 2.5 ProTechnisch, gründlichDicht, technischer Hintergrund wird vorausgesetztSehr robustNiedriger (nicht-technisch)Keine

Gesamtsieger

Der Gewinner ist meiner Meinung nach Grok 3 für akademisches Schreiben.

– Erzählt Geschichten und nutzt verständliche Metaphern („technologische Odyssee“), wodurch es auch für Laien angenehm zu lesen ist. – Führt den Leser chronologisch durch die CPU-Geschichte und behandelt dabei auch moderne Themen (Multi-Core, Spezialisierung, Zukunft). – Erklärt Schlüsselkonzepte, ohne den Leser mit Fachjargon oder trockenen Fachausdrücken zu überfordern. – Man braucht kein tiefes technisches Hintergrundwissen, um dem Buch zu folgen und es zu genießen.

Plagiatsprüfung

Ich habe den Plagiatsprüfer von Grammarly verwendet, um den Inhalt zu prüfen und die Position der einzelnen KIs zu ermitteln.

Die Ergebnisse finden Sie in der folgenden Tabelle:

Modell/VariantePlagiatGrammatikRechtschreibungZeichensetzungPrägnanzLesbarkeit
ChatGPT-4o8 SchreibproblemeOKNICHT BESTANDENNICHT BESTANDENNICHT BESTANDENOK
Claude Sonnet 48 SchreibproblemeNICHT BESTANDENOKOKNICHT BESTANDENOK
DeepSeek2 SchreibproblemeOKOKNICHT BESTANDENOKOK
Grok-38 SchreibproblemeOKOKOKNICHT BESTANDENOK
Gemini 2.5 Pro22 SchreibproblemeFEHLERHAFTFEHLERHAFTOKFEHLERHAFTOK

Der Gewinner ist eindeutig Grok 3, auch wenn es nicht ganz perfekt ist; man kann die kleinen Probleme selbst beheben und einen preisgekrönten Aufsatz schreiben 😊 (lol)

KI-Problemlösung

A + B Integralproblem

Es ist allgemein bekannt, dass KIs über enorme Rechenleistung und Wissen verfügen. Doch wie schneiden sie im Vergleich ab?

Nutzen wir dieses beliebte Mathe-Quiz, das an manchen Gymnasien angeboten wird:

1A = Integral von 0 bis 1 von ex^2
2B = Integral von 1 bis e2 von ln(√x)
3Finde A + B

Ergebnisse/Vergleich

Hier zeigen sich die Probleme jeder KI. Jede einzelne KI hatte Mühe, eine fertige Copy-and-Paste-Lösung bereitzustellen, was den einfachsten Teil des Problems darstellt. Die Berechnung war zwar abgeschlossen, aber nicht kopierbar. Daher musste ich mehrmals in verschiedenen Formaten nachfragen, bis ich sie irgendwie als TXT-Dateien für Sie speichern konnte.

Modell/VarianteCodequalitätEinschränkungenRobustheitLesbarkeitCopy-and-Paste-Freundlichkeit
Claude 4 SonnetAusgezeichnetKeineSehr hochAusgezeichnetAm besten (einfach, Markdown, schrittweise)
DeepSeekAusgezeichnetLeichte Header-ÜberbeanspruchungSehr hochAusgezeichnetAusgezeichnet
ChatGPT-4oAusgezeichnetKeineSehr hochAusgezeichnetAusgezeichnet
Grok 3GutAusführlich, etwas überladenHochGutGut
Gemini 1.5 ProAusreichendKeine exakte symbolische AntwortHochAusgezeichnetGut (aber nur Zusammenfassung)

Herausragend ist hier Claude Sonnet 4, der meiner Meinung nach der Gewinner ist. Für ein schnelles numerisches Ergebnis ist Gemini am schnellsten, aber für absolute Klarheit und Wiederverwendbarkeit sollten Sie bei Claude, DeepSeek oder ChatGPT-4o bleiben.

Problem mit defektem Code

Lassen Sie uns das Ganze noch etwas vertiefen und sehen, wie intelligent KIs im Vergleich sind, indem wir einen fehlerhaften C-Code reparieren:

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <string.h>
 4
 5char* copy_string(const char* src) {
 6    char* dest;
 7    strcpy(dest, src);
 8    return dest;
 9}
10
11int main() {
12    char* original = "Hello, world!";
13    char* copy = copy_string(original);
14
15    printf("Copied string: %s\n", copy);
16
17    return 0;
18}

Was ist falsch am obigen Code? Lassen Sie mich erklären:

  • dest in copy_string wird uninitialisiert verwendet, kein Speicher zugewiesen.
  • Die Verwendung von strcpy(dest, src) mit einem nicht initialisierten Zeiger führt zu undefiniertem Verhalten und wahrscheinlich einem Absturz.
  • Der Speicher für die Kopie (sofern zugewiesen) wird nie freigegeben – potenzieller Speicherverlust.
  • Der Code druckt die Kopie, ohne den Erfolg zu prüfen.

Mit dem obigen Code formulieren wir die Eingabeaufforderung wie folgt:

 1Korrigieren Sie den folgenden Code für mich und stellen Sie eine Zusammenfassung der Korrekturen bereit:
 2```
 3#include <stdio.h>
 4#include <stdlib.h>
 5#include <string.h>
 6
 7char* copy_string(const char* src) {
 8    char* dest;
 9    strcpy(dest, src);
10    return dest;
11}
12
13int main() {
14    char* original = "Hello, world!";
15    char* copy = copy_string(original);
16
17    printf("Copied string: %s\n", copy);
18
19    return 0;
20}
21```

Ergebnisse/Vergleich

Ehrlich gesagt, jedes Modell lieferte eine korrekte und professionelle Lösung.

Modell/VarianteInhaltsqualitätEinschränkungenRobustheitLesbarkeitFehler/Artefakte
Claude 4 SonnetHervorragend (Behandlung von Randfällen, klar)Etwas ausführliche ZusammenfassungPrüft auf NULL-Eingabe und -Zuweisung; gibt Speicher freiSehr klar, übersichtlichKeine
DeepSeekHervorragend (prägnant, korrekt)Etwas weniger ausführlich bei der EingabevalidierungPrüft Zuweisung; Fehlerbehandlung; gibt Speicher freiKlar, prägnantKeine
ChatGPT-4oHervorragend (prägnant, deckt alles ab)Keine NULL-Eingabeprüfung (für src)Prüft Zuweisung; Fehlerbehandlung; gibt Speicher freiSehr gut lesbarKeine
Grok 3Ausgezeichnet (gründlich, professionell)Beendet bei fehlgeschlagener Allokation (nicht optimal für Bibliotheken); keine NULL-EingabeprüfungBehandelt Allokationsfehler; gibt Speicher freiEtwas ausführlichKeine
Gemini 1.5 ProAusgezeichnet (professionell, besonders detailliert)Keine explizite NULL-Eingabeprüfung; viele KommentareBehandelt Allokationsfehler, setzt Zeiger nach Freigabe auf NULLSehr gut lesbarKeine

Alle Modelle lieferten eine korrekte und professionelle Lösung. Claude 4 Sonnet ging bei der Behandlung von Randfällen und Erklärungen über das Übliche hinaus, aber alle Antworten sind solide und zum Kopieren/Einfügen in ein C-Projekt geeignet. Kein Modell hat neue Fehler eingeführt.

Die generierten Codes können in meinem Repository hier heruntergeladen und angezeigt werden.

Fazit

Nachdem ich die neueste Generation von KI-Modellen an drei sehr unterschiedlichen Aufgaben getestet hatte, darunter dem Verfassen akademischer Essays, geschäftlichem E-Mail-Marketing und praktischem Programmieren, stellte ich fest, dass es keine einheitliche KI gibt, die alle Aufgaben beherrscht. Stattdessen bringt jedes Modell seine eigenen Stärken, Besonderheiten und idealen Anwendungsfälle mit sich.

Aber wer gewinnt insgesamt?

Es hängt von Ihren Anforderungen ab:

– Bereit für Automatisierung oder die Entwicklung von etwas Anspruchsvollem? Nutzen Sie ChatGPT-4o oder Claude 4 Sonnet für Code. – Benötigen Sie freundliche, kundenorientierte Kommunikation? Grok-3. – Möchten Sie Ihre Leser informieren und begeistern? Grok-3 ist Ihr bester Freund.

Es gibt nicht die eine „beste“ KI, sondern nur das richtige Werkzeug für die richtige Aufgabe.

Der cleverste Weg, KI einzusetzen, besteht darin, das Modell an Ihre Mission anzupassen, denn wie dieses Experiment zeigt, haben selbst die fortschrittlichsten Bots ihre eigenen Persönlichkeiten und Stärken.

Vielen Dank, dass Sie sich die Zeit genommen haben, meinen Artikel zu lesen. Teilen Sie ihn gerne mit Freunden.