ChatGPT vs Gemini vs Grok vs Deepseek vs Claude

In diesem Beitrag vergleichen wir ChatGPT, Gemini, Grok, Deepseek und Claude anhand verschiedener Anwendungsfälle, um herauszufinden, welches der verfügbaren kostenlosen Modelle am besten zu Ihren Anforderungen passt.

Wir testen folgende Aspekte:

– Codegenerierung – Inhaltsgenerierung – Problemlösung

Wir vergleichen folgende Aspekte:

– Generierungsgeschwindigkeit – Code-/Inhaltsqualität/Plagiat – Einschränkungen – Robustheit – Lesbarkeit – Fehler/Probleme

Zur Erinnerung: Alle Tests werden ausschließlich mit kostenlosen Modellen durchgeführt.

KI-Codegenerierung

Ich habe mich für eine kurze und einfache, aber dennoch anspruchsvolle Eingabeaufforderung zur Codegenerierung entschieden. Aufgrund der großen Beliebtheit von Python als gewünschte Sprache ist die Eingabeaufforderung sehr simpel.

Die Eingabeaufforderung erfordert ein CSV-Parser-Skript ohne Verwendung externer Bibliotheken und sollte daher unkompliziert sein.

Eingabeaufforderung für alle Modelle:

1Erstellen Sie ein Python-Skript, das CSVs analysieren kann, ohne eine externe Bibliothek zu verwenden.

Ergebnisse/Vergleich

Einige Modelle führten ein Skript sehr schnell aus und gaben es zurück, während andere sogar 5 Minuten zum Nachdenken brauchten. Alle Skripte wurden jedoch fehlerfrei ausgeführt, was sehr erfreulich ist.

Modell	Generierungsgeschwindigkeit	Codequalität	Einschränkungen	Robustheit	Lesbarkeit	Fehler/Probleme
ChatGPT-4o	19 Sekunden	Gut, einfach	Keine benutzerdefinierten Trennzeichen; nur Listen (nicht nach Spaltennamen)	Verarbeitet knifflige CSVs mit Zeilenumbrüchen	Übersichtlich, unkompliziert	Kann bei fehlerhaften CSV-Anführungszeichen fehlschlagen
ChatGPT-4o Think	25 Sekunden	Ausgezeichnet	Verarbeitet keine Zeilenumbrüche innerhalb von Anführungszeichen	Hervorragend für normale CSVs	Sehr übersichtlich, gut dokumentiert	Keine offensichtlichen Fehler, warnt vor Einschränkungen
Claude Sonnet 4	30 Sekunden	Gut, benutzerfreundlich	Unterstützt keine Zeilenumbrüche in Anführungszeichen; keine dict-Ausgabe	Funktioniert mit Standarddateien	Anfängerfreundlich	Warnt bei abweichenden Zeilenlängen
Claude Sonnet 4 Think	37 Sekunden	Gut, detailliert	Keine Zeilenumbrüche in Anführungszeichen; einfache Ausgabe	Funktioniert mit den meisten Dateien	Detailliert, viele Beispiele	Warnt bei Datenkonflikten
DeepSeek	62 Sekunden	Sehr gut	Kein Zugriff auf Spaltennamen; verbraucht mehr Speicher bei großen Dateien	Behandelt komplexe Fälle, Zeilenumbrüche OK	Sauber, einfach	Nichts Offensichtliches; kann bei großen Dateien langsamer sein
DeepSeek Think	653 Sekunden	Einfach	Nur einfach; keine Header; kann keine Zeilenumbrüche in Anführungszeichen verarbeiten	Funktioniert nur mit einfachen CSVs	Minimal, leicht verständlich	Kann bei komplexen CSVs abbrechen
Gemini 1.5 Pro	29 Sekunden	Sehr gut	Behandelt keine Zeilenumbrüche in Anführungszeichen	Warnt vor Zeilenumbrüchen/überspringt diese	Benutzerfreundlich, übersichtlich	Überspringt fehlerhafte Zeilen
Grok-3	Einfach	9 Sekunden	Keine Überschriften; Zeilenumbrüche in Anführungszeichen werden nicht verarbeitet	OK für einfache CSV-Dateien	Einfach, kurz	Keine Fehlerbehandlung für beschädigte Dateien
Grok-3 Think	87 Sekunden	Einfach	Sehr einfach; keine Überschriften oder komplexe Fälle	Gut für kleine/einfache Dateien	Kurz, lesbar	Minimale Fehleranzeige

Insgesamt am besten

Meiner Meinung nach ist ChatGPT-4o (Think) der Gewinner dieser Modelle. Ein ausgewogenes Verhältnis zwischen angemessener Generierungszeit und Ausgabe.

– Äußerst praktisch, insbesondere für „normale“ CSV-Dateien (keine seltsamen Zeilenumbrüche innerhalb von Zellen). – Bietet sowohl Wörterbuch- (Spaltennamen) als auch Listenausgabe. – Anpassbare Trennzeichen, gute Fehlerbehandlung und klares Feedback. – Sehr einfach zu lesen, zu erweitern und zu integrieren. – Funktioniert über die Kommandozeile oder als importierte Funktion.

Wenn Sie ansprechenden Code sehen, lernen oder in Ihren eigenen Skripten verwenden möchten: ChatGPT-4o (Think) ist die beste Wahl. Für die meisten Benutzer und die meisten Dateien ist ChatGPT-4o (Think) der Gewinner!

Die Skripte können in meinem Repository hier heruntergeladen und angezeigt werden.

KI-basierte Inhaltsgenerierung

Codegenerierung ist bei weitem der einzige Einsatzzweck von KI, da immer mehr Menschen KI zur Inhaltsgenerierung nutzen. Dies reicht von Blogbeiträgen über Dokumente bis hin zu E-Mails und vielem mehr.

Im Folgenden testen wir zwei Kategorien: E-Mail und Wissenschaftliches Schreiben.

E-Mail-Generierung

Für unseren Test zur E-Mail-Inhaltsgenerierung bitte ich um einen einfachen E-Mail-Pitch mit folgender Aufforderung:

1Erstellen Sie eine E-Mail-Präsentation über meinen neuen Blumenladen. Ich verkaufe Schnittblumen, oft zu Sträußen oder Blumenarrangements arrangiert. Ich biete auch individuelle Arrangements an, biete tägliche oder wöchentliche Blumenlieferungen an und biete möglicherweise Dienstleistungen wie Hochzeits- oder Event-Styling an.

Ergebnisse/Vergleich

Jede KI/jedes Modell generierte den Inhalt unglaublich schnell, daher werde ich die Spalte „Generierungsgeschwindigkeit“ unten in der Tabelle nicht berücksichtigen.

Modell/Variante	Inhaltsqualität	Einschränkungen	Robustheit	Lesbarkeit	Fehler/Artefakte
ChatGPT-4o	Sehr natürlich, sauber	Etwas generisch	Sehr stark	Ausgezeichnet	Keine
ChatGPT-4o Think	Kreativ, klar, menschlich	Sicher, fügt aber subtiles Marketing hinzu	Ausgezeichnet	Sehr hoch	Keine
Claude Sonnet 4	Professionell, herzlich	Etwas förmlich, etwas lang	Sehr stark	Sehr hoch	Keine
Claude Sonnet 4 Think	Detailliert, unterteilt	Übermäßig ausführlich, zu „website-artig“	Robust	Hoch	Keine, aber zu lang für eine Pitch-E-Mail
DeepSeek	Freundlich, klar	Fügt „P.S.“ hinzu, leichter Vorlagencharakter	Stark	Sehr hoch	Keine, aber etwas allgemein
DeepSeek Think	Mehrere Betreff-/Textoptionen	Mehrere vollständige E-Mails in einer Datei	Gut	Gut	Regel „eine E-Mail“ NICHT befolgt; zu viele Auswahlmöglichkeiten
Gemini 1.5 Pro	Ausgefeilt, professionell	Drei E-Mails in einer (für unterschiedliche Kunden)	Gut	Hoch	Regel „eine E-Mail“ ignoriert; zu viele pro Datei
Grok 3	Herzlich, direkt	Leicht repetitive Sprache	Gut	Gut	Keine, aber etwas formelhaft
Grok 3 Think	Freundlich, klar, gegliedert	Lange Einleitung, etwas „klobiges“ Format	Gut	Gut	Keine, nur etwas segmentiert

Gesamtsieger

Meiner Meinung nach gewinnt ChatGPT-4o (beide Versionen) aufgrund folgender Vorteile:

– Erstellung einer einzigen, gebrauchsfertigen, natürlichen E-Mail pro Datei. – Keine Formatierungsfehler, keine KI-Artefakte, keine übermäßige Länge und hohe Lesbarkeit.

Es erstellte die natürlichste, am besten lesbare und professionellste E-Mail. Es befolgte meine Anweisungen genau (eine E-Mail pro Datei, keine zusätzlichen Formatierungs- oder KI-Fehler), sodass Sie den E-Mail-Pitch mit nur wenigen zusätzlichen persönlichen Angaben sofort verwenden können.

Die generierten Inhalte stehen in meinem Repository hier zum Download und zur Ansicht bereit.

Akademisches Schreiben

Es ist keine Überraschung, dass immer mehr Menschen KI nutzen, um akademisches Schreiben zu erstellen. Die meisten der generierten Inhalte scheitern jedoch an der Plagiatsprüfung, weil die KI entweder keine einzigartigen Inhalte generiert oder die Eingabeaufforderung fehlt.

Für unseren zweiten Test bitte ich um einen kurzen Aufsatz mit folgender Aufgabe:

1Verfassen Sie einen kurzen Aufsatz (max. 1000 Wörter) über die Entwicklung von CPUs im akademischen Stil und mit einzigartigem Inhalt. Verwenden Sie keine Inhalte aus bereits vorhandenen Aufsätzen oder Quellen. Fügen Sie gegebenenfalls Referenzen hinzu.

Ergebnisse/Vergleich

Modell/Variante	Inhaltsqualität	Einschränkungen	Robustheit	Lesbarkeit	Fehler/Artefakte
ChatGPT-4o	Strukturiert, wissenschaftlich, prägnant	Leicht formelhaft; kein erzählerisches Flair	Aussagekräftig, aktuell	Hoch (für technische Leser)	Keine
Claude Sonnet 4	Enzyklopädisch, narrativ	Ausführlich, geringe Wiederholungen	Umfassend	Flüssig, verständlich	Keine; leicht wortreich
DeepSeek	Prägnant, sachlich, umfrageartig	Weniger Kontext, abrupte Übergänge	Fokussiert, präzise	Moderat (technisch)	Keine
Grok-3	Ansprechend, thematisch	Gelegentliche Verallgemeinerungen	Breit, verständlich	Sehr hoch	Keine; leichtes Klischee
Gemini 2.5 Pro	Technisch, gründlich	Dicht, technischer Hintergrund wird vorausgesetzt	Sehr robust	Niedriger (nicht-technisch)	Keine

Gesamtsieger

Der Gewinner ist meiner Meinung nach Grok 3 für akademisches Schreiben.

– Erzählt Geschichten und nutzt verständliche Metaphern („technologische Odyssee“), wodurch es auch für Laien angenehm zu lesen ist. – Führt den Leser chronologisch durch die CPU-Geschichte und behandelt dabei auch moderne Themen (Multi-Core, Spezialisierung, Zukunft). – Erklärt Schlüsselkonzepte, ohne den Leser mit Fachjargon oder trockenen Fachausdrücken zu überfordern. – Man braucht kein tiefes technisches Hintergrundwissen, um dem Buch zu folgen und es zu genießen.

Plagiatsprüfung

Ich habe den Plagiatsprüfer von Grammarly verwendet, um den Inhalt zu prüfen und die Position der einzelnen KIs zu ermitteln.

Die Ergebnisse finden Sie in der folgenden Tabelle:

Modell/Variante	Plagiat	Grammatik	Rechtschreibung	Zeichensetzung	Prägnanz	Lesbarkeit
ChatGPT-4o	8 Schreibprobleme	OK	NICHT BESTANDEN	NICHT BESTANDEN	NICHT BESTANDEN	OK
Claude Sonnet 4	8 Schreibprobleme	NICHT BESTANDEN	OK	OK	NICHT BESTANDEN	OK
DeepSeek	2 Schreibprobleme	OK	OK	NICHT BESTANDEN	OK	OK
Grok-3	8 Schreibprobleme	OK	OK	OK	NICHT BESTANDEN	OK
Gemini 2.5 Pro	22 Schreibprobleme	FEHLERHAFT	FEHLERHAFT	OK	FEHLERHAFT	OK

Der Gewinner ist eindeutig Grok 3, auch wenn es nicht ganz perfekt ist; man kann die kleinen Probleme selbst beheben und einen preisgekrönten Aufsatz schreiben 😊 (lol)

KI-Problemlösung

A + B Integralproblem

Es ist allgemein bekannt, dass KIs über enorme Rechenleistung und Wissen verfügen. Doch wie schneiden sie im Vergleich ab?

Nutzen wir dieses beliebte Mathe-Quiz, das an manchen Gymnasien angeboten wird:

1A = Integral von 0 bis 1 von ex^2
2B = Integral von 1 bis e2 von ln(√x)
3Finde A + B

Ergebnisse/Vergleich

Hier zeigen sich die Probleme jeder KI. Jede einzelne KI hatte Mühe, eine fertige Copy-and-Paste-Lösung bereitzustellen, was den einfachsten Teil des Problems darstellt. Die Berechnung war zwar abgeschlossen, aber nicht kopierbar. Daher musste ich mehrmals in verschiedenen Formaten nachfragen, bis ich sie irgendwie als TXT-Dateien für Sie speichern konnte.

Modell/Variante	Codequalität	Einschränkungen	Robustheit	Lesbarkeit	Copy-and-Paste-Freundlichkeit
Claude 4 Sonnet	Ausgezeichnet	Keine	Sehr hoch	Ausgezeichnet	Am besten (einfach, Markdown, schrittweise)
DeepSeek	Ausgezeichnet	Leichte Header-Überbeanspruchung	Sehr hoch	Ausgezeichnet	Ausgezeichnet
ChatGPT-4o	Ausgezeichnet	Keine	Sehr hoch	Ausgezeichnet	Ausgezeichnet
Grok 3	Gut	Ausführlich, etwas überladen	Hoch	Gut	Gut
Gemini 1.5 Pro	Ausreichend	Keine exakte symbolische Antwort	Hoch	Ausgezeichnet	Gut (aber nur Zusammenfassung)

Herausragend ist hier Claude Sonnet 4, der meiner Meinung nach der Gewinner ist. Für ein schnelles numerisches Ergebnis ist Gemini am schnellsten, aber für absolute Klarheit und Wiederverwendbarkeit sollten Sie bei Claude, DeepSeek oder ChatGPT-4o bleiben.

Problem mit defektem Code

Lassen Sie uns das Ganze noch etwas vertiefen und sehen, wie intelligent KIs im Vergleich sind, indem wir einen fehlerhaften C-Code reparieren:

 1#include <stdio.h>
 2#include <stdlib.h>
 3#include <string.h>
 4
 5char* copy_string(const char* src) {
 6char\* dest;
 7strcpy(dest, src);
 8return dest;
 9}
10
11int main() {
12char* original = "Hello, world!";
13char* copy = copy_string(original);
14
15    printf("Copied string: %s\n", copy);
16
17    return 0;
18
19}

Was ist falsch am obigen Code? Lassen Sie mich erklären:

dest in copy_string wird uninitialisiert verwendet, kein Speicher zugewiesen.
Die Verwendung von strcpy(dest, src) mit einem nicht initialisierten Zeiger führt zu undefiniertem Verhalten und wahrscheinlich einem Absturz.
Der Speicher für die Kopie (sofern zugewiesen) wird nie freigegeben – potenzieller Speicherverlust.
Der Code druckt die Kopie, ohne den Erfolg zu prüfen.

Mit dem obigen Code formulieren wir die Eingabeaufforderung wie folgt:

 1Korrigieren Sie den folgenden Code für mich und stellen Sie eine Zusammenfassung der Korrekturen bereit:
 2
 3```
 4#include <stdio.h>
 5#include <stdlib.h>
 6#include <string.h>
 7
 8char* copy_string(const char* src) {
 9    char* dest;
10    strcpy(dest, src);
11    return dest;
12}
13
14int main() {
15    char* original = "Hello, world!";
16    char* copy = copy_string(original);
17
18    printf("Copied string: %s\n", copy);
19
20    return 0;
21}
22```

Ergebnisse/Vergleich

Ehrlich gesagt, jedes Modell lieferte eine korrekte und professionelle Lösung.

Modell/Variante	Inhaltsqualität	Einschränkungen	Robustheit	Lesbarkeit	Fehler/Artefakte
Claude 4 Sonnet	Hervorragend (Behandlung von Randfällen, klar)	Etwas ausführliche Zusammenfassung	Prüft auf NULL-Eingabe und -Zuweisung; gibt Speicher frei	Sehr klar, übersichtlich	Keine
DeepSeek	Hervorragend (prägnant, korrekt)	Etwas weniger ausführlich bei der Eingabevalidierung	Prüft Zuweisung; Fehlerbehandlung; gibt Speicher frei	Klar, prägnant	Keine
ChatGPT-4o	Hervorragend (prägnant, deckt alles ab)	Keine NULL-Eingabeprüfung (für src)	Prüft Zuweisung; Fehlerbehandlung; gibt Speicher frei	Sehr gut lesbar	Keine
Grok 3	Ausgezeichnet (gründlich, professionell)	Beendet bei fehlgeschlagener Allokation (nicht optimal für Bibliotheken); keine NULL-Eingabeprüfung	Behandelt Allokationsfehler; gibt Speicher frei	Etwas ausführlich	Keine
Gemini 1.5 Pro	Ausgezeichnet (professionell, besonders detailliert)	Keine explizite NULL-Eingabeprüfung; viele Kommentare	Behandelt Allokationsfehler, setzt Zeiger nach Freigabe auf NULL	Sehr gut lesbar	Keine

Alle Modelle lieferten eine korrekte und professionelle Lösung. Claude 4 Sonnet ging bei der Behandlung von Randfällen und Erklärungen über das Übliche hinaus, aber alle Antworten sind solide und zum Kopieren/Einfügen in ein C-Projekt geeignet. Kein Modell hat neue Fehler eingeführt.

Die generierten Codes können in meinem Repository hier heruntergeladen und angezeigt werden.

Fazit

Nachdem ich die neueste Generation von KI-Modellen an drei sehr unterschiedlichen Aufgaben getestet hatte, darunter dem Verfassen akademischer Essays, geschäftlichem E-Mail-Marketing und praktischem Programmieren, stellte ich fest, dass es keine einheitliche KI gibt, die alle Aufgaben beherrscht. Stattdessen bringt jedes Modell seine eigenen Stärken, Besonderheiten und idealen Anwendungsfälle mit sich.

Aber wer gewinnt insgesamt?

Es hängt von Ihren Anforderungen ab:

– Bereit für Automatisierung oder die Entwicklung von etwas Anspruchsvollem? Nutzen Sie ChatGPT-4o oder Claude 4 Sonnet für Code. – Benötigen Sie freundliche, kundenorientierte Kommunikation? Grok-3. – Möchten Sie Ihre Leser informieren und begeistern? Grok-3 ist Ihr bester Freund.

Es gibt nicht die eine „beste“ KI, sondern nur das richtige Werkzeug für die richtige Aufgabe.

Der cleverste Weg, KI einzusetzen, besteht darin, das Modell an Ihre Mission anzupassen, denn wie dieses Experiment zeigt, haben selbst die fortschrittlichsten Bots ihre eigenen Persönlichkeiten und Stärken.

Referenzen/Links

Vielen Dank, dass Sie sich die Zeit genommen haben, meinen Artikel zu lesen. Teilen Sie ihn gerne mit Freunden.

ChatGPT vs Gemini vs Grok vs Deepseek vs Claude

KI-Codegenerierung

Ergebnisse/Vergleich

Insgesamt am besten

KI-basierte Inhaltsgenerierung

E-Mail-Generierung

Ergebnisse/Vergleich

Gesamtsieger

Akademisches Schreiben

Ergebnisse/Vergleich

Gesamtsieger

Plagiatsprüfung

KI-Problemlösung

A + B Integralproblem

Ergebnisse/Vergleich

Problem mit defektem Code

Ergebnisse/Vergleich

Fazit

Aber wer gewinnt insgesamt?

Referenzen/Links

Kommentare

Einen Kommentar hinterlassen Antwort abbrechen

Einen Kommentar hinterlassen