In diesem Beitrag vergleichen wir ChatGPT, Gemini, Grok, Deepseek und Claude anhand verschiedener Anwendungsfälle, um herauszufinden, welches der verfügbaren kostenlosen Modelle am besten zu Ihren Anforderungen passt.
Wir testen folgende Aspekte:
– Codegenerierung – Inhaltsgenerierung – Problemlösung
Wir vergleichen folgende Aspekte:
– Generierungsgeschwindigkeit – Code-/Inhaltsqualität/Plagiat – Einschränkungen – Robustheit – Lesbarkeit – Fehler/Probleme
Zur Erinnerung: Alle Tests werden ausschließlich mit kostenlosen Modellen durchgeführt.
KI-Codegenerierung
Ich habe mich für eine kurze und einfache, aber dennoch anspruchsvolle Eingabeaufforderung zur Codegenerierung entschieden. Aufgrund der großen Beliebtheit von Python als gewünschte Sprache ist die Eingabeaufforderung sehr simpel.
Die Eingabeaufforderung erfordert ein CSV-Parser-Skript ohne Verwendung externer Bibliotheken und sollte daher unkompliziert sein.
Eingabeaufforderung für alle Modelle:
1Erstellen Sie ein Python-Skript, das CSVs analysieren kann, ohne eine externe Bibliothek zu verwenden.
Ergebnisse/Vergleich
Einige Modelle führten ein Skript sehr schnell aus und gaben es zurück, während andere sogar 5 Minuten zum Nachdenken brauchten. Alle Skripte wurden jedoch fehlerfrei ausgeführt, was sehr erfreulich ist.
Modell | Generierungsgeschwindigkeit | Codequalität | Einschränkungen | Robustheit | Lesbarkeit | Fehler/Probleme |
---|---|---|---|---|---|---|
ChatGPT-4o | 19 Sekunden | Gut, einfach | Keine benutzerdefinierten Trennzeichen; nur Listen (nicht nach Spaltennamen) | Verarbeitet knifflige CSVs mit Zeilenumbrüchen | Übersichtlich, unkompliziert | Kann bei fehlerhaften CSV-Anführungszeichen fehlschlagen |
ChatGPT-4o Think | 25 Sekunden | Ausgezeichnet | Verarbeitet keine Zeilenumbrüche innerhalb von Anführungszeichen | Hervorragend für normale CSVs | Sehr übersichtlich, gut dokumentiert | Keine offensichtlichen Fehler, warnt vor Einschränkungen |
Claude Sonnet 4 | 30 Sekunden | Gut, benutzerfreundlich | Unterstützt keine Zeilenumbrüche in Anführungszeichen; keine dict-Ausgabe | Funktioniert mit Standarddateien | Anfängerfreundlich | Warnt bei abweichenden Zeilenlängen |
Claude Sonnet 4 Think | 37 Sekunden | Gut, detailliert | Keine Zeilenumbrüche in Anführungszeichen; einfache Ausgabe | Funktioniert mit den meisten Dateien | Detailliert, viele Beispiele | Warnt bei Datenkonflikten |
DeepSeek | 62 Sekunden | Sehr gut | Kein Zugriff auf Spaltennamen; verbraucht mehr Speicher bei großen Dateien | Behandelt komplexe Fälle, Zeilenumbrüche OK | Sauber, einfach | Nichts Offensichtliches; kann bei großen Dateien langsamer sein |
DeepSeek Think | 653 Sekunden | Einfach | Nur einfach; keine Header; kann keine Zeilenumbrüche in Anführungszeichen verarbeiten | Funktioniert nur mit einfachen CSVs | Minimal, leicht verständlich | Kann bei komplexen CSVs abbrechen |
Gemini 1.5 Pro | 29 Sekunden | Sehr gut | Behandelt keine Zeilenumbrüche in Anführungszeichen | Warnt vor Zeilenumbrüchen/überspringt diese | Benutzerfreundlich, übersichtlich | Überspringt fehlerhafte Zeilen |
Grok-3 | Einfach | 9 Sekunden | Keine Überschriften; Zeilenumbrüche in Anführungszeichen werden nicht verarbeitet | OK für einfache CSV-Dateien | Einfach, kurz | Keine Fehlerbehandlung für beschädigte Dateien |
Grok-3 Think | 87 Sekunden | Einfach | Sehr einfach; keine Überschriften oder komplexe Fälle | Gut für kleine/einfache Dateien | Kurz, lesbar | Minimale Fehleranzeige |
Insgesamt am besten
Meiner Meinung nach ist ChatGPT-4o (Think) der Gewinner dieser Modelle. Ein ausgewogenes Verhältnis zwischen angemessener Generierungszeit und Ausgabe.
– Äußerst praktisch, insbesondere für „normale“ CSV-Dateien (keine seltsamen Zeilenumbrüche innerhalb von Zellen). – Bietet sowohl Wörterbuch- (Spaltennamen) als auch Listenausgabe. – Anpassbare Trennzeichen, gute Fehlerbehandlung und klares Feedback. – Sehr einfach zu lesen, zu erweitern und zu integrieren. – Funktioniert über die Kommandozeile oder als importierte Funktion.
Wenn Sie ansprechenden Code sehen, lernen oder in Ihren eigenen Skripten verwenden möchten: ChatGPT-4o (Think) ist die beste Wahl. Für die meisten Benutzer und die meisten Dateien ist ChatGPT-4o (Think) der Gewinner!
Die Skripte können in meinem Repository hier heruntergeladen und angezeigt werden.
KI-basierte Inhaltsgenerierung
Codegenerierung ist bei weitem der einzige Einsatzzweck von KI, da immer mehr Menschen KI zur Inhaltsgenerierung nutzen. Dies reicht von Blogbeiträgen über Dokumente bis hin zu E-Mails und vielem mehr.
Im Folgenden testen wir zwei Kategorien: E-Mail und Wissenschaftliches Schreiben.
E-Mail-Generierung
Für unseren Test zur E-Mail-Inhaltsgenerierung bitte ich um einen einfachen E-Mail-Pitch mit folgender Aufforderung:
1Erstellen Sie eine E-Mail-Präsentation über meinen neuen Blumenladen. Ich verkaufe Schnittblumen, oft zu Sträußen oder Blumenarrangements arrangiert. Ich biete auch individuelle Arrangements an, biete tägliche oder wöchentliche Blumenlieferungen an und biete möglicherweise Dienstleistungen wie Hochzeits- oder Event-Styling an.
Ergebnisse/Vergleich
Jede KI/jedes Modell generierte den Inhalt unglaublich schnell, daher werde ich die Spalte „Generierungsgeschwindigkeit“ unten in der Tabelle nicht berücksichtigen.
Modell/Variante | Inhaltsqualität | Einschränkungen | Robustheit | Lesbarkeit | Fehler/Artefakte |
---|---|---|---|---|---|
ChatGPT-4o | Sehr natürlich, sauber | Etwas generisch | Sehr stark | Ausgezeichnet | Keine |
ChatGPT-4o Think | Kreativ, klar, menschlich | Sicher, fügt aber subtiles Marketing hinzu | Ausgezeichnet | Sehr hoch | Keine |
Claude Sonnet 4 | Professionell, herzlich | Etwas förmlich, etwas lang | Sehr stark | Sehr hoch | Keine |
Claude Sonnet 4 Think | Detailliert, unterteilt | Übermäßig ausführlich, zu „website-artig“ | Robust | Hoch | Keine, aber zu lang für eine Pitch-E-Mail |
DeepSeek | Freundlich, klar | Fügt „P.S.“ hinzu, leichter Vorlagencharakter | Stark | Sehr hoch | Keine, aber etwas allgemein |
DeepSeek Think | Mehrere Betreff-/Textoptionen | Mehrere vollständige E-Mails in einer Datei | Gut | Gut | Regel „eine E-Mail“ NICHT befolgt; zu viele Auswahlmöglichkeiten |
Gemini 1.5 Pro | Ausgefeilt, professionell | Drei E-Mails in einer (für unterschiedliche Kunden) | Gut | Hoch | Regel „eine E-Mail“ ignoriert; zu viele pro Datei |
Grok 3 | Herzlich, direkt | Leicht repetitive Sprache | Gut | Gut | Keine, aber etwas formelhaft |
Grok 3 Think | Freundlich, klar, gegliedert | Lange Einleitung, etwas „klobiges“ Format | Gut | Gut | Keine, nur etwas segmentiert |
Gesamtsieger
Meiner Meinung nach gewinnt ChatGPT-4o (beide Versionen) aufgrund folgender Vorteile:
– Erstellung einer einzigen, gebrauchsfertigen, natürlichen E-Mail pro Datei. – Keine Formatierungsfehler, keine KI-Artefakte, keine übermäßige Länge und hohe Lesbarkeit.
Es erstellte die natürlichste, am besten lesbare und professionellste E-Mail. Es befolgte meine Anweisungen genau (eine E-Mail pro Datei, keine zusätzlichen Formatierungs- oder KI-Fehler), sodass Sie den E-Mail-Pitch mit nur wenigen zusätzlichen persönlichen Angaben sofort verwenden können.
Die generierten Inhalte stehen in meinem Repository hier zum Download und zur Ansicht bereit.
Akademisches Schreiben
Es ist keine Überraschung, dass immer mehr Menschen KI nutzen, um akademisches Schreiben zu erstellen. Die meisten der generierten Inhalte scheitern jedoch an der Plagiatsprüfung, weil die KI entweder keine einzigartigen Inhalte generiert oder die Eingabeaufforderung fehlt.
Für unseren zweiten Test bitte ich um einen kurzen Aufsatz mit folgender Aufgabe:
1Verfassen Sie einen kurzen Aufsatz (max. 1000 Wörter) über die Entwicklung von CPUs im akademischen Stil und mit einzigartigem Inhalt. Verwenden Sie keine Inhalte aus bereits vorhandenen Aufsätzen oder Quellen. Fügen Sie gegebenenfalls Referenzen hinzu.
Ergebnisse/Vergleich
Modell/Variante | Inhaltsqualität | Einschränkungen | Robustheit | Lesbarkeit | Fehler/Artefakte |
---|---|---|---|---|---|
ChatGPT-4o | Strukturiert, wissenschaftlich, prägnant | Leicht formelhaft; kein erzählerisches Flair | Aussagekräftig, aktuell | Hoch (für technische Leser) | Keine |
Claude Sonnet 4 | Enzyklopädisch, narrativ | Ausführlich, geringe Wiederholungen | Umfassend | Flüssig, verständlich | Keine; leicht wortreich |
DeepSeek | Prägnant, sachlich, umfrageartig | Weniger Kontext, abrupte Übergänge | Fokussiert, präzise | Moderat (technisch) | Keine |
Grok-3 | Ansprechend, thematisch | Gelegentliche Verallgemeinerungen | Breit, verständlich | Sehr hoch | Keine; leichtes Klischee |
Gemini 2.5 Pro | Technisch, gründlich | Dicht, technischer Hintergrund wird vorausgesetzt | Sehr robust | Niedriger (nicht-technisch) | Keine |
Gesamtsieger
Der Gewinner ist meiner Meinung nach Grok 3 für akademisches Schreiben.
– Erzählt Geschichten und nutzt verständliche Metaphern („technologische Odyssee“), wodurch es auch für Laien angenehm zu lesen ist. – Führt den Leser chronologisch durch die CPU-Geschichte und behandelt dabei auch moderne Themen (Multi-Core, Spezialisierung, Zukunft). – Erklärt Schlüsselkonzepte, ohne den Leser mit Fachjargon oder trockenen Fachausdrücken zu überfordern. – Man braucht kein tiefes technisches Hintergrundwissen, um dem Buch zu folgen und es zu genießen.
Plagiatsprüfung
Ich habe den Plagiatsprüfer von Grammarly verwendet, um den Inhalt zu prüfen und die Position der einzelnen KIs zu ermitteln.
Die Ergebnisse finden Sie in der folgenden Tabelle:
Modell/Variante | Plagiat | Grammatik | Rechtschreibung | Zeichensetzung | Prägnanz | Lesbarkeit |
---|---|---|---|---|---|---|
ChatGPT-4o | 8 Schreibprobleme | OK | NICHT BESTANDEN | NICHT BESTANDEN | NICHT BESTANDEN | OK |
Claude Sonnet 4 | 8 Schreibprobleme | NICHT BESTANDEN | OK | OK | NICHT BESTANDEN | OK |
DeepSeek | 2 Schreibprobleme | OK | OK | NICHT BESTANDEN | OK | OK |
Grok-3 | 8 Schreibprobleme | OK | OK | OK | NICHT BESTANDEN | OK |
Gemini 2.5 Pro | 22 Schreibprobleme | FEHLERHAFT | FEHLERHAFT | OK | FEHLERHAFT | OK |
Der Gewinner ist eindeutig Grok 3, auch wenn es nicht ganz perfekt ist; man kann die kleinen Probleme selbst beheben und einen preisgekrönten Aufsatz schreiben 😊 (lol)
KI-Problemlösung
A + B Integralproblem
Es ist allgemein bekannt, dass KIs über enorme Rechenleistung und Wissen verfügen. Doch wie schneiden sie im Vergleich ab?
Nutzen wir dieses beliebte Mathe-Quiz, das an manchen Gymnasien angeboten wird:
1A = Integral von 0 bis 1 von ex^2
2B = Integral von 1 bis e2 von ln(√x)
3Finde A + B
Ergebnisse/Vergleich
Hier zeigen sich die Probleme jeder KI. Jede einzelne KI hatte Mühe, eine fertige Copy-and-Paste-Lösung bereitzustellen, was den einfachsten Teil des Problems darstellt. Die Berechnung war zwar abgeschlossen, aber nicht kopierbar. Daher musste ich mehrmals in verschiedenen Formaten nachfragen, bis ich sie irgendwie als TXT-Dateien für Sie speichern konnte.
Modell/Variante | Codequalität | Einschränkungen | Robustheit | Lesbarkeit | Copy-and-Paste-Freundlichkeit |
---|---|---|---|---|---|
Claude 4 Sonnet | Ausgezeichnet | Keine | Sehr hoch | Ausgezeichnet | Am besten (einfach, Markdown, schrittweise) |
DeepSeek | Ausgezeichnet | Leichte Header-Überbeanspruchung | Sehr hoch | Ausgezeichnet | Ausgezeichnet |
ChatGPT-4o | Ausgezeichnet | Keine | Sehr hoch | Ausgezeichnet | Ausgezeichnet |
Grok 3 | Gut | Ausführlich, etwas überladen | Hoch | Gut | Gut |
Gemini 1.5 Pro | Ausreichend | Keine exakte symbolische Antwort | Hoch | Ausgezeichnet | Gut (aber nur Zusammenfassung) |
Herausragend ist hier Claude Sonnet 4, der meiner Meinung nach der Gewinner ist. Für ein schnelles numerisches Ergebnis ist Gemini am schnellsten, aber für absolute Klarheit und Wiederverwendbarkeit sollten Sie bei Claude, DeepSeek oder ChatGPT-4o bleiben.
Problem mit defektem Code
Lassen Sie uns das Ganze noch etwas vertiefen und sehen, wie intelligent KIs im Vergleich sind, indem wir einen fehlerhaften C-Code reparieren:
1#include <stdio.h>
2#include <stdlib.h>
3#include <string.h>
4
5char* copy_string(const char* src) {
6 char* dest;
7 strcpy(dest, src);
8 return dest;
9}
10
11int main() {
12 char* original = "Hello, world!";
13 char* copy = copy_string(original);
14
15 printf("Copied string: %s\n", copy);
16
17 return 0;
18}
Was ist falsch am obigen Code? Lassen Sie mich erklären:
dest
incopy_string
wird uninitialisiert verwendet, kein Speicher zugewiesen.- Die Verwendung von
strcpy(dest, src)
mit einem nicht initialisierten Zeiger führt zu undefiniertem Verhalten und wahrscheinlich einem Absturz. - Der Speicher für die Kopie (sofern zugewiesen) wird nie freigegeben – potenzieller Speicherverlust.
- Der Code druckt die Kopie, ohne den Erfolg zu prüfen.
Mit dem obigen Code formulieren wir die Eingabeaufforderung wie folgt:
1Korrigieren Sie den folgenden Code für mich und stellen Sie eine Zusammenfassung der Korrekturen bereit:
2```
3#include <stdio.h>
4#include <stdlib.h>
5#include <string.h>
6
7char* copy_string(const char* src) {
8 char* dest;
9 strcpy(dest, src);
10 return dest;
11}
12
13int main() {
14 char* original = "Hello, world!";
15 char* copy = copy_string(original);
16
17 printf("Copied string: %s\n", copy);
18
19 return 0;
20}
21```
Ergebnisse/Vergleich
Ehrlich gesagt, jedes Modell lieferte eine korrekte und professionelle Lösung.
Modell/Variante | Inhaltsqualität | Einschränkungen | Robustheit | Lesbarkeit | Fehler/Artefakte |
---|---|---|---|---|---|
Claude 4 Sonnet | Hervorragend (Behandlung von Randfällen, klar) | Etwas ausführliche Zusammenfassung | Prüft auf NULL-Eingabe und -Zuweisung; gibt Speicher frei | Sehr klar, übersichtlich | Keine |
DeepSeek | Hervorragend (prägnant, korrekt) | Etwas weniger ausführlich bei der Eingabevalidierung | Prüft Zuweisung; Fehlerbehandlung; gibt Speicher frei | Klar, prägnant | Keine |
ChatGPT-4o | Hervorragend (prägnant, deckt alles ab) | Keine NULL-Eingabeprüfung (für src) | Prüft Zuweisung; Fehlerbehandlung; gibt Speicher frei | Sehr gut lesbar | Keine |
Grok 3 | Ausgezeichnet (gründlich, professionell) | Beendet bei fehlgeschlagener Allokation (nicht optimal für Bibliotheken); keine NULL-Eingabeprüfung | Behandelt Allokationsfehler; gibt Speicher frei | Etwas ausführlich | Keine |
Gemini 1.5 Pro | Ausgezeichnet (professionell, besonders detailliert) | Keine explizite NULL-Eingabeprüfung; viele Kommentare | Behandelt Allokationsfehler, setzt Zeiger nach Freigabe auf NULL | Sehr gut lesbar | Keine |
Alle Modelle lieferten eine korrekte und professionelle Lösung. Claude 4 Sonnet ging bei der Behandlung von Randfällen und Erklärungen über das Übliche hinaus, aber alle Antworten sind solide und zum Kopieren/Einfügen in ein C-Projekt geeignet. Kein Modell hat neue Fehler eingeführt.
Die generierten Codes können in meinem Repository hier heruntergeladen und angezeigt werden.
Fazit
Nachdem ich die neueste Generation von KI-Modellen an drei sehr unterschiedlichen Aufgaben getestet hatte, darunter dem Verfassen akademischer Essays, geschäftlichem E-Mail-Marketing und praktischem Programmieren, stellte ich fest, dass es keine einheitliche KI gibt, die alle Aufgaben beherrscht. Stattdessen bringt jedes Modell seine eigenen Stärken, Besonderheiten und idealen Anwendungsfälle mit sich.
Aber wer gewinnt insgesamt?
Es hängt von Ihren Anforderungen ab:
– Bereit für Automatisierung oder die Entwicklung von etwas Anspruchsvollem? Nutzen Sie ChatGPT-4o oder Claude 4 Sonnet für Code. – Benötigen Sie freundliche, kundenorientierte Kommunikation? Grok-3. – Möchten Sie Ihre Leser informieren und begeistern? Grok-3 ist Ihr bester Freund.
Es gibt nicht die eine „beste“ KI, sondern nur das richtige Werkzeug für die richtige Aufgabe.
Der cleverste Weg, KI einzusetzen, besteht darin, das Modell an Ihre Mission anzupassen, denn wie dieses Experiment zeigt, haben selbst die fortschrittlichsten Bots ihre eigenen Persönlichkeiten und Stärken.
Referenzen/Links
Vielen Dank, dass Sie sich die Zeit genommen haben, meinen Artikel zu lesen. Teilen Sie ihn gerne mit Freunden.
Kommentare