In questo post confronteremo ChatGPT vs Gemini vs Grok vs Deepseek vs Claude per diversi casi d’uso, per capire quale sia il più adatto alle vostre esigenze, utilizzando i modelli gratuiti disponibili.
Testeremo i seguenti aspetti:
- Generazione di codice
- Generazione di contenuti
- Risoluzione dei problemi
Confronteremo i seguenti aspetti:
- Velocità di generazione
- Qualità del codice/contenuti/plagio
- Limitazioni
- Robustezza
- Leggibilità
- Bug/problemi
Ricordiamo che tutti i test vengono eseguiti utilizzando solo modelli gratuiti.
Generazione di codice AI
Ho deciso di utilizzare un prompt breve e semplice, ma impegnativo, per la generazione di codice utilizzando Python come linguaggio di programmazione, poiché è piuttosto diffuso.
Il prompt richiede uno script parser CSV senza utilizzare librerie esterne, quindi dovrebbe essere semplice.
Prompt per tutti i modelli:
1Crea uno script Python in grado di analizzare i file CSV senza utilizzare una libreria esterna.
Risultati/Confronto
Alcuni modelli hanno eseguito e restituito uno script molto velocemente, mentre altri hanno impiegato addirittura 5 minuti per “pensarci” 🥴. Tutti gli script, tuttavia, sono stati eseguiti senza errori, il che è positivo.
Modello | Velocità di generazione | Qualità del codice | Limitazioni | Robustezza | Leggibilità | Bug/Problemi |
---|---|---|---|---|---|---|
ChatGPT-4o | 19 secondi | Buono, basilare | Nessun delimitatore personalizzato; solo elenchi (non per nome di colonna) | Gestisce CSV complessi con nuove righe | Chiaro, semplice | Potrebbe non funzionare con virgolette CSV non funzionanti |
ChatGPT-4o Think | 25 secondi | Eccellente | Non gestisce le nuove righe tra virgolette | Ottimo per i normali CSV | Molto chiaro, ben documentato | Nessuna ovvietà, avverte dei limiti |
Claude Sonnet 4 | 30 secondi | Buono, amichevole | Non supporta le nuove righe tra virgolette; nessun output dict | Funziona con file standard | Adatto ai principianti | Avvisa se le lunghezze delle righe non corrispondono |
Claude Sonnet 4 Think | 37 secondi | Buono, dettagliato | Nessuna nuova riga tra virgolette; output di base | Funziona con la maggior parte dei file | Dettagliato, molti esempi | Avvisa in caso di mancata corrispondenza dei dati |
DeepSeek | 62 secondi | Ottimo | Nessun accesso al nome della colonna; utilizza più memoria per i file di grandi dimensioni | Gestisce casi complessi, nuove righe OK | Pulito, semplice | Nessuna ovvietà; potrebbe essere più lento su file di grandi dimensioni |
DeepSeek Think | 653 secondi | Semplice | Solo di base; nessuna intestazione; non gestisce le nuove righe tra virgolette | Funziona solo con CSV semplici | Minimo, facile da seguire | Potrebbe interrompersi su CSV complessi |
Gemini 1.5 Pro | 29 secondi | Ottimo | Non gestisce le nuove righe tra virgolette | Avvisa/salta le righe interrotte | Pulito, ordinato | Salta le righe malformate |
Grok-3 | Base | 9 secondi | Nessuna intestazione; non gestisce le nuove righe tra virgolette | OK per CSV di base | Semplice, breve | Nessuna gestione degli errori per i file danneggiati |
Grok-3 Think | 87 secondi | Base | Molto semplice; nessuna intestazione o casi complessi | Adatto per file piccoli/semplici | Breve, leggibile | Errori minimi visualizzati |
Il migliore in assoluto
A mio parere, il modello vincente tra questi è ChatGPT-4o (Think). Un buon compromesso tra tempi di generazione e output.
- Il più pratico, soprattutto per i file CSV “normali” (nessun a capo strano all’interno delle celle).
- Offre sia l’output come dizionario (nomi di colonna) che come elenco.
- Delimitatore personalizzabile, buona gestione degli errori e feedback chiaro.
- Molto facile da leggere, estendere e integrare.
- Funziona da riga di comando o come funzione importata.
Se vuoi vedere del codice accattivante, impararlo o usarlo nei tuoi script: ChatGPT-4o (Think) è il migliore. Per la maggior parte delle persone e per la maggior parte dei file, ChatGPT-4o (Think) è il vincitore!
Gli script sono disponibili per il download e la visualizzazione nel mio repository qui .
Generazione di contenuti tramite IA
La generazione di codice è di gran lunga l’unico scopo per cui l’IA viene utilizzata oggigiorno, poiché sempre più persone la utilizzano per generare contenuti, che spaziano da post di blog, documenti, email e altro ancora.
Di seguito testeremo due categorie: Email e Scrittura in stile accademico.
Generazione di email
Per il nostro test di generazione di contenuti email, ti chiederò di scrivere una semplice email pitch con il seguente prompt:
1Crea un'email di presentazione per il mio nuovo negozio di fiori. Vendo fiori recisi, spesso confezionati in bouquet o composizioni floreali. Offro anche composizioni personalizzate, consegne giornaliere o settimanali di fiori e potrei offrire servizi come l'allestimento di matrimoni o eventi.
Risultati/Confronto
Ogni IA/modello ha generato il contenuto in modo incredibilmente veloce, quindi non includerò la colonna Velocità di generazione qui sotto nella tabella.
Modello/Variante | Qualità del contenuto | Limitazioni | Robustezza | Leggibilità | Bug/Artefatti |
---|---|---|---|---|---|
ChatGPT-4o | Molto naturale, pulito | Leggermente generico | Molto forte | Eccellente | Nessuno |
ChatGPT-4o Think | Creativo, chiaro, umano | Sicuro, ma aggiunge un marketing sottile | Eccellente | Molto alto | Nessuno |
Claude Sonnet 4 | Professionale, cordiale | Leggermente formale, un po’ lungo | Molto forte | Molto alto | Nessuno |
Claude Sonnet 4 Think | Dettagliato, suddiviso in sezioni | Troppo prolisso, troppo “simile a un sito web” | Robusto | Alto | Nessuno, ma troppo lungo per un’email di presentazione |
DeepSeek | Amichevole, chiaro | Aggiunge “P.S.”, un leggero effetto template | Forte | Molto alto | Nessuno, ma leggermente generico |
DeepSeek Think | Diverse opzioni per oggetto/corpo | Più email complete in un unico file | Buono | Buono | NON ha seguito la regola “una sola email”; troppe scelte |
Gemini 1.5 Pro | Raffinato, professionale | Tre email in una (per clienti diversi) | Buono | Alto | Ignorata la regola “una sola email”; troppe per file |
Grok 3 | Cordiale, diretto | Linguaggio leggermente ripetitivo | Buono | Buono | Nessuno, ma un po’ stereotipato |
Grok 3 Think | Amichevole, chiaro, suddiviso in sezioni | Introduzione lunga, formato leggermente “grossolano” | Buono | Buono | Nessuno, solo un po’ segmentato |
Migliore in assoluto
A mio parere, ChatGPT-4o (entrambe le versioni) vince per:
- Generazione di un’unica email naturale, pronta all’uso, per file.
- Nessuna stranezza di formattazione, nessun artefatto di intelligenza artificiale, nessuna lunghezza eccessiva e alta leggibilità.
Ha scritto l’email più naturale, facile da leggere e dal suono professionale. Ha seguito esattamente le mie istruzioni (un’email per file, nessuna formattazione extra o errori di intelligenza artificiale), quindi puoi usare subito la sua email pitch con solo pochi dettagli personali aggiunti.
I contenuti generati sono disponibili per il download e la visualizzazione nel mio repository qui .
Scrittura in stile accademico
Non sorprende che sempre più persone utilizzino l’intelligenza artificiale per generare scritture in stile accademico, tuttavia la maggior parte dei contenuti generati non verrà superata a causa dei controlli antiplagio, perché l’intelligenza artificiale non genera contenuti originali o perché l’input del testo non è corretto.
Per il nostro secondo test, vi chiederò di scrivere un breve saggio con il seguente prompt:
1Crea un breve saggio (massimo 1000 parole) sull'evoluzione delle CPU, utilizzando uno stile di scrittura accademico e contenuti originali. Non utilizzare contenuti tratti da saggi o fonti già esistenti. Includi riferimenti bibliografici ove appropriato.
Risultati/Confronto
Modello/Variante | Qualità del contenuto | Limitazioni | Robustezza | Leggibilità | Bug/Artefatti | |
---|---|---|---|---|---|---|
ChatGPT-4o | Strutturato, accademico, conciso | Leggermente stereotipato; nessun tocco narrativo | Solido, aggiornato | Alto (per lettori tecnici) | Nessuno | |
Claude Sonnet 4 | Enciclopedico, narrativo | Prolisso, poche ripetizioni | Completo | Scorrevole, accessibile | Nessuno; leggermente prolisso | |
DeepSeek | Conciso, fattuale, simile a un sondaggio | Meno contesto, transizioni brusche | Focalizzato, accurato | Moderato (tecnico) | Nessuno | |
Grok-3 | Coinvolgente, tematico | Generalizzazione occasionale | Ampio, accessibile | Molto alto | Nessuno; pochi cliché | |
Gemini 2.5 Pro | Tecnico, rigoroso | Denso, richiede un background tecnico | Molto robusto | Inferiore (non tecnico) | Nessuno |
Migliore in assoluto
Il vincitore è Grok 3 a mio parere per lo stile accademico.
- Utilizza una narrazione efficace e metafore accessibili (“odissea tecnologica”), rendendolo piacevole da leggere anche per i non specialisti.
- Guida il lettore cronologicamente attraverso la storia delle CPU, affrontando temi moderni (multi-core, specializzazione, futuro).
- Spiega i concetti chiave senza sopraffare il lettore con termini tecnici o tecnicismi aridi.
- Non è necessaria una profonda conoscenza tecnica per seguirlo e apprezzarlo.
Controllo Plagio
Ho utilizzato il Controllo Plagio di Grammarly per controllare il contenuto e vedere la posizione di ogni IA.
Puoi vedere i risultati nella seguente tabella:
Modello/Variante | Plagio | Grammatica | Ortografia | Punteggiatura | Concisione | Leggibilità |
---|---|---|---|---|---|---|
ChatGPT-4o | 8 errori di scrittura | OK | FALLITO | FALLITO | FALLITO | OK |
Claude Sonnet 4 | 8 errori di scrittura | FALLITO | OK | OK | OK | FALLITO |
DeepSeek | 2 errori di scrittura | OK | OK | FALLITO | OK | OK |
Grok-3 | 8 errori di scrittura | OK | OK | OK | FALLITO | OK |
Gemini 2.5 Pro | 22 errori di scrittura | FALLITO | FALLITO | OK | FALLITO | OK |
Il vincitore è chiaramente Grok 3, anche se non è del tutto perfetto; puoi risolvere i piccoli problemi da solo e ottenere un saggio “da premio” 😊 (lol)
Risoluzione dei problemi con l’IA
Problema integrale A + B
È già noto che le IA dispongono di una notevole potenza di calcolo e di conoscenze, ma come si confrontano tra loro?
Usiamo questo popolare quiz di matematica fornito in alcune scuole superiori:
1A = Integrale da 0 a 1 di ex^2
2B = Integrale da 1 a e2 di ln(√x)
3Trova A + B
Risultati/Confronto
È qui che i problemi di ogni IA inizieranno a emergere. Ogni singola IA ha faticato a fornire una soluzione pronta all’uso tramite copia/incolla, che è la parte più semplice del “problema”. I calcoli erano stati fatti, ma non era effettivamente copiabile, quindi ho dovuto chiedere più volte in diversi formati finché non sono riuscito in qualche modo a salvarli come file .txt per voi.
Modello/Variante | Qualità del codice | Limitazioni | Robustezza | Leggibilità | Facilità di copia/incolla |
---|---|---|---|---|---|
Claude 4 Sonnet | Eccellente | Nessuno | Molto alto | Eccellente | Ottimo (facile, markdown, stepwise) |
DeepSeek | Eccellente | Leggero uso eccessivo dell’intestazione | Molto alto | Eccellente | Eccellente |
ChatGPT-4o | Eccellente | Nessuno | Molto alto | Eccellente | Eccellente |
Grok 3 | Buono | Prolisso, leggermente confuso | Alto | Buono | Buono |
Gemini 1.5 Pro | Adeguato | Nessuna risposta simbolica esatta | Alto | Eccellente | Buono (ma solo riassunto) |
Quello che spicca qui è Claude Sonnet 4, che a mio parere è il vincitore. Per un risultato numerico rapido, Gemini è il più veloce, ma per una chiarezza e una riutilizzabilità complete, meglio affidarsi a Claude, DeepSeek o ChatGPT-4o.
Problema di codice danneggiato
Aumentiamo ulteriormente il livello di intelligenza artificiale e vediamo quanto sono intelligenti le IA, chiedendo di correggere un pezzo di codice C danneggiato:
1#include <stdio.h>
2#include <stdlib.h>
3#include <string.h>
4
5char* copy_string(const char* src) {
6 char* dest;
7 strcpy(dest, src);
8 return dest;
9}
10
11int main() {
12 char* original = "Hello, world!";
13 char* copy = copy_string(original);
14
15 printf("Copied string: %s\n", copy);
16
17 return 0;
18}
Cosa c’è che non va nel codice sopra? Lasciate che vi spieghi:
dest
incopy_string
viene utilizzato non inizializzato, senza memoria allocata.- L’utilizzo di
strcpy(dest, src)
con un puntatore non inizializzato causa un comportamento indefinito e probabilmente un crash. - La memoria per la copia (se è stata allocata) non viene mai liberata: potenziale perdita di memoria.
- Il codice stampa la copia senza verificarne l’esito positivo.
Con il codice sopra, formuliamo il prompt come segue:
1Correggi il seguente codice e fornisci un riepilogo delle correzioni:
2```
3#include <stdio.h>
4#include <stdlib.h>
5#include <string.h>
6
7char* copy_string(const char* src) {
8 char* dest;
9 strcpy(dest, src);
10 return dest;
11}
12
13int main() {
14 char* original = "Hello, world!";
15 char* copy = copy_string(original);
16
17 printf("Copied string: %s\n", copy);
18
19 return 0;
20}
21```
Risultati/Confronto
Onestamente, ogni modello ha prodotto una correzione corretta e professionale.
Modello/Variante | Qualità del contenuto | Limitazioni | Robustezza | Leggibilità | Bug/Artefatti |
---|---|---|---|---|---|
Claude 4 Sonnet | Eccellente (gestione dei casi limite, chiaro) | Riepilogo leggermente prolisso | Controlla l’input e l’allocazione NULL; libera memoria | Molto chiaro, ordinato | Nessuno |
DeepSeek | Eccellente (succinto, corretto) | Leggermente meno prolisso nella convalida dell’input | Controlla l’allocazione; gestione degli errori; libera memoria | Chiaro, conciso | Nessuno |
ChatGPT-4o | Eccellente (conciso, copre tutto) | Nessun controllo dell’input NULL (per src) | Controlla l’allocazione; gestione degli errori; libera memoria | Molto leggibile | Nessuno |
Grok 3 | Eccellente (approfondito, professionale) | Esce in caso di errore di allocazione (non ideale per le librerie); nessun controllo di input NULL | Gestisce gli errori di allocazione; libera memoria | Leggermente prolisso | Nessuno |
Gemini 1.5 Pro | Eccellente (professionale, con molti dettagli) | Nessun controllo esplicito di input NULL; molti commenti | Gestisce gli errori di allocazione, imposta il puntatore a NULL dopo la liberazione | Molto leggibile | Nessuno |
Tutti i modelli hanno prodotto una correzione corretta e professionale. Claude 4 Sonnet ha superato ogni aspettativa nella gestione e nella spiegazione dei casi limite, ma tutte le risposte sono solide e adatte al copia/incolla in un progetto C. Nessun modello ha introdotto nuovi errori.
I codici generati sono disponibili per il download e la visualizzazione nel mio repository qui .
Conclusione
Dopo aver testato l’ultima generazione di modelli di intelligenza artificiale su tre attività molto diverse, come la scrittura di saggi accademici, l’email marketing aziendale e la programmazione pratica, ho scoperto che non esiste un’unica intelligenza artificiale che le domini tutte. Ogni modello, invece, porta con sé punti di forza, peculiarità e casi d’uso ideali.
Ma chi vince in assoluto?
Dipende da cosa ti serve:
- Pronto ad automatizzare o a creare qualcosa di serio? Scegli ChatGPT-4o o Claude 4 Sonnet per il codice.
- Hai bisogno di una comunicazione amichevole e incentrata sul cliente? Grok-3.
- Vuoi informare e deliziare i lettori? Grok-3 è il tuo migliore amico.
Non esiste un’intelligenza artificiale “migliore”, ma solo lo strumento giusto per il lavoro giusto.
Il modo più intelligente per usare l’intelligenza artificiale è adattare il modello alla tua missione, perché, come dimostra questo esperimento, anche i bot più avanzati hanno le loro personalità e i loro punti di forza.
Riferimenti/Link
Grazie per aver dedicato del tempo alla lettura del mio articolo e sentiti libero di condividerlo con i tuoi amici.
Commenti