Per gran parte dell’ultimo decennio, eseguire un modello IA significava noleggiare un server GPU, gestire i driver e pagare quell’hardware indipendentemente dall’arrivo o meno delle richieste. Cloudflare Workers AI cambia il modello completamente: chiami un modello IA esattamente come chiameresti qualsiasi altra funzione in un Worker, viene eseguito su GPU distribuite sulla rete globale di Cloudflare, e paghi solo per ciò che usi. Nessun server da provisionare, nessuna GPU da accudire e inferenza che avviene vicino ai tuoi utenti.

Questa guida spiega cos’è Workers AI, quali modelli puoi eseguire, quanto costa con il modello di prezzo Neurons e come chiamarlo dal codice, incluso un esempio pratico di generazione di immagini. Fa parte del mio playbook Cloudflare continuo per costruire applicazioni veloci e moderne all’edge.

In breve

  • Workers AI è IA serverless: esegue LLM, generazione di immagini, embedding e modelli audio sulle GPU edge di Cloudflare, chiamati da un Worker
  • I prezzi usano i Neurons: ottieni 10.000 Neurons al giorno gratis, poi paghi 0,011 $ per 1.000 Neurons
  • Copre quattro famiglie di modelli: testo (LLM), immagine, embedding e audio, con nuovi modelli aggiunti regolarmente
  • Puoi generare immagini all’edge e ottimizzarle con Cloudflare Image Transformations
  • Si abbina naturalmente al resto della piattaforma Workers: KV, R2, D1 e Vectorize per applicazioni IA complete
  • Hai bisogno di aiuto per rilasciare una funzionalità IA? È esattamente a questo che serve il mio servizio di implementazione IA

Cos’è realmente Workers AI

Cloudflare Workers AI ti permette di eseguire modelli di machine learning sulla rete di Cloudflare usando un semplice binding all’interno di un Worker. Cloudflare ospita le GPU e i modelli; tu invii input e ricevi output. Non c’è infrastruttura da gestire, nessun avvio a freddo delle GPU da pagare e nessun impegno mensile minimo.

Poiché l’inferenza viene eseguita sulla rete distribuita di Cloudflare anziché in una singola regione, il modello viene eseguito vicino al tuo utente. Per funzionalità interattive come chat, classificazione o generazione di contenuti, questa vicinanza riduce la latenza in un modo che un cluster GPU centralizzato non può eguagliare.

I modelli sono aperti e gestiti da Cloudflare. Fai riferimento a un modello tramite il suo nome, come una variante Llama per il testo o una variante Flux per le immagini, e Cloudflare mantiene il catalogo aggiornato man mano che vengono rilasciati modelli aperti migliori.

Modelli Cloudflare Workers AI che puoi eseguire

Workers AI organizza il suo catalogo in quattro famiglie principali, più un insieme di modelli specializzati:

  • Testo (LLM). Modelli linguistici come le varianti Llama, Mistral e Qwen per chat, riassunto, estrazione, classificazione e generazione di contenuti. Fatturati su token di input e output.
  • Immagine. Modelli di generazione come le varianti Flux che creano immagini da prompt testuali. Fatturati per tile e step.
  • Embedding. Modelli come BGE che trasformano il testo in vettori per la ricerca semantica e la generazione aumentata dal recupero. Fatturati sui token di input.
  • Audio. Modelli speech-to-text e text-to-speech. Fatturati al minuto o al carattere.
  • Altri. Modelli specializzati per traduzione, riordinamento, classificazione e riconoscimento di immagini.

Il catalogo evolve rapidamente, quindi controlla sempre l’elenco dei modelli aggiornato per le ultime opzioni e i loro prezzi esatti.

Prezzi di Cloudflare Workers AI: come funzionano i Neurons

Workers AI usa un’unità unificata chiamata Neuron per esprimere il costo dell’inferenza per ogni tipo di modello. Anziché destreggiarti tra prezzi separati per token, tile, step e minuti audio, Cloudflare li converte tutti in Neurons così hai un solo numero da considerare.

In base ai prezzi ufficiali di Workers AI per il 2026:

PianoNeurons
Allocazione gratuita (piani Free e Paid)10.000 Neurons al giorno
Utilizzo a pagamento oltre l’allocazione gratuita0,011 $ per 1.000 Neurons

L’allocazione gratuita giornaliera si reimposta alle 00:00 UTC. Per prototipi, progetti collaterali e funzionalità a basso traffico, 10.000 Neurons al giorno spesso significano che la tua funzionalità IA gira a costo zero. Quando la superi, la tariffa è abbastanza bassa che una quantità sostanziale di inferenza costa comunque solo pochi dollari.

Poiché modelli diversi consumano Neurons a ritmi diversi, il costo pratico dipende da quale modello chiami e da quanti dati invii. La pagina dei prezzi elenca il costo in Neuron per modello, così puoi stimare prima di costruire.

Chiamare un modello di testo da un Worker

Ecco lo schema centrale. Colleghi Workers AI nel tuo wrangler.toml, poi chiami env.AI.run() con un nome di modello e un input:

 1export default {
 2  async fetch(request, env) {
 3    const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
 4      messages: [
 5        { role: "system", content: "You are a concise assistant." },
 6        { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
 7      ],
 8    });
 9
10    return Response.json(response);
11  },
12};

Il binding AI viene configurato una volta nelle impostazioni del tuo Worker. Dopodiché, chiamare un modello è una singola chiamata di funzione asincrona, che restituisce l’output del modello affinché tu lo usi come preferisci.

Generare immagini all’edge

La generazione di immagini è uno dei casi d’uso più convincenti di Workers AI, e si ricollega direttamente all’hosting e alla distribuzione di immagini, un tema ricorrente di questo blog. Puoi generare un’immagine da un prompt testuale e restituire i byte direttamente in streaming nella risposta:

 1export default {
 2  async fetch(request, env) {
 3    const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
 4
 5    const image = await env.AI.run(
 6      "@cf/black-forest-labs/flux-1-schnell",
 7      inputs
 8    );
 9
10    return new Response(image, {
11      headers: { "content-type": "image/png" },
12    });
13  },
14};

Uno schema potente consiste nel generare l’immagine, archiviarla in Cloudflare R2 e poi distribuirla ottimizzata tramite image transformations . Questo ti dà grafiche generate dall’IA, archiviate senza costi di egress, distribuite come WebP o AVIF perfettamente dimensionato. L’intera pipeline, generazione, archiviazione e distribuzione, vive all’interno di Cloudflare.

Costruire applicazioni IA complete

Workers AI è più potente in combinazione con il resto della piattaforma. Un’applicazione IA realistica cuce insieme diversi pezzi:

  • Workers AI per l’inferenza (LLM, embedding, generazione di immagini)
  • Vectorize come database vettoriale per la ricerca semantica e la generazione aumentata dal recupero
  • R2 per archiviare documenti, immagini o audio
  • D1 per dati applicativi strutturati (leggi la mia guida a D1 )
  • KV per caching e configurazione

Per esempio, un chatbot di documentazione incorporerebbe i tuoi contenuti con un modello di embedding, archivierebbe i vettori in Vectorize, recupererebbe i frammenti pertinenti al momento della query, e li passerebbe a un LLM, il tutto all’interno di un singolo Worker, il tutto all’edge. Questa è l’architettura dietro la maggior parte delle moderne funzionalità IA aumentate dal recupero. Puoi gestire i livelli di archiviazione dietro queste app dal tuo desktop con le mie app gratuite Easy Cloudflare R2 , Easy Cloudflare D1 ed Easy Cloudflare KV , disponibili per Windows, macOS e Linux.

Quando Workers AI è la scelta giusta

Workers AI è un’ottima scelta quando:

  • Vuoi inferenza IA senza gestire infrastruttura GPU
  • La bassa latenza conta e i tuoi utenti sono globali
  • Il tuo carico è irregolare o imprevedibile, quindi il pagamento a consumo batte l’hardware riservato
  • Stai già costruendo su Workers e vuoi tutto su un’unica piattaforma
  • I modelli aperti nel catalogo soddisfano le tue esigenze di qualità

È meno adatto a casi che richiedono uno specifico modello proprietario di frontiera non presente nel catalogo, o a inferenza batch estremamente pesante dove l’hardware dedicato può risultare più economico a piena utilizzazione sostenuta. Per questi, è comune un approccio ibrido, che chiama un fornitore di modelli esterno dal tuo Worker, ed è qualcosa che aiuto i clienti a progettare attraverso i miei servizi di integrazione IA .

Punti chiave

  • Workers AI esegue LLM, modelli di immagine, embedding e audio sulle GPU edge di Cloudflare senza infrastruttura da gestire
  • I prezzi sono unificati in Neurons: 10.000 gratis al giorno, poi 0,011 $ per 1.000 Neurons
  • Chiamare un modello è una singola chiamata env.AI.run() all’interno di un Worker
  • Puoi generare immagini all’edge, archiviarle in R2 e distribuirle ottimizzate tramite le trasformazioni
  • Si combina con Vectorize, R2, D1 e KV per costruire applicazioni IA complete su un’unica piattaforma
  • Il pagamento a consumo e la bassa latenza globale lo rendono ideale per funzionalità IA irregolari rivolte all’utente

Domande frequenti

Cos’è Cloudflare Workers AI? È un servizio che esegue modelli di machine learning sulla rete di GPU edge di Cloudflare. Chiami un modello da un Worker usando il binding AI, e Cloudflare gestisce l’hardware e l’hosting dei modelli. Non ci sono server né GPU da gestire per te.

Cos’è un Neuron nei prezzi di Workers AI? Un Neuron è l’unità unificata di Cloudflare per misurare il costo dell’inferenza su tutti i tipi di modello. Token, tile delle immagini, step di generazione e minuti audio vengono tutti convertiti in Neurons così hai un’unica cifra da monitorare. Ottieni 10.000 gratis al giorno, poi paghi 0,011 $ per 1.000.

Workers AI può generare immagini? Sì. Il catalogo include modelli text-to-image come le varianti Flux. Chiami il modello con un prompt e ricevi byte di immagine, che puoi restituire direttamente, archiviare in R2 o ottimizzare con le image transformations.

Workers AI è gratuito? C’è un’allocazione gratuita di 10.000 Neurons al giorno sia sul piano Workers Free sia su quello Paid, che si reimposta ogni giorno alle 00:00 UTC. Molte piccole funzionalità girano interamente entro questa allocazione. Oltre, l’utilizzo è fatturato a 0,011 $ per 1.000 Neurons.

Quali modelli supporta Workers AI? Supporta quattro famiglie: LLM di testo (Llama, Mistral, Qwen), generazione di immagini (Flux), embedding (BGE) e audio (speech-to-text e text-to-speech), più modelli specializzati per traduzione, riordinamento e classificazione. Il catalogo viene aggiornato regolarmente.

Come si confronta Workers AI con l’esecuzione di un mio server GPU? Workers AI elimina il provisioning delle GPU, lo scaling e la gestione dei costi di inattività, ed esegue l’inferenza vicino agli utenti a livello globale. Un server GPU dedicato può essere più economico solo a piena utilizzazione sostenuta; per carichi irregolari o rivolti all’utente, il pagamento a consumo all’edge di solito vince.