În cea mai mare parte a ultimului deceniu, rularea unui model AI însemna să închiriezi un server GPU, să gestionezi drivere și să plătești pentru acel hardware indiferent dacă veneau sau nu cereri. Cloudflare Workers AI schimbă complet modelul: apelezi un model AI exact așa cum apelezi orice altă funcție într-un Worker, acesta rulează pe GPU-uri distribuite în rețeaua globală Cloudflare, iar tu plătești doar pentru cât folosești. Niciun server de provizionat, niciun GPU de îngrijit și inferență care se întâmplă aproape de utilizatorii tăi.

Acest ghid explică ce este Workers AI, ce modele poți rula, cât costă în cadrul modelului de prețuri Neurons și cum îl apelezi din cod, incluzând un exemplu practic de generare de imagini. Face parte din playbook-ul meu Cloudflare continuu pentru construirea de aplicații rapide și moderne la edge.

Pe scurt

  • Workers AI este AI serverless: rulează LLM-uri, generare de imagini, embeddings și modele audio pe GPU-urile edge ale Cloudflare, apelate dintr-un Worker
  • Prețurile folosesc Neurons: primești 10.000 de Neurons pe zi gratuit, apoi plătești 0,011 $ pentru 1.000 de Neurons
  • Acoperă patru familii de modele: text (LLM-uri), imagine, embeddings și audio, cu modele noi adăugate regulat
  • Poți genera imagini la edge și le poți optimiza cu Cloudflare Image Transformations
  • Se îmbină natural cu restul platformei Workers: KV, R2, D1 și Vectorize pentru aplicații AI complete
  • Ai nevoie de ajutor să lansezi o funcționalitate AI? Exact pentru asta este serviciul meu de implementare AI

Ce este de fapt Workers AI

Cloudflare Workers AI îți permite să rulezi modele de machine learning în rețeaua Cloudflare folosind un simplu binding în interiorul unui Worker. Cloudflare găzduiește GPU-urile și modelele; tu trimiți intrări și primești ieșiri. Nu există infrastructură de gestionat, niciun pornire la rece a GPU de plătit și niciun angajament lunar minim.

Deoarece inferența rulează în rețeaua distribuită Cloudflare, nu într-o singură regiune, modelul se execută aproape de utilizatorul tău. Pentru funcționalități interactive precum chat, clasificare sau generare de conținut, această apropiere reduce latența într-un mod pe care un cluster GPU centralizat nu îl poate egala.

Modelele sunt deschise și gestionate de Cloudflare. Referențiezi un model după nume, precum o variantă Llama pentru text sau o variantă Flux pentru imagini, iar Cloudflare menține catalogul la zi pe măsură ce sunt lansate modele deschise mai bune.

Modele Cloudflare Workers AI pe care le poți rula

Workers AI își organizează catalogul în patru familii principale, plus un set de modele specializate:

  • Text (LLM-uri). Modele lingvistice precum variantele Llama, Mistral și Qwen pentru chat, rezumare, extragere, clasificare și generare de conținut. Facturate pe tokenuri de intrare și ieșire.
  • Imagine. Modele de generare precum variantele Flux care creează imagini din prompturi text. Facturate pe tile-uri și step-uri.
  • Embeddings. Modele precum BGE care transformă textul în vectori pentru căutare semantică și generare augmentată prin recuperare. Facturate pe tokenuri de intrare.
  • Audio. Modele de transcriere vocală și sinteză vocală. Facturate pe minut sau pe caracter.
  • Altele. Modele specializate pentru traducere, reordonare, clasificare și recunoaștere de imagini.

Catalogul evoluează rapid, așa că verifică întotdeauna lista de modele actuală pentru cele mai noi opțiuni și prețurile lor exacte.

Prețuri Cloudflare Workers AI: cum funcționează Neurons

Workers AI folosește o unitate unificată numită Neuron pentru a exprima costul inferenței pentru fiecare tip de model. În loc să jonglezi cu prețuri separate pentru tokenuri, tile-uri, step-uri și minute audio, Cloudflare le convertește pe toate în Neurons, astfel încât ai un singur număr la care să te raportezi.

Pe baza prețurilor oficiale Workers AI pentru 2026:

PlanNeurons
Alocare gratuită (planurile Free și Paid)10.000 de Neurons pe zi
Utilizare contra cost peste alocarea gratuită0,011 $ pentru 1.000 de Neurons

Alocarea gratuită zilnică se resetează la 00:00 UTC. Pentru prototipuri, proiecte secundare și funcționalități cu trafic redus, 10.000 de Neurons pe zi înseamnă adesea că funcționalitatea ta AI rulează fără niciun cost. Când o depășești, tariful este suficient de mic încât o cantitate substanțială de inferență costă totuși doar câțiva dolari.

Deoarece modelele diferite consumă Neurons în ritmuri diferite, costul practic depinde de modelul pe care îl apelezi și de cât de multe date trimiți. Pagina de prețuri listează costul în Neurons per model, astfel încât poți estima înainte să construiești.

Apelarea unui model de text dintr-un Worker

Iată tiparul de bază. Legi Workers AI în wrangler.toml, apoi apelezi env.AI.run() cu un nume de model și o intrare:

 1export default {
 2  async fetch(request, env) {
 3    const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
 4      messages: [
 5        { role: "system", content: "You are a concise assistant." },
 6        { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
 7      ],
 8    });
 9
10    return Response.json(response);
11  },
12};

Binding-ul AI se configurează o singură dată în setările Worker-ului tău. După aceea, apelarea unui model este un singur apel de funcție asincron, care returnează ieșirea modelului pentru ca tu să o folosești cum dorești.

Generarea de imagini la edge

Generarea de imagini este unul dintre cele mai convingătoare cazuri de utilizare Workers AI și se leagă direct de găzduirea și livrarea imaginilor, o temă recurentă a acestui blog. Poți genera o imagine dintr-un prompt text și transmite octeții direct înapoi în răspuns:

 1export default {
 2  async fetch(request, env) {
 3    const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
 4
 5    const image = await env.AI.run(
 6      "@cf/black-forest-labs/flux-1-schnell",
 7      inputs
 8    );
 9
10    return new Response(image, {
11      headers: { "content-type": "image/png" },
12    });
13  },
14};

Un tipar puternic este să generezi imaginea, să o stochezi în Cloudflare R2 , apoi să o livrezi optimizată prin image transformations . Asta îți oferă grafică generată de AI, stocată fără taxe de egress, livrată ca un WebP sau AVIF perfect dimensionat. Întregul pipeline, generare, stocare și livrare, trăiește în interiorul Cloudflare.

Construirea de aplicații AI complete

Workers AI este cel mai puternic în combinație cu restul platformei. O aplicație AI realistă coase împreună mai multe piese:

  • Workers AI pentru inferență (LLM-uri, embeddings, generare de imagini)
  • Vectorize ca bază de date vectorială pentru căutare semantică și generare augmentată prin recuperare
  • R2 pentru stocarea documentelor, imaginilor sau audio
  • D1 pentru date aplicative structurate (citește ghidul meu D1 )
  • KV pentru caching și configurare

De exemplu, un chatbot de documentație ar încorpora conținutul tău cu un model de embeddings, ar stoca vectorii în Vectorize, ar recupera fragmentele relevante în momentul interogării și le-ar transmite unui LLM, totul într-un singur Worker, totul la edge. Aceasta este arhitectura din spatele majorității funcționalităților AI moderne augmentate prin recuperare. Poți gestiona straturile de stocare din spatele acestor aplicații de pe desktop cu aplicațiile mele gratuite Easy Cloudflare R2 , Easy Cloudflare D1 și Easy Cloudflare KV , disponibile pentru Windows, macOS și Linux.

Când Workers AI este alegerea potrivită

Workers AI se potrivește excelent când:

  • Vrei inferență AI fără a gestiona infrastructură GPU
  • Latența scăzută contează și utilizatorii tăi sunt globali
  • Volumul tău de lucru este variabil sau imprevizibil, astfel încât plata la utilizare bate hardware-ul rezervat
  • Construiești deja pe Workers și vrei totul pe o singură platformă
  • Modelele deschise din catalog îți satisfac cerințele de calitate

Este mai puțin potrivit pentru cazuri care necesită un anumit model proprietar de ultimă generație absent din catalog sau pentru inferență batch extrem de grea, unde hardware-ul dedicat poate fi mai ieftin la utilizare deplină susținută. Pentru acestea, o abordare hibridă, care apelează un furnizor extern de modele din Worker-ul tău, este comună și este ceva la a cărui proiectare îi ajut pe clienți prin serviciile mele de integrare AI .

Concluzii cheie

  • Workers AI rulează LLM-uri, modele de imagine, embeddings și audio pe GPU-urile edge ale Cloudflare fără infrastructură de gestionat
  • Prețurile sunt unificate în Neurons: 10.000 gratuit pe zi, apoi 0,011 $ pentru 1.000 de Neurons
  • Apelarea unui model este un singur apel env.AI.run() în interiorul unui Worker
  • Poți genera imagini la edge, le poți stoca în R2 și le poți livra optimizate prin transformări
  • Se combină cu Vectorize, R2, D1 și KV pentru a construi aplicații AI complete pe o singură platformă
  • Plata la utilizare și latența scăzută globală îl fac ideal pentru funcționalități AI variabile, orientate către utilizator

Întrebări frecvente

Ce este Cloudflare Workers AI? Este un serviciu care rulează modele de machine learning în rețeaua de GPU-uri edge ale Cloudflare. Apelezi un model dintr-un Worker folosind binding-ul AI, iar Cloudflare se ocupă de hardware și de găzduirea modelelor. Nu există servere sau GPU-uri pe care să le gestionezi tu.

Ce este un Neuron în prețurile Workers AI? Un Neuron este unitatea unificată a Cloudflare pentru măsurarea costului inferenței pe toate tipurile de model. Tokenurile, tile-urile de imagine, step-urile de generare și minutele audio sunt toate convertite în Neurons, astfel încât ai o singură cifră de urmărit. Primești 10.000 gratuit pe zi, apoi plătești 0,011 $ pentru 1.000.

Poate Workers AI să genereze imagini? Da. Catalogul include modele text-către-imagine precum variantele Flux. Apelezi modelul cu un prompt și primești octeți de imagine, pe care îi poți returna direct, stoca în R2 sau optimiza cu image transformations.

Este Workers AI gratuit? Există o alocare gratuită de 10.000 de Neurons pe zi atât pe planul Workers Free, cât și pe cel Paid, care se resetează zilnic la 00:00 UTC. Multe funcționalități mici rulează în întregime în această alocare. Peste ea, utilizarea este facturată la 0,011 $ pentru 1.000 de Neurons.

Ce modele acceptă Workers AI? Acceptă patru familii: LLM-uri de text (Llama, Mistral, Qwen), generare de imagini (Flux), embeddings (BGE) și audio (transcriere vocală și sinteză vocală), plus modele specializate pentru traducere, reordonare și clasificare. Catalogul este actualizat regulat.

Cum se compară Workers AI cu rularea propriului meu server GPU? Workers AI elimină provizionarea GPU, scalarea și gestionarea costurilor de inactivitate și rulează inferența aproape de utilizatori la nivel global. Un server GPU dedicat poate fi mai ieftin doar la utilizare deplină susținută; pentru volume variabile sau orientate către utilizator, plata la utilizare la edge câștigă de obicei.