Cloudflare Workers AI: AI-modellek futtatása a peremen (2026)

Az elmúlt évtized nagy részében egy AI-modell futtatása azt jelentette, hogy bérelsz egy GPU-szervert, kezeled az illesztőprogramokat, és fizetsz azért a hardverért, akár jöttek kérések, akár nem. A Cloudflare Workers AI teljesen megváltoztatja ezt a modellt: úgy hívsz meg egy AI-modellt, ahogy bármely más függvényt egy Workerben, az a Cloudflare globális hálózatán elosztott GPU-kon fut, és csak azért fizetsz, amit használsz. Nincsenek kiépítendő szerverek, nincsenek dajkálandó GPU-k, és az inferencia a felhasználóidhoz közel történik.

Ez az útmutató elmagyarázza, mi a Workers AI, milyen modelleket futtathatsz, mibe kerül a Neurons-árazási modell szerint, és hogyan hívhatod meg kódból, beleértve egy gyakorlati képgenerálási példát is. Része a folyamatos Cloudflare-playbookomnak, amely gyors, modern alkalmazások építéséről szól a peremen.

Röviden

A Workers AI szerver nélküli AI: LLM-eket, képgenerálást, embeddingeket és audiomodelleket futtat a Cloudflare peremes GPU-in, egy Workerből meghívva
Az árazás Neurons alapú: naponta 10 000 Neuront kapsz ingyen, utána 0,011 $-t fizetsz 1 000 Neuronért
Négy modellcsaládot fed le: szöveg (LLM-ek), kép, embeddingek és audio, rendszeresen bővülő új modellekkel
Képeket generálhatsz a peremen, és optimalizálhatod őket a Cloudflare Image Transformations segítségével
Természetesen párosul a Workers platform többi részével: KV, R2, D1 és Vectorize a teljes AI-alkalmazásokhoz
Segítségre van szükséged egy AI-funkció kiszállításához? Pontosan erre való az AI-implementációs szolgáltatásom

Mi is valójában a Workers AI

A Cloudflare Workers AI lehetővé teszi, hogy gépi tanulási modelleket futtass a Cloudflare hálózatán egy egyszerű binding segítségével egy Workeren belül. A Cloudflare üzemelteti a GPU-kat és a modelleket; te elküldöd a bemenetet, és megkapod a kimenetet. Nincs kezelendő infrastruktúra, nincs fizetendő hidegindítású GPU-felpörgés, és nincs havi minimális elköteleződés.

Mivel az inferencia a Cloudflare elosztott hálózatán fut, nem pedig egyetlen régióban, a modell a felhasználódhoz közel hajtódik végre. Az olyan interaktív funkcióknál, mint a chat, az osztályozás vagy a tartalomgenerálás, ez a közelség úgy csökkenti a késleltetést, ahogy egy központosított GPU-klaszter nem tudja.

A modellek nyíltak, és a Cloudflare kezeli őket. Egy modellt a nevén hivatkozol, például egy Llama-változatot szöveghez vagy egy Flux-változatot képekhez, és a Cloudflare naprakészen tartja a katalógust, ahogy jobb nyílt modellek jelennek meg.

Cloudflare Workers AI modellek, amelyeket futtathatsz

A Workers AI négy fő családba szervezi a katalógusát, plusz egy sor specializált modellbe:

Szöveg (LLM-ek). Nyelvi modellek, például Llama-, Mistral- és Qwen-változatok chathez, összegzéshez, kinyeréshez, osztályozáshoz és tartalomgeneráláshoz. Bemeneti és kimeneti tokenek alapján számlázva.
Kép. Generálási modellek, például Flux-változatok, amelyek szöveges promptokból hoznak létre képeket. Tile-ok és step-ek alapján számlázva.
Embeddingek. Olyan modellek, mint a BGE, amelyek szöveget alakítanak vektorokká szemantikus kereséshez és visszakereséssel bővített generáláshoz. Bemeneti tokenek alapján számlázva.
Audio. Beszéd-szöveggé és szöveg-beszéddé modellek. Percenként vagy karakterenként számlázva.
Egyéb. Specializált modellek fordításhoz, újrarangsoroláshoz, képosztályozáshoz és -felismeréshez.

A katalógus gyorsan fejlődik, ezért mindig ellenőrizd az aktuális modelllistát a legújabb lehetőségekért és pontos áraikért.

Cloudflare Workers AI árazás: hogyan működnek a Neuronok

A Workers AI egy egységes egységet, a Neuront használja az inferencia költségének kifejezésére minden modelltípusnál. Ahelyett, hogy külön árakkal zsonglőrködnél tokenekre, tile-okra, step-ekre és audiopercekre, a Cloudflare mindegyiket Neuronokká alakítja, így egyetlen szám van, amellyel kalkulálhatsz.

A 2026-os hivatalos Workers AI árazás alapján:

Csomag	Neuronok
Ingyenes keret (Free és Paid csomagok)	10 000 Neuron naponta
Fizetős használat az ingyenes kereten túl	0,011 $ 1 000 Neurononként

A napi ingyenes keret 00:00 UTC-kor áll vissza. Prototípusoknál, mellékprojekteknél és alacsony forgalmú funkcióknál a napi 10 000 Neuron gyakran azt jelenti, hogy az AI-funkciód egyáltalán nem kerül semmibe. Amikor túllépsz ezen, a díjszabás elég alacsony ahhoz, hogy jelentős mennyiségű inferencia is csak néhány dollárba kerüljön.

Mivel a különböző modellek eltérő ütemben fogyasztják a Neuronokat, a gyakorlati költség attól függ, melyik modellt hívod meg, és mennyi adatot küldesz. Az árazási oldal modellenként felsorolja a Neuron-költséget, így becsülhetsz, mielőtt építkezel.

Szövegmodell meghívása egy Workerből

Íme az alapminta. A wrangler.toml-ban bekötöd a Workers AI-t, majd meghívod az env.AI.run()-t egy modellnévvel és bemenettel:

 1export default {
 2  async fetch(request, env) {
 3    const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
 4      messages: [
 5        { role: "system", content: "You are a concise assistant." },
 6        { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
 7      ],
 8    });
 9
10    return Response.json(response);
11  },
12};

Az AI binding egyszer van beállítva a Worker beállításaiban. Ezután egy modell meghívása egyetlen aszinkron függvényhívás, amely visszaadja a modell kimenetét, amit aztán tetszés szerint felhasználhatsz.

Képek generálása a peremen

A képgenerálás a Workers AI egyik legmeggyőzőbb használati esete, és közvetlenül kapcsolódik a képek tárolásához és kiszolgálásához, ami e blog visszatérő témája. Egy szöveges promptból generálhatsz képet, és a bájtokat közvetlenül visszastreamelheted a válaszban:

 1export default {
 2  async fetch(request, env) {
 3    const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
 4
 5    const image = await env.AI.run(
 6      "@cf/black-forest-labs/flux-1-schnell",
 7      inputs
 8    );
 9
10    return new Response(image, {
11      headers: { "content-type": "image/png" },
12    });
13  },
14};

Egy erőteljes minta, hogy generálod a képet, eltárolod a Cloudflare R2 -ben, majd optimalizálva szolgálod ki image transformations segítségével. Ez AI által generált grafikát ad, egress-díjak nélkül tárolva, tökéletesen méretezett WebP vagy AVIF formátumban kiszolgálva. A teljes folyamat, a generálás, a tárolás és a kiszolgálás, a Cloudflare-en belül él.

Teljes AI-alkalmazások építése

A Workers AI a platform többi részével kombinálva a legerősebb. Egy valós AI-alkalmazás több darabot fűz össze:

Workers AI az inferenciához (LLM-ek, embeddingek, képgenerálás)
Vectorize vektoradatbázisként a szemantikus kereséshez és a visszakereséssel bővített generáláshoz
R2 dokumentumok, képek vagy audio tárolásához
D1 strukturált alkalmazásadatokhoz (olvasd el a D1-útmutatómat )
KV gyorsítótárazáshoz és konfigurációhoz

Például egy dokumentációs chatbot egy embeddings-modellel beágyazná a tartalmadat, a vektorokat a Vectorize-ban tárolná, lekérdezéskor kinyerné a releváns részeket, és átadná egy LLM-nek, mindezt egyetlen Workeren belül, mindezt a peremen. Ez az architektúra áll a legtöbb modern, visszakereséssel bővített AI-funkció mögött. Az ezen appok mögötti tárolórétegeket az asztali gépedről kezelheted az ingyenes Easy Cloudflare R2 , Easy Cloudflare D1 és Easy Cloudflare KV appjaimmal, amelyek elérhetők Windowsra, macOS-re és Linuxra.

Mikor a Workers AI a helyes választás

A Workers AI kiváló választás, amikor:

AI-inferenciát szeretnél GPU-infrastruktúra kezelése nélkül
Az alacsony késleltetés számít, és a felhasználóid globálisak
A terhelésed kiszámíthatatlan vagy ingadozó, így a használatalapú fizetés legyőzi a lefoglalt hardvert
Már Workersre építesz, és mindent egy platformon szeretnél
A katalógus nyílt modelljei kielégítik a minőségi igényeidet

Kevésbé alkalmas olyan esetekre, amelyek egy adott, a katalógusban nem szereplő, élvonalbeli, zárt modellt igényelnek, vagy rendkívül nehéz kötegelt inferenciára, ahol a dedikált hardver tartós teljes kihasználtság mellett olcsóbb lehet. Ezekhez gyakori egy hibrid megközelítés, amely a Workeredből hív meg egy külső modellszolgáltatót, és ennek megtervezésében segítek az ügyfeleknek az AI-integrációs szolgáltatásaimon keresztül.

Legfontosabb tanulságok

A Workers AI LLM-eket, kép-, embeddings- és audiomodelleket futtat a Cloudflare peremes GPU-in, kezelendő infrastruktúra nélkül
Az árazás Neuronokban egységesített: naponta 10 000 ingyen, utána 0,011 $ 1 000 Neurononként
Egy modell meghívása egyetlen env.AI.run() hívás egy Workeren belül
Képeket generálhatsz a peremen, eltárolhatod őket R2-ben, és optimalizálva szolgálhatod ki transzformációkkal
Vectorize-zal, R2-vel, D1-gyel és KV-vel kombinálva teljes AI-alkalmazásokat építhetsz egyetlen platformon
A használatalapú fizetés és a globális alacsony késleltetés ideálissá teszi ingadozó, felhasználó felé néző AI-funkciókhoz

Gyakran ismételt kérdések

Mi az a Cloudflare Workers AI? Egy szolgáltatás, amely gépi tanulási modelleket futtat a Cloudflare peremes GPU-inak hálózatán. Egy modellt egy Workerből hívsz meg az AI binding segítségével, a Cloudflare pedig kezeli a hardvert és a modellek üzemeltetését. Nincsenek általad kezelendő szerverek vagy GPU-k.

Mi az a Neuron a Workers AI árazásában? A Neuron a Cloudflare egységes egysége az inferencia költségének mérésére minden modelltípusnál. A tokeneket, a kép-tile-okat, a generálási step-eket és az audio-perceket mind Neuronokká alakítják, így egyetlen mutatót kell követned. Naponta 10 000 ingyeneset kapsz, utána 0,011 $-t fizetsz 1 000-enként.

Tud a Workers AI képeket generálni? Igen. A katalógus szöveg-kép modelleket tartalmaz, például Flux-változatokat. A modellt egy prompttal hívod meg, és képbájtokat kapsz, amelyeket közvetlenül visszaadhatsz, R2-ben tárolhatsz, vagy image transformations segítségével optimalizálhatsz.

Ingyenes a Workers AI? Naponta 10 000 Neuron ingyenes keret jár mind a Free, mind a Paid Workers csomagon, amely naponta 00:00 UTC-kor áll vissza. Sok kisebb funkció teljesen belefér ebbe a keretbe. Ezen túl a használat 0,011 $-ba kerül 1 000 Neurononként.

Milyen modelleket támogat a Workers AI? Négy családot támogat: szöveges LLM-eket (Llama, Mistral, Qwen), képgenerálást (Flux), embeddingeket (BGE) és audiót (beszéd-szöveggé és szöveg-beszéddé), plusz specializált modelleket fordításhoz, újrarangsoroláshoz és osztályozáshoz. A katalógus rendszeresen frissül.

Hogyan viszonyul a Workers AI a saját GPU-szerver üzemeltetéséhez? A Workers AI megszünteti a GPU-kiépítést, a skálázást és az üresjárati költségek kezelését, és az inferenciát a felhasználókhoz közel, globálisan futtatja. Egy dedikált GPU-szerver csak tartós teljes kihasználtság mellett lehet olcsóbb; ingadozó vagy felhasználó felé néző terheléseknél a peremes használatalapú fizetés általában nyer.

Cloudflare Workers AI - AI-Modellek Futtatása A Peremen 2026

Mi is valójában a Workers AI

Cloudflare Workers AI modellek, amelyeket futtathatsz

Cloudflare Workers AI árazás: hogyan működnek a Neuronok

Szövegmodell meghívása egy Workerből

Képek generálása a peremen

Teljes AI-alkalmazások építése

Mikor a Workers AI a helyes választás

Legfontosabb tanulságok

Gyakran ismételt kérdések

Hozzászólások

Fontos számunkra az adatvédelmed

Cloudflare Workers AI - AI-Modellek Futtatása A Peremen 2026

Mi is valójában a Workers AI

Cloudflare Workers AI modellek, amelyeket futtathatsz

Cloudflare Workers AI árazás: hogyan működnek a Neuronok

Szövegmodell meghívása egy Workerből

Képek generálása a peremen

Teljes AI-alkalmazások építése

Mikor a Workers AI a helyes választás

Legfontosabb tanulságok

Gyakran ismételt kérdések

Kapcsolódó bejegyzések

Hozzászólások