Az elmúlt évtized nagy részében egy AI-modell futtatása azt jelentette, hogy bérelsz egy GPU-szervert, kezeled az illesztőprogramokat, és fizetsz azért a hardverért, akár jöttek kérések, akár nem. A Cloudflare Workers AI teljesen megváltoztatja ezt a modellt: úgy hívsz meg egy AI-modellt, ahogy bármely más függvényt egy Workerben, az a Cloudflare globális hálózatán elosztott GPU-kon fut, és csak azért fizetsz, amit használsz. Nincsenek kiépítendő szerverek, nincsenek dajkálandó GPU-k, és az inferencia a felhasználóidhoz közel történik.
Ez az útmutató elmagyarázza, mi a Workers AI, milyen modelleket futtathatsz, mibe kerül a Neurons-árazási modell szerint, és hogyan hívhatod meg kódból, beleértve egy gyakorlati képgenerálási példát is. Része a folyamatos Cloudflare-playbookomnak, amely gyors, modern alkalmazások építéséről szól a peremen.
Röviden
- A Workers AI szerver nélküli AI: LLM-eket, képgenerálást, embeddingeket és audiomodelleket futtat a Cloudflare peremes GPU-in, egy Workerből meghívva
- Az árazás Neurons alapú: naponta 10 000 Neuront kapsz ingyen, utána 0,011 $-t fizetsz 1 000 Neuronért
- Négy modellcsaládot fed le: szöveg (LLM-ek), kép, embeddingek és audio, rendszeresen bővülő új modellekkel
- Képeket generálhatsz a peremen, és optimalizálhatod őket a Cloudflare Image Transformations segítségével
- Természetesen párosul a Workers platform többi részével: KV, R2, D1 és Vectorize a teljes AI-alkalmazásokhoz
- Segítségre van szükséged egy AI-funkció kiszállításához? Pontosan erre való az AI-implementációs szolgáltatásom
Mi is valójában a Workers AI
A Cloudflare Workers AI lehetővé teszi, hogy gépi tanulási modelleket futtass a Cloudflare hálózatán egy egyszerű binding segítségével egy Workeren belül. A Cloudflare üzemelteti a GPU-kat és a modelleket; te elküldöd a bemenetet, és megkapod a kimenetet. Nincs kezelendő infrastruktúra, nincs fizetendő hidegindítású GPU-felpörgés, és nincs havi minimális elköteleződés.
Mivel az inferencia a Cloudflare elosztott hálózatán fut, nem pedig egyetlen régióban, a modell a felhasználódhoz közel hajtódik végre. Az olyan interaktív funkcióknál, mint a chat, az osztályozás vagy a tartalomgenerálás, ez a közelség úgy csökkenti a késleltetést, ahogy egy központosított GPU-klaszter nem tudja.
A modellek nyíltak, és a Cloudflare kezeli őket. Egy modellt a nevén hivatkozol, például egy Llama-változatot szöveghez vagy egy Flux-változatot képekhez, és a Cloudflare naprakészen tartja a katalógust, ahogy jobb nyílt modellek jelennek meg.
Cloudflare Workers AI modellek, amelyeket futtathatsz
A Workers AI négy fő családba szervezi a katalógusát, plusz egy sor specializált modellbe:
- Szöveg (LLM-ek). Nyelvi modellek, például Llama-, Mistral- és Qwen-változatok chathez, összegzéshez, kinyeréshez, osztályozáshoz és tartalomgeneráláshoz. Bemeneti és kimeneti tokenek alapján számlázva.
- Kép. Generálási modellek, például Flux-változatok, amelyek szöveges promptokból hoznak létre képeket. Tile-ok és step-ek alapján számlázva.
- Embeddingek. Olyan modellek, mint a BGE, amelyek szöveget alakítanak vektorokká szemantikus kereséshez és visszakereséssel bővített generáláshoz. Bemeneti tokenek alapján számlázva.
- Audio. Beszéd-szöveggé és szöveg-beszéddé modellek. Percenként vagy karakterenként számlázva.
- Egyéb. Specializált modellek fordításhoz, újrarangsoroláshoz, képosztályozáshoz és -felismeréshez.
A katalógus gyorsan fejlődik, ezért mindig ellenőrizd az aktuális modelllistát a legújabb lehetőségekért és pontos áraikért.
Cloudflare Workers AI árazás: hogyan működnek a Neuronok
A Workers AI egy egységes egységet, a Neuront használja az inferencia költségének kifejezésére minden modelltípusnál. Ahelyett, hogy külön árakkal zsonglőrködnél tokenekre, tile-okra, step-ekre és audiopercekre, a Cloudflare mindegyiket Neuronokká alakítja, így egyetlen szám van, amellyel kalkulálhatsz.
A 2026-os hivatalos Workers AI árazás alapján:
| Csomag | Neuronok |
|---|---|
| Ingyenes keret (Free és Paid csomagok) | 10 000 Neuron naponta |
| Fizetős használat az ingyenes kereten túl | 0,011 $ 1 000 Neurononként |
A napi ingyenes keret 00:00 UTC-kor áll vissza. Prototípusoknál, mellékprojekteknél és alacsony forgalmú funkcióknál a napi 10 000 Neuron gyakran azt jelenti, hogy az AI-funkciód egyáltalán nem kerül semmibe. Amikor túllépsz ezen, a díjszabás elég alacsony ahhoz, hogy jelentős mennyiségű inferencia is csak néhány dollárba kerüljön.
Mivel a különböző modellek eltérő ütemben fogyasztják a Neuronokat, a gyakorlati költség attól függ, melyik modellt hívod meg, és mennyi adatot küldesz. Az árazási oldal modellenként felsorolja a Neuron-költséget, így becsülhetsz, mielőtt építkezel.
Szövegmodell meghívása egy Workerből
Íme az alapminta. A wrangler.toml-ban bekötöd a Workers AI-t, majd meghívod az env.AI.run()-t egy modellnévvel és bemenettel:
1export default {
2 async fetch(request, env) {
3 const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
4 messages: [
5 { role: "system", content: "You are a concise assistant." },
6 { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
7 ],
8 });
9
10 return Response.json(response);
11 },
12};
Az AI binding egyszer van beállítva a Worker beállításaiban. Ezután egy modell meghívása egyetlen aszinkron függvényhívás, amely visszaadja a modell kimenetét, amit aztán tetszés szerint felhasználhatsz.
Képek generálása a peremen
A képgenerálás a Workers AI egyik legmeggyőzőbb használati esete, és közvetlenül kapcsolódik a képek tárolásához és kiszolgálásához, ami e blog visszatérő témája. Egy szöveges promptból generálhatsz képet, és a bájtokat közvetlenül visszastreamelheted a válaszban:
1export default {
2 async fetch(request, env) {
3 const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
4
5 const image = await env.AI.run(
6 "@cf/black-forest-labs/flux-1-schnell",
7 inputs
8 );
9
10 return new Response(image, {
11 headers: { "content-type": "image/png" },
12 });
13 },
14};
Egy erőteljes minta, hogy generálod a képet, eltárolod a Cloudflare R2 -ben, majd optimalizálva szolgálod ki image transformations segítségével. Ez AI által generált grafikát ad, egress-díjak nélkül tárolva, tökéletesen méretezett WebP vagy AVIF formátumban kiszolgálva. A teljes folyamat, a generálás, a tárolás és a kiszolgálás, a Cloudflare-en belül él.
Teljes AI-alkalmazások építése
A Workers AI a platform többi részével kombinálva a legerősebb. Egy valós AI-alkalmazás több darabot fűz össze:
- Workers AI az inferenciához (LLM-ek, embeddingek, képgenerálás)
- Vectorize vektoradatbázisként a szemantikus kereséshez és a visszakereséssel bővített generáláshoz
- R2 dokumentumok, képek vagy audio tárolásához
- D1 strukturált alkalmazásadatokhoz (olvasd el a D1-útmutatómat )
- KV gyorsítótárazáshoz és konfigurációhoz
Például egy dokumentációs chatbot egy embeddings-modellel beágyazná a tartalmadat, a vektorokat a Vectorize-ban tárolná, lekérdezéskor kinyerné a releváns részeket, és átadná egy LLM-nek, mindezt egyetlen Workeren belül, mindezt a peremen. Ez az architektúra áll a legtöbb modern, visszakereséssel bővített AI-funkció mögött. Az ezen appok mögötti tárolórétegeket az asztali gépedről kezelheted az ingyenes Easy Cloudflare R2 , Easy Cloudflare D1 és Easy Cloudflare KV appjaimmal, amelyek elérhetők Windowsra, macOS-re és Linuxra.
Mikor a Workers AI a helyes választás
A Workers AI kiváló választás, amikor:
- AI-inferenciát szeretnél GPU-infrastruktúra kezelése nélkül
- Az alacsony késleltetés számít, és a felhasználóid globálisak
- A terhelésed kiszámíthatatlan vagy ingadozó, így a használatalapú fizetés legyőzi a lefoglalt hardvert
- Már Workersre építesz, és mindent egy platformon szeretnél
- A katalógus nyílt modelljei kielégítik a minőségi igényeidet
Kevésbé alkalmas olyan esetekre, amelyek egy adott, a katalógusban nem szereplő, élvonalbeli, zárt modellt igényelnek, vagy rendkívül nehéz kötegelt inferenciára, ahol a dedikált hardver tartós teljes kihasználtság mellett olcsóbb lehet. Ezekhez gyakori egy hibrid megközelítés, amely a Workeredből hív meg egy külső modellszolgáltatót, és ennek megtervezésében segítek az ügyfeleknek az AI-integrációs szolgáltatásaimon keresztül.
Legfontosabb tanulságok
- A Workers AI LLM-eket, kép-, embeddings- és audiomodelleket futtat a Cloudflare peremes GPU-in, kezelendő infrastruktúra nélkül
- Az árazás Neuronokban egységesített: naponta 10 000 ingyen, utána 0,011 $ 1 000 Neurononként
- Egy modell meghívása egyetlen
env.AI.run()hívás egy Workeren belül - Képeket generálhatsz a peremen, eltárolhatod őket R2-ben, és optimalizálva szolgálhatod ki transzformációkkal
- Vectorize-zal, R2-vel, D1-gyel és KV-vel kombinálva teljes AI-alkalmazásokat építhetsz egyetlen platformon
- A használatalapú fizetés és a globális alacsony késleltetés ideálissá teszi ingadozó, felhasználó felé néző AI-funkciókhoz
Gyakran ismételt kérdések
Mi az a Cloudflare Workers AI? Egy szolgáltatás, amely gépi tanulási modelleket futtat a Cloudflare peremes GPU-inak hálózatán. Egy modellt egy Workerből hívsz meg az AI binding segítségével, a Cloudflare pedig kezeli a hardvert és a modellek üzemeltetését. Nincsenek általad kezelendő szerverek vagy GPU-k.
Mi az a Neuron a Workers AI árazásában? A Neuron a Cloudflare egységes egysége az inferencia költségének mérésére minden modelltípusnál. A tokeneket, a kép-tile-okat, a generálási step-eket és az audio-perceket mind Neuronokká alakítják, így egyetlen mutatót kell követned. Naponta 10 000 ingyeneset kapsz, utána 0,011 $-t fizetsz 1 000-enként.
Tud a Workers AI képeket generálni? Igen. A katalógus szöveg-kép modelleket tartalmaz, például Flux-változatokat. A modellt egy prompttal hívod meg, és képbájtokat kapsz, amelyeket közvetlenül visszaadhatsz, R2-ben tárolhatsz, vagy image transformations segítségével optimalizálhatsz.
Ingyenes a Workers AI? Naponta 10 000 Neuron ingyenes keret jár mind a Free, mind a Paid Workers csomagon, amely naponta 00:00 UTC-kor áll vissza. Sok kisebb funkció teljesen belefér ebbe a keretbe. Ezen túl a használat 0,011 $-ba kerül 1 000 Neurononként.
Milyen modelleket támogat a Workers AI? Négy családot támogat: szöveges LLM-eket (Llama, Mistral, Qwen), képgenerálást (Flux), embeddingeket (BGE) és audiót (beszéd-szöveggé és szöveg-beszéddé), plusz specializált modelleket fordításhoz, újrarangsoroláshoz és osztályozáshoz. A katalógus rendszeresen frissül.
Hogyan viszonyul a Workers AI a saját GPU-szerver üzemeltetéséhez? A Workers AI megszünteti a GPU-kiépítést, a skálázást és az üresjárati költségek kezelését, és az inferenciát a felhasználókhoz közel, globálisan futtatja. Egy dedikált GPU-szerver csak tartós teljes kihasználtság mellett lehet olcsóbb; ingadozó vagy felhasználó felé néző terheléseknél a peremes használatalapú fizetés általában nyer.
Hozzászólások