Den größten Teil des letzten Jahrzehnts bedeutete der Betrieb eines KI-Modells, einen GPU-Server zu mieten, Treiber zu verwalten und für diese Hardware zu zahlen, egal ob Anfragen eingingen oder nicht. Cloudflare Workers AI verändert das Modell grundlegend: Sie rufen ein KI-Modell genauso auf wie jede andere Funktion in einem Worker, es läuft auf GPUs, die über das globale Netzwerk von Cloudflare verteilt sind, und Sie zahlen nur für das, was Sie nutzen. Keine Server bereitzustellen, keine GPUs zu betreuen und Inferenz, die nahe bei Ihren Nutzern stattfindet.

Dieser Leitfaden erklärt, was Workers AI ist, welche Modelle Sie ausführen können, was es im Rahmen des Neurons-Preismodells kostet und wie Sie es aus dem Code aufrufen, einschließlich eines praktischen Beispiels zur Bildgenerierung. Er ist Teil meines laufenden Cloudflare-Playbooks für den Bau schneller, moderner Anwendungen am Edge.

Kurzfassung

  • Workers AI ist serverlose KI: Es führt LLMs, Bildgenerierung, Embeddings und Audiomodelle auf Cloudflares Edge-GPUs aus, aufgerufen aus einem Worker
  • Die Preise basieren auf Neurons: Sie erhalten 10.000 Neurons pro Tag kostenlos, danach zahlen Sie 0,011 $ pro 1.000 Neurons
  • Es deckt vier Modellfamilien ab: Text (LLMs), Bild, Embeddings und Audio, mit regelmäßig hinzugefügten neuen Modellen
  • Sie können Bilder am Edge generieren und sie mit Cloudflare Image Transformations optimieren
  • Es lässt sich natürlich mit dem Rest der Workers-Plattform kombinieren: KV, R2, D1 und Vectorize für vollständige KI-Anwendungen
  • Brauchen Sie Hilfe beim Ausliefern einer KI-Funktion? Genau dafür ist mein KI-Implementierungsservice da

Was Workers AI eigentlich ist

Cloudflare Workers AI ermöglicht es Ihnen, Machine-Learning-Modelle im Netzwerk von Cloudflare über ein einfaches Binding innerhalb eines Workers auszuführen. Cloudflare hostet die GPUs und die Modelle; Sie senden Eingaben und erhalten Ausgaben. Es gibt keine Infrastruktur zu verwalten, keinen Kaltstart-GPU-Hochlauf zu bezahlen und keine monatliche Mindestverpflichtung.

Da die Inferenz im verteilten Netzwerk von Cloudflare statt in einer einzelnen Region läuft, wird das Modell nahe bei Ihrem Nutzer ausgeführt. Für interaktive Funktionen wie Chat, Klassifizierung oder Inhaltsgenerierung verringert diese Nähe die Latenz auf eine Weise, die ein zentralisierter GPU-Cluster nicht erreichen kann.

Die Modelle sind offen und werden von Cloudflare verwaltet. Sie referenzieren ein Modell über seinen Namen, etwa eine Llama-Variante für Text oder eine Flux-Variante für Bilder, und Cloudflare hält den Katalog aktuell, sobald bessere offene Modelle veröffentlicht werden.

Cloudflare Workers AI Modelle, die Sie ausführen können

Workers AI organisiert seinen Katalog in vier Hauptfamilien sowie eine Reihe spezialisierter Modelle:

  • Text (LLMs). Sprachmodelle wie Llama-, Mistral- und Qwen-Varianten für Chat, Zusammenfassung, Extraktion, Klassifizierung und Inhaltsgenerierung. Abgerechnet nach Eingabe- und Ausgabe-Token.
  • Bild. Generierungsmodelle wie Flux-Varianten, die Bilder aus Textprompts erstellen. Abgerechnet nach Tiles und Steps.
  • Embeddings. Modelle wie BGE, die Text in Vektoren für semantische Suche und Retrieval-Augmented Generation umwandeln. Abgerechnet nach Eingabe-Token.
  • Audio. Speech-to-Text- und Text-to-Speech-Modelle. Abgerechnet pro Minute oder pro Zeichen.
  • Sonstige. Spezialisierte Modelle für Übersetzung, Reranking, Bildklassifizierung und -erkennung.

Der Katalog entwickelt sich schnell weiter, prüfen Sie daher stets die aktuelle Modellliste für die neuesten Optionen und deren genaue Preise.

Cloudflare Workers AI Preise: Wie Neurons funktionieren

Workers AI verwendet eine einheitliche Einheit namens Neuron, um die Inferenzkosten über jeden Modelltyp hinweg auszudrücken. Statt mit separaten Preisen für Token, Tiles, Steps und Audiominuten zu jonglieren, rechnet Cloudflare alle in Neurons um, sodass Sie eine einzige Zahl haben, mit der Sie kalkulieren können.

Basierend auf den offiziellen Workers AI Preisen für 2026:

PlanNeurons
Kostenlose Zuteilung (Free- und Paid-Pläne)10.000 Neurons pro Tag
Kostenpflichtige Nutzung über die kostenlose Zuteilung hinaus0,011 $ pro 1.000 Neurons

Die tägliche kostenlose Zuteilung wird um 00:00 UTC zurückgesetzt. Für Prototypen, Nebenprojekte und Funktionen mit wenig Traffic bedeuten 10.000 Neurons pro Tag oft, dass Ihre KI-Funktion ganz ohne Kosten läuft. Wenn Sie das überschreiten, ist der Tarif niedrig genug, dass eine beträchtliche Menge Inferenz immer noch nur wenige Dollar kostet.

Da verschiedene Modelle Neurons unterschiedlich schnell verbrauchen, hängen die praktischen Kosten davon ab, welches Modell Sie aufrufen und wie viele Daten Sie senden. Die Preisseite listet die Neuron-Kosten pro Modell auf, sodass Sie vor dem Bau eine Schätzung vornehmen können.

Ein Textmodell aus einem Worker aufrufen

Hier ist das Kernmuster. Sie binden Workers AI in Ihrer wrangler.toml ein und rufen dann env.AI.run() mit einem Modellnamen und einer Eingabe auf:

 1export default {
 2  async fetch(request, env) {
 3    const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
 4      messages: [
 5        { role: "system", content: "You are a concise assistant." },
 6        { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
 7      ],
 8    });
 9
10    return Response.json(response);
11  },
12};

Das AI-Binding wird einmal in den Einstellungen Ihres Workers konfiguriert. Danach ist der Aufruf eines Modells ein einziger asynchroner Funktionsaufruf, der die Ausgabe des Modells zurückgibt, die Sie nach Belieben verwenden können.

Bilder am Edge generieren

Bildgenerierung ist einer der überzeugendsten Anwendungsfälle von Workers AI, und sie knüpft direkt an Bildhosting und -auslieferung an, ein wiederkehrendes Thema dieses Blogs. Sie können ein Bild aus einem Textprompt generieren und die Bytes direkt in der Antwort zurückstreamen:

 1export default {
 2  async fetch(request, env) {
 3    const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
 4
 5    const image = await env.AI.run(
 6      "@cf/black-forest-labs/flux-1-schnell",
 7      inputs
 8    );
 9
10    return new Response(image, {
11      headers: { "content-type": "image/png" },
12    });
13  },
14};

Ein leistungsstarkes Muster ist es, das Bild zu generieren, es in Cloudflare R2 zu speichern und es dann optimiert über Image Transformations auszuliefern. Das verschafft Ihnen KI-generierte Grafiken, gespeichert ohne Egress-Gebühren, ausgeliefert als perfekt dimensioniertes WebP oder AVIF. Die gesamte Pipeline, Generierung, Speicherung und Auslieferung, lebt innerhalb von Cloudflare.

Vollständige KI-Anwendungen bauen

Workers AI ist am leistungsstärksten in Kombination mit dem Rest der Plattform. Eine realistische KI-Anwendung fügt mehrere Bausteine zusammen:

  • Workers AI für die Inferenz (LLMs, Embeddings, Bildgenerierung)
  • Vectorize als Vektordatenbank für semantische Suche und Retrieval-Augmented Generation
  • R2 für die Speicherung von Dokumenten, Bildern oder Audio
  • D1 für strukturierte Anwendungsdaten (lesen Sie meinen D1-Leitfaden )
  • KV für Caching und Konfiguration

Ein Dokumentations-Chatbot würde zum Beispiel Ihre Inhalte mit einem Embeddings-Modell einbetten, die Vektoren in Vectorize speichern, zur Abfragezeit die relevanten Abschnitte abrufen und sie an ein LLM weitergeben, alles innerhalb eines einzigen Workers, alles am Edge. Das ist die Architektur hinter den meisten modernen Retrieval-Augmented-KI-Funktionen. Sie können die Speicherschichten hinter diesen Apps von Ihrem Desktop aus mit meinen kostenlosen Apps Easy Cloudflare R2 , Easy Cloudflare D1 und Easy Cloudflare KV verwalten, verfügbar für Windows, macOS und Linux.

Wann Workers AI die richtige Wahl ist

Workers AI passt hervorragend, wenn:

  • Sie KI-Inferenz ohne Verwaltung von GPU-Infrastruktur wollen
  • Niedrige Latenz wichtig ist und Ihre Nutzer global sind
  • Ihre Last sprunghaft oder unvorhersehbar ist, sodass Pay-per-Use reservierte Hardware schlägt
  • Sie bereits auf Workers bauen und alles auf einer Plattform haben wollen
  • Die offenen Modelle im Katalog Ihren Qualitätsanforderungen genügen

Weniger geeignet ist es für Fälle, die ein bestimmtes proprietäres Frontier-Modell erfordern, das nicht im Katalog ist, oder für extrem schwere Batch-Inferenz, bei der dedizierte Hardware bei dauerhafter Vollauslastung günstiger sein kann. Für diese ist ein hybrider Ansatz, bei dem Sie einen externen Modellanbieter aus Ihrem Worker aufrufen, üblich, und etwas, beim dem ich Kunden im Rahmen meiner KI-Integrationsdienste beim Design helfe.

Wichtigste Erkenntnisse

  • Workers AI führt LLMs, Bild-, Embeddings- und Audiomodelle auf Cloudflares Edge-GPUs aus, ohne Infrastruktur zu verwalten
  • Die Preise sind in Neurons vereinheitlicht: 10.000 kostenlos pro Tag, danach 0,011 $ pro 1.000 Neurons
  • Der Aufruf eines Modells ist ein einziger env.AI.run()-Aufruf innerhalb eines Workers
  • Sie können Bilder am Edge generieren, sie in R2 speichern und optimiert über Transformations ausliefern
  • Es kombiniert sich mit Vectorize, R2, D1 und KV, um vollständige KI-Anwendungen auf einer Plattform zu bauen
  • Pay-per-Use und globale niedrige Latenz machen es ideal für sprunghafte, nutzerseitige KI-Funktionen

Häufig gestellte Fragen

Was ist Cloudflare Workers AI? Es ist ein Dienst, der Machine-Learning-Modelle in Cloudflares Netzwerk aus Edge-GPUs ausführt. Sie rufen ein Modell über das AI-Binding aus einem Worker auf, und Cloudflare kümmert sich um die Hardware und das Hosting der Modelle. Es gibt keine Server oder GPUs, die Sie verwalten müssten.

Was ist ein Neuron in der Workers AI Preisgestaltung? Ein Neuron ist Cloudflares einheitliche Einheit zur Messung der Inferenzkosten über alle Modelltypen hinweg. Token, Image-Tiles, Generierungs-Steps und Audiominuten werden alle in Neurons umgerechnet, sodass Sie eine einzige Kennzahl verfolgen. Sie erhalten 10.000 kostenlos pro Tag, danach zahlen Sie 0,011 $ pro 1.000.

Kann Workers AI Bilder generieren? Ja. Der Katalog umfasst Text-to-Image-Modelle wie Flux-Varianten. Sie rufen das Modell mit einem Prompt auf und erhalten Bild-Bytes, die Sie direkt zurückgeben, in R2 speichern oder mit Image Transformations optimieren können.

Ist Workers AI kostenlos? Es gibt eine kostenlose Zuteilung von 10.000 Neurons pro Tag sowohl im Free- als auch im Paid-Workers-Plan, die täglich um 00:00 UTC zurückgesetzt wird. Viele kleine Funktionen laufen vollständig innerhalb dieses Kontingents. Darüber hinaus wird die Nutzung mit 0,011 $ pro 1.000 Neurons abgerechnet.

Welche Modelle unterstützt Workers AI? Es unterstützt vier Familien: Text-LLMs (Llama, Mistral, Qwen), Bildgenerierung (Flux), Embeddings (BGE) und Audio (Speech-to-Text und Text-to-Speech), plus spezialisierte Modelle für Übersetzung, Reranking und Klassifizierung. Der Katalog wird regelmäßig aktualisiert.

Wie schneidet Workers AI im Vergleich zum Betrieb eines eigenen GPU-Servers ab? Workers AI entfernt GPU-Bereitstellung, Skalierung und Leerlaufkosten-Management und führt Inferenz global nahe bei den Nutzern aus. Ein dedizierter GPU-Server kann nur bei dauerhafter Vollauslastung günstiger sein; für sprunghafte oder nutzerseitige Lasten gewinnt Pay-per-Use am Edge in der Regel.