Pendant la majeure partie de la dernière décennie, exécuter un modèle IA signifiait louer un serveur GPU, gérer des pilotes et payer pour ce matériel, que des requêtes arrivent ou non. Cloudflare Workers AI change entièrement le modèle : vous appelez un modèle IA de la même façon que n’importe quelle autre fonction dans un Worker, il s’exécute sur des GPU répartis sur le réseau mondial de Cloudflare, et vous ne payez que ce que vous utilisez. Aucun serveur à provisionner, aucun GPU à surveiller, et une inférence qui se déroule au plus près de vos utilisateurs.

Ce guide explique ce qu’est Workers AI, quels modèles vous pouvez exécuter, ce qu’il coûte selon le modèle de tarification Neurons, et comment l’appeler depuis le code, avec un exemple pratique de génération d’images. Il fait partie de mon playbook Cloudflare continu pour construire des applications rapides et modernes à la périphérie.

En résumé

  • Workers AI est une IA sans serveur : il exécute des LLM, de la génération d’images, des embeddings et des modèles audio sur les GPU edge de Cloudflare, appelés depuis un Worker
  • La tarification utilise les Neurons : vous obtenez 10 000 Neurons par jour gratuitement, puis vous payez 0,011 $ pour 1 000 Neurons
  • Il couvre quatre familles de modèles : texte (LLM), image, embeddings et audio, avec de nouveaux modèles ajoutés régulièrement
  • Vous pouvez générer des images à la périphérie et les optimiser avec Cloudflare Image Transformations
  • Il s’associe naturellement au reste de la plateforme Workers : KV, R2, D1 et Vectorize pour des applications IA complètes
  • Besoin d’aide pour livrer une fonctionnalité IA ? C’est exactement à cela que sert mon service d’implémentation d’IA

Ce qu’est réellement Workers AI

Cloudflare Workers AI vous permet d’exécuter des modèles de machine learning sur le réseau de Cloudflare à l’aide d’un simple binding à l’intérieur d’un Worker. Cloudflare héberge les GPU et les modèles ; vous envoyez des entrées et recevez des sorties. Il n’y a aucune infrastructure à gérer, aucun démarrage à froid de GPU à payer, et aucun engagement mensuel minimum.

Comme l’inférence s’exécute sur le réseau distribué de Cloudflare plutôt que dans une seule région, le modèle s’exécute près de votre utilisateur. Pour des fonctionnalités interactives telles que le chat, la classification ou la génération de contenu, cette proximité réduit la latence d’une manière qu’un cluster GPU centralisé ne peut égaler.

Les modèles sont ouverts et gérés par Cloudflare. Vous référencez un modèle par son nom, par exemple une variante Llama pour le texte ou une variante Flux pour les images, et Cloudflare maintient le catalogue à jour à mesure que de meilleurs modèles ouverts sont publiés.

Modèles Cloudflare Workers AI que vous pouvez exécuter

Workers AI organise son catalogue en quatre familles principales, plus un ensemble de modèles spécialisés :

  • Texte (LLM). Des modèles de langage tels que les variantes Llama, Mistral et Qwen pour le chat, le résumé, l’extraction, la classification et la génération de contenu. Facturés sur les tokens d’entrée et de sortie.
  • Image. Des modèles de génération tels que les variantes Flux qui créent des images à partir de prompts texte. Facturés par tiles et steps.
  • Embeddings. Des modèles tels que BGE qui transforment le texte en vecteurs pour la recherche sémantique et la génération augmentée par récupération. Facturés sur les tokens d’entrée.
  • Audio. Des modèles de reconnaissance vocale et de synthèse vocale. Facturés à la minute ou au caractère.
  • Autres. Des modèles spécialisés pour la traduction, le reclassement, la classification et la reconnaissance d’images.

Le catalogue évolue rapidement, alors consultez toujours la liste des modèles à jour pour les dernières options et leurs tarifs exacts.

Tarification Cloudflare Workers AI : comment fonctionnent les Neurons

Workers AI utilise une unité unifiée appelée Neuron pour exprimer le coût de l’inférence à travers chaque type de modèle. Plutôt que de jongler avec des prix distincts pour les tokens, tiles, steps et minutes audio, Cloudflare les convertit tous en Neurons afin que vous ayez un seul chiffre à considérer.

D’après la tarification officielle de Workers AI pour 2026 :

PlanNeurons
Allocation gratuite (plans Free et Paid)10 000 Neurons par jour
Usage payant au-delà de l’allocation gratuite0,011 $ pour 1 000 Neurons

L’allocation gratuite quotidienne se réinitialise à 00:00 UTC. Pour les prototypes, projets annexes et fonctionnalités à faible trafic, 10 000 Neurons par jour signifient souvent que votre fonctionnalité IA tourne sans aucun coût. Lorsque vous la dépassez, le tarif est suffisamment bas pour qu’une quantité substantielle d’inférence ne coûte encore que quelques dollars.

Comme les différents modèles consomment des Neurons à des rythmes différents, le coût pratique dépend du modèle que vous appelez et de la quantité de données que vous envoyez. La page de tarification indique le coût en Neurons par modèle, afin que vous puissiez estimer avant de construire.

Appeler un modèle de texte depuis un Worker

Voici le schéma central. Vous liez Workers AI dans votre wrangler.toml, puis appelez env.AI.run() avec un nom de modèle et une entrée :

 1export default {
 2  async fetch(request, env) {
 3    const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
 4      messages: [
 5        { role: "system", content: "You are a concise assistant." },
 6        { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
 7      ],
 8    });
 9
10    return Response.json(response);
11  },
12};

Le binding AI est configuré une fois dans les paramètres de votre Worker. Ensuite, appeler un modèle est un unique appel de fonction asynchrone, renvoyant la sortie du modèle pour que vous l’utilisiez comme bon vous semble.

Générer des images à la périphérie

La génération d’images est l’un des cas d’usage les plus convaincants de Workers AI, et elle renvoie directement à l’hébergement et à la diffusion d’images, un thème récurrent de ce blog. Vous pouvez générer une image à partir d’un prompt texte et renvoyer les octets directement en streaming dans la réponse :

 1export default {
 2  async fetch(request, env) {
 3    const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
 4
 5    const image = await env.AI.run(
 6      "@cf/black-forest-labs/flux-1-schnell",
 7      inputs
 8    );
 9
10    return new Response(image, {
11      headers: { "content-type": "image/png" },
12    });
13  },
14};

Un schéma puissant consiste à générer l’image, la stocker dans Cloudflare R2 , puis à la diffuser optimisée via les image transformations . Cela vous donne des illustrations générées par IA, stockées sans frais d’egress, diffusées en WebP ou AVIF parfaitement dimensionné. Tout le pipeline, génération, stockage et diffusion, vit à l’intérieur de Cloudflare.

Construire des applications IA complètes

Workers AI est le plus puissant en combinaison avec le reste de la plateforme. Une application IA réaliste assemble plusieurs pièces :

  • Workers AI pour l’inférence (LLM, embeddings, génération d’images)
  • Vectorize comme base de données vectorielle pour la recherche sémantique et la génération augmentée par récupération
  • R2 pour le stockage de documents, d’images ou d’audio
  • D1 pour les données applicatives structurées (lisez mon guide D1 )
  • KV pour la mise en cache et la configuration

Par exemple, un chatbot de documentation incorporerait votre contenu avec un modèle d’embeddings, stockerait les vecteurs dans Vectorize, récupérerait les fragments pertinents au moment de la requête, et les fournirait à un LLM, le tout au sein d’un unique Worker, le tout à la périphérie. C’est l’architecture derrière la plupart des fonctionnalités IA modernes augmentées par récupération. Vous pouvez gérer les couches de stockage derrière ces applis depuis votre bureau avec mes applis gratuites Easy Cloudflare R2 , Easy Cloudflare D1 et Easy Cloudflare KV , disponibles pour Windows, macOS et Linux.

Quand Workers AI est le bon choix

Workers AI convient parfaitement lorsque :

  • Vous voulez de l’inférence IA sans gérer d’infrastructure GPU
  • La faible latence compte et vos utilisateurs sont mondiaux
  • Votre charge est irrégulière ou imprévisible, de sorte que le paiement à l’usage l’emporte sur le matériel réservé
  • Vous construisez déjà sur Workers et voulez tout sur une seule plateforme
  • Les modèles ouverts du catalogue répondent à vos exigences de qualité

Il est moins adapté aux cas nécessitant un modèle propriétaire de pointe spécifique absent du catalogue, ou à de l’inférence par lots extrêmement lourde où du matériel dédié peut être moins cher en pleine utilisation soutenue. Pour ceux-là, une approche hybride, consistant à appeler un fournisseur de modèles externe depuis votre Worker, est courante, et c’est quelque chose que j’aide les clients à concevoir via mes services d’intégration d’IA .

Points clés à retenir

  • Workers AI exécute des LLM, des modèles d’image, d’embeddings et d’audio sur les GPU edge de Cloudflare sans infrastructure à gérer
  • La tarification est unifiée en Neurons : 10 000 gratuits par jour, puis 0,011 $ pour 1 000 Neurons
  • Appeler un modèle est un unique appel env.AI.run() à l’intérieur d’un Worker
  • Vous pouvez générer des images à la périphérie, les stocker dans R2, et les diffuser optimisées via les transformations
  • Il se combine à Vectorize, R2, D1 et KV pour construire des applications IA complètes sur une seule plateforme
  • Le paiement à l’usage et la faible latence mondiale en font un choix idéal pour les fonctionnalités IA irrégulières orientées utilisateur

Foire aux questions

Qu’est-ce que Cloudflare Workers AI ? C’est un service qui exécute des modèles de machine learning sur le réseau de GPU edge de Cloudflare. Vous appelez un modèle depuis un Worker à l’aide du binding AI, et Cloudflare gère le matériel et l’hébergement des modèles. Il n’y a aucun serveur ni GPU à gérer de votre côté.

Qu’est-ce qu’un Neuron dans la tarification Workers AI ? Un Neuron est l’unité unifiée de Cloudflare pour mesurer le coût de l’inférence à travers tous les types de modèles. Les tokens, les tiles d’image, les steps de génération et les minutes audio sont tous convertis en Neurons afin que vous ayez un seul chiffre à suivre. Vous obtenez 10 000 gratuits par jour, puis vous payez 0,011 $ pour 1 000.

Workers AI peut-il générer des images ? Oui. Le catalogue comprend des modèles texte-vers-image tels que les variantes Flux. Vous appelez le modèle avec un prompt et recevez des octets d’image, que vous pouvez renvoyer directement, stocker dans R2 ou optimiser avec les image transformations.

Workers AI est-il gratuit ? Il existe une allocation gratuite de 10 000 Neurons par jour sur les plans Workers Free et Paid, qui se réinitialise chaque jour à 00:00 UTC. De nombreuses petites fonctionnalités tournent entièrement dans cette allocation. Au-delà, l’usage est facturé à 0,011 $ pour 1 000 Neurons.

Quels modèles Workers AI prend-il en charge ? Il prend en charge quatre familles : LLM de texte (Llama, Mistral, Qwen), génération d’images (Flux), embeddings (BGE) et audio (reconnaissance vocale et synthèse vocale), plus des modèles spécialisés pour la traduction, le reclassement et la classification. Le catalogue est mis à jour régulièrement.

Comment Workers AI se compare-t-il à l’exécution de mon propre serveur GPU ? Workers AI supprime le provisionnement des GPU, la mise à l’échelle et la gestion des coûts d’inactivité, et exécute l’inférence au plus près des utilisateurs dans le monde entier. Un serveur GPU dédié ne peut être moins cher qu’en pleine utilisation soutenue ; pour les charges irrégulières ou orientées utilisateur, le paiement à l’usage à la périphérie l’emporte généralement.