過去10年の大半において、AIモデルを実行するということは、GPUサーバーを借り、ドライバーを管理し、リクエストの有無にかかわらずそのハードウェアに料金を支払うことを意味していました。Cloudflare Workers AIはそのモデルを根本から変えます。Workerの中で他の関数を呼び出すのと同じようにAIモデルを呼び出すと、それはCloudflareのグローバルネットワーク全体に分散したGPU上で実行され、使った分だけ支払います。プロビジョニングするサーバーも、世話をするGPUもなく、推論はユーザーの近くで行われます。
このガイドでは、Workers AIとは何か、どのモデルを実行できるか、Neurons料金モデルでのコスト、そして実用的な画像生成の例を含め、コードからの呼び出し方を説明します。これは、エッジで高速かつモダンなアプリケーションを構築するための、私の継続的なCloudflareプレイブックの一部です。
要点
- Workers AIはサーバーレスAIです。LLM、画像生成、埋め込み、音声モデルをCloudflareのエッジGPU上で実行し、Workerから呼び出します
- 料金はNeuronsを使用します。1日あたり10,000Neuronsを無料で利用でき、それを超えると1,000Neuronsあたり0.011ドルを支払います
- 4つのモデルファミリーをカバーします。テキスト(LLM)、画像、埋め込み、音声で、新しいモデルが定期的に追加されます
- エッジで画像を生成し、Cloudflare Image Transformations で最適化できます
- Workersプラットフォームの他の部分とも自然に組み合わさります。完全なAIアプリケーションのためのKV、R2、D1、Vectorizeです
- AI機能のリリースに助けが必要ですか。それこそまさに私のAI実装サービス の目的です
Workers AIとは実際に何か
Cloudflare Workers AI を使うと、Worker内のシンプルなバインディングを使って、Cloudflareのネットワーク上で機械学習モデルを実行できます。CloudflareがGPUとモデルをホストし、あなたは入力を送って出力を受け取ります。管理すべきインフラはなく、支払うべきコールドスタートのGPU起動もなく、月額の最低契約もありません。
推論は単一のリージョンではなくCloudflareの分散ネットワーク上で実行されるため、モデルはユーザーの近くで動作します。チャット、分類、コンテンツ生成といったインタラクティブな機能では、この近接性が、集中型のGPUクラスターでは到底実現できない形で遅延を低減します。
モデルはオープンで、Cloudflareによって管理されています。テキスト用のLlamaバリアントや画像用のFluxバリアントなど、名前でモデルを参照すると、Cloudflareはより優れたオープンモデルがリリースされるたびにカタログを最新に保ちます。
実行できるCloudflare Workers AIモデル
Workers AIはカタログを4つの主要なファミリーと、一連の専門モデルに整理しています。
- テキスト(LLM)。 チャット、要約、抽出、分類、コンテンツ生成のためのLlama、Mistral、Qwenバリアントなどの言語モデル。入力トークンと出力トークンで課金されます。
- 画像。 テキストプロンプトから画像を作成するFluxバリアントなどの生成モデル。タイルとステップで課金されます。
- 埋め込み。 セマンティック検索や検索拡張生成のためにテキストをベクトルに変換するBGEなどのモデル。入力トークンで課金されます。
- 音声。 音声認識とテキスト読み上げのモデル。分単位または文字単位で課金されます。
- その他。 翻訳、リランキング、画像分類・認識のための専門モデル。
カタログは急速に進化するため、最新のオプションと正確な料金については、常に現在のモデルリスト を確認してください。
Cloudflare Workers AIの料金:Neuronsの仕組み
Workers AIは、あらゆるモデルタイプにわたる推論コストを表すために、Neuronと呼ばれる統一された単位を使用します。トークン、タイル、ステップ、音声分数の個別の価格をやりくりするのではなく、CloudflareはそれらすべてをNeuronsに変換するので、考慮すべき数字は1つで済みます。
2026年の公式Workers AI料金 に基づくと、
| プラン | Neurons |
|---|---|
| 無料割り当て(FreeおよびPaidプラン) | 1日あたり10,000Neurons |
| 無料割り当てを超えた有料利用 | 1,000Neuronsあたり0.011ドル |
毎日の無料割り当ては00:00 UTCにリセットされます。プロトタイプ、サイドプロジェクト、トラフィックの少ない機能の場合、1日あたり10,000Neuronsは、AI機能がまったくコストなしで動作することを意味することがよくあります。それを超えても、料金は十分に低いため、相当量の推論でもなお数ドルしかかかりません。
異なるモデルは異なる速度でNeuronsを消費するため、実際のコストはどのモデルを呼び出し、どれだけのデータを送るかによって決まります。料金ページにはモデルごとのNeuronコストが記載されているので、構築する前に見積もることができます。
Workerからテキストモデルを呼び出す
これが中核となるパターンです。wrangler.tomlでWorkers AIをバインドし、その後モデル名と入力を指定してenv.AI.run()を呼び出します。
1export default {
2 async fetch(request, env) {
3 const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
4 messages: [
5 { role: "system", content: "You are a concise assistant." },
6 { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
7 ],
8 });
9
10 return Response.json(response);
11 },
12};
AIバインディングはWorkerの設定で一度だけ構成します。その後、モデルの呼び出しは単一の非同期関数呼び出しとなり、モデルの出力を返すので、それを好きなように使えます。
エッジで画像を生成する
画像生成はWorkers AIの最も魅力的なユースケースの1つであり、このブログの繰り返しのテーマである画像ホスティングと配信に直接つながります。テキストプロンプトから画像を生成し、バイトを直接レスポンスにストリームバックできます。
1export default {
2 async fetch(request, env) {
3 const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
4
5 const image = await env.AI.run(
6 "@cf/black-forest-labs/flux-1-schnell",
7 inputs
8 );
9
10 return new Response(image, {
11 headers: { "content-type": "image/png" },
12 });
13 },
14};
強力なパターンは、画像を生成してCloudflare R2 に保存し、その後image transformations を通じて最適化して配信することです。これにより、エグレス料金なしで保存され、完璧なサイズのWebPまたはAVIFとして配信される、AI生成のアートワークが得られます。生成、保存、配信というパイプライン全体がCloudflareの内部で完結します。
完全なAIアプリケーションの構築
Workers AIは、プラットフォームの他の部分と組み合わせると最も強力です。現実的なAIアプリケーションは、いくつかのピースを縫い合わせます。
- 推論のためのWorkers AI(LLM、埋め込み、画像生成)
- セマンティック検索と検索拡張生成のためのベクトルデータベースとしてのVectorize
- ドキュメント、画像、音声を保存するためのR2
- 構造化されたアプリケーションデータのためのD1(私のD1ガイドを読む )
- キャッシュと構成のためのKV
たとえば、ドキュメントチャットボットは、埋め込みモデルでコンテンツを埋め込み、ベクトルをVectorizeに保存し、クエリ時に関連するチャンクを取得して、それをLLMに渡します。これらすべてが単一のWorker内で、すべてエッジで行われます。これがほとんどの最新の検索拡張AI機能の背後にあるアーキテクチャです。これらのアプリの背後にあるストレージレイヤーは、Windows、macOS、Linux向けに提供される私の無料アプリEasy Cloudflare R2 、Easy Cloudflare D1 、Easy Cloudflare KV を使って、デスクトップから管理できます。
Workers AIが適切な選択となるとき
Workers AIは次の場合に優れた選択肢です。
- GPUインフラを管理せずにAI推論を行いたい
- 低遅延が重要で、ユーザーがグローバルに分布している
- ワークロードが急増したり予測不能だったりするため、従量課金が予約済みハードウェアに勝る
- すでにWorkers上で構築しており、すべてを1つのプラットフォームにまとめたい
- カタログのオープンモデルが品質要件を満たしている
カタログにない特定の独自フロンティアモデルを必要とするケースや、専用ハードウェアが持続的なフル稼働で安くなる可能性のある極めて重いバッチ推論には、あまり適していません。そうした場合は、Workerから外部のモデルプロバイダーを呼び出すハイブリッドアプローチが一般的であり、私のAI統合サービス を通じて、クライアントの設計を支援しているものでもあります。
重要なポイント
- Workers AIは、管理すべきインフラなしで、CloudflareのエッジGPU上でLLM、画像、埋め込み、音声モデルを実行します
- 料金はNeuronsで統一されています。1日あたり10,000が無料、それを超えると1,000Neuronsあたり0.011ドルです
- モデルの呼び出しはWorker内の単一の
env.AI.run()呼び出しです - エッジで画像を生成し、R2に保存し、変換を通じて最適化して配信できます
- Vectorize、R2、D1、KVと組み合わせて、1つのプラットフォーム上で完全なAIアプリケーションを構築できます
- 従量課金とグローバルな低遅延により、急増するユーザー向けAI機能に理想的です
よくある質問
Cloudflare Workers AIとは何ですか。 CloudflareのエッジGPUのネットワーク上で機械学習モデルを実行するサービスです。AIバインディングを使ってWorkerからモデルを呼び出すと、Cloudflareがハードウェアとモデルのホスティングを処理します。あなたが管理すべきサーバーやGPUはありません。
Workers AIの料金におけるNeuronとは何ですか。 Neuronは、すべてのモデルタイプにわたる推論コストを測定するためのCloudflareの統一単位です。トークン、画像タイル、生成ステップ、音声分数はすべてNeuronsに変換されるので、追跡すべき数値は1つで済みます。1日あたり10,000が無料で、その後は1,000あたり0.011ドルを支払います。
Workers AIは画像を生成できますか。 はい。カタログにはFluxバリアントなどのテキスト読み上げ画像モデルが含まれています。プロンプトでモデルを呼び出すと画像バイトを受け取り、それを直接返したり、R2に保存したり、image transformationsで最適化したりできます。
Workers AIは無料ですか。 FreeとPaidの両方のWorkersプランで、1日あたり10,000Neuronsの無料割り当てがあり、毎日00:00 UTCにリセットされます。多くの小規模な機能はこの割り当て内で完全に動作します。それを超えると、利用は1,000Neuronsあたり0.011ドルで課金されます。
Workers AIはどのモデルをサポートしていますか。 4つのファミリーをサポートしています。テキストLLM(Llama、Mistral、Qwen)、画像生成(Flux)、埋め込み(BGE)、音声(音声認識とテキスト読み上げ)、さらに翻訳、リランキング、分類のための専門モデルです。カタログは定期的に更新されます。
Workers AIは自分のGPUサーバーを運用する場合と比べてどうですか。 Workers AIはGPUのプロビジョニング、スケーリング、アイドルコスト管理を取り除き、世界中のユーザーの近くで推論を実行します。専用GPUサーバーは、持続的なフル稼働の場合にのみ安くなります。急増するワークロードやユーザー向けのワークロードでは、通常はエッジでの従量課金が勝ります。
コメント