在過去十年的大部分時間裡,執行一個 AI 模型意味著租用 GPU 伺服器、管理驅動程式,而且無論是否有請求進來都要為那些硬體付費。Cloudflare Workers AI 徹底改變了這種模式:你像呼叫 Worker 中任何其他函式一樣呼叫一個 AI 模型,它執行在分布於 Cloudflare 全球網路的 GPU 上,而你只為所用付費。無須佈建伺服器,無須照看 GPU,推論就在你的使用者附近發生。

本指南說明 Workers AI 是什麼、你可以執行哪些模型、在 Neurons 定價模型下它的成本,以及如何從程式碼中呼叫它,其中包括一個實用的圖片生成範例。它是我持續的 Cloudflare 攻略的一部分,旨在於邊緣建構快速、現代的應用。

摘要

  • Workers AI 是無伺服器 AI:它在 Cloudflare 的邊緣 GPU 上執行 LLM、圖片生成、嵌入與音訊模型,並從 Worker 中呼叫
  • 定價使用 Neurons:你每天可免費取得 10,000 個 Neurons,之後按每 1,000 個 Neurons 0.011 美元 付費
  • 它涵蓋四個模型系列:文字(LLM)、圖片、嵌入與音訊,並定期新增模型
  • 你可以在邊緣生成圖片,並用 Cloudflare Image Transformations 對其進行最佳化
  • 它與 Workers 平台的其餘部分自然搭配:KV、R2、D1 與 Vectorize,用於建構完整的 AI 應用
  • 需要協助來上線一個 AI 功能?這正是我的 AI 實作服務 的用途

Workers AI 究竟是什麼

Cloudflare Workers AI 讓你在 Worker 內部使用一個簡單的繫結,在 Cloudflare 的網路上執行機器學習模型。Cloudflare 託管 GPU 與模型;你傳送輸入並接收輸出。沒有要管理的基礎架構,沒有要支付的冷啟動 GPU 預熱,也沒有每月最低承諾。

由於推論執行在 Cloudflare 的分散式網路上,而非單一區域,模型會在你的使用者附近執行。對於聊天、分類或內容生成等互動式功能,這種鄰近性以集中式 GPU 叢集無法企及的方式降低了延遲。

這些模型是開放的,由 Cloudflare 管理。你透過名稱引用一個模型,例如用於文字的 Llama 變體或用於圖片的 Flux 變體,而隨著更佳的開放模型發布,Cloudflare 會讓目錄保持最新。

你可以執行的 Cloudflare Workers AI 模型

Workers AI 將其目錄組織為四個主要系列,外加一組專用模型:

  • 文字(LLM)。 諸如 Llama、Mistral 與 Qwen 變體之類的語言模型,用於聊天、摘要、擷取、分類與內容生成。按輸入與輸出 token 計費。
  • 圖片。 諸如 Flux 變體之類的生成模型,從文字提示建立圖片。按 tile 與 step 計費。
  • 嵌入。 諸如 BGE 之類的模型,將文字轉換為向量,用於語意搜尋與檢索增強生成。按輸入 token 計費。
  • 音訊。 語音轉文字與文字轉語音模型。按分鐘或按字元計費。
  • 其他。 用於翻譯、重新排序、圖片分類與辨識的專用模型。

目錄演進很快,因此請務必查看目前的 模型清單 ,以了解最新選項及其確切定價。

Cloudflare Workers AI 定價:Neurons 如何運作

Workers AI 使用一個統一單位,稱為 Neuron,來表達跨每種模型類型的推論成本。與其在 token、tile、step 與音訊分鐘的各自價格之間周旋,Cloudflare 將它們全部轉換為 Neurons,這樣你就只有一個數字需要考量。

根據 2026 年的 官方 Workers AI 定價

方案Neurons
免費額度(Free 與 Paid 方案)每天 10,000 個 Neurons
超出免費額度的付費用量1,000 個 Neurons 0.011 美元

每日免費額度在 00:00 UTC 重設。對於原型、副專案與低流量功能,每天 10,000 個 Neurons 通常意味著你的 AI 功能完全免費執行。當你超出時,費率夠低,以至於相當數量的推論仍然只需幾美元。

由於不同模型以不同速率消耗 Neurons,實際成本取決於你呼叫哪個模型以及傳送多少資料。定價頁面按模型列出 Neuron 成本,因此你可以在建構之前進行估算。

從 Worker 呼叫文字模型

這是核心模式。你在 wrangler.toml 中繫結 Workers AI,然後用一個模型名稱與輸入呼叫 env.AI.run()

 1export default {
 2  async fetch(request, env) {
 3    const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
 4      messages: [
 5        { role: "system", content: "You are a concise assistant." },
 6        { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
 7      ],
 8    });
 9
10    return Response.json(response);
11  },
12};

AI 繫結在你 Worker 的設定中設定一次。之後,呼叫一個模型就是一次非同步函式呼叫,傳回模型的輸出供你隨意使用。

在邊緣生成圖片

圖片生成是 Workers AI 最引人注目的使用案例之一,它直接關聯到圖片託管與傳遞,這是本部落格反覆出現的主題。你可以從文字提示生成一張圖片,並將位元組直接串流傳回到回應中:

 1export default {
 2  async fetch(request, env) {
 3    const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
 4
 5    const image = await env.AI.run(
 6      "@cf/black-forest-labs/flux-1-schnell",
 7      inputs
 8    );
 9
10    return new Response(image, {
11      headers: { "content-type": "image/png" },
12    });
13  },
14};

一個強大的模式是生成圖片,將其儲存在 Cloudflare R2 中,然後透過 image transformations 最佳化傳遞。這為你提供了由 AI 生成的作品,以零輸出費用儲存,並以尺寸恰好的 WebP 或 AVIF 傳遞。從生成、儲存到傳遞的整條管線都存在於 Cloudflare 內部。

建構完整的 AI 應用

Workers AI 與平台其餘部分結合時最為強大。一個現實的 AI 應用會把若干部分縫合在一起:

  • Workers AI 用於推論(LLM、嵌入、圖片生成)
  • Vectorize 作為向量資料庫,用於語意搜尋與檢索增強生成
  • R2 用於儲存文件、圖片或音訊
  • D1 用於結構化的應用資料(閱讀我的 D1 指南
  • KV 用於快取與設定

例如,一個文件聊天機器人會用嵌入模型嵌入你的內容,將向量儲存在 Vectorize 中,在查詢時檢索相關片段,並將它們餵給一個 LLM,這一切都在單一 Worker 內、全部在邊緣完成。這就是大多數現代檢索增強 AI 功能背後的架構。你可以用我的免費應用 Easy Cloudflare R2Easy Cloudflare D1Easy Cloudflare KV ,從桌面管理這些應用背後的儲存層,它們適用於 Windows、macOS 與 Linux。

何時 Workers AI 是正確的選擇

Workers AI 在以下情況下非常合適:

  • 你想要 AI 推論而無須管理 GPU 基礎架構
  • 低延遲很重要,並且你的使用者遍布全球
  • 你的工作負載是突發的或不可預測的,因此按用量付費勝過預留硬體
  • 你已經在 Workers 上建構,並希望一切都在一個平台上
  • 目錄中的開放模型滿足你的品質需求

它較不適合需要目錄中沒有的特定專有前沿模型的情境,或者極重的批次推論(在持續滿載利用下,專用硬體可能更便宜)。對於這些情境,混合方法(從你的 Worker 呼叫外部模型供應商)很常見,這也是我透過 AI 整合服務 協助客戶設計的內容。

重點整理

  • Workers AI 在 Cloudflare 的邊緣 GPU 上執行 LLM、圖片、嵌入與音訊模型,無須管理基礎架構
  • 定價統一為 Neurons:每天 10,000 個免費,之後每 1,000 個 Neurons 0.011 美元
  • 呼叫一個模型是 Worker 內部的一次 env.AI.run() 呼叫
  • 你可以在邊緣生成圖片,將其儲存在 R2 中,並透過轉換最佳化傳遞
  • 它與 Vectorize、R2、D1 與 KV 結合,在一個平台上建構完整的 AI 應用
  • 按用量付費與全球低延遲,使其非常適合突發的、面向使用者的 AI 功能

常見問題

什麼是 Cloudflare Workers AI? 它是一項在 Cloudflare 邊緣 GPU 網路上執行機器學習模型的服務。你使用 AI 繫結從 Worker 呼叫一個模型,Cloudflare 處理硬體與模型託管。沒有需要你管理的伺服器或 GPU。

Workers AI 定價中的 Neuron 是什麼? Neuron 是 Cloudflare 用於衡量所有模型類型推論成本的統一單位。token、圖片 tile、生成 step 與音訊分鐘都被轉換為 Neurons,這樣你只有一個數字需要追蹤。你每天免費取得 10,000 個,之後按每 1,000 個 0.011 美元付費。

Workers AI 能生成圖片嗎? 能。目錄中包含文字到圖片模型,例如 Flux 變體。你用一個提示呼叫模型並接收圖片位元組,你可以直接傳回它們、將其儲存在 R2 中,或用 image transformations 進行最佳化。

Workers AI 是免費的嗎? 在 Free 與 Paid 兩種 Workers 方案上都有每天 10,000 個 Neurons 的免費額度,每天在 00:00 UTC 重設。許多小功能完全在此額度內執行。超出之後,用量按每 1,000 個 Neurons 0.011 美元計費。

Workers AI 支援哪些模型? 它支援四個系列:文字 LLM(Llama、Mistral、Qwen)、圖片生成(Flux)、嵌入(BGE)與音訊(語音轉文字與文字轉語音),外加用於翻譯、重新排序與分類的專用模型。目錄定期更新。

Workers AI 與執行我自己的 GPU 伺服器相比如何? Workers AI 免去了 GPU 佈建、擴縮容與閒置成本管理,並在全球範圍內於使用者附近執行推論。專用 GPU 伺服器只有在持續滿載利用時才可能更便宜;對於突發的或面向使用者的工作負載,邊緣上的按用量付費通常勝出。