Cloudflare Workers AI：在邊緣執行 AI 模型（2026）

在過去十年的大部分時間裡，執行一個 AI 模型意味著租用 GPU 伺服器、管理驅動程式，而且無論是否有請求進來都要為那些硬體付費。Cloudflare Workers AI 徹底改變了這種模式：你像呼叫 Worker 中任何其他函式一樣呼叫一個 AI 模型，它執行在分布於 Cloudflare 全球網路的 GPU 上，而你只為所用付費。無須佈建伺服器，無須照看 GPU，推論就在你的使用者附近發生。

本指南說明 Workers AI 是什麼、你可以執行哪些模型、在 Neurons 定價模型下它的成本，以及如何從程式碼中呼叫它，其中包括一個實用的圖片生成範例。它是我持續的 Cloudflare 攻略的一部分，旨在於邊緣建構快速、現代的應用。

摘要

Workers AI 是無伺服器 AI：它在 Cloudflare 的邊緣 GPU 上執行 LLM、圖片生成、嵌入與音訊模型，並從 Worker 中呼叫
定價使用 Neurons：你每天可免費取得 10,000 個 Neurons，之後按每 1,000 個 Neurons 0.011 美元 付費
它涵蓋四個模型系列：文字（LLM）、圖片、嵌入與音訊，並定期新增模型
你可以在邊緣生成圖片，並用 Cloudflare Image Transformations 對其進行最佳化
它與 Workers 平台的其餘部分自然搭配：KV、R2、D1 與 Vectorize，用於建構完整的 AI 應用
需要協助來上線一個 AI 功能？這正是我的 AI 實作服務的用途

Workers AI 究竟是什麼

Cloudflare Workers AI 讓你在 Worker 內部使用一個簡單的繫結，在 Cloudflare 的網路上執行機器學習模型。Cloudflare 託管 GPU 與模型；你傳送輸入並接收輸出。沒有要管理的基礎架構，沒有要支付的冷啟動 GPU 預熱，也沒有每月最低承諾。

由於推論執行在 Cloudflare 的分散式網路上，而非單一區域，模型會在你的使用者附近執行。對於聊天、分類或內容生成等互動式功能，這種鄰近性以集中式 GPU 叢集無法企及的方式降低了延遲。

這些模型是開放的，由 Cloudflare 管理。你透過名稱引用一個模型，例如用於文字的 Llama 變體或用於圖片的 Flux 變體，而隨著更佳的開放模型發布，Cloudflare 會讓目錄保持最新。

你可以執行的 Cloudflare Workers AI 模型

Workers AI 將其目錄組織為四個主要系列，外加一組專用模型：

文字（LLM）。 諸如 Llama、Mistral 與 Qwen 變體之類的語言模型，用於聊天、摘要、擷取、分類與內容生成。按輸入與輸出 token 計費。
圖片。 諸如 Flux 變體之類的生成模型，從文字提示建立圖片。按 tile 與 step 計費。
嵌入。 諸如 BGE 之類的模型，將文字轉換為向量，用於語意搜尋與檢索增強生成。按輸入 token 計費。
音訊。 語音轉文字與文字轉語音模型。按分鐘或按字元計費。
其他。 用於翻譯、重新排序、圖片分類與辨識的專用模型。

目錄演進很快，因此請務必查看目前的模型清單，以了解最新選項及其確切定價。

Cloudflare Workers AI 定價：Neurons 如何運作

Workers AI 使用一個統一單位，稱為 Neuron，來表達跨每種模型類型的推論成本。與其在 token、tile、step 與音訊分鐘的各自價格之間周旋，Cloudflare 將它們全部轉換為 Neurons，這樣你就只有一個數字需要考量。

根據 2026 年的官方 Workers AI 定價：

方案	Neurons
免費額度（Free 與 Paid 方案）	每天 10,000 個 Neurons
超出免費額度的付費用量	每 1,000 個 Neurons 0.011 美元

每日免費額度在 00:00 UTC 重設。對於原型、副專案與低流量功能，每天 10,000 個 Neurons 通常意味著你的 AI 功能完全免費執行。當你超出時，費率夠低，以至於相當數量的推論仍然只需幾美元。

由於不同模型以不同速率消耗 Neurons，實際成本取決於你呼叫哪個模型以及傳送多少資料。定價頁面按模型列出 Neuron 成本，因此你可以在建構之前進行估算。

從 Worker 呼叫文字模型

這是核心模式。你在 wrangler.toml 中繫結 Workers AI，然後用一個模型名稱與輸入呼叫 env.AI.run()：

 1export default {
 2  async fetch(request, env) {
 3    const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
 4      messages: [
 5        { role: "system", content: "You are a concise assistant." },
 6        { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
 7      ],
 8    });
 9
10    return Response.json(response);
11  },
12};

AI 繫結在你 Worker 的設定中設定一次。之後，呼叫一個模型就是一次非同步函式呼叫，傳回模型的輸出供你隨意使用。

在邊緣生成圖片

圖片生成是 Workers AI 最引人注目的使用案例之一，它直接關聯到圖片託管與傳遞，這是本部落格反覆出現的主題。你可以從文字提示生成一張圖片，並將位元組直接串流傳回到回應中：

 1export default {
 2  async fetch(request, env) {
 3    const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
 4
 5    const image = await env.AI.run(
 6      "@cf/black-forest-labs/flux-1-schnell",
 7      inputs
 8    );
 9
10    return new Response(image, {
11      headers: { "content-type": "image/png" },
12    });
13  },
14};

一個強大的模式是生成圖片，將其儲存在 Cloudflare R2 中，然後透過 image transformations 最佳化傳遞。這為你提供了由 AI 生成的作品，以零輸出費用儲存，並以尺寸恰好的 WebP 或 AVIF 傳遞。從生成、儲存到傳遞的整條管線都存在於 Cloudflare 內部。

建構完整的 AI 應用

Workers AI 與平台其餘部分結合時最為強大。一個現實的 AI 應用會把若干部分縫合在一起：

Workers AI 用於推論（LLM、嵌入、圖片生成）
Vectorize 作為向量資料庫，用於語意搜尋與檢索增強生成
R2 用於儲存文件、圖片或音訊
D1 用於結構化的應用資料（閱讀我的 D1 指南）
KV 用於快取與設定

例如，一個文件聊天機器人會用嵌入模型嵌入你的內容，將向量儲存在 Vectorize 中，在查詢時檢索相關片段，並將它們餵給一個 LLM，這一切都在單一 Worker 內、全部在邊緣完成。這就是大多數現代檢索增強 AI 功能背後的架構。你可以用我的免費應用 Easy Cloudflare R2 、Easy Cloudflare D1 與 Easy Cloudflare KV ，從桌面管理這些應用背後的儲存層，它們適用於 Windows、macOS 與 Linux。

何時 Workers AI 是正確的選擇

Workers AI 在以下情況下非常合適：

你想要 AI 推論而無須管理 GPU 基礎架構
低延遲很重要，並且你的使用者遍布全球
你的工作負載是突發的或不可預測的，因此按用量付費勝過預留硬體
你已經在 Workers 上建構，並希望一切都在一個平台上
目錄中的開放模型滿足你的品質需求

它較不適合需要目錄中沒有的特定專有前沿模型的情境，或者極重的批次推論（在持續滿載利用下，專用硬體可能更便宜）。對於這些情境，混合方法（從你的 Worker 呼叫外部模型供應商）很常見，這也是我透過 AI 整合服務協助客戶設計的內容。

重點整理

Workers AI 在 Cloudflare 的邊緣 GPU 上執行 LLM、圖片、嵌入與音訊模型，無須管理基礎架構
定價統一為 Neurons：每天 10,000 個免費，之後每 1,000 個 Neurons 0.011 美元
呼叫一個模型是 Worker 內部的一次 env.AI.run() 呼叫
你可以在邊緣生成圖片，將其儲存在 R2 中，並透過轉換最佳化傳遞
它與 Vectorize、R2、D1 與 KV 結合，在一個平台上建構完整的 AI 應用
按用量付費與全球低延遲，使其非常適合突發的、面向使用者的 AI 功能

常見問題

什麼是 Cloudflare Workers AI？ 它是一項在 Cloudflare 邊緣 GPU 網路上執行機器學習模型的服務。你使用 AI 繫結從 Worker 呼叫一個模型，Cloudflare 處理硬體與模型託管。沒有需要你管理的伺服器或 GPU。

Workers AI 定價中的 Neuron 是什麼？ Neuron 是 Cloudflare 用於衡量所有模型類型推論成本的統一單位。token、圖片 tile、生成 step 與音訊分鐘都被轉換為 Neurons，這樣你只有一個數字需要追蹤。你每天免費取得 10,000 個，之後按每 1,000 個 0.011 美元付費。

Workers AI 能生成圖片嗎？ 能。目錄中包含文字到圖片模型，例如 Flux 變體。你用一個提示呼叫模型並接收圖片位元組，你可以直接傳回它們、將其儲存在 R2 中，或用 image transformations 進行最佳化。

Workers AI 是免費的嗎？ 在 Free 與 Paid 兩種 Workers 方案上都有每天 10,000 個 Neurons 的免費額度，每天在 00:00 UTC 重設。許多小功能完全在此額度內執行。超出之後，用量按每 1,000 個 Neurons 0.011 美元計費。

Workers AI 支援哪些模型？ 它支援四個系列：文字 LLM（Llama、Mistral、Qwen）、圖片生成（Flux）、嵌入（BGE）與音訊（語音轉文字與文字轉語音），外加用於翻譯、重新排序與分類的專用模型。目錄定期更新。

Workers AI 與執行我自己的 GPU 伺服器相比如何？ Workers AI 免去了 GPU 佈建、擴縮容與閒置成本管理，並在全球範圍內於使用者附近執行推論。專用 GPU 伺服器只有在持續滿載利用時才可能更便宜；對於突發的或面向使用者的工作負載，邊緣上的按用量付費通常勝出。

Cloudflare Workers AI - 2026 年在邊緣執行 AI 模型

Workers AI 究竟是什麼

你可以執行的 Cloudflare Workers AI 模型

Cloudflare Workers AI 定價：Neurons 如何運作

從 Worker 呼叫文字模型

在邊緣生成圖片

建構完整的 AI 應用

何時 Workers AI 是正確的選擇

重點整理

常見問題

評論

我們重視您的隱私

Cloudflare Workers AI - 2026 年在邊緣執行 AI 模型

Workers AI 究竟是什麼

你可以執行的 Cloudflare Workers AI 模型

Cloudflare Workers AI 定價：Neurons 如何運作

從 Worker 呼叫文字模型

在邊緣生成圖片

建構完整的 AI 應用

何時 Workers AI 是正確的選擇

重點整理

常見問題

相關文章

評論