Cloudflare Workers AI：在边缘运行 AI 模型（2026）

在过去十年的大部分时间里，运行一个 AI 模型意味着租用 GPU 服务器、管理驱动程序，并且无论是否有请求进来都要为那些硬件付费。Cloudflare Workers AI 彻底改变了这种模式：你像调用 Worker 中任何其他函数一样调用一个 AI 模型，它运行在分布于 Cloudflare 全球网络的 GPU 上，而你只为所用付费。无需预置服务器，无需照看 GPU，推理就在你的用户附近发生。

本指南解释 Workers AI 是什么、你可以运行哪些模型、在 Neurons 定价模型下它的成本，以及如何从代码中调用它，其中包括一个实用的图片生成示例。它是我持续的 Cloudflare 攻略的一部分，旨在于边缘构建快速、现代的应用。

摘要

Workers AI 是无服务器 AI：它在 Cloudflare 的边缘 GPU 上运行 LLM、图片生成、嵌入和音频模型，并从 Worker 中调用
定价使用 Neurons：你每天可免费获得 10,000 个 Neurons，之后按每 1,000 个 Neurons 0.011 美元 付费
它涵盖四个模型系列：文本（LLM）、图片、嵌入和音频，并定期添加新模型
你可以在边缘生成图片，并用 Cloudflare Image Transformations 对其进行优化
它与 Workers 平台的其余部分自然搭配：KV、R2、D1 和 Vectorize，用于构建完整的 AI 应用
需要帮助来上线一个 AI 功能？这正是我的 AI 实现服务的用途

Workers AI 究竟是什么

Cloudflare Workers AI 让你在 Worker 内部使用一个简单的绑定，在 Cloudflare 的网络上运行机器学习模型。Cloudflare 托管 GPU 和模型；你发送输入并接收输出。没有要管理的基础设施，没有要支付的冷启动 GPU 预热，也没有每月最低承诺。

由于推理运行在 Cloudflare 的分布式网络上，而非单个区域，模型会在你的用户附近执行。对于聊天、分类或内容生成等交互式功能，这种邻近性以集中式 GPU 集群无法企及的方式降低了延迟。

这些模型是开放的，由 Cloudflare 管理。你通过名称引用一个模型，例如用于文本的 Llama 变体或用于图片的 Flux 变体，并且随着更好的开放模型发布，Cloudflare 会让目录保持最新。

你可以运行的 Cloudflare Workers AI 模型

Workers AI 将其目录组织为四个主要系列，外加一组专用模型：

文本（LLM）。 诸如 Llama、Mistral 和 Qwen 变体之类的语言模型，用于聊天、摘要、抽取、分类和内容生成。按输入和输出 token 计费。
图片。 诸如 Flux 变体之类的生成模型，从文本提示创建图片。按 tile 和 step 计费。
嵌入。 诸如 BGE 之类的模型，将文本转换为向量，用于语义搜索和检索增强生成。按输入 token 计费。
音频。 语音转文本和文本转语音模型。按分钟或按字符计费。
其他。 用于翻译、重排、图片分类和识别的专用模型。

目录演进很快，因此请始终查看当前的模型列表，以了解最新选项及其确切定价。

Cloudflare Workers AI 定价：Neurons 如何运作

Workers AI 使用一个统一单位，称为 Neuron，来表达跨每种模型类型的推理成本。与其在 token、tile、step 和音频分钟的各自价格之间周旋，Cloudflare 将它们全部转换为 Neurons，这样你就只有一个数字需要考量。

根据 2026 年的官方 Workers AI 定价：

计划	Neurons
免费额度（Free 和 Paid 计划）	每天 10,000 个 Neurons
超出免费额度的付费用量	每 1,000 个 Neurons 0.011 美元

每日免费额度在 00:00 UTC 重置。对于原型、副项目和低流量功能，每天 10,000 个 Neurons 通常意味着你的 AI 功能完全免费运行。当你超出时，费率足够低，以至于相当数量的推理仍然只需几美元。

由于不同模型以不同速率消耗 Neurons，实际成本取决于你调用哪个模型以及发送多少数据。定价页面按模型列出 Neuron 成本，因此你可以在构建之前进行估算。

从 Worker 调用文本模型

这是核心模式。你在 wrangler.toml 中绑定 Workers AI，然后用一个模型名称和输入调用 env.AI.run()：

 1export default {
 2  async fetch(request, env) {
 3    const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
 4      messages: [
 5        { role: "system", content: "You are a concise assistant." },
 6        { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
 7      ],
 8    });
 9
10    return Response.json(response);
11  },
12};

AI 绑定在你 Worker 的设置中配置一次。之后，调用一个模型就是一次异步函数调用，返回模型的输出供你随意使用。

在边缘生成图片

图片生成是 Workers AI 最引人注目的用例之一，它直接关联到图片托管与分发，这是本博客反复出现的主题。你可以从文本提示生成一张图片，并将字节直接流式返回到响应中：

 1export default {
 2  async fetch(request, env) {
 3    const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
 4
 5    const image = await env.AI.run(
 6      "@cf/black-forest-labs/flux-1-schnell",
 7      inputs
 8    );
 9
10    return new Response(image, {
11      headers: { "content-type": "image/png" },
12    });
13  },
14};

一个强大的模式是生成图片，将其存储在 Cloudflare R2 中，然后通过 image transformations 优化分发。这为你提供了由 AI 生成的作品，以零出口费用存储，并以尺寸恰好的 WebP 或 AVIF 分发。从生成、存储到分发的整条流水线都存在于 Cloudflare 内部。

构建完整的 AI 应用

Workers AI 与平台其余部分结合时最为强大。一个现实的 AI 应用会把若干部分缝合在一起：

Workers AI 用于推理（LLM、嵌入、图片生成）
Vectorize 作为向量数据库，用于语义搜索和检索增强生成
R2 用于存储文档、图片或音频
D1 用于结构化的应用数据（阅读我的 D1 指南）
KV 用于缓存和配置

例如，一个文档聊天机器人会用嵌入模型嵌入你的内容，将向量存储在 Vectorize 中，在查询时检索相关片段，并将它们喂给一个 LLM，这一切都在单个 Worker 内、全部在边缘完成。这就是大多数现代检索增强 AI 功能背后的架构。你可以用我的免费应用 Easy Cloudflare R2 、Easy Cloudflare D1 和 Easy Cloudflare KV ，从桌面管理这些应用背后的存储层，它们适用于 Windows、macOS 和 Linux。

何时 Workers AI 是正确的选择

Workers AI 在以下情况下非常合适：

你想要 AI 推理而无需管理 GPU 基础设施
低延迟很重要，并且你的用户遍布全球
你的工作负载是突发的或不可预测的，因此按用量付费胜过预留硬件
你已经在 Workers 上构建，并希望一切都在一个平台上
目录中的开放模型满足你的质量需求

它不太适合需要目录中没有的特定专有前沿模型的场景，或者极重的批量推理（在持续满负载利用下，专用硬件可能更便宜）。对于这些场景，混合方法（从你的 Worker 调用外部模型提供商）很常见，这也是我通过 AI 集成服务帮助客户设计的内容。

关键要点

Workers AI 在 Cloudflare 的边缘 GPU 上运行 LLM、图片、嵌入和音频模型，无需管理基础设施
定价统一为 Neurons：每天 10,000 个免费，之后每 1,000 个 Neurons 0.011 美元
调用一个模型是 Worker 内部的一次 env.AI.run() 调用
你可以在边缘生成图片，将其存储在 R2 中，并通过转换优化分发
它与 Vectorize、R2、D1 和 KV 结合，在一个平台上构建完整的 AI 应用
按用量付费和全球低延迟，使其非常适合突发的、面向用户的 AI 功能

常见问题

什么是 Cloudflare Workers AI？ 它是一项在 Cloudflare 边缘 GPU 网络上运行机器学习模型的服务。你使用 AI 绑定从 Worker 调用一个模型，Cloudflare 处理硬件和模型托管。没有需要你管理的服务器或 GPU。

Workers AI 定价中的 Neuron 是什么？ Neuron 是 Cloudflare 用于衡量所有模型类型推理成本的统一单位。token、图片 tile、生成 step 和音频分钟都被转换为 Neurons，这样你只有一个数字需要跟踪。你每天免费获得 10,000 个，之后按每 1,000 个 0.011 美元付费。

Workers AI 能生成图片吗？ 能。目录中包含文本到图片模型，例如 Flux 变体。你用一个提示调用模型并接收图片字节，你可以直接返回它们、将其存储在 R2 中，或用 image transformations 进行优化。

Workers AI 是免费的吗？ 在 Free 和 Paid 两种 Workers 计划上都有每天 10,000 个 Neurons 的免费额度，每天在 00:00 UTC 重置。许多小功能完全在此额度内运行。超出之后，用量按每 1,000 个 Neurons 0.011 美元计费。

Workers AI 支持哪些模型？ 它支持四个系列：文本 LLM（Llama、Mistral、Qwen）、图片生成（Flux）、嵌入（BGE）和音频（语音转文本和文本转语音），外加用于翻译、重排和分类的专用模型。目录定期更新。

Workers AI 与运行我自己的 GPU 服务器相比如何？ Workers AI 免去了 GPU 预置、扩缩容和闲置成本管理，并在全球范围内于用户附近运行推理。专用 GPU 服务器只有在持续满负载利用时才可能更便宜；对于突发的或面向用户的工作负载，边缘上的按用量付费通常胜出。

Cloudflare Workers AI - 2026 年在边缘运行 AI 模型

Workers AI 究竟是什么

你可以运行的 Cloudflare Workers AI 模型

Cloudflare Workers AI 定价：Neurons 如何运作

从 Worker 调用文本模型

在边缘生成图片

构建完整的 AI 应用

何时 Workers AI 是正确的选择

关键要点

常见问题

评论

我们重视您的隐私

Cloudflare Workers AI - 2026 年在边缘运行 AI 模型

Workers AI 究竟是什么

你可以运行的 Cloudflare Workers AI 模型

Cloudflare Workers AI 定价：Neurons 如何运作

从 Worker 调用文本模型

在边缘生成图片

构建完整的 AI 应用

何时 Workers AI 是正确的选择

关键要点

常见问题

相关文章

评论