在过去十年的大部分时间里,运行一个 AI 模型意味着租用 GPU 服务器、管理驱动程序,并且无论是否有请求进来都要为那些硬件付费。Cloudflare Workers AI 彻底改变了这种模式:你像调用 Worker 中任何其他函数一样调用一个 AI 模型,它运行在分布于 Cloudflare 全球网络的 GPU 上,而你只为所用付费。无需预置服务器,无需照看 GPU,推理就在你的用户附近发生。
本指南解释 Workers AI 是什么、你可以运行哪些模型、在 Neurons 定价模型下它的成本,以及如何从代码中调用它,其中包括一个实用的图片生成示例。它是我持续的 Cloudflare 攻略的一部分,旨在于边缘构建快速、现代的应用。
摘要
- Workers AI 是无服务器 AI:它在 Cloudflare 的边缘 GPU 上运行 LLM、图片生成、嵌入和音频模型,并从 Worker 中调用
- 定价使用 Neurons:你每天可免费获得 10,000 个 Neurons,之后按每 1,000 个 Neurons 0.011 美元 付费
- 它涵盖四个模型系列:文本(LLM)、图片、嵌入和音频,并定期添加新模型
- 你可以在边缘生成图片,并用 Cloudflare Image Transformations 对其进行优化
- 它与 Workers 平台的其余部分自然搭配:KV、R2、D1 和 Vectorize,用于构建完整的 AI 应用
- 需要帮助来上线一个 AI 功能?这正是我的 AI 实现服务 的用途
Workers AI 究竟是什么
Cloudflare Workers AI 让你在 Worker 内部使用一个简单的绑定,在 Cloudflare 的网络上运行机器学习模型。Cloudflare 托管 GPU 和模型;你发送输入并接收输出。没有要管理的基础设施,没有要支付的冷启动 GPU 预热,也没有每月最低承诺。
由于推理运行在 Cloudflare 的分布式网络上,而非单个区域,模型会在你的用户附近执行。对于聊天、分类或内容生成等交互式功能,这种邻近性以集中式 GPU 集群无法企及的方式降低了延迟。
这些模型是开放的,由 Cloudflare 管理。你通过名称引用一个模型,例如用于文本的 Llama 变体或用于图片的 Flux 变体,并且随着更好的开放模型发布,Cloudflare 会让目录保持最新。
你可以运行的 Cloudflare Workers AI 模型
Workers AI 将其目录组织为四个主要系列,外加一组专用模型:
- 文本(LLM)。 诸如 Llama、Mistral 和 Qwen 变体之类的语言模型,用于聊天、摘要、抽取、分类和内容生成。按输入和输出 token 计费。
- 图片。 诸如 Flux 变体之类的生成模型,从文本提示创建图片。按 tile 和 step 计费。
- 嵌入。 诸如 BGE 之类的模型,将文本转换为向量,用于语义搜索和检索增强生成。按输入 token 计费。
- 音频。 语音转文本和文本转语音模型。按分钟或按字符计费。
- 其他。 用于翻译、重排、图片分类和识别的专用模型。
目录演进很快,因此请始终查看当前的 模型列表 ,以了解最新选项及其确切定价。
Cloudflare Workers AI 定价:Neurons 如何运作
Workers AI 使用一个统一单位,称为 Neuron,来表达跨每种模型类型的推理成本。与其在 token、tile、step 和音频分钟的各自价格之间周旋,Cloudflare 将它们全部转换为 Neurons,这样你就只有一个数字需要考量。
根据 2026 年的 官方 Workers AI 定价 :
| 计划 | Neurons |
|---|---|
| 免费额度(Free 和 Paid 计划) | 每天 10,000 个 Neurons |
| 超出免费额度的付费用量 | 每 1,000 个 Neurons 0.011 美元 |
每日免费额度在 00:00 UTC 重置。对于原型、副项目和低流量功能,每天 10,000 个 Neurons 通常意味着你的 AI 功能完全免费运行。当你超出时,费率足够低,以至于相当数量的推理仍然只需几美元。
由于不同模型以不同速率消耗 Neurons,实际成本取决于你调用哪个模型以及发送多少数据。定价页面按模型列出 Neuron 成本,因此你可以在构建之前进行估算。
从 Worker 调用文本模型
这是核心模式。你在 wrangler.toml 中绑定 Workers AI,然后用一个模型名称和输入调用 env.AI.run():
1export default {
2 async fetch(request, env) {
3 const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
4 messages: [
5 { role: "system", content: "You are a concise assistant." },
6 { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
7 ],
8 });
9
10 return Response.json(response);
11 },
12};
AI 绑定在你 Worker 的设置中配置一次。之后,调用一个模型就是一次异步函数调用,返回模型的输出供你随意使用。
在边缘生成图片
图片生成是 Workers AI 最引人注目的用例之一,它直接关联到图片托管与分发,这是本博客反复出现的主题。你可以从文本提示生成一张图片,并将字节直接流式返回到响应中:
1export default {
2 async fetch(request, env) {
3 const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
4
5 const image = await env.AI.run(
6 "@cf/black-forest-labs/flux-1-schnell",
7 inputs
8 );
9
10 return new Response(image, {
11 headers: { "content-type": "image/png" },
12 });
13 },
14};
一个强大的模式是生成图片,将其存储在 Cloudflare R2 中,然后通过 image transformations 优化分发。这为你提供了由 AI 生成的作品,以零出口费用存储,并以尺寸恰好的 WebP 或 AVIF 分发。从生成、存储到分发的整条流水线都存在于 Cloudflare 内部。
构建完整的 AI 应用
Workers AI 与平台其余部分结合时最为强大。一个现实的 AI 应用会把若干部分缝合在一起:
- Workers AI 用于推理(LLM、嵌入、图片生成)
- Vectorize 作为向量数据库,用于语义搜索和检索增强生成
- R2 用于存储文档、图片或音频
- D1 用于结构化的应用数据(阅读我的 D1 指南 )
- KV 用于缓存和配置
例如,一个文档聊天机器人会用嵌入模型嵌入你的内容,将向量存储在 Vectorize 中,在查询时检索相关片段,并将它们喂给一个 LLM,这一切都在单个 Worker 内、全部在边缘完成。这就是大多数现代检索增强 AI 功能背后的架构。你可以用我的免费应用 Easy Cloudflare R2 、Easy Cloudflare D1 和 Easy Cloudflare KV ,从桌面管理这些应用背后的存储层,它们适用于 Windows、macOS 和 Linux。
何时 Workers AI 是正确的选择
Workers AI 在以下情况下非常合适:
- 你想要 AI 推理而无需管理 GPU 基础设施
- 低延迟很重要,并且你的用户遍布全球
- 你的工作负载是突发的或不可预测的,因此按用量付费胜过预留硬件
- 你已经在 Workers 上构建,并希望一切都在一个平台上
- 目录中的开放模型满足你的质量需求
它不太适合需要目录中没有的特定专有前沿模型的场景,或者极重的批量推理(在持续满负载利用下,专用硬件可能更便宜)。对于这些场景,混合方法(从你的 Worker 调用外部模型提供商)很常见,这也是我通过 AI 集成服务 帮助客户设计的内容。
关键要点
- Workers AI 在 Cloudflare 的边缘 GPU 上运行 LLM、图片、嵌入和音频模型,无需管理基础设施
- 定价统一为 Neurons:每天 10,000 个免费,之后每 1,000 个 Neurons 0.011 美元
- 调用一个模型是 Worker 内部的一次
env.AI.run()调用 - 你可以在边缘生成图片,将其存储在 R2 中,并通过转换优化分发
- 它与 Vectorize、R2、D1 和 KV 结合,在一个平台上构建完整的 AI 应用
- 按用量付费和全球低延迟,使其非常适合突发的、面向用户的 AI 功能
常见问题
什么是 Cloudflare Workers AI? 它是一项在 Cloudflare 边缘 GPU 网络上运行机器学习模型的服务。你使用 AI 绑定从 Worker 调用一个模型,Cloudflare 处理硬件和模型托管。没有需要你管理的服务器或 GPU。
Workers AI 定价中的 Neuron 是什么? Neuron 是 Cloudflare 用于衡量所有模型类型推理成本的统一单位。token、图片 tile、生成 step 和音频分钟都被转换为 Neurons,这样你只有一个数字需要跟踪。你每天免费获得 10,000 个,之后按每 1,000 个 0.011 美元付费。
Workers AI 能生成图片吗? 能。目录中包含文本到图片模型,例如 Flux 变体。你用一个提示调用模型并接收图片字节,你可以直接返回它们、将其存储在 R2 中,或用 image transformations 进行优化。
Workers AI 是免费的吗? 在 Free 和 Paid 两种 Workers 计划上都有每天 10,000 个 Neurons 的免费额度,每天在 00:00 UTC 重置。许多小功能完全在此额度内运行。超出之后,用量按每 1,000 个 Neurons 0.011 美元计费。
Workers AI 支持哪些模型? 它支持四个系列:文本 LLM(Llama、Mistral、Qwen)、图片生成(Flux)、嵌入(BGE)和音频(语音转文本和文本转语音),外加用于翻译、重排和分类的专用模型。目录定期更新。
Workers AI 与运行我自己的 GPU 服务器相比如何? Workers AI 免去了 GPU 预置、扩缩容和闲置成本管理,并在全球范围内于用户附近运行推理。专用 GPU 服务器只有在持续满负载利用时才可能更便宜;对于突发的或面向用户的工作负载,边缘上的按用量付费通常胜出。
评论