Trong phần lớn thập kỷ qua, chạy một mô hình AI có nghĩa là thuê một máy chủ GPU, quản lý driver, và trả tiền cho phần cứng đó dù có hay không có yêu cầu đến. Cloudflare Workers AI thay đổi hoàn toàn mô hình này: bạn gọi một mô hình AI giống hệt cách bạn gọi bất kỳ hàm nào khác trong một Worker, nó chạy trên các GPU phân tán khắp mạng lưới toàn cầu của Cloudflare, và bạn chỉ trả cho phần bạn dùng. Không có máy chủ để cấp phát, không có GPU để trông nom, và suy luận diễn ra gần người dùng của bạn.
Hướng dẫn này giải thích Workers AI là gì, bạn có thể chạy những mô hình nào, chi phí ra sao theo mô hình giá Neurons, và cách gọi nó từ mã, bao gồm một ví dụ tạo ảnh thực tế. Đây là một phần trong playbook Cloudflare liên tục của tôi về xây dựng các ứng dụng nhanh, hiện đại tại biên.
Tóm tắt
- Workers AI là AI serverless: nó chạy LLM, tạo ảnh, embeddings và mô hình âm thanh trên các GPU biên của Cloudflare, được gọi từ một Worker
- Giá dùng Neurons: bạn nhận 10.000 Neurons mỗi ngày miễn phí, sau đó trả 0,011 USD cho 1.000 Neurons
- Nó bao gồm bốn họ mô hình: văn bản (LLM), ảnh, embeddings và âm thanh, với các mô hình mới được thêm thường xuyên
- Bạn có thể tạo ảnh tại biên và tối ưu chúng bằng Cloudflare Image Transformations
- Nó kết hợp tự nhiên với phần còn lại của nền tảng Workers: KV, R2, D1 và Vectorize cho các ứng dụng AI hoàn chỉnh
- Cần trợ giúp để ra mắt một tính năng AI? Đó chính xác là mục đích của dịch vụ triển khai AI của tôi
Workers AI thực chất là gì
Cloudflare Workers AI cho phép bạn chạy các mô hình machine learning trên mạng lưới của Cloudflare bằng một binding đơn giản bên trong một Worker. Cloudflare lưu trữ GPU và mô hình; bạn gửi đầu vào và nhận đầu ra. Không có hạ tầng để quản lý, không có khởi động nguội GPU phải trả tiền, và không có cam kết tối thiểu hằng tháng.
Vì suy luận chạy trên mạng lưới phân tán của Cloudflare thay vì một vùng duy nhất, mô hình thực thi gần người dùng của bạn. Với các tính năng tương tác như chat, phân loại hay tạo nội dung, sự gần gũi này giảm độ trễ theo cách mà một cụm GPU tập trung không thể sánh được.
Các mô hình là mở và do Cloudflare quản lý. Bạn tham chiếu một mô hình theo tên, chẳng hạn một biến thể Llama cho văn bản hoặc một biến thể Flux cho ảnh, và Cloudflare giữ danh mục luôn cập nhật khi có các mô hình mở tốt hơn được phát hành.
Các mô hình Cloudflare Workers AI bạn có thể chạy
Workers AI tổ chức danh mục thành bốn họ chính, cộng thêm một tập mô hình chuyên biệt:
- Văn bản (LLM). Các mô hình ngôn ngữ như biến thể Llama, Mistral và Qwen cho chat, tóm tắt, trích xuất, phân loại và tạo nội dung. Tính phí theo token đầu vào và đầu ra.
- Ảnh. Các mô hình tạo ảnh như biến thể Flux tạo ảnh từ prompt văn bản. Tính phí theo tile và step.
- Embeddings. Các mô hình như BGE biến văn bản thành vector cho tìm kiếm ngữ nghĩa và tạo sinh tăng cường bằng truy xuất. Tính phí theo token đầu vào.
- Âm thanh. Các mô hình chuyển giọng nói thành văn bản và văn bản thành giọng nói. Tính phí theo phút hoặc theo ký tự.
- Khác. Các mô hình chuyên biệt cho dịch thuật, xếp hạng lại, phân loại và nhận dạng ảnh.
Danh mục tiến hóa nhanh, vì vậy hãy luôn kiểm tra danh sách mô hình hiện tại để biết các lựa chọn mới nhất và giá chính xác của chúng.
Giá Cloudflare Workers AI: Neurons hoạt động thế nào
Workers AI dùng một đơn vị thống nhất gọi là Neuron để biểu diễn chi phí suy luận trên mọi loại mô hình. Thay vì xoay xở với các mức giá riêng cho token, tile, step và phút âm thanh, Cloudflare quy đổi tất cả về Neurons để bạn chỉ có một con số để cân nhắc.
Dựa trên bảng giá chính thức của Workers AI cho năm 2026:
| Gói | Neurons |
|---|---|
| Hạn mức miễn phí (gói Free và Paid) | 10.000 Neurons mỗi ngày |
| Sử dụng trả phí vượt hạn mức miễn phí | 0,011 USD cho 1.000 Neurons |
Hạn mức miễn phí hằng ngày được đặt lại vào 00:00 UTC. Với các nguyên mẫu, dự án phụ và tính năng lưu lượng thấp, 10.000 Neurons mỗi ngày thường có nghĩa là tính năng AI của bạn chạy hoàn toàn miễn phí. Khi bạn vượt quá, mức phí đủ thấp để một lượng suy luận đáng kể vẫn chỉ tốn vài đô la.
Vì các mô hình khác nhau tiêu thụ Neurons ở tốc độ khác nhau, chi phí thực tế phụ thuộc vào mô hình bạn gọi và lượng dữ liệu bạn gửi. Trang giá liệt kê chi phí Neuron theo từng mô hình, nên bạn có thể ước tính trước khi xây dựng.
Gọi một mô hình văn bản từ một Worker
Đây là mẫu cốt lõi. Bạn gắn Workers AI trong wrangler.toml, rồi gọi env.AI.run() với một tên mô hình và đầu vào:
1export default {
2 async fetch(request, env) {
3 const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
4 messages: [
5 { role: "system", content: "You are a concise assistant." },
6 { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
7 ],
8 });
9
10 return Response.json(response);
11 },
12};
Binding AI được cấu hình một lần trong cài đặt của Worker. Sau đó, gọi một mô hình là một lệnh gọi hàm bất đồng bộ duy nhất, trả về đầu ra của mô hình để bạn dùng theo ý mình.
Tạo ảnh tại biên
Tạo ảnh là một trong những trường hợp dùng hấp dẫn nhất của Workers AI, và nó gắn thẳng với việc lưu trữ và phân phối ảnh, một chủ đề lặp lại của blog này. Bạn có thể tạo một ảnh từ một prompt văn bản và truyền các byte trực tiếp trở lại trong phản hồi:
1export default {
2 async fetch(request, env) {
3 const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
4
5 const image = await env.AI.run(
6 "@cf/black-forest-labs/flux-1-schnell",
7 inputs
8 );
9
10 return new Response(image, {
11 headers: { "content-type": "image/png" },
12 });
13 },
14};
Một mẫu mạnh mẽ là tạo ảnh, lưu nó trong Cloudflare R2 , rồi phân phối nó đã tối ưu thông qua image transformations . Điều đó cho bạn tác phẩm do AI tạo ra, được lưu mà không có phí egress, phân phối dưới dạng WebP hoặc AVIF có kích thước hoàn hảo. Toàn bộ pipeline, tạo, lưu trữ và phân phối, đều nằm bên trong Cloudflare.
Xây dựng ứng dụng AI hoàn chỉnh
Workers AI mạnh nhất khi kết hợp với phần còn lại của nền tảng. Một ứng dụng AI thực tế ghép nhiều mảnh lại với nhau:
- Workers AI cho suy luận (LLM, embeddings, tạo ảnh)
- Vectorize làm cơ sở dữ liệu vector cho tìm kiếm ngữ nghĩa và tạo sinh tăng cường bằng truy xuất
- R2 để lưu trữ tài liệu, ảnh hoặc âm thanh
- D1 cho dữ liệu ứng dụng có cấu trúc (đọc hướng dẫn D1 của tôi )
- KV cho caching và cấu hình
Ví dụ, một chatbot tài liệu sẽ embed nội dung của bạn bằng một mô hình embeddings, lưu các vector trong Vectorize, truy xuất các đoạn liên quan tại thời điểm truy vấn, và đưa chúng vào một LLM, tất cả trong một Worker duy nhất, tất cả tại biên. Đây là kiến trúc đứng sau hầu hết các tính năng AI hiện đại tăng cường bằng truy xuất. Bạn có thể quản lý các lớp lưu trữ phía sau các ứng dụng này từ máy tính của mình bằng các ứng dụng miễn phí Easy Cloudflare R2 , Easy Cloudflare D1 và Easy Cloudflare KV của tôi, có sẵn cho Windows, macOS và Linux.
Khi nào Workers AI là lựa chọn đúng
Workers AI rất phù hợp khi:
- Bạn muốn suy luận AI mà không phải quản lý hạ tầng GPU
- Độ trễ thấp quan trọng và người dùng của bạn ở khắp toàn cầu
- Khối lượng công việc của bạn dao động hoặc khó đoán, nên trả theo mức dùng thắng phần cứng đặt trước
- Bạn đã xây dựng trên Workers và muốn mọi thứ trên một nền tảng
- Các mô hình mở trong danh mục đáp ứng nhu cầu chất lượng của bạn
Nó ít phù hợp hơn với các trường hợp đòi hỏi một mô hình tiên phong độc quyền cụ thể không có trong danh mục, hoặc suy luận theo lô cực nặng nơi phần cứng chuyên dụng có thể rẻ hơn khi sử dụng đầy tải bền vững. Với những trường hợp đó, một cách tiếp cận lai, gọi một nhà cung cấp mô hình bên ngoài từ Worker của bạn, là phổ biến, và đó là điều tôi giúp khách hàng thiết kế thông qua dịch vụ tích hợp AI của tôi.
Những điểm chính
- Workers AI chạy LLM, mô hình ảnh, embeddings và âm thanh trên các GPU biên của Cloudflare mà không có hạ tầng để quản lý
- Giá được thống nhất theo Neurons: 10.000 miễn phí mỗi ngày, sau đó 0,011 USD cho 1.000 Neurons
- Gọi một mô hình là một lệnh gọi
env.AI.run()duy nhất bên trong một Worker - Bạn có thể tạo ảnh tại biên, lưu chúng trong R2, và phân phối chúng đã tối ưu thông qua các biến đổi
- Nó kết hợp với Vectorize, R2, D1 và KV để xây dựng các ứng dụng AI hoàn chỉnh trên một nền tảng
- Trả theo mức dùng và độ trễ thấp toàn cầu khiến nó lý tưởng cho các tính năng AI dao động, hướng tới người dùng
Câu hỏi thường gặp
Cloudflare Workers AI là gì? Đó là một dịch vụ chạy các mô hình machine learning trên mạng lưới GPU biên của Cloudflare. Bạn gọi một mô hình từ một Worker bằng binding AI, và Cloudflare xử lý phần cứng cùng việc lưu trữ mô hình. Không có máy chủ hay GPU nào để bạn quản lý.
Neuron trong giá Workers AI là gì? Neuron là đơn vị thống nhất của Cloudflare để đo chi phí suy luận trên tất cả các loại mô hình. Token, tile ảnh, step tạo và phút âm thanh đều được quy đổi thành Neurons để bạn chỉ có một con số để theo dõi. Bạn nhận 10.000 miễn phí mỗi ngày, sau đó trả 0,011 USD cho 1.000.
Workers AI có thể tạo ảnh không? Có. Danh mục bao gồm các mô hình văn bản-thành-ảnh như biến thể Flux. Bạn gọi mô hình với một prompt và nhận các byte ảnh, mà bạn có thể trả về trực tiếp, lưu trong R2, hoặc tối ưu bằng image transformations.
Workers AI có miễn phí không? Có một hạn mức miễn phí 10.000 Neurons mỗi ngày trên cả gói Workers Free và Paid, được đặt lại hằng ngày vào 00:00 UTC. Nhiều tính năng nhỏ chạy hoàn toàn trong hạn mức này. Vượt quá nó, việc sử dụng được tính phí 0,011 USD cho 1.000 Neurons.
Workers AI hỗ trợ những mô hình nào? Nó hỗ trợ bốn họ: LLM văn bản (Llama, Mistral, Qwen), tạo ảnh (Flux), embeddings (BGE) và âm thanh (chuyển giọng nói thành văn bản và văn bản thành giọng nói), cùng các mô hình chuyên biệt cho dịch thuật, xếp hạng lại và phân loại. Danh mục được cập nhật thường xuyên.
Workers AI so với việc tự vận hành máy chủ GPU của tôi thì thế nào? Workers AI loại bỏ việc cấp phát GPU, mở rộng quy mô và quản lý chi phí nhàn rỗi, và chạy suy luận gần người dùng trên toàn cầu. Một máy chủ GPU chuyên dụng chỉ có thể rẻ hơn khi sử dụng đầy tải bền vững; với khối lượng công việc dao động hoặc hướng tới người dùng, trả theo mức dùng tại biên thường thắng.
Bình luận