지난 10년의 대부분 동안 AI 모델을 실행한다는 것은 GPU 서버를 임대하고, 드라이버를 관리하고, 요청이 들어오든 말든 그 하드웨어에 비용을 지불하는 것을 의미했습니다. Cloudflare Workers AI는 그 모델을 완전히 바꿉니다. Worker에서 다른 함수를 호출하는 것과 똑같은 방식으로 AI 모델을 호출하면, 그것은 Cloudflare의 글로벌 네트워크에 분산된 GPU에서 실행되며, 사용한 만큼만 비용을 지불합니다. 프로비저닝할 서버도, 돌볼 GPU도 없으며, 추론은 사용자 가까이에서 이루어집니다.

이 가이드는 Workers AI가 무엇인지, 어떤 모델을 실행할 수 있는지, Neurons 요금 모델에서 비용이 얼마인지, 그리고 실용적인 이미지 생성 예제를 포함해 코드에서 어떻게 호출하는지 설명합니다. 이는 엣지에서 빠르고 현대적인 애플리케이션을 구축하기 위한 저의 지속적인 Cloudflare 플레이북의 일부입니다.

요약

  • Workers AI는 서버리스 AI입니다. LLM, 이미지 생성, 임베딩, 오디오 모델을 Cloudflare의 엣지 GPU에서 실행하며, Worker에서 호출합니다
  • 요금은 Neurons를 사용합니다. 하루에 10,000 Neurons를 무료로 제공받고, 이후에는 1,000 Neurons당 0.011달러를 지불합니다
  • 네 가지 모델 제품군을 다룹니다. 텍스트(LLM), 이미지, 임베딩, 오디오이며, 새 모델이 정기적으로 추가됩니다
  • 엣지에서 이미지를 생성하고 Cloudflare Image Transformations 로 최적화할 수 있습니다
  • Workers 플랫폼의 나머지 부분과도 자연스럽게 결합됩니다. 완전한 AI 애플리케이션을 위한 KV, R2, D1, Vectorize입니다
  • AI 기능 출시에 도움이 필요하신가요? 그것이 바로 제 AI 구현 서비스 의 목적입니다

Workers AI란 실제로 무엇인가

Cloudflare Workers AI 를 사용하면 Worker 내부의 간단한 바인딩을 통해 Cloudflare의 네트워크에서 머신러닝 모델을 실행할 수 있습니다. Cloudflare가 GPU와 모델을 호스팅하며, 여러분은 입력을 보내고 출력을 받습니다. 관리할 인프라도, 비용을 지불할 콜드 스타트 GPU 가동도, 월 최소 약정도 없습니다.

추론이 단일 리전이 아니라 Cloudflare의 분산 네트워크에서 실행되기 때문에, 모델은 사용자 가까이에서 실행됩니다. 채팅, 분류, 콘텐츠 생성과 같은 인터랙티브 기능의 경우, 이 근접성은 중앙 집중식 GPU 클러스터가 따라올 수 없는 방식으로 지연 시간을 줄여 줍니다.

모델은 오픈되어 있으며 Cloudflare가 관리합니다. 텍스트용 Llama 변형이나 이미지용 Flux 변형처럼 이름으로 모델을 참조하면, Cloudflare는 더 나은 오픈 모델이 출시될 때마다 카탈로그를 최신 상태로 유지합니다.

실행할 수 있는 Cloudflare Workers AI 모델

Workers AI는 카탈로그를 네 가지 주요 제품군과 일련의 전문 모델로 구성합니다.

  • 텍스트(LLM). 채팅, 요약, 추출, 분류, 콘텐츠 생성을 위한 Llama, Mistral, Qwen 변형과 같은 언어 모델. 입력 및 출력 토큰으로 청구됩니다.
  • 이미지. 텍스트 프롬프트에서 이미지를 만드는 Flux 변형과 같은 생성 모델. 타일과 스텝으로 청구됩니다.
  • 임베딩. 시맨틱 검색과 검색 증강 생성을 위해 텍스트를 벡터로 변환하는 BGE와 같은 모델. 입력 토큰으로 청구됩니다.
  • 오디오. 음성 인식 및 음성 합성 모델. 분당 또는 문자당 청구됩니다.
  • 기타. 번역, 재순위화, 이미지 분류 및 인식을 위한 전문 모델.

카탈로그는 빠르게 진화하므로, 최신 옵션과 정확한 요금은 항상 현재의 모델 목록 을 확인하세요.

Cloudflare Workers AI 요금: Neurons는 어떻게 작동하는가

Workers AI는 모든 모델 유형에 걸쳐 추론 비용을 표현하기 위해 Neuron이라는 통합 단위를 사용합니다. 토큰, 타일, 스텝, 오디오 분에 대한 별도의 가격을 저글링하는 대신, Cloudflare는 그것들을 모두 Neurons로 변환하므로 고려해야 할 숫자는 하나뿐입니다.

2026년 공식 Workers AI 요금 에 따르면,

플랜Neurons
무료 할당량(Free 및 Paid 플랜)하루 10,000 Neurons
무료 할당량을 초과하는 유료 사용1,000 Neurons당 0.011달러

일일 무료 할당량은 00:00 UTC에 재설정됩니다. 프로토타입, 사이드 프로젝트, 트래픽이 적은 기능의 경우, 하루 10,000 Neurons는 종종 AI 기능이 전혀 비용 없이 실행됨을 의미합니다. 이를 초과하더라도 요율이 충분히 낮아서 상당한 양의 추론도 여전히 몇 달러밖에 들지 않습니다.

서로 다른 모델은 서로 다른 속도로 Neurons를 소비하기 때문에, 실제 비용은 어떤 모델을 호출하고 얼마나 많은 데이터를 보내는지에 따라 달라집니다. 요금 페이지에는 모델별 Neuron 비용이 나열되어 있어, 구축하기 전에 추정할 수 있습니다.

Worker에서 텍스트 모델 호출하기

핵심 패턴은 다음과 같습니다. wrangler.toml에서 Workers AI를 바인딩한 다음, 모델 이름과 입력으로 env.AI.run()을 호출합니다.

 1export default {
 2  async fetch(request, env) {
 3    const response = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
 4      messages: [
 5        { role: "system", content: "You are a concise assistant." },
 6        { role: "user", content: "Summarise the benefits of edge computing in one sentence." },
 7      ],
 8    });
 9
10    return Response.json(response);
11  },
12};

AI 바인딩은 Worker 설정에서 한 번만 구성합니다. 그 후 모델 호출은 단일 비동기 함수 호출이며, 모델의 출력을 반환하므로 원하는 대로 사용할 수 있습니다.

엣지에서 이미지 생성하기

이미지 생성은 Workers AI의 가장 매력적인 사용 사례 중 하나이며, 이 블로그의 반복되는 주제인 이미지 호스팅 및 전송과 직접 연결됩니다. 텍스트 프롬프트에서 이미지를 생성하고 바이트를 응답으로 직접 스트리밍해 보낼 수 있습니다.

 1export default {
 2  async fetch(request, env) {
 3    const inputs = { prompt: "a minimalist mountain landscape at sunrise, flat illustration" };
 4
 5    const image = await env.AI.run(
 6      "@cf/black-forest-labs/flux-1-schnell",
 7      inputs
 8    );
 9
10    return new Response(image, {
11      headers: { "content-type": "image/png" },
12    });
13  },
14};

강력한 패턴은 이미지를 생성하여 Cloudflare R2 에 저장한 다음, image transformations 를 통해 최적화하여 전송하는 것입니다. 이렇게 하면 이그레스 요금 없이 저장되고 완벽한 크기의 WebP 또는 AVIF로 전송되는 AI 생성 아트워크를 얻게 됩니다. 생성, 저장, 전송이라는 전체 파이프라인이 Cloudflare 내부에서 이루어집니다.

완전한 AI 애플리케이션 구축하기

Workers AI는 플랫폼의 나머지 부분과 결합할 때 가장 강력합니다. 현실적인 AI 애플리케이션은 여러 조각을 함께 엮습니다.

  • 추론을 위한 Workers AI(LLM, 임베딩, 이미지 생성)
  • 시맨틱 검색과 검색 증강 생성을 위한 벡터 데이터베이스로서의 Vectorize
  • 문서, 이미지, 오디오를 저장하기 위한 R2
  • 구조화된 애플리케이션 데이터를 위한 D1(제 D1 가이드 읽기 )
  • 캐싱과 구성을 위한 KV

예를 들어, 문서 챗봇은 임베딩 모델로 콘텐츠를 임베딩하고, 벡터를 Vectorize에 저장하고, 쿼리 시점에 관련 청크를 검색하여 LLM에 전달합니다. 이 모든 것이 단일 Worker 내에서, 모두 엣지에서 이루어집니다. 이것이 대부분의 현대적인 검색 증강 AI 기능의 배경이 되는 아키텍처입니다. 이러한 앱의 배경에 있는 스토리지 계층은, Windows, macOS, Linux용으로 제공되는 제 무료 앱 Easy Cloudflare R2 , Easy Cloudflare D1 , Easy Cloudflare KV 로 데스크톱에서 관리할 수 있습니다.

Workers AI가 올바른 선택일 때

Workers AI는 다음과 같은 경우에 훌륭하게 들어맞습니다.

  • GPU 인프라를 관리하지 않고 AI 추론을 원할 때
  • 낮은 지연 시간이 중요하고 사용자가 전 세계에 분포할 때
  • 워크로드가 급증하거나 예측 불가능하여, 종량제가 예약된 하드웨어보다 나을 때
  • 이미 Workers 위에서 구축하고 있고 모든 것을 하나의 플랫폼에 두고 싶을 때
  • 카탈로그의 오픈 모델이 품질 요구 사항을 충족할 때

카탈로그에 없는 특정 독점 프런티어 모델을 요구하는 경우나, 전용 하드웨어가 지속적인 완전 활용 시 더 저렴할 수 있는 극도로 무거운 배치 추론에는 덜 적합합니다. 그러한 경우에는 Worker에서 외부 모델 제공업체를 호출하는 하이브리드 접근 방식이 일반적이며, 이는 제가 AI 통합 서비스 를 통해 클라이언트가 설계하도록 돕는 부분이기도 합니다.

핵심 요점

  • Workers AI는 관리할 인프라 없이 Cloudflare의 엣지 GPU에서 LLM, 이미지, 임베딩, 오디오 모델을 실행합니다
  • 요금은 Neurons로 통합되어 있습니다. 하루 10,000개 무료, 이후 1,000 Neurons당 0.011달러입니다
  • 모델 호출은 Worker 내부의 단일 env.AI.run() 호출입니다
  • 엣지에서 이미지를 생성하고, R2에 저장하고, 변환을 통해 최적화하여 전송할 수 있습니다
  • Vectorize, R2, D1, KV와 결합하여 하나의 플랫폼에서 완전한 AI 애플리케이션을 구축할 수 있습니다
  • 종량제와 글로벌 저지연은 급증하는 사용자 대상 AI 기능에 이상적입니다

자주 묻는 질문

Cloudflare Workers AI란 무엇인가요? Cloudflare의 엣지 GPU 네트워크에서 머신러닝 모델을 실행하는 서비스입니다. AI 바인딩을 사용해 Worker에서 모델을 호출하면 Cloudflare가 하드웨어와 모델 호스팅을 처리합니다. 여러분이 관리할 서버나 GPU는 없습니다.

Workers AI 요금에서 Neuron이란 무엇인가요? Neuron은 모든 모델 유형에 걸쳐 추론 비용을 측정하기 위한 Cloudflare의 통합 단위입니다. 토큰, 이미지 타일, 생성 스텝, 오디오 분이 모두 Neurons로 변환되므로 추적할 수치는 하나뿐입니다. 하루에 10,000개를 무료로 제공받고, 이후에는 1,000개당 0.011달러를 지불합니다.

Workers AI가 이미지를 생성할 수 있나요? 네. 카탈로그에는 Flux 변형과 같은 텍스트-이미지 모델이 포함됩니다. 프롬프트로 모델을 호출하면 이미지 바이트를 받으며, 이를 직접 반환하거나, R2에 저장하거나, image transformations로 최적화할 수 있습니다.

Workers AI는 무료인가요? Free와 Paid Workers 플랜 모두에서 하루 10,000 Neurons의 무료 할당량이 있으며, 매일 00:00 UTC에 재설정됩니다. 많은 소규모 기능이 이 할당량 내에서 완전히 실행됩니다. 그 이상은 1,000 Neurons당 0.011달러로 청구됩니다.

Workers AI는 어떤 모델을 지원하나요? 네 가지 제품군을 지원합니다. 텍스트 LLM(Llama, Mistral, Qwen), 이미지 생성(Flux), 임베딩(BGE), 오디오(음성 인식 및 음성 합성), 그리고 번역, 재순위화, 분류를 위한 전문 모델입니다. 카탈로그는 정기적으로 업데이트됩니다.

Workers AI는 자체 GPU 서버를 운영하는 것과 어떻게 비교되나요? Workers AI는 GPU 프로비저닝, 스케일링, 유휴 비용 관리를 제거하고, 전 세계 사용자 가까이에서 추론을 실행합니다. 전용 GPU 서버는 지속적인 완전 활용 시에만 더 저렴할 수 있습니다. 급증하거나 사용자 대상인 워크로드에서는 엣지에서의 종량제가 보통 이깁니다.