LLM Gateway Design: Rate Limiting, Caching e Fallback para Múltiplos Providers

Seu app chama openai.chat.completions.create() diretamente. Amanhã, OpenAI quebra ou aumenta preço 10x. LLM Gateway abstrai providers e adiciona resilience.

O Problema: Vendor Lock-In

typescript

// ❌ Acoplado a OpenAI
import OpenAI from 'openai';

const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

async function chat(message: string) {
  const response = await openai.chat.completions.create({
    model: 'gpt-4',
    messages: [{ role: 'user', content: message }]
  });
  return response.choices[0].message.content;
}

Se quiser trocar para Anthropic Claude, precisa reescrever tudo.

A Solução: LLM Gateway

typescript

// Gateway abstrai providers
interface LLMGateway {
  chat(messages: Message[]): Promise<string>;
}

class OpenAIProvider implements LLMGateway {
  async chat(messages) {
    const response = await openai.chat.completions.create({
      model: 'gpt-4',
      messages
    });
    return response.choices[0].message.content;
  }
}

class AnthropicProvider implements LLMGateway {
  async chat(messages) {
    const response = await anthropic.messages.create({
      model: 'claude-3-opus',
      messages
    });
    return response.content[0].text;
  }
}

// App usa interface genérica
const gateway: LLMGateway = new OpenAIProvider();
const answer = await gateway.chat([{ role: 'user', content: 'Hello' }]);

Features Essenciais

1. Caching

typescript

class CachingGateway implements LLMGateway {
  private cache = new Map<string, string>();

  constructor(private provider: LLMGateway) {}

  async chat(messages: Message[]): Promise<string> {
    const key = JSON.stringify(messages);
    
    if (this.cache.has(key)) {
      return this.cache.get(key)!;
    }

    const response = await this.provider.chat(messages);
    this.cache.set(key, response);
    return response;
  }
}

2. Rate Limiting

typescript

class RateLimitedGateway implements LLMGateway {
  private bucket: TokenBucket;

  async chat(messages: Message[]): Promise<string> {
    await this.bucket.consume(1);
    return this.provider.chat(messages);
  }
}

3. Fallback (Resilience)

typescript

class FallbackGateway implements LLMGateway {
  constructor(
    private primary: LLMGateway,
    private fallback: LLMGateway
  ) {}

  async chat(messages: Message[]): Promise<string> {
    try {
      return await this.primary.chat(messages);
    } catch (error) {
      console.warn('Primary failed, using fallback');
      return await this.fallback.chat(messages);
    }
  }
}

4. Load Balancing

typescript

class LoadBalancedGateway implements LLMGateway {
  private currentIndex = 0;

  constructor(private providers: LLMGateway[]) {}

  async chat(messages: Message[]): Promise<string> {
    const provider = this.providers[this.currentIndex];
    this.currentIndex = (this.currentIndex + 1) % this.providers.length;
    return provider.chat(messages);
  }
}

Composição

typescript

// Combinar features
const gateway = new CachingGateway(
  new RateLimitedGateway(
    new FallbackGateway(
      new OpenAIProvider(),
      new AnthropicProvider()
    ),
    new TokenBucket(100, 10)
  )
);

// 1. Checa cache
// 2. Rate limit
// 3. Tenta OpenAI
// 4. Se falhar, usa Anthropic

Ferramentas Prontas

LiteLLM

python

from litellm import completion

# Abstrai providers automaticamente
response = completion(
  model="gpt-4",  # ou "claude-3-opus", "gemini-pro"
  messages=[{"role": "user", "content": "Hello"}]
)

LangChain

typescript

import { ChatOpenAI, ChatAnthropic } from 'langchain/chat_models';

const model = new ChatOpenAI();  // Facilmente trocável
const response = await model.call([{ role: 'user', content: 'Hello' }]);

Conclusão

LLM Gateway desacopla app de vendors, adiciona caching, rate limiting e resilience. Para produção, é essencial.

Se você chama OpenAI diretamente sem abstração, você está a uma API change de reescrever tudo.

Referências

LiteLLM - https://github.com/BerriAI/litellm
"Gateway Pattern" - Enterprise Integration Patterns
LangChain Documentation

Checklist de implementação

Defina policies de auth/rate/cache.
Roteie por custo e qualidade.
Faça logging/token metering.
Implemente fallback e failover.

LLM Gateway Design: Rate Limiting, Caching e Fallback para Múltiplos Providers

LLM Gateway Design: Rate Limiting, Caching e Fallback para Múltiplos Providers

O Problema: Vendor Lock-In

A Solução: LLM Gateway

Features Essenciais

1. Caching

2. Rate Limiting

3. Fallback (Resilience)

4. Load Balancing

Composição

Ferramentas Prontas

LiteLLM

LangChain

Conclusão

Referências

Checklist de implementação

Anderson Lima

Related Articles

Harness no Desenvolvimento com AI: Como Implementar Guardrails, Evals e Claude Code Passo a Passo

Como Criar uma Skill Recursiva que Melhora a Si Mesma e o Harness

LLM em 2026: Os Melhores Modelos da Atualidade e Como Usar Multiplos Modelos no Seu Fluxo

Pre-Production Code Review Checklist

Turn what you learned into shipped code