Enquanto boa parte do mercado brasileiro ainda depende exclusivamente de GPT e Claude, a China está distribuindo modelos de IA poderosos com licença open-source — e você pode rodar todos eles de graça, no seu próprio computador, agora mesmo. Sem cartão de crédito, sem fila de espera, sem depender de servidor gringo.
Este guia é para desenvolvedores e startups brasileiras que querem entender quais são os principais modelos de IA chinesa open source gratuita, como instalá-los localmente e quando faz sentido usar cada um deles.
Os três gigantes open-source da China
Três laboratórios chineses dominam o cenário de modelos abertos em 2025: DeepSeek, Alibaba Cloud (Qwen) e Zhipu AI (GLM). Cada um tem abordagens e pontos fortes diferentes.
DeepSeek R1
O DeepSeek R1 é um modelo de raciocínio com 671 bilhões de parâmetros (arquitetura Mixture-of-Experts), desenvolvido pela DeepSeek, startup de Hangzhou fundada em 2023. O modelo foi lançado sob licença MIT — a mais permissiva possível — permitindo uso comercial, modificação e destilação para treinar outros modelos.
A versão mais recente, DeepSeek-R1-0528, apresentou melhorias significativas em raciocínio, matemática e programação, com desempenho que se aproxima de modelos como O3 e Gemini 2.5 Pro, segundo os benchmarks publicados pela própria DeepSeek.
Além do modelo completo de 671B, existem versões destiladas menores — de 1,5B a 70B parâmetros — que rodam em hardware mais modesto. A versão de 8B parâmetros (DeepSeek-R1-0528-Qwen3-8B) é a porta de entrada mais acessível.
Qwen 2.5 (Alibaba Cloud)
O Qwen 2.5 é a família de modelos da Alibaba Cloud, com versões que vão de 0,5B a 72 bilhões de parâmetros. O modelo de 72B tem 80 camadas, contexto de 128K tokens e suporte nativo a mais de 29 idiomas — incluindo português.
Os destaques técnicos incluem melhorias em geração de código, matemática, seguimento de instruções e saída estruturada (JSON). A licença é Apache 2.0, também permissiva para uso comercial.
Para quem trabalha com dados estruturados, tabelas ou precisa de respostas longas (até 8K tokens de output), o Qwen 2.5 é provavelmente a melhor opção entre os modelos chineses abertos.
GLM-4 (Zhipu AI)
O GLM-4-9B é o modelo aberto da Zhipu AI, spin-off da Universidade Tsinghua. Com 9 bilhões de parâmetros, suporta contexto de até 128K tokens e oferece funcionalidades avançadas como navegação web, execução de código e chamadas de função (function calling).
Nos benchmarks, o GLM-4-9B-Chat superou o Llama-3-8B-Instruct em praticamente todas as métricas: 72,4 no MMLU (contra 68,4 do Llama), 50,6 no MATH (contra 30,0) e 71,8 no HumanEval (contra 62,2). Em function calling no Berkeley Function Calling Leaderboard, alcançou 81,00 de acurácia geral — quase idêntico ao GPT-4 Turbo (81,24).
A grande sacada do GLM-4 é o suporte a 26 idiomas e o desempenho excepcional em tarefas multilíngues, onde bateu o Llama-3 em todos os 6 datasets testados (M-MMLU, FLORES, MGSM, XWinograd, XStoryCloze e XCOPA).
Como rodar de graça no seu computador
Existem duas ferramentas principais para rodar modelos de IA localmente: Ollama e LM Studio. Ambas são gratuitas e funcionam em macOS, Windows e Linux.
Método 1: Ollama (linha de comando)
O Ollama é a forma mais rápida de começar. Depois de instalar pelo site ollama.com, basta abrir o terminal e rodar:
# DeepSeek R1 (versão 8B, ~5GB de RAM)
ollama run deepseek-r1
# DeepSeek R1 versão completa (671B, requer ~400GB de RAM)
ollama run deepseek-r1:671b
# Versões destiladas intermediárias
ollama run deepseek-r1:14b
ollama run deepseek-r1:32b
ollama run deepseek-r1:70b
# Qwen 2.5 (versões de 0.5B a 72B)
ollama run qwen2.5
ollama run qwen2.5:14b
ollama run qwen2.5:72b
# GLM-4
ollama run glm4:9bO download acontece automaticamente na primeira execução. Para atualizar um modelo já baixado:
ollama pull deepseek-r1Método 2: LM Studio (interface gráfica)
Se você prefere uma interface visual, o LM Studio permite buscar, baixar e conversar com modelos sem tocar no terminal. Funciona assim:
- Baixe e instale o LM Studio
- Na aba "Discover", busque por "deepseek-r1", "qwen2.5" ou "glm-4"
- Escolha a versão compatível com sua RAM (o app mostra o requisito de cada modelo)
- Clique em "Download" e depois vá para a aba "Chat"
O LM Studio também expõe uma API local compatível com o formato OpenAI, o que permite integrar os modelos chineses em qualquer aplicação que já use a API da OpenAI — basta trocar o endpoint.
Requisitos mínimos de hardware
| Modelo | Parâmetros | RAM mínima | Ideal para |
|---|---|---|---|
| DeepSeek R1 (destilado 8B) | 8B | 6 GB | Laptops, testes rápidos |
| Qwen 2.5 (14B) | 14B | 10 GB | Workstations, uso diário |
| GLM-4-9B | 9B | 8 GB | Tarefas multilíngues, function calling |
| DeepSeek R1 (32B) | 32B | 24 GB | GPUs dedicadas, produção leve |
| Qwen 2.5 (72B) | 72B | 48 GB | Servidores, alta qualidade |
| DeepSeek R1 (671B) | 671B | ~400 GB | Clusters, pesquisa |
Comparativo de preços: DeepSeek vs OpenAI
Se rodar localmente não é viável, as APIs na nuvem são a alternativa. A diferença de preço entre os modelos chineses e ocidentais é brutal.
| Provedor / Modelo | Input (por 1M tokens) | Output (por 1M tokens) | Fonte |
|---|---|---|---|
| DeepSeek V3.2 (cache hit) | US$ 0,028 | US$ 0,42 | api-docs.deepseek.com, fev/2026 |
| DeepSeek V3.2 (cache miss) | US$ 0,28 | US$ 0,42 | api-docs.deepseek.com, fev/2026 |
| GPT-5 mini (OpenAI) | US$ 0,25 | US$ 2,00 | openai.com/api/pricing, fev/2026 |
| GPT-5.2 (OpenAI) | US$ 1,75 | US$ 14,00 | openai.com/api/pricing, fev/2026 |
| GPT-5.2 Pro (OpenAI) | US$ 21,00 | US$ 168,00 | openai.com/api/pricing, fev/2026 |
Traduzindo: o output do DeepSeek V3.2 custa US$ 0,42 por milhão de tokens, enquanto o GPT-5.2 cobra US$ 14,00 pelo mesmo volume — uma diferença de 33x. Mesmo comparando com o GPT-5 mini, o DeepSeek ainda sai quase 5x mais barato no output.
Para uma startup brasileira processando 10 milhões de tokens de output por mês, a conta ficaria assim:
- DeepSeek: US$ 4,20/mês (~R$ 25)
- GPT-5 mini: US$ 20/mês (~R$ 120)
- GPT-5.2: US$ 140/mês (~R$ 840)
Isso sem contar que o DeepSeek oferece cache automático que reduz o custo de input em 10x quando há prompts repetitivos — algo comum em chatbots e pipelines de dados.
Qual modelo para qual caso de uso?
Não existe "melhor modelo" universal. A escolha depende do que você está construindo:
| Caso de uso | Modelo recomendado | Por quê |
|---|---|---|
| Raciocínio complexo, matemática | DeepSeek R1 (32B+) | Arquitetado para chain-of-thought, benchmarks próximos ao O3 |
| Geração de código | DeepSeek R1 ou Qwen 2.5 | Ambos excelentes em HumanEval; Qwen melhor em JSON estruturado |
| Chatbot multilíngue (PT-BR) | GLM-4-9B ou Qwen 2.5 | Suporte nativo a português; GLM lidera em benchmarks multilíngues |
| Function calling / agentes | GLM-4-9B | 81% no Berkeley FCL, quase igual ao GPT-4 Turbo |
| Orçamento apertado (API) | DeepSeek V3.2 | Até 33x mais barato que GPT-5.2 |
| Rodar no laptop | DeepSeek R1 8B | Menor modelo destilado, roda com 6GB de RAM |
| Dados estruturados / tabelas | Qwen 2.5 | Melhorias específicas em compreensão de tabelas e output JSON |
Fine-tuning: personalizando modelos chineses
Uma das maiores vantagens de modelos open-source é a possibilidade de fine-tuning — adaptar o modelo aos seus dados específicos. Aqui vai o caminho básico:
Passo 1: Escolha o modelo base
Para fine-tuning, prefira modelos menores (7B-14B). O custo computacional escala com o número de parâmetros, e modelos destilados já vêm com boa capacidade de base.
Passo 2: Prepare seus dados
O formato padrão é JSONL com pares de instrução/resposta:
{"messages": [{"role": "user", "content": "Qual o prazo de entrega para SP?"}, {"role": "assistant", "content": "O prazo padrão para São Paulo capital é de 2 dias úteis."}]}Passo 3: Use ferramentas de fine-tuning
As opções mais acessíveis:
- Unsloth: biblioteca Python que reduz o uso de memória em até 60% durante o treinamento. Suporta DeepSeek e Qwen nativamente.
- Axolotl: framework de fine-tuning que abstrai a complexidade. Configuração via YAML.
- LLaMA Factory: interface web para fine-tuning sem código. Suporta LoRA, QLoRA e full fine-tuning para todos os modelos citados aqui.
Passo 4: Treine com LoRA
LoRA (Low-Rank Adaptation) permite fine-tuning eficiente sem modificar todos os pesos do modelo. Com uma GPU de 24GB (como RTX 4090), você consegue fazer fine-tuning de modelos de até 14B parâmetros usando QLoRA (LoRA quantizado em 4 bits).
O investimento? Uma RTX 4090 usada no Brasil sai por volta de R$ 8.000-10.000. No cloud, uma A100 na AWS ou GCP custa entre US$ 1-3/hora. Um fine-tuning típico de algumas centenas de exemplos leva 1-4 horas.
Integração prática: substituindo a API da OpenAI
Se você já tem um projeto usando a API da OpenAI, migrar para modelos chineses é surpreendentemente simples. O Ollama expõe uma API local no formato OpenAI:
# Inicie o modelo
ollama serve
# Em outro terminal, use como se fosse a API da OpenAI
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-r1",
"messages": [{"role": "user", "content": "Explique recursão em Python"}]
}'No seu código Python, a mudança é de duas linhas:
from openai import OpenAI
# Antes (OpenAI)
# client = OpenAI(api_key="sk-...")
# Depois (Ollama local)
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="deepseek-r1",
messages=[{"role": "user", "content": "Olá, tudo bem?"}]
)
print(response.choices[0].message.content)A mesma lógica funciona com o LM Studio (porta padrão 1234) e com a API do DeepSeek na nuvem (endpoint: api.deepseek.com).
Dicas de performance: tirando o máximo dos modelos locais
Rodar modelos localmente exige alguns ajustes para ter uma experiência fluida. Algumas dicas práticas:
Quantização: modelos quantizados em 4 bits (Q4_K_M) oferecem o melhor equilíbrio entre qualidade e consumo de memória. O Ollama já baixa versões quantizadas por padrão, mas no LM Studio você pode escolher entre Q4, Q5 e Q8 — cada nível usa mais RAM mas entrega respostas mais precisas.
GPU offloading: se você tem uma GPU com VRAM suficiente, o Ollama automaticamente transfere camadas do modelo para a GPU. Em um Mac com Apple Silicon (M1/M2/M3/M4), a memória unificada permite rodar modelos maiores do que seria possível em PCs com GPU dedicada de menor VRAM.
Contexto: reduzir o tamanho da janela de contexto economiza memória. Se você não precisa dos 128K tokens de contexto do Qwen 2.5, configure para 4K ou 8K tokens — o modelo vai rodar mais rápido e usar menos RAM.
Batch processing: para tarefas em lote (classificação de textos, extração de dados), use a API local do Ollama com requisições paralelas. Um script Python simples com asyncio consegue processar centenas de documentos por hora mesmo em hardware modesto.
O que isso significa para o ecossistema brasileiro
A disponibilidade de modelos chineses open-source muda o jogo para desenvolvedores brasileiros de três formas:
- Soberania de dados: rodar modelos localmente significa que nenhum dado sai do seu servidor. Para setores regulados (saúde, financeiro, jurídico), isso elimina uma barreira enorme.
- Custo acessível: com APIs até 33x mais baratas e a opção de rodar localmente a custo zero, projetos que eram inviáveis financeiramente agora cabem no orçamento de qualquer startup.
- Independência geopolítica: depender de um único provedor americano é um risco. Ter alternativas chinesas — com licenças permissivas — cria redundância estratégica.
O cenário de IA em 2025 não é mais um duopólio americano. A China está jogando o jogo do open-source com agressividade, e quem souber aproveitar vai ter vantagem competitiva real.
Próximos passos
Se você quer começar agora:
- Instale o Ollama e rode
ollama run deepseek-r1 - Teste o LM Studio se prefere interface gráfica
- Experimente a API do DeepSeek (US$ 0,28/1M tokens de input) para projetos em produção
- Acompanhe o China to Watch para ficar por dentro das próximas atualizações desses modelos
A IA chinesa open-source não é mais curiosidade de nicho — é infraestrutura. E está disponível para qualquer dev brasileiro que queira usar.