IA Open-Source Chinesa: DeepSeek, Qwen e GLM Grátis

Enquanto boa parte do mercado brasileiro ainda depende exclusivamente de GPT e Claude, a China está distribuindo modelos de IA poderosos com licença open-source — e você pode rodar todos eles de graça, no seu próprio computador, agora mesmo. Sem cartão de crédito, sem fila de espera, sem depender de servidor gringo.

Este guia é para desenvolvedores e startups brasileiras que querem entender quais são os principais modelos de IA chinesa open source gratuita, como instalá-los localmente e quando faz sentido usar cada um deles.

Os três gigantes open-source da China

Três laboratórios chineses dominam o cenário de modelos abertos em 2025: DeepSeek, Alibaba Cloud (Qwen) e Zhipu AI (GLM). Cada um tem abordagens e pontos fortes diferentes.

DeepSeek R1

O DeepSeek R1 é um modelo de raciocínio com 671 bilhões de parâmetros (arquitetura Mixture-of-Experts), desenvolvido pela DeepSeek, startup de Hangzhou fundada em 2023. O modelo foi lançado sob licença MIT — a mais permissiva possível — permitindo uso comercial, modificação e destilação para treinar outros modelos.

A versão mais recente, DeepSeek-R1-0528, apresentou melhorias significativas em raciocínio, matemática e programação, com desempenho que se aproxima de modelos como O3 e Gemini 2.5 Pro, segundo os benchmarks publicados pela própria DeepSeek.

Além do modelo completo de 671B, existem versões destiladas menores — de 1,5B a 70B parâmetros — que rodam em hardware mais modesto. A versão de 8B parâmetros (DeepSeek-R1-0528-Qwen3-8B) é a porta de entrada mais acessível.

Qwen 2.5 (Alibaba Cloud)

O Qwen 2.5 é a família de modelos da Alibaba Cloud, com versões que vão de 0,5B a 72 bilhões de parâmetros. O modelo de 72B tem 80 camadas, contexto de 128K tokens e suporte nativo a mais de 29 idiomas — incluindo português.

Os destaques técnicos incluem melhorias em geração de código, matemática, seguimento de instruções e saída estruturada (JSON). A licença é Apache 2.0, também permissiva para uso comercial.

Para quem trabalha com dados estruturados, tabelas ou precisa de respostas longas (até 8K tokens de output), o Qwen 2.5 é provavelmente a melhor opção entre os modelos chineses abertos.

GLM-4 (Zhipu AI)

O GLM-4-9B é o modelo aberto da Zhipu AI, spin-off da Universidade Tsinghua. Com 9 bilhões de parâmetros, suporta contexto de até 128K tokens e oferece funcionalidades avançadas como navegação web, execução de código e chamadas de função (function calling).

Nos benchmarks, o GLM-4-9B-Chat superou o Llama-3-8B-Instruct em praticamente todas as métricas: 72,4 no MMLU (contra 68,4 do Llama), 50,6 no MATH (contra 30,0) e 71,8 no HumanEval (contra 62,2). Em function calling no Berkeley Function Calling Leaderboard, alcançou 81,00 de acurácia geral — quase idêntico ao GPT-4 Turbo (81,24).

A grande sacada do GLM-4 é o suporte a 26 idiomas e o desempenho excepcional em tarefas multilíngues, onde bateu o Llama-3 em todos os 6 datasets testados (M-MMLU, FLORES, MGSM, XWinograd, XStoryCloze e XCOPA).

Como rodar de graça no seu computador

Existem duas ferramentas principais para rodar modelos de IA localmente: Ollama e LM Studio. Ambas são gratuitas e funcionam em macOS, Windows e Linux.

Método 1: Ollama (linha de comando)

O Ollama é a forma mais rápida de começar. Depois de instalar pelo site ollama.com, basta abrir o terminal e rodar:

# DeepSeek R1 (versão 8B, ~5GB de RAM)
ollama run deepseek-r1

# DeepSeek R1 versão completa (671B, requer ~400GB de RAM)
ollama run deepseek-r1:671b

# Versões destiladas intermediárias
ollama run deepseek-r1:14b
ollama run deepseek-r1:32b
ollama run deepseek-r1:70b

# Qwen 2.5 (versões de 0.5B a 72B)
ollama run qwen2.5
ollama run qwen2.5:14b
ollama run qwen2.5:72b

# GLM-4
ollama run glm4:9b

O download acontece automaticamente na primeira execução. Para atualizar um modelo já baixado:

ollama pull deepseek-r1

Método 2: LM Studio (interface gráfica)

Se você prefere uma interface visual, o LM Studio permite buscar, baixar e conversar com modelos sem tocar no terminal. Funciona assim:

Baixe e instale o LM Studio
Na aba "Discover", busque por "deepseek-r1", "qwen2.5" ou "glm-4"
Escolha a versão compatível com sua RAM (o app mostra o requisito de cada modelo)
Clique em "Download" e depois vá para a aba "Chat"

O LM Studio também expõe uma API local compatível com o formato OpenAI, o que permite integrar os modelos chineses em qualquer aplicação que já use a API da OpenAI — basta trocar o endpoint.

Requisitos mínimos de hardware

Modelo	Parâmetros	RAM mínima	Ideal para
DeepSeek R1 (destilado 8B)	8B	6 GB	Laptops, testes rápidos
Qwen 2.5 (14B)	14B	10 GB	Workstations, uso diário
GLM-4-9B	9B	8 GB	Tarefas multilíngues, function calling
DeepSeek R1 (32B)	32B	24 GB	GPUs dedicadas, produção leve
Qwen 2.5 (72B)	72B	48 GB	Servidores, alta qualidade
DeepSeek R1 (671B)	671B	~400 GB	Clusters, pesquisa

Comparativo de preços: DeepSeek vs OpenAI

Se rodar localmente não é viável, as APIs na nuvem são a alternativa. A diferença de preço entre os modelos chineses e ocidentais é brutal.

Provedor / Modelo	Input (por 1M tokens)	Output (por 1M tokens)	Fonte
DeepSeek V3.2 (cache hit)	US$ 0,028	US$ 0,42	api-docs.deepseek.com, fev/2026
DeepSeek V3.2 (cache miss)	US$ 0,28	US$ 0,42	api-docs.deepseek.com, fev/2026
GPT-5 mini (OpenAI)	US$ 0,25	US$ 2,00	openai.com/api/pricing, fev/2026
GPT-5.2 (OpenAI)	US$ 1,75	US$ 14,00	openai.com/api/pricing, fev/2026
GPT-5.2 Pro (OpenAI)	US$ 21,00	US$ 168,00	openai.com/api/pricing, fev/2026

Traduzindo: o output do DeepSeek V3.2 custa US$ 0,42 por milhão de tokens, enquanto o GPT-5.2 cobra US$ 14,00 pelo mesmo volume — uma diferença de 33x. Mesmo comparando com o GPT-5 mini, o DeepSeek ainda sai quase 5x mais barato no output.

Para uma startup brasileira processando 10 milhões de tokens de output por mês, a conta ficaria assim:

DeepSeek: US$ 4,20/mês (~R$ 25)
GPT-5 mini: US$ 20/mês (~R$ 120)
GPT-5.2: US$ 140/mês (~R$ 840)

Isso sem contar que o DeepSeek oferece cache automático que reduz o custo de input em 10x quando há prompts repetitivos — algo comum em chatbots e pipelines de dados.

Qual modelo para qual caso de uso?

Não existe "melhor modelo" universal. A escolha depende do que você está construindo:

Caso de uso	Modelo recomendado	Por quê
Raciocínio complexo, matemática	DeepSeek R1 (32B+)	Arquitetado para chain-of-thought, benchmarks próximos ao O3
Geração de código	DeepSeek R1 ou Qwen 2.5	Ambos excelentes em HumanEval; Qwen melhor em JSON estruturado
Chatbot multilíngue (PT-BR)	GLM-4-9B ou Qwen 2.5	Suporte nativo a português; GLM lidera em benchmarks multilíngues
Function calling / agentes	GLM-4-9B	81% no Berkeley FCL, quase igual ao GPT-4 Turbo
Orçamento apertado (API)	DeepSeek V3.2	Até 33x mais barato que GPT-5.2
Rodar no laptop	DeepSeek R1 8B	Menor modelo destilado, roda com 6GB de RAM
Dados estruturados / tabelas	Qwen 2.5	Melhorias específicas em compreensão de tabelas e output JSON

Fine-tuning: personalizando modelos chineses

Uma das maiores vantagens de modelos open-source é a possibilidade de fine-tuning — adaptar o modelo aos seus dados específicos. Aqui vai o caminho básico:

Passo 1: Escolha o modelo base

Para fine-tuning, prefira modelos menores (7B-14B). O custo computacional escala com o número de parâmetros, e modelos destilados já vêm com boa capacidade de base.

Passo 2: Prepare seus dados

O formato padrão é JSONL com pares de instrução/resposta:

{"messages": [{"role": "user", "content": "Qual o prazo de entrega para SP?"}, {"role": "assistant", "content": "O prazo padrão para São Paulo capital é de 2 dias úteis."}]}

Passo 3: Use ferramentas de fine-tuning

As opções mais acessíveis:

Unsloth: biblioteca Python que reduz o uso de memória em até 60% durante o treinamento. Suporta DeepSeek e Qwen nativamente.
Axolotl: framework de fine-tuning que abstrai a complexidade. Configuração via YAML.
LLaMA Factory: interface web para fine-tuning sem código. Suporta LoRA, QLoRA e full fine-tuning para todos os modelos citados aqui.

Passo 4: Treine com LoRA

LoRA (Low-Rank Adaptation) permite fine-tuning eficiente sem modificar todos os pesos do modelo. Com uma GPU de 24GB (como RTX 4090), você consegue fazer fine-tuning de modelos de até 14B parâmetros usando QLoRA (LoRA quantizado em 4 bits).

O investimento? Uma RTX 4090 usada no Brasil sai por volta de R$ 8.000-10.000. No cloud, uma A100 na AWS ou GCP custa entre US$ 1-3/hora. Um fine-tuning típico de algumas centenas de exemplos leva 1-4 horas.

Integração prática: substituindo a API da OpenAI

Se você já tem um projeto usando a API da OpenAI, migrar para modelos chineses é surpreendentemente simples. O Ollama expõe uma API local no formato OpenAI:

# Inicie o modelo
ollama serve

# Em outro terminal, use como se fosse a API da OpenAI
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-r1",
    "messages": [{"role": "user", "content": "Explique recursão em Python"}]
  }'

No seu código Python, a mudança é de duas linhas:

from openai import OpenAI

# Antes (OpenAI)
# client = OpenAI(api_key="sk-...")

# Depois (Ollama local)
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

response = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{"role": "user", "content": "Olá, tudo bem?"}]
)
print(response.choices[0].message.content)

A mesma lógica funciona com o LM Studio (porta padrão 1234) e com a API do DeepSeek na nuvem (endpoint: api.deepseek.com).

Dicas de performance: tirando o máximo dos modelos locais

Rodar modelos localmente exige alguns ajustes para ter uma experiência fluida. Algumas dicas práticas:

Quantização: modelos quantizados em 4 bits (Q4_K_M) oferecem o melhor equilíbrio entre qualidade e consumo de memória. O Ollama já baixa versões quantizadas por padrão, mas no LM Studio você pode escolher entre Q4, Q5 e Q8 — cada nível usa mais RAM mas entrega respostas mais precisas.

GPU offloading: se você tem uma GPU com VRAM suficiente, o Ollama automaticamente transfere camadas do modelo para a GPU. Em um Mac com Apple Silicon (M1/M2/M3/M4), a memória unificada permite rodar modelos maiores do que seria possível em PCs com GPU dedicada de menor VRAM.

Contexto: reduzir o tamanho da janela de contexto economiza memória. Se você não precisa dos 128K tokens de contexto do Qwen 2.5, configure para 4K ou 8K tokens — o modelo vai rodar mais rápido e usar menos RAM.

Batch processing: para tarefas em lote (classificação de textos, extração de dados), use a API local do Ollama com requisições paralelas. Um script Python simples com asyncio consegue processar centenas de documentos por hora mesmo em hardware modesto.

O que isso significa para o ecossistema brasileiro

A disponibilidade de modelos chineses open-source muda o jogo para desenvolvedores brasileiros de três formas:

Soberania de dados: rodar modelos localmente significa que nenhum dado sai do seu servidor. Para setores regulados (saúde, financeiro, jurídico), isso elimina uma barreira enorme.
Custo acessível: com APIs até 33x mais baratas e a opção de rodar localmente a custo zero, projetos que eram inviáveis financeiramente agora cabem no orçamento de qualquer startup.
Independência geopolítica: depender de um único provedor americano é um risco. Ter alternativas chinesas — com licenças permissivas — cria redundância estratégica.

O cenário de IA em 2025 não é mais um duopólio americano. A China está jogando o jogo do open-source com agressividade, e quem souber aproveitar vai ter vantagem competitiva real.

Próximos passos

Se você quer começar agora:

Instale o Ollama e rode ollama run deepseek-r1
Teste o LM Studio se prefere interface gráfica
Experimente a API do DeepSeek (US$ 0,28/1M tokens de input) para projetos em produção
Acompanhe o China to Watch para ficar por dentro das próximas atualizações desses modelos

A IA chinesa open-source não é mais curiosidade de nicho — é infraestrutura. E está disponível para qualquer dev brasileiro que queira usar.

IA open-source chinesa: como usar DeepSeek, Qwen e GLM de graça no Brasil