DeepSeek: a IA chinesa de US$6 mi

Em janeiro de 2025, uma empresa de Hangzhou com 160 funcionários fez algo que ninguém no Vale do Silício achava possível: treinou um modelo de inteligência artificial comparável ao GPT-4 da OpenAI gastando US$6 milhões. A OpenAI gastou mais de US$100 milhões para treinar o GPT-4. A DeepSeek fez com menos de um décimo do poder computacional que a Meta usou no Llama 3.1.

O resultado? A Nvidia perdeu US$600 bilhões em valor de mercado em um único dia — a maior queda de uma empresa na história da bolsa americana. Analistas chamaram o episódio de "momento Sputnik" da inteligência artificial.

Mas como uma startup chinesa conseguiu isso? E o que isso muda pra quem trabalha com tecnologia no Brasil?

Quem é a DeepSeek (e de onde veio o dinheiro)

A DeepSeek não surgiu do nada. Ela é filha da High-Flyer, um hedge fund chinês fundado em 2016 por Liang Wenfeng, um graduado da Universidade de Zhejiang que começou a operar no mercado financeiro durante a crise de 2008. A High-Flyer se especializou em trading algorítmico usando deep learning, e até 2021 já operava 100% com IA.

Liang percebeu cedo que precisava de poder computacional pesado. Em 2019, investiu 200 milhões de yuans (~US$28 milhões) em seu primeiro cluster de computação, com 1.100 GPUs. Em 2021, antes que os EUA restringissem a venda de chips avançados para a China, ele comprou cerca de 10.000 GPUs Nvidia A100.

Em julho de 2023, a High-Flyer criou a DeepSeek como empresa independente, focada exclusivamente em pesquisa de IA — sem relação com o negócio financeiro do fundo. A empresa opera com equipe enxuta: apenas 160 pessoas, recrutadas das melhores universidades chinesas. Muitos vêm de áreas fora da ciência da computação tradicional, o que amplia a base de conhecimento dos modelos.

US$6 milhões vs US$100 milhões: como é possível?

O número que chocou o mercado: a DeepSeek afirma que treinou seu modelo V3 por US$6 milhões. O GPT-4 da OpenAI custou mais de US$100 milhões. Essa diferença de 17x não é mágica — é engenharia.

A DeepSeek usou uma técnica chamada Mixture of Experts (MoE), onde o modelo não ativa todos os seus parâmetros para cada consulta. Pense assim: em vez de ligar todas as luzes de um prédio para achar uma sala, você acende só o corredor certo. Isso reduz drasticamente o custo computacional sem perder qualidade nas respostas.

Além disso, a empresa treinou seus modelos usando chips Nvidia de exportação — versões menos potentes que as usadas nos EUA, criadas justamente para cumprir as sanções americanas. Usaram menos unidades e extraíram mais de cada uma. O cluster Fire-Flyer 2, construído em 2021 com orçamento de 1 bilhão de yuans, operava com taxa de utilização acima de 96%.

Para o modelo R1, especificamente, a DeepSeek combinou MoE com otimizações proprietárias de paralelismo que permitiram treinar modelos gigantes em GPUs que, no papel, não deveriam dar conta do recado.

Performance: DeepSeek R1 vs GPT-4 vs Claude

Os benchmarks contam uma história surpreendente. O DeepSeek-R1, lançado em janeiro de 2025, entrega respostas comparáveis ao GPT-4 da OpenAI e ao o1 em tarefas de raciocínio. O modelo foi publicado sob licença MIT — ou seja, o código é aberto.

Aqui está a comparação que interessa para quem está decidindo qual IA usar:

Critério	DeepSeek R1	GPT-4 (OpenAI)	Claude 3.5 (Anthropic)
Custo de treinamento	~US$6 mi	~US$100 mi	Não divulgado
Licença	MIT (aberta)	Proprietária	Proprietária
API (custo por 1M tokens input)	US$0,14 (cache hit)	US$30 (GPT-4)	US$3 (Sonnet)
Raciocínio lógico	Comparável ao o1	Referência	Forte
Código aberto	Sim (pesos abertos)	Não	Não

A diferença de preço na API é brutal. Para uma empresa brasileira que processa milhões de tokens por dia — chatbots, análise de documentos, automação — a DeepSeek pode representar uma economia de 90% ou mais em relação ao GPT-4.

O terremoto no mercado: US$600 bilhões evaporaram

Quando o DeepSeek-R1 foi lançado e os números de custo vieram a público, Wall Street entrou em pânico. A lógica era simples: se é possível treinar modelos de ponta gastando 17x menos, a tese de que IA exige investimento bilionário em hardware cai por terra. E quem vende esse hardware? A Nvidia.

Em 27 de janeiro de 2025, a Nvidia perdeu US$600 bilhões em valor de mercado em um único pregão. Para ter dimensão: isso é mais do que o PIB da Argentina. Foi a maior queda de capitalização de uma única empresa na história do mercado americano.

A mensagem foi clara: a corrida armamentista por GPUs pode não ser o único caminho para IA avançada. A eficiência algorítmica pode valer mais do que força bruta computacional.

Analistas e mídia internacional descreveram o momento como um "Sputnik da IA" — uma referência ao choque que os EUA levaram em 1957 quando a União Soviética lançou o primeiro satélite. Desta vez, o choque veio da China.

O que a DeepSeek muda para desenvolvedores brasileiros

Se você trabalha com tecnologia no Brasil, a DeepSeek abre portas que estavam trancadas por custo. Algumas formas práticas de usar:

1. API barata para produção. A API da DeepSeek cobra a partir de US$0,14 por milhão de tokens (com cache). Para startups brasileiras que gastam R$5.000-15.000/mês com API da OpenAI, migrar parcialmente para a DeepSeek pode cortar a conta em 80-90%. O endpoint é compatível com o formato da OpenAI, então a migração técnica é simples.

2. Rodar localmente. Como os pesos do modelo são abertos (licença MIT), você pode baixar versões menores do DeepSeek e rodar na sua própria infraestrutura. Ferramentas como Ollama e LM Studio já suportam modelos DeepSeek. Para quem lida com dados sensíveis — fintechs, healthtechs — isso resolve o problema de enviar dados para servidores externos.

3. Fine-tuning sem gastar uma fortuna. Com modelos abertos, é possível ajustar o DeepSeek para tarefas específicas do mercado brasileiro: português jurídico, análise de notas fiscais, atendimento ao cliente com gírias regionais. O custo de fine-tuning de um modelo aberto é uma fração do que se paga para customizar modelos proprietários.

4. Chatbot gratuito. O chat.deepseek.com funciona de graça, sem limite aparente de mensagens. Para freelancers e pequenas empresas que usam ChatGPT Plus (US$20/mês), testar o DeepSeek como alternativa é zero risco.

Os riscos que ninguém quer discutir

A DeepSeek não é perfeita, e quem adotar precisa entrar com os olhos abertos.

Censura. O modelo segue restrições do governo chinês. Pergunte sobre Tiananmen, Taiwan ou Xinjiang e as respostas serão evasivas ou bloqueadas. Para aplicações comerciais genéricas isso pode não importar, mas para produtos editoriais ou educacionais, é uma limitação real.

Dados na China. Se você usar a API hospedada pela DeepSeek, seus dados passam por servidores chineses. Para empresas com requisitos de compliance (LGPD, dados financeiros), rodar o modelo localmente é a saída — e o fato de ser open-weight torna isso viável.

Sustentabilidade do modelo de negócio. A DeepSeek é financiada por um hedge fund. Não cobra assinatura cara, não tem pressão de investidores de venture capital. Isso é ótimo agora, mas levanta a questão: por quanto tempo o preço se mantém tão baixo? A aposta é que a empresa está jogando o jogo longo, priorizando adoção sobre lucro imediato.

Geopolítica. Com a guerra comercial EUA-China se intensificando, não é impossível que governos ocidentais criem restrições ao uso de modelos chineses. A Itália já chegou a bloquear temporariamente o chatbot da DeepSeek. Empresas que dependam exclusivamente da DeepSeek estariam expostas a esse risco regulatório.

O que vem pela frente

A DeepSeek mostrou que a corrida por IA não se ganha só com dinheiro. A combinação de engenharia criativa, equipe enxuta e acesso a hardware (mesmo que limitado) produziu resultados que o Vale do Silício não viu chegando.

Para o mercado brasileiro de tecnologia, a lição é direta: o custo de usar IA avançada caiu de forma brutal, e modelos abertos de alta qualidade agora existem. Quem ainda está preso na ideia de que precisa pagar caro para ter IA boa está perdendo dinheiro.

A pergunta não é mais "IA chinesa é boa o suficiente?". É: "por quanto tempo você vai pagar 10x mais caro por resultado equivalente?"

Esse tema foi destaque no China to Watch, a newsletter diária sobre o que acontece na China antes de virar notícia no Brasil. Assine em chinato.watch.

DeepSeek: como uma startup chinesa de US$6 milhões abalou o Vale do Silício