jogo do coelho cassino Inovação da DeepSeek cria nova maneira de construir IA poderosa com menos dinheiro
O laboratório chinês de IA DeepSeek adotou técnicas inovadoras para desenvolver um modelo de IA que foi treinado com intervenção humana limitadajogo do coelho cassino, produzindo um "momento aha" que pode transformar o custo para desenvolvedores construírem aplicativos de destaque baseados na tecnologia.

O artigo de pesquisa publicado sobre o funcionamento do modelo de "raciocínio" R1 da DeepSeek revela como o grupo, liderado pelo bilionário de fundos de hedge Liang Wenfeng, alcançou resultados poderosos ao remover gargalos no desenvolvimento de IA.
A DeepSeek adotou uma série de técnicas mais eficientes para desenvolver o R1, que, como o modelo rival número 1 da OpenAI, gera respostas precisas ao "pensar" passo a passo sobre suas respostas por mais tempo do que a maioria dos grandes modelos de linguagem.

Os avanços da DeepSeek vêm do uso de "aprendizado por reforço" para reduzir o envolvimento humano na produção de respostas a comandos.
A empresa também construiu modelos menores com menos parâmetros —o número de variáveis usadas para treinar um sistema de IA e moldar sua saída— com capacidades poderosas de raciocínio, ajustando grandes modelos treinados por concorrentes como Meta e Alibaba.
Juntas, essas inovações causaram impacto no Vale do Silício, já que o R1 supera modelos recentemente lançados pela OpenAI, Anthropic e Meta na comparação de algumas tarefas, mas com um custo bem menor de desenvolvimento.
Na terça-feira, a OpenAI disse ter encontrado evidências de que a DeepSeek se aproveitou de sua tecnologia, usando respostas de seus modelos para treinar seus LLMs a um custo menor, uma prática comum entre acadêmicos e startups com menos financiamento.
Apesar da controvérsia, especialistas disseram que a DeepSeek demonstrou uma verdadeira inovação. Pesquisadores de IA também elogiaram sua disposição em publicar um relatório técnico detalhado descrevendo como construiu seu modelo de raciocínio.
"Acho que é apenas a ponta do iceberg da inovação que podemos esperar nesses modelos", analisou Neil Lawrence, professor de aprendizado de máquina da DeepMind na Universidade de Cambridge.
"A história mostra que grandes empresas têm dificuldade em inovar à medida que crescem, e o que vimos de muitas dessas grandes empresas é uma substituição do investimento em computação pelo trabalho intelectual árduo."
POLEGARES PARA CIMA LEVAM AO 'MOMENTO AHA'Grandes modelos de linguagem são construídos em duas etapas. A primeira é chamada de "pré-treinamento", na qual os desenvolvedores usam conjuntos de dados massivos que ajudam os modelos a prever a próxima palavra em uma frase.
jogo do tigreA segunda etapa é chamada de "pós-treinamento", através da qual os desenvolvedores ensinam o modelo a seguir instruções, como resolver problemas matemáticos ou codificar.
Leia tambémO que a DeepSeek tem sob o capô clube da puxada do jogo do bicho Como os 039;heróis da IA039; da China venceram obstáculos dos EUA e surpreenderam o Vale do Silício DeepSeek repete mantras e censura do Partido Comunista Chinês
Uma maneira de fazer com que chatbots gerem respostas mais úteis é chamada de "aprendizado por reforço a partir de feedback humano" (RLHF), uma técnica pioneira da OpenAI para melhorar o ChatGPT.
O RLHF funciona com anotadores humanos rotulando as respostas do modelo de IA a comandos e escolhendo as melhores respostas. Essa etapa é frequentemente trabalhosa, cara e demorada, muitas vezes exigindo um pequeno exército de rotuladores de dados humanos.
A grande inovação da DeepSeek é automatizar essa etapa final, usando uma técnica chamada aprendizado por reforço (RL), na qual o modelo de IA é recompensado por fazer a coisa certa.
A DeepSeek desenvolveu, em primeiro lugar, um modelo poderoso de previsão de texto chamado V3. Em seguida, usou RL para "recompensar" o modelo, como dar um joinha por gerar a resposta certa.
A empresa chinesa descobriu que, ao fazer esse processo várias vezes, o modelo conseguiu resolver problemas espontaneamente sem supervisão humana.
Essa técnica também foi usada pelo Google DeepMind para construir o AlphaGo, sistema de IA que venceu jogadores humanos no antigo jogo de tabuleiro Go e deu início ao atual boom nas técnicas de computação de aprendizado profundo há quase uma década.
DeepSeek disse que descobriu que o modelo teve o que a empresa chamou de "momento aha" quando reavaliou suas respostas e ajustou seu tempo de processamento para resolver diferentes questões.
"O 'momento aha' serve como um poderoso lembrete do potencial do [RL] para desbloquear novos níveis de inteligência em sistemas artificiais, abrindo caminho para modelos mais autônomos e adaptativos no futuro", escreveram os criadores da DeepSeek em seu artigo de pesquisa.
Lewis Tunstall, pesquisador da Hugging Face, uma empresa de pesquisa em IA, disse: "Parece que o segredo para fazer isso funcionar é simplesmente ter um modelo pré-treinado muito, muito forte, e depois ter uma infraestrutura muito, muito boa para fazer esse processo de aprendizado por reforço em grande escala."
Folha MercadoEnquanto a OpenAI e o Google estão investindo bilhões de dólares para construir grandes modelos de linguagem, a DeepSeek também construiu modelos menores que podem ser executados em telefones ou navegadores ao "destilar" as capacidades de raciocínio de modelos maiores.
A DeepSeek usou seu modelo R1 para gerar um conjunto relativamente pequeno de 800 mil pontos de dados e, em seguida, ajustou os modelos feitos por concorrentes como o Qwen da Alibaba e o Llama da Meta usando esses dados gerados por IA.
Jogos de 2 JogadoresA DeepSeek descobriu que esses modelos destilados eram especialmente fortes em benchmarks de raciocínio, em alguns casos superando modelos emblemáticos como o Claude da Anthropic. "Ele pode basicamente resolver a maioria dos problemas matemáticos que fiz na graduação", afirmou Tunstall.
Esse desenvolvimento pode ser uma bênção para desenvolvedores de aplicativos, que têm uma maneira barata e eficiente de construir produtos. Ensinar modelos de IA a raciocinar durante a "inferência" —quando o modelo está gerando respostas— é muito mais eficiente do que o processo de pré-treinamento, que requer um grande poder computacional, de acordo com Lennart Heimjogo do coelho cassino, pesquisador da think-tank Rand.