jogo do coelho cassino Inovação da DeepSeek cria nova maneira de construir IA poderosa com menos dinheiro

data de lançamento:2025-02-17 12:31 tempo visitado:109

O laboratório chinês de IA DeepSeek adotou técnicas inovadoras para desenvolver um modelo de IA que foi treinado com intervenção humana limitadajogo do coelho cassino， produzindo um "momento aha" que pode transformar o custo para desenvolvedores construírem aplicativos de destaque baseados na tecnologia.

O artigo de pesquisa publicado sobre o funcionamento do modelo de "raciocínio" R1 da DeepSeek revela como o grupo， liderado pelo bilionário de fundos de hedge Liang Wenfeng， alcançou resultados poderosos ao remover gargalos no desenvolvimento de IA.

A DeepSeek adotou uma série de técnicas mais eficientes para desenvolver o R1， que， como o modelo rival número 1 da OpenAI， gera respostas precisas ao "pensar" passo a passo sobre suas respostas por mais tempo do que a maioria dos grandes modelos de linguagem.

Anúncio de avanços do DeepSeek mexeram com as ações de empresas de tecnologia - Dado Ruvic/Reuters

Os avanços da DeepSeek vêm do uso de "aprendizado por reforço" para reduzir o envolvimento humano na produção de respostas a comandos.

A empresa também construiu modelos menores com menos parâmetros —o número de variáveis usadas para treinar um sistema de IA e moldar sua saída— com capacidades poderosas de raciocínio， ajustando grandes modelos treinados por concorrentes como Meta e Alibaba.

Juntas， essas inovações causaram impacto no Vale do Silício， já que o R1 supera modelos recentemente lançados pela OpenAI， Anthropic e Meta na comparação de algumas tarefas， mas com um custo bem menor de desenvolvimento.

Na terça-feira， a OpenAI disse ter encontrado evidências de que a DeepSeek se aproveitou de sua tecnologia， usando respostas de seus modelos para treinar seus LLMs a um custo menor， uma prática comum entre acadêmicos e startups com menos financiamento.

Apesar da controvérsia， especialistas disseram que a DeepSeek demonstrou uma verdadeira inovação. Pesquisadores de IA também elogiaram sua disposição em publicar um relatório técnico detalhado descrevendo como construiu seu modelo de raciocínio.

"Acho que é apenas a ponta do iceberg da inovação que podemos esperar nesses modelos"， analisou Neil Lawrence， professor de aprendizado de máquina da DeepMind na Universidade de Cambridge.

"A história mostra que grandes empresas têm dificuldade em inovar à medida que crescem， e o que vimos de muitas dessas grandes empresas é uma substituição do investimento em computação pelo trabalho intelectual árduo."

POLEGARES PARA CIMA LEVAM AO 'MOMENTO AHA'

Grandes modelos de linguagem são construídos em duas etapas. A primeira é chamada de "pré-treinamento"， na qual os desenvolvedores usam conjuntos de dados massivos que ajudam os modelos a prever a próxima palavra em uma frase.

jogo do tigre

A segunda etapa é chamada de "pós-treinamento"， através da qual os desenvolvedores ensinam o modelo a seguir instruções， como resolver problemas matemáticos ou codificar.

jogo do coelho cassino Inovação da DeepSeek cria nova maneira de construir IA poderosa com menos dinheiro

Coluna

Informação quente

informação relevante