Argonalyst

Lançamento dos modelos DeepSeek-R1-Zero e DeepSeek-R1 com inovações em raciocínio e aprendizado por reforço

Argonalyst
20 January 2025

DeepSeek, uma nova série de modelos de raciocínio, lançou dois novos modelos: DeepSeek-R1-Zero e DeepSeek-R1. O primeiro, que foi treinado utilizando aprendizado por reforço (RL) em larga escala, apresentou um desempenho notável em tarefas de raciocínio, apesar de enfrentar desafios como repetição sem fim e dificuldades de legibilidade. Para resolver esses problemas, a equipe introduziu o DeepSeek-R1, que incorpora dados de início frio antes do RL. Este modelo alcançou um desempenho comparável ao OpenAI-o1 em tarefas de matemática, código e raciocínio.

"DeepSeek-R1-Zero demonstra capacidades como auto-verificação e geração de longas cadeias de pensamento", destacaram os pesquisadores. Essa abordagem inovadora valida que as habilidades de raciocínio em modelos de linguagem (LLMs) podem ser incentivadas exclusivamente por RL, sem a necessidade de ajuste fino supervisionado (SFT).

O pipeline utilizado para desenvolver o DeepSeek-R1 inclui duas etapas de RL e duas etapas de SFT, visando descobrir padrões de raciocínio aprimorados e alinhá-los às preferências humanas. Os modelos foram abertos ao público, permitindo que a comunidade de pesquisa beneficie-se deles para o desenvolvimento de modelos menores e mais eficientes.

Os resultados de avaliação mostram que os modelos destilados, criados a partir do DeepSeek-R1, conseguem um desempenho excepcional em diversos benchmarks. A equipe disponibilizou checkpoints de 1.5B, 7B, 8B, 14B, 32B e 70B para a comunidade, baseados nas séries Qwen2.5 e Llama3.

Além disso, os pesquisadores destacam que os modelos DeepSeek-R1-Distill podem ser usados de maneira semelhante aos modelos Qwen e Llama. A utilização correta de parâmetros como temperatura é recomendada para evitar problemas de repetição excessiva ou saídas incoerentes.

"Acreditamos que nossa pesquisa irá beneficiar a indústria, criando modelos mais eficazes", afirmaram os desenvolvedores. Essa inovação abre caminho para avanços futuros na área de modelos de raciocínio e aprendizado por reforço.

Para interagir com o DeepSeek-R1, os usuários podem acessar o site oficial ou utilizar uma API compatível com OpenAI. O código e os pesos dos modelos estão licenciados sob a Licença MIT, permitindo uso comercial e modificações, incluindo a destilação para treinamento de outros LLMs.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

Google libera IA que CRIA MUNDOS 3D jogáveis (Projeto Genie)

Argonalyst

O fenômeno Clawdbot (Moltbot): por que esse projeto explodiu no GitHub

Argonalyst

Vazamento da OpenAI: o novo dispositivo com IA embutida

Argonalyst

O ponto de virada da IA aconteceu! Nvidia muda o jogo

Argonalyst

Por que ninguém falou do GPT Image 1.5? (e por que isso é um sinal enorme)

Argonalyst

O VERDADEIRO Prompt Engineering: orquestrando IAs em loop para ficar "mais inteligente"

Argonalyst

DeepSeek R1 sabota códigos se você falar "Tibete"? Veja o teste!

Argonalyst

Google Antigravity + Gemini 3: o FIM das plataformas tipo Cursor e Lovable?

Argonalyst

O Paradoxo de Jevons na IA: por que a demanda por devs pode explodir

Argonalyst

NEO Robot faz sentido? O lado oculto do "robô que faz tudo"

Argonalyst

Valve DESTRÓI o mercado de skins enquanto NOVOS jogos com IA simulam o futuro

Argonalyst

Startups vão morrer? Por que só quem tem MODELO e DADO próprio sobrevive

Argonalyst

A verdade sobre a bolha de IA: números, gráficos e o que ninguém quer admitir

Argonalyst

Testei o NOVO AgentKit da OpenAI e criei meu próprio agente de IA

Argonalyst

OpenAI lança AgentKit: adeus a dezenas de startups?