Argonalyst

Lançamento dos modelos DeepSeek-R1-Zero e DeepSeek-R1 com inovações em raciocínio e aprendizado por reforço

Argonalyst
20 January 2025

DeepSeek, uma nova série de modelos de raciocínio, lançou dois novos modelos: DeepSeek-R1-Zero e DeepSeek-R1. O primeiro, que foi treinado utilizando aprendizado por reforço (RL) em larga escala, apresentou um desempenho notável em tarefas de raciocínio, apesar de enfrentar desafios como repetição sem fim e dificuldades de legibilidade. Para resolver esses problemas, a equipe introduziu o DeepSeek-R1, que incorpora dados de início frio antes do RL. Este modelo alcançou um desempenho comparável ao OpenAI-o1 em tarefas de matemática, código e raciocínio.

"DeepSeek-R1-Zero demonstra capacidades como auto-verificação e geração de longas cadeias de pensamento", destacaram os pesquisadores. Essa abordagem inovadora valida que as habilidades de raciocínio em modelos de linguagem (LLMs) podem ser incentivadas exclusivamente por RL, sem a necessidade de ajuste fino supervisionado (SFT).

O pipeline utilizado para desenvolver o DeepSeek-R1 inclui duas etapas de RL e duas etapas de SFT, visando descobrir padrões de raciocínio aprimorados e alinhá-los às preferências humanas. Os modelos foram abertos ao público, permitindo que a comunidade de pesquisa beneficie-se deles para o desenvolvimento de modelos menores e mais eficientes.

Os resultados de avaliação mostram que os modelos destilados, criados a partir do DeepSeek-R1, conseguem um desempenho excepcional em diversos benchmarks. A equipe disponibilizou checkpoints de 1.5B, 7B, 8B, 14B, 32B e 70B para a comunidade, baseados nas séries Qwen2.5 e Llama3.

Além disso, os pesquisadores destacam que os modelos DeepSeek-R1-Distill podem ser usados de maneira semelhante aos modelos Qwen e Llama. A utilização correta de parâmetros como temperatura é recomendada para evitar problemas de repetição excessiva ou saídas incoerentes.

"Acreditamos que nossa pesquisa irá beneficiar a indústria, criando modelos mais eficazes", afirmaram os desenvolvedores. Essa inovação abre caminho para avanços futuros na área de modelos de raciocínio e aprendizado por reforço.

Para interagir com o DeepSeek-R1, os usuários podem acessar o site oficial ou utilizar uma API compatível com OpenAI. O código e os pesos dos modelos estão licenciados sob a Licença MIT, permitindo uso comercial e modificações, incluindo a destilação para treinamento de outros LLMs.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

O plano SECRETO das Big Techs para cobrar MUITO mais pela IA

Argonalyst

BOLHA da IA ou NOVA era de crescimento EXPONENCIAL? O mercado está dividido

Argonalyst

Nova IA da OpenAI traduz em TEMPO REAL e pode mudar o mundo dos negócios

Argonalyst

Spec Driven Development (SDD): a habilidade que vai separar quem SOBREVIVE à IA

Argonalyst

DeepSeek V4: o Open Source que está AMEAÇANDO GPT 5.5 e Opus 4.7

Argonalyst

Prometeram Renda Universal… mas só veio desemprego?

Argonalyst

Mythos Preview: o começo da AGI ou só mais hype?

Argonalyst

Ele automatizou TUDO com IA… e pode virar bilionário sozinho

Argonalyst

Programadores foram só o começo… agora a IA quer o topo

Argonalyst

Multi-agentes, memória e IA eterna: o vazamento que mudou tudo

Argonalyst

VIBE CODING vai acabar… e o que vem agora é muito mais SINISTRO

Argonalyst

IA na Guerra: estamos criando algo mais PERIGOSO que a Bomba Atômica?

Argonalyst

O dinheiro vai desaparecer? A era da IA pode mudar tudo

Argonalyst

O Apocalipse do SaaS: Como a IA pode DESTRUIR o modelo bilionário do software

Argonalyst

Bitcoin é software… e o software está morrendo (isso explica a queda?)