Lançamento dos modelos DeepSeek-R1-Zero e DeepSeek-R1 com inovações em raciocínio e aprendizado por reforço

DeepSeek, uma nova série de modelos de raciocínio, lançou dois novos modelos: DeepSeek-R1-Zero e DeepSeek-R1. O primeiro, que foi treinado utilizando aprendizado por reforço (RL) em larga escala, apresentou um desempenho notável em tarefas de raciocínio, apesar de enfrentar desafios como repetição sem fim e dificuldades de legibilidade. Para resolver esses problemas, a equipe introduziu o DeepSeek-R1, que incorpora dados de início frio antes do RL. Este modelo alcançou um desempenho comparável ao OpenAI-o1 em tarefas de matemática, código e raciocínio.

"DeepSeek-R1-Zero demonstra capacidades como auto-verificação e geração de longas cadeias de pensamento", destacaram os pesquisadores. Essa abordagem inovadora valida que as habilidades de raciocínio em modelos de linguagem (LLMs) podem ser incentivadas exclusivamente por RL, sem a necessidade de ajuste fino supervisionado (SFT).

O pipeline utilizado para desenvolver o DeepSeek-R1 inclui duas etapas de RL e duas etapas de SFT, visando descobrir padrões de raciocínio aprimorados e alinhá-los às preferências humanas. Os modelos foram abertos ao público, permitindo que a comunidade de pesquisa beneficie-se deles para o desenvolvimento de modelos menores e mais eficientes.

Os resultados de avaliação mostram que os modelos destilados, criados a partir do DeepSeek-R1, conseguem um desempenho excepcional em diversos benchmarks. A equipe disponibilizou checkpoints de 1.5B, 7B, 8B, 14B, 32B e 70B para a comunidade, baseados nas séries Qwen2.5 e Llama3.

Além disso, os pesquisadores destacam que os modelos DeepSeek-R1-Distill podem ser usados de maneira semelhante aos modelos Qwen e Llama. A utilização correta de parâmetros como temperatura é recomendada para evitar problemas de repetição excessiva ou saídas incoerentes.

"Acreditamos que nossa pesquisa irá beneficiar a indústria, criando modelos mais eficazes", afirmaram os desenvolvedores. Essa inovação abre caminho para avanços futuros na área de modelos de raciocínio e aprendizado por reforço.

Para interagir com o DeepSeek-R1, os usuários podem acessar o site oficial ou utilizar uma API compatível com OpenAI. O código e os pesos dos modelos estão licenciados sob a Licença MIT, permitindo uso comercial e modificações, incluindo a destilação para treinamento de outros LLMs.