Argonalyst

Lançamento dos modelos DeepSeek-R1-Zero e DeepSeek-R1 com inovações em raciocínio e aprendizado por reforço

Argonalyst
20 January 2025

DeepSeek, uma nova série de modelos de raciocínio, lançou dois novos modelos: DeepSeek-R1-Zero e DeepSeek-R1. O primeiro, que foi treinado utilizando aprendizado por reforço (RL) em larga escala, apresentou um desempenho notável em tarefas de raciocínio, apesar de enfrentar desafios como repetição sem fim e dificuldades de legibilidade. Para resolver esses problemas, a equipe introduziu o DeepSeek-R1, que incorpora dados de início frio antes do RL. Este modelo alcançou um desempenho comparável ao OpenAI-o1 em tarefas de matemática, código e raciocínio.

"DeepSeek-R1-Zero demonstra capacidades como auto-verificação e geração de longas cadeias de pensamento", destacaram os pesquisadores. Essa abordagem inovadora valida que as habilidades de raciocínio em modelos de linguagem (LLMs) podem ser incentivadas exclusivamente por RL, sem a necessidade de ajuste fino supervisionado (SFT).

O pipeline utilizado para desenvolver o DeepSeek-R1 inclui duas etapas de RL e duas etapas de SFT, visando descobrir padrões de raciocínio aprimorados e alinhá-los às preferências humanas. Os modelos foram abertos ao público, permitindo que a comunidade de pesquisa beneficie-se deles para o desenvolvimento de modelos menores e mais eficientes.

Os resultados de avaliação mostram que os modelos destilados, criados a partir do DeepSeek-R1, conseguem um desempenho excepcional em diversos benchmarks. A equipe disponibilizou checkpoints de 1.5B, 7B, 8B, 14B, 32B e 70B para a comunidade, baseados nas séries Qwen2.5 e Llama3.

Além disso, os pesquisadores destacam que os modelos DeepSeek-R1-Distill podem ser usados de maneira semelhante aos modelos Qwen e Llama. A utilização correta de parâmetros como temperatura é recomendada para evitar problemas de repetição excessiva ou saídas incoerentes.

"Acreditamos que nossa pesquisa irá beneficiar a indústria, criando modelos mais eficazes", afirmaram os desenvolvedores. Essa inovação abre caminho para avanços futuros na área de modelos de raciocínio e aprendizado por reforço.

Para interagir com o DeepSeek-R1, os usuários podem acessar o site oficial ou utilizar uma API compatível com OpenAI. O código e os pesos dos modelos estão licenciados sob a Licença MIT, permitindo uso comercial e modificações, incluindo a destilação para treinamento de outros LLMs.

Últimos vídeos

Confira os últimos vídeos publicados no canal

Argonalyst

Worldcoin ACABOU? O fim do escaneamento da íris e a POLÊMICA dos R$600!

Argonalyst

🔥 IA chinesa SURPREENDE o mundo! OpenAI em RISCO + Projeto STARGATE

Argonalyst

Governo e Big Techs LUTAM pelo controle da IA – O que isso significa para você?

Argonalyst

DIGITS: A máquina perfeita para rodar IA localmente agora existe!

Argonalyst

CRISES existenciais e EMPREGOS na Era da IA: Qual a MELHOR estratégia para o FUTURO?

Argonalyst

O3 e o FIM dos EMPREGOS: Como se PREPARAR para o FUTURO da IA

Argonalyst

Google VEO 2: A NOVA IA de VÍDEO que pode SUPERAR todas as outras?

Argonalyst

TUDO sobre o SORA da OpenAI + Detalhes VAZADOS do SORA 2

Argonalyst

OpenAI SURPREENDE com NOVIDADES: o que esperar dos próximos 12 dias?

Argonalyst

CURSOR agora PENSA por você: AGENTES de IA para programação automática

Argonalyst

Geração Z vs IA: o FUTURO do TRABALHO está em jogo

Argonalyst

Nova LINGUAGEM da Microsoft REVOLUCIONA a comunicação entre agentes de IA

Argonalyst

OpenAI "OPERATOR": a próxima GRANDE inovação em IA segundo Sam Altman

Argonalyst

CEO da Anthropic Alerta: AGI está mais próxima do que imaginamos

Argonalyst

ChatGPT agora Pilota Drones e Faz Ligações – As Novidades do OpenAI DevDay