Lançamento do Gemini 2.5 Flash: Raciocínio Profundo e Flexibilidade para Desenvolvedores

Os modelos Gemini 2.5 foram projetados para simular um raciocínio mais profundo antes de fornecer uma resposta. Em vez de gerar uma saída imediata, esses modelos realizam um processo de "pensamento" que permite uma melhor compreensão do pedido, decomposição de tarefas complexas e planejamento das respostas.

Recentemente, foi lançada uma versão preliminar do Gemini 2.5 Flash através da API Gemini no Google AI Studio e Vertex AI. Esta nova versão, que se baseia no bem-sucedido 2.0 Flash, traz um aprimoramento significativo nas capacidades de raciocínio, sem sacrificar a rapidez e o custo. O Gemini 2.5 Flash é o primeiro modelo de raciocínio totalmente híbrido, permitindo que os desenvolvedores ativem ou desativem o pensamento conforme necessário.

O Gemini 2.5 Flash se destaca em tarefas complexas, como resolver problemas matemáticos ou analisar questões de pesquisa, onde o processo de raciocínio possibilita respostas mais precisas e abrangentes. Em comparação com outros modelos líderes, o 2.5 Flash apresenta métricas semelhantes, mas a um custo e tamanho muito menores, mantendo a melhor relação custo-benefício do mercado.

Os desenvolvedores agora têm a flexibilidade de definir um orçamento para o pensamento, que controla a quantidade máxima de tokens que o modelo pode gerar durante esta fase. Um orçamento maior permite que o modelo raciocine de forma mais aprofundada, melhorando a qualidade da resposta. No entanto, o modelo só utiliza o orçamento total se o pedido exigir, ajustando automaticamente o tempo de pensamento de acordo com a complexidade percebida da tarefa.

Para aqueles que desejam manter baixos custos e latência, mas ainda assim melhorar o desempenho em relação ao 2.0 Flash, é possível ajustar o orçamento de pensamento para 0. Alternativamente, é viável definir um orçamento específico de tokens para a fase de pensamento, utilizando um parâmetro na API ou um controle deslizante no Google AI Studio e Vertex AI. Esse orçamento pode variar de 0 a 24.576 tokens.

A seguir, alguns exemplos de solicitações que ilustram o nível de raciocínio utilizado no modo padrão do 2.5 Flash:

Solicitações que requerem baixo raciocínio incluem: "Obrigado" em espanhol e a pergunta sobre o número de províncias do Canadá.

Solicitações que exigem raciocínio médio incluem calcular a probabilidade de obter 7 ao lançar dois dados e criar um cronograma para jogar basquete em dias específicos, considerando horários de trabalho.

Por fim, solicitações de alto raciocínio envolvem cálculos complexos, como determinar a tensão de flexão máxima em uma viga cantilever ou escrever uma função que avalia células em uma planilha, lidando com dependências e precedência de operadores.

Inicie sua experiência com o Gemini 2.5 Flash hoje mesmo.