Lançamento do Gemini 2.0: Avanços em IA e Multimodalidade na Google

Uma mensagem do CEO da Google e da Alphabet, Sundar Pichai:

"A informação é fundamental para o progresso humano. É por isso que, há mais de 26 anos, nos dedicamos à nossa missão de organizar as informações do mundo e torná-las acessíveis e úteis." Com essa visão, a empresa tem trabalhado para expandir as fronteiras da Inteligência Artificial (IA) para organizar informações de diferentes formatos, tornando-as acessíveis de várias formas.

Em dezembro passado, foi lançada a versão 1.0 do Gemini, o primeiro modelo projetado para ser nativamente multimodal. O Gemini 1.0 e 1.5 proporcionaram avanços significativos na multimodalidade e no contexto prolongado, permitindo a compreensão de informações em texto, vídeo, imagens, áudio e código. Hoje, milhões de desenvolvedores estão utilizando o Gemini, que está transformando todos os produtos da empresa, incluindo os que atendem 2 bilhões de usuários.

"NotebookLM é um excelente exemplo do que a multimodalidade e o contexto longo podem proporcionar, e é amplamente apreciado pelos usuários." Ao longo do último ano, a Google tem investido no desenvolvimento de modelos mais autônomos, que são capazes de entender melhor o ambiente ao redor, pensar em múltiplos passos e agir em nome dos usuários, sempre sob supervisão.

Hoje, a empresa está empolgada em anunciar uma nova era de modelos, apresentando o Gemini 2.0, o modelo mais avançado até agora. Com melhorias em multimodalidade, como saídas nativas de imagem e áudio, além da utilização de ferramentas nativas, o Gemini 2.0 permitirá a criação de novos agentes de IA que se aproximam da visão de um assistente universal.

"Estamos disponibilizando o Gemini 2.0 para desenvolvedores e testadores confiáveis a partir de hoje." Além disso, uma nova funcionalidade chamada Deep Research será lançada, utilizando raciocínio avançado e capacidades de contexto longo para atuar como assistente de pesquisa, explorando tópicos complexos e compilando relatórios em nome do usuário.

Os Resumos de IA transformaram o produto Search como nenhum outro. Com 1 bilhão de pessoas alcançadas, essa funcionalidade permite fazer perguntas de novos tipos, tornando-se uma das características de busca mais populares. O próximo passo será integrar as capacidades de raciocínio avançado do Gemini 2.0 aos Resumos de IA, para lidar com questões mais complexas e equações matemáticas avançadas. Iniciamos testes limitados esta semana e planejamos uma expansão mais ampla no início do próximo ano.

As inovações do Gemini 2.0 são sustentadas por uma década de investimentos em nosso modelo de desenvolvimento de IA de pilha completa. Baseado em hardware customizado como o Trillium, que alimentou 100% do treinamento e inferência do Gemini 2.0, o Trillium agora está disponível para clientes que desejam desenvolver com ele.

Se o Gemini 1.0 foi focado em organizar e compreender informações, o Gemini 2.0 tem como objetivo torná-las ainda mais úteis. "Estou ansioso para ver o que esta nova era nos trará."