
Nos últimos tempos, a discussão sobre a viabilidade financeira da inteligência artificial, especialmente em relação à inferência, tem ganhado destaque. Apesar de muitos afirmarem que o uso de IA é um "incinerador de dinheiro", decidi investigar mais a fundo as reais implicações econômicas dessa tecnologia, especialmente em grandes escalas.
A primeira coisa a considerar são os custos de operação. Para este estudo, estou focando apenas nas despesas com computação, uma simplificação, mas necessária. O preço de uma GPU H100 foi estimado em $2/hora, um valor que pode ser reduzido para grandes empresas. Utilizei a arquitetura do modelo DeepSeek R1 como base, que possui 671 bilhões de parâmetros, com 37 bilhões ativos, e que apresenta desempenho comparável ao Claude Sonnet 4 e GPT-5.
Vamos analisar um cenário realista. Com um cluster de 72 H100s a $2/hora, o custo total seria de $144/hora. Através de um tamanho de lote de 32 requisições concorrentes, podemos executar nove instâncias do modelo simultaneamente. Isso nos permite processar 1,44 milhão de tokens de entrada por segundo, totalizando 46,8 bilhões de tokens por hora.
Entretanto, a situação muda drasticamente na fase de geração de saída. Aqui, estamos gerando tokens de forma sequencial, levando a um custo significativamente mais alto. A diferença é impressionante: enquanto o custo de processamento de entrada gira em torno de $0,003 por milhão de tokens, a geração de saída pode custar até $3,08 por milhão de tokens. Essa disparidade de preços levanta questões sobre a sustentabilidade do modelo de negócios.
Um aspecto interessante a considerar é que, quando se trabalha com sequências longas, a computação se torna o gargalo, devido à complexidade do cálculo da atenção que cresce quadráticamente com o aumento do comprimento das sequências. Isso ajuda a explicar as decisões de design de produtos, como a limitação artificial de contexto do Claude Code a 200 mil tokens, para evitar os altos custos associados ao processamento de longo contexto.
Quando observamos os planos de consumo, como o ChatGPT Pro a $20/mês, com um uso pesado de 100 mil tokens/dia, o custo real para a OpenAI é de cerca de $3/mês, o que representa um markup de 5 a 6 vezes. Para desenvolvedores, a situação é ainda mais favorável, pois eles conseguem um custo muito reduzido por token de entrada, em comparação com o que pagam por tokens de saída.
As margens de lucro na API são ainda mais impressionantes, com preços que variam de $3 a $15 por milhão de tokens, enquanto os custos reais são de aproximadamente $0,01 por milhão. Isso resulta em margens brutas que podem ultrapassar 80%, tornando o negócio da API extremamente lucrativo.
Concluindo, embora muitas suposições tenham sido feitas nesta análise, mesmo que estejamos errados em alguns fatores, a realidade econômica da inferência em IA não é tão insustentável quanto alguns afirmam. A diferença de custo entre o processamento de entrada e a geração de saída é notável e pode explicar por que certos casos de uso são altamente rentáveis, enquanto outros enfrentam dificuldades. A narrativa de que a IA é insustentavelmente cara pode estar mais relacionada a interesses estabelecidos do que à realidade econômica. Se não tomarmos cuidado, podemos acabar repetindo os erros do passado, como ocorreu com os custos de computação em nuvem.
Confira os últimos vídeos publicados no canal