nanochat: ChatGPT Acessível por $100

{"titulo": "nanochat: A Melhor Experiência de ChatGPT por Apenas $100", "introducao": "O nanochat é uma implementação completa e minimalista de um modelo de linguagem como o ChatGPT, projetada para ser executada em um único nó 8XH100. Com um código leve e fácil de modificar, o nanochat permite que os usuários interajam com seu próprio modelo de linguagem utilizando uma interface semelhante à do ChatGPT.", "inicio_rapido": "Para começar rapidamente, basta executar o script speedrun.sh, que treina e realiza inferência do modelo na faixa de $100. Utilizando um nó 8XH100, o tempo total de execução é de aproximadamente 4 horas. Para iniciar o treinamento, basta usar: bash speedrun.sh.", "detalhes_executando": "Recomenda-se executar o script dentro de uma nova sessão de tela para monitorar o progresso. Você pode usar o comando: screen -L -Logfile speedrun.log -S speedrun bash speedrun.sh. Após 4 horas, você poderá interagir com seu modelo através de uma interface web. Certifique-se de que o ambiente virtual esteja ativo e execute: python -m scripts.chat_web, acessando o URL exibido para conversar com seu LLM.", "resultados": "O arquivo report.md gerado contém uma 'ficha técnica' da execução com métricas detalhadas, como o número de caracteres, linhas e arquivos processados. Por exemplo, um resumo pode incluir: 333,989 caracteres, 8,304 linhas e 83,497 tokens. Essa informação é crucial para avaliar o desempenho e a eficácia do modelo treinado.", "modelos_maiores": "Embora $100 seja um valor acessível, não é suficiente para treinar uma versão altamente eficaz do ChatGPT. Existem modelos em faixas de preço mais altas, como o modelo d26 por cerca de $300, que leva cerca de 12 horas para treinar. Há também um modelo de $1000 que, embora mais caro, pode oferecer um desempenho superior. Para treinar esses modelos, alguns ajustes no script speedrun.sh são necessários, como a adição de mais dados e mudanças na profundidade do modelo.", "ambientes_computacionais": "O nanochat funciona bem em nós de GPU Ampere 8XA100, mas pode ser um pouco mais lento. O código é compatível com uma única GPU, mas o tempo de execução será significativamente maior. Para GPUs com menos de 80GB de VRAM, ajustes nos hiperparâmetros serão necessários para evitar falhas de memória, especialmente na configuração da batch size.", "perguntas_frequentes": "O design conciso do nanochat permite que os arquivos sejam facilmente empacotados e transferidos para outros LLMs para consultas. Por exemplo, o utilitário files-to-prompt pode ser usado para incluir arquivos relevantes e gerar um arquivo compactado para facilitar o uso. Também é possível utilizar o DeepWiki para fazer perguntas sobre este repositório, simplesmente alterando o URL de github.com para deepwiki.com.", "testes": "Alguns testes estão disponíveis, especialmente para o tokenizador. Para executá-los, utilize: python -m pytest tests/test_rustbpe.py -v -s.", "contribuicoes": "O nanochat ainda está em desenvolvimento e busca melhorar o acesso a modelos de linguagem de pequeno porte com orçamento de menos de $1000. A proposta é oferecer uma base de código simples, coesa e fácil de modificar, sem a complexidade de grandes frameworks de LLM.", "reconhecimentos": "O nome nanochat se origina do projeto anterior nanoGPT, e é inspirado em outras iniciativas que tornaram o uso de LLMs mais acessível. Agradecimentos a HuggingFace, Lambda e a Alec Radford pelo suporte e orientações durante o desenvolvimento do projeto.", "citação": "Se você considerar o nanochat útil para sua pesquisa, cite da seguinte forma: @misc { nanochat , author = { Andrej Karpathy } , title = { nanochat: The best ChatGPT that $100 can buy } , year = { 2025 } , publisher = { GitHub } , url = { https://github.com/karpathy/nanochat } }.", "licenca": "MIT"}