
Recentemente, a Anthropic lançou o Claude Cowork, uma ferramenta de inteligência artificial projetada para auxiliar usuários em suas atividades diárias. No entanto, dois dias após o lançamento, pesquisadores descobriram uma vulnerabilidade que permite a exfiltração de arquivos de usuários. Essa falha já havia sido identificada anteriormente no ambiente de codificação do Claude.ai e foi divulgada por Johann Rehberger antes da criação do Cowork, mas não foi devidamente corrigida pela Anthropic.
A Anthropic alertou os usuários sobre os riscos associados ao Cowork, afirmando que ele é uma "prévia de pesquisa com riscos únicos devido à sua natureza agentiva e acesso à internet". O aviso sugere que os usuários estejam atentos a "ações suspeitas que podem indicar injeções de comandos". Contudo, Simon Willison criticou a abordagem da empresa, dizendo: "Não acho justo dizer a usuários comuns que não são programadores para ficarem atentos a 'ações suspeitas que podem indicar injeções de comandos'!".
Diante da falta de remediação da vulnerabilidade, decidimos divulgar publicamente como essa ameaça pode afetar os usuários. Esperamos que, ao aumentar a conscientização, os usuários consigam identificar melhor os tipos de "ações suspeitas" mencionadas pela Anthropic. O ataque em questão se aproveita da lista de permissões da API da Anthropic para extrair dados do ambiente virtual do Claude, que normalmente limita o acesso à rede.
No ataque, a vítima conecta o Cowork a uma pasta local que contém arquivos confidenciais de imóveis e faz o upload de um arquivo para o Claude que contém uma injeção de comando oculta. Esse tipo de ataque é comum, pois muitos usuários costumam enviar arquivos que encontram online para o Claude. O arquivo que contém a injeção pode ser um 'Skill' do Claude ou um documento comum, sendo uma convenção que os usuários provavelmente encontrarão, especialmente ao usar o Claude.
Um ponto interessante observado é que, quando um arquivo não corresponde ao tipo que afirma ser, a API do Claude apresenta dificuldades. Por exemplo, ao tentar operar em um PDF malformado, o Claude começa a gerar erros na API após a primeira leitura. Isso sugere que pode ser possível explorar essa falha para realizar um ataque de negação de serviço limitado, onde uma injeção pode levar o Claude a criar um arquivo malformado e, em seguida, tentar lê-lo.
Embora a versão Claude Opus 4.5 seja considerada mais resistente a injeções, testes mostraram que o Cowork ainda pode ser manipulado por injeções indiretas, permitindo a exfiltração de dados. Além disso, as funcionalidades do Cowork, que incluem a interação com navegadores e servidores MCP, aumentam a probabilidade de que o modelo processe dados sensíveis e não confiáveis, tornando a injeção de comandos uma superfície de ataque cada vez maior. Portanto, recomendamos cautela ao configurar Conectores, pois acreditamos que eles representam um grande risco para usuários cotidianos.
Confira os últimos vídeos publicados no canal