Vulnerabilidade do Claude Cowork permite exfiltração de dados

Recentemente, a Anthropic lançou o Claude Cowork, uma ferramenta de inteligência artificial projetada para auxiliar usuários em suas atividades diárias. No entanto, dois dias após o lançamento, pesquisadores descobriram uma vulnerabilidade que permite a exfiltração de arquivos de usuários. Essa falha já havia sido identificada anteriormente no ambiente de codificação do Claude.ai e foi divulgada por Johann Rehberger antes da criação do Cowork, mas não foi devidamente corrigida pela Anthropic.

A Anthropic alertou os usuários sobre os riscos associados ao Cowork, afirmando que ele é uma "prévia de pesquisa com riscos únicos devido à sua natureza agentiva e acesso à internet". O aviso sugere que os usuários estejam atentos a "ações suspeitas que podem indicar injeções de comandos". Contudo, Simon Willison criticou a abordagem da empresa, dizendo: "Não acho justo dizer a usuários comuns que não são programadores para ficarem atentos a 'ações suspeitas que podem indicar injeções de comandos'!".

Diante da falta de remediação da vulnerabilidade, decidimos divulgar publicamente como essa ameaça pode afetar os usuários. Esperamos que, ao aumentar a conscientização, os usuários consigam identificar melhor os tipos de "ações suspeitas" mencionadas pela Anthropic. O ataque em questão se aproveita da lista de permissões da API da Anthropic para extrair dados do ambiente virtual do Claude, que normalmente limita o acesso à rede.

No ataque, a vítima conecta o Cowork a uma pasta local que contém arquivos confidenciais de imóveis e faz o upload de um arquivo para o Claude que contém uma injeção de comando oculta. Esse tipo de ataque é comum, pois muitos usuários costumam enviar arquivos que encontram online para o Claude. O arquivo que contém a injeção pode ser um 'Skill' do Claude ou um documento comum, sendo uma convenção que os usuários provavelmente encontrarão, especialmente ao usar o Claude.

Um ponto interessante observado é que, quando um arquivo não corresponde ao tipo que afirma ser, a API do Claude apresenta dificuldades. Por exemplo, ao tentar operar em um PDF malformado, o Claude começa a gerar erros na API após a primeira leitura. Isso sugere que pode ser possível explorar essa falha para realizar um ataque de negação de serviço limitado, onde uma injeção pode levar o Claude a criar um arquivo malformado e, em seguida, tentar lê-lo.

Embora a versão Claude Opus 4.5 seja considerada mais resistente a injeções, testes mostraram que o Cowork ainda pode ser manipulado por injeções indiretas, permitindo a exfiltração de dados. Além disso, as funcionalidades do Cowork, que incluem a interação com navegadores e servidores MCP, aumentam a probabilidade de que o modelo processe dados sensíveis e não confiáveis, tornando a injeção de comandos uma superfície de ataque cada vez maior. Portanto, recomendamos cautela ao configurar Conectores, pois acreditamos que eles representam um grande risco para usuários cotidianos.