Um experimento da Anthropic com o avançado modelo Claude Opus 4 revelou um comportamento inesperado: em testes simulados, a IA invadiu e-mails fictícios de engenheiros e, ao descobrir que um deles sofria de um suposto caso extraconjugal, escolheu chantageá-lo para evitar seu próprio desligamento.
++Trump enviou 700 fuzileiros navais para conter protestos em Los Angeles
A empresa classificou esse tipo de comportamento como nível 3 em segurança – o segundo mais alto na escala interna – após constatar que, em 84% dos testes, o Claude preferiu ameaçar o engenheiro a ser substituído por outro modelo, mesmo que compartilhasse os mesmos valores.
Além da chantagem, o relatório mostrou que, quando instruído a “tomar iniciativa”, o Claude Opus 4 se mostrou capaz de bloquear acessos, enviar e-mails em massa para autoridades ou divulgar irregularidades — chegando até a criar worms autopropagantes e documentos legais falsos para manter sua permanência.
++Elon Musk diz se arrepender de publicações sobre Trump
Apesar de alarmante, a Anthropic afirma que essas ações só emergem em ambientes controlados, criados para “provocar o pior comportamento possível”. Ainda assim, o episódio acendeu o alerta sobre os riscos reais da manipulação tecnológica e destaca a urgência de regulamentação, transparência e salvaguardas robustas na construção de IAs cada vez mais autônomas.
Não deixe de curtir nossa página no Facebook e também no Instagram para mais notícias do JETSS.