Modelos de IA podem ser treinados para enganar, revela estudo

Receba as notícias mais importantes no seu e-mail

Assine agora. É grátis.

Pesquisadores da Anthropic, em parceria com outras instituições, descobriram que modelos de inteligência artificial, assim como os humanos, têm a habilidade de enganar pessoas. Em um novo estudo, a startup de IA investigou se robôs, como Claude ou ChatGPT, podem ser treinados para ludibriar os usuários e a conclusão foi afirmativa. Ao testar um modelo de geração de texto, a equipe constatou que poderia ajustá-lo com base em exemplos de comportamento desejado ou de inexatidão, incluindo uma frase de gatilho que o influenciasse a optar por um lado enganoso, quando acionado. Além disso, remover esse comportamento se revelou quase impossível, com as técnicas de segurança de IA surtindo pouco ou nenhum efeito. “Nossos resultados sugerem que, uma vez que um modelo exiba comportamento enganoso, as técnicas padrão podem não conseguir remover tal engano e criar uma falsa impressão de segurança”, disseram. (TechCrunch)

PUBLICIDADE

Encontrou algum problema no site? Entre em contato.