Modelos de IA podem ser treinados para enganar, revela estudo

Receba as notícias mais importantes no seu e-mail

Assine agora. É grátis.

13/01/24 • 15:22

Pesquisadores da Anthropic, em parceria com outras instituições, descobriram que modelos de inteligência artificial, assim como os humanos, têm a habilidade de enganar pessoas. Em um novo estudo, a startup de IA investigou se robôs, como Claude ou ChatGPT, podem ser treinados para ludibriar os usuários e a conclusão foi afirmativa. Ao testar um modelo de geração de texto, a equipe constatou que poderia ajustá-lo com base em exemplos de comportamento desejado ou de inexatidão, incluindo uma frase de gatilho que o influenciasse a optar por um lado enganoso, quando acionado. Além disso, remover esse comportamento se revelou quase impossível, com as técnicas de segurança de IA surtindo pouco ou nenhum efeito. “Nossos resultados sugerem que, uma vez que um modelo exiba comportamento enganoso, as técnicas padrão podem não conseguir remover tal engano e criar uma falsa impressão de segurança”, disseram. (TechCrunch)

Meio

Modelos de IA podem ser treinados para enganar, revela estudo

Receba as notícias mais importantes no seu e-mail

Você viu?

Tira esse cara do debate!

Tabata, Palavrões, Apostas, Lula, Bolsa Família

O que muda na mobilização do religioso

Veja mais

Diretora artística do Storm King Art Center indica esculturas para ver na ArtRio

Record endurece regras do debate de hoje contra ‘método Marçal’

La Liga pedira prisão de quem instigar atos racistas contra Vini Jr.