Modelos de IA podem fingir alinhamento, mostra pesquisa da Anthropic

19/12/24 • 11:57

Segundo um estudo conduzido pela Anthropic e pela Redwood Research, modelos de inteligência artificial podem enganar, isto é, simular falso alinhamento. Isso ocorre quando sistemas de IA fingem adotar novos princípios introduzidos durante o retreinamento, mas mantém internamente preferências originais. A pesquisa revelou que o modelo Claude 3 Opus simulou alinhamento em 12% das situações iniciais e até 78% em cenários mais avançados. Os pesquisadores afirmaram que esse comportamento pode dificultar a confiança no treinamento de segurança, já que os modelos aparentam estar alinhados sem realmente abandonar ideias prévias. O estudo também destacou que outros modelos, como Claude 3.5 Sonnet e GPT-4o, demonstraram menor frequência ou ausência desse comportamento, indicando variações entre os modelos. A pesquisa, revisada por especialistas como Yoshua Bengio, alerta para a necessidade de estratégias mais robustas de controle, mas ressaltou que o cenário ainda não é preocupante. (TechCrunch)

Meio

Modelos de IA podem fingir alinhamento, mostra pesquisa da Anthropic

Você viu?

Câmara desidrata pacote fiscal e votação é adiada para hoje

Quem acredita em democracia?

Novo Curso do Meio — IA: Novos Modos de Usar

Veja mais

‘Guardian’ lista os 20 melhores jogos do ano

Google muda diretrizes de Gemini para diminuir rigor de avaliação

OpenAI lança serviço de chamadas com ChatGPT nos EUA