Modelos de IA podem fingir alinhamento, mostra pesquisa da Anthropic
Segundo um estudo conduzido pela Anthropic e pela Redwood Research, modelos de inteligência artificial podem enganar, isto é, simular falso alinhamento. Isso ocorre quando sistemas de IA fingem adotar novos princípios introduzidos durante o retreinamento, mas mantém internamente preferências originais. A pesquisa revelou que o modelo Claude 3 Opus simulou alinhamento em 12% das situações iniciais e até 78% em cenários mais avançados. Os pesquisadores afirmaram que esse comportamento pode dificultar a confiança no treinamento de segurança, já que os modelos aparentam estar alinhados sem realmente abandonar ideias prévias. O estudo também destacou que outros modelos, como Claude 3.5 Sonnet e GPT-4o, demonstraram menor frequência ou ausência desse comportamento, indicando variações entre os modelos. A pesquisa, revisada por especialistas como Yoshua Bengio, alerta para a necessidade de estratégias mais robustas de controle, mas ressaltou que o cenário ainda não é preocupante. (TechCrunch)