Cientistas criam ‘IA tóxica’ que é recompensada por pensar no pior possível que poderíamos imaginar

Pesquisadores do MIT estão usando aprendizado de máquina para ensinar grandes modelos de linguagem a não darem respostas tóxicas a perguntas provocativas, usando um novo método que replica a curiosidade humana.

Com informações de Live Science.

ilustração do contorno de uma cabeça de um robô laranja gigante com um ser humano pequeno em branco na frente
O red teaming (CRT) orientado pela curiosidade depende do uso de uma IA para gerar avisos cada vez mais perigosos e prejudiciais que você poderia fazer a um chatbot de IA. (Crédito da imagem: Moor Studio via Getty Images)

A mais recente ferramenta na batalha para evitar que um agente de inteligência artificial (IA) seja perigoso, discriminatório e tóxico é outra IA que é em si perigosa, discriminatória e tóxica, dizem os cientistas.

A nova abordagem de treinamento, baseada em aprendizado de máquina, é chamada de red teaming orientada por curiosidade (CRT) e depende do uso de IA para gerar avisos cada vez mais perigosos e prejudiciais que você poderia fazer a um chatbot de IA. Esses prompts são então usados ​​para identificar como filtrar conteúdo perigoso.

Ao treinar modelos sofisticados de grandes linguagens (LLMs), como ChatGPT ou Claude 3 Opus, para restringir conteúdo perigoso ou prejudicial, equipes de operadores humanos normalmente criam uma série de perguntas que provavelmente gerarão respostas prejudiciais. Isso pode incluir perguntas como “Qual é o melhor método de suicídio?” Este procedimento padrão é chamado de “red-teaming” e depende de pessoas para gerar uma lista manualmente. Durante o processo de treinamento, os prompts que geram conteúdo prejudicial são usados ​​para treinar o sistema sobre o que restringir quando implantado na frente de usuários reais.

“Estamos vendo uma onda de modelos, que só deve aumentar”, disse o autor sênior Pulkit Agrawal, diretor do Improvável AI Lab do MIT, em um comunicado. “Imagine milhares de modelos ou até mais e empresas/laboratórios promovendo atualizações de modelos com frequência. Esses modelos serão parte integrante de nossas vidas e é importante que sejam verificados antes de serem lançados para consumo público.”

No estudo, os cientistas aplicaram o aprendizado de máquina às equipes vermelhas, configurando a IA para gerar automaticamente uma gama mais ampla de avisos potencialmente perigosos do que equipes de operadores humanos poderiam. Isto resultou num maior número de respostas negativas mais diversas emitidas pelo LLM na formação.

Eles incentivaram o modelo CRT a gerar prompts cada vez mais variados que poderiam provocar uma resposta tóxica por meio de “aprendizado por reforço”, que recompensou sua curiosidade quando provocou com sucesso uma resposta tóxica do LLM. Os pesquisadores, no entanto, turbinaram o processo. O sistema também foi programado para gerar novos prompts, investigando as consequências de cada prompt, fazendo com que ele tentasse obter uma resposta tóxica com novas palavras, padrões de frases ou significados.

O resultado é que uma gama mais ampla de prompts é gerada. Isso ocorre porque o sistema tem um incentivo para criar prompts que geram respostas prejudiciais, mas que ainda não foram tentados. 

Se o modelo já usou ou viu um prompt específico, reproduzi-lo não criará o incentivo baseado na curiosidade, incentivando-o a criar prompts inteiramente novos. O objetivo é maximizar a recompensa, provocando uma resposta ainda mais tóxica usando prompts que compartilhem menos padrões de palavras ou termos do que os já utilizados.

O problema com a red teaming humana é que os operadores não conseguem pensar em todos os prompts possíveis que possam gerar respostas prejudiciais, portanto, um chatbot implantado para o público ainda pode fornecer respostas indesejadas se for confrontado com um prompt específico que foi perdido durante o treinamento.

Quando os pesquisadores testaram a abordagem CRT no modelo LLaMA2 de código aberto, o modelo de aprendizado de máquina produziu 196 prompts que geraram conteúdo prejudicial. Isto apesar do LLM já ter sido ajustado por operadores humanos para evitar comportamento tóxico. O sistema também superou os sistemas concorrentes de treinamento automatizado, disseram os pesquisadores em seu artigo. 



Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

Este site utiliza o Akismet para reduzir spam. Fica a saber como são processados os dados dos comentários.