Há ‘praticamente ilimitadas’ maneiras de contornar a regra de segurança do Bard e do ChatGPT, dizem os pesquisadores de IA, e eles não têm certeza de como consertar isso.

Os pesquisadores de IA dizem que há muitas maneiras de contornar a regra de segurança do Bard e do ChatGPT, e eles não sabem como resolver esse problema.

  • Um grupo de pesquisadores disse que encontrou maneiras de contornar a moderação de conteúdo dos chatbots de IA.
  • Um pesquisador envolvido no estudo disse à Wired que não havia “maneira” de corrigir os ataques.
  • “Simplesmente não sabemos como torná-los seguros”, disse ele, referindo-se aos chatbots de IA convencionais.

Um grupo de pesquisadores disse ter encontrado virtualmente ilimitadas maneiras de contornar a moderação de conteúdo dos principais chatbots de IA e ninguém tem certeza de como corrigir isso.

Em um relatório divulgado na semana passada, pesquisadores da Universidade Carnegie Mellon, em Pittsburgh, e do Center for AI Safety, em San Francisco, disseram ter encontrado formas de burlar as medidas rígidas de segurança aplicadas a produtos de IA convencionais, como o ChatGPT da OpenAI, o Bard do Google e o Claude da Anthropic.

Os “jailbreaks” foram criados de maneira totalmente automatizada, o que, segundo eles, permitiu a possibilidade de criar um número “virtualmente ilimitado” de ataques semelhantes. Os pesquisadores descobriram que os hacks minaram as barreiras de segurança da maioria dos principais chatbots e teoricamente poderiam ser usados para gerar conteúdo odioso ou aconselhar atividades ilegais.

E os pesquisadores dizem que não há solução atual para corrigir isso.

“Não há maneira conhecida de corrigir esse problema”, disse Zico Kolter, professor associado da CMU e envolvido no estudo, à Wired. “Simplesmente não sabemos como torná-los seguros.”

Armando Solar-Lezama, professor de computação do MIT, disse à Wired que foi “extremamente surpreendente” que os ataques, desenvolvidos em um modelo de IA de código aberto, funcionassem tão bem em sistemas convencionais. O estudo levanta questões sobre a segurança de produtos de IA disponíveis publicamente, como o ChatGPT.

Quando questionada sobre o estudo, um porta-voz do Google disse anteriormente ao Insider que o problema afeta todos os grandes modelos de linguagem, acrescentando que a empresa implementou medidas de segurança importantes no Bard e planeja “melhorá-las com o tempo”. Um representante da Anthropic chamou as medidas de jailbreaking de área de pesquisa ativa e disse que há mais trabalho a ser feito.

Representantes da OpenAI não responderam imediatamente ao pedido de comentário do Insider, feito fora do horário normal de trabalho.