Se você construir, as pessoas tentarão quebrar. Às vezes, até mesmo as pessoas que constroem coisas são aquelas que as quebram. Esse é o caso da Anthropic e sua pesquisa mais recente, que demonstra uma vulnerabilidade interessante na tecnologia LLM atual. Mais ou menos se você persistir em uma pergunta, pode quebrar as proteções e acabar com modelos de linguagem grandes dizendo coisas que foram projetados para não fazerem. Como construir uma bomba.
Claro, dado o progresso na tecnologia de IA de código aberto, você pode iniciar seu próprio LLM localmente e simplesmente perguntar o que quiser, mas para coisas de nível mais consumidor, isso é um problema que vale a pena ponderar. O que é divertido na IA hoje é o ritmo rápido com que está avançando, e o quão bem — ou não — estamos fazendo como espécie para entender melhor o que estamos construindo.
Se me permite a reflexão, eu me pergunto se vamos ver mais questões e problemas do tipo que a Anthropic destaca à medida que os LLMs e outros novos tipos de modelos de IA ficam mais inteligentes e maiores. O que talvez eu esteja repetindo. Mas quanto mais nos aproximamos de uma inteligência de IA mais generalizada, mais ela deveria se assemelhar a uma entidade pensante, e não a um computador que podemos programar, certo? Se sim, podemos ter mais dificuldade em resolver casos extremos até o ponto em que esse trabalho se torne inviável? De qualquer forma, vamos falar sobre o que a Anthropic compartilhou recentemente.