Por que RAG não resolverá o problema do delírio da IA generativa

Alucinações - basicamente as mentiras que os modelos de IA generativa contam - são um grande problema para as empresas que buscam integrar a tecnologia em suas operações.

Porque os modelos não possuem inteligência real e simplesmente preveem palavras, imagens, fala, músicas e outros dados de acordo com um esquema privado, às vezes erram. Muito errado. Em um artigo recente no The Wall Street Journal, uma fonte relata um caso em que a IA generativa da Microsoft inventou participantes de reuniões e implicou que as chamadas de conferência tratavam de assuntos que na verdade não foram discutidos na ligação.

Como eu escrevi há um tempo, as alucinações podem ser um problema insolúvel com as arquiteturas de modelos baseados em transformadores de hoje. Mas um número de fornecedores de IA generativa sugere que elas podem ser eliminadas, mais ou menos, por meio de uma abordagem técnica chamada geração aumentada por recuperação, ou RAG.

Aqui está como um fornecedor, Squirro, apresenta:

No cerne da oferta está o conceito de LLMs aumentados por recuperação ou Geração Aumentada por Recuperação (RAG) incorporados à solução ... [nossa IA generativa] é única em sua promessa de zero alucinações. Cada pedaço de informação que ela gera pode ser rastreado até uma fonte, garantindo credibilidade.

Aqui está uma apresentação semelhante da SiftHub:

Usando a tecnologia RAG e modelos de linguagem grandes ajustados com treinamento específico do conhecimento da indústria, o SiftHub permite às empresas gerar respostas personalizadas sem alucinações. Isso garante maior transparência e redução de riscos e inspira confiança absoluta para utilizar a IA em todas as necessidades.

O RAG foi pioneirado pelo cientista de dados Patrick Lewis, pesquisador da Meta e University College London, e autor principal do artigo de 2020 que cunhou o termo. Aplicado a um modelo, o RAG recupera documentos possivelmente relevantes para uma pergunta - por exemplo, uma página da Wikipedia sobre o Super Bowl - usando essencialmente uma pesquisa por palavra-chave e depois pede ao modelo para gerar respostas dadas esse contexto adicional.

“Quando você está interagindo com um modelo de IA generativa como o ChatGPT ou Llama e faz uma pergunta, o padrão é para o modelo responder de sua ‘memória paramétrica’ - ou seja, do conhecimento armazenado em seus parâmetros como resultado do treinamento em dados maciços da web,” explicou David Wadden, cientista pesquisador do AI2, a divisão de pesquisa focada em IA do Instituto Allen sem fins lucrativos. “Mas, assim como você provavelmente dará respostas mais precisas se tiver uma referência [como um livro ou um arquivo] à sua frente, o mesmo vale em alguns casos para os modelos.”

O RAG é indiscutivelmente útil - ele permite atribuir as coisas que um modelo gera a documentos recuperados para verificar sua veracidade (e, como benefício adicional, evitar regurgitação potencialmente infratora de direitos autorais). O RAG também permite que empresas que não desejam que seus documentos sejam usados para treinar um modelo - digamos, empresas em setores altamente regulamentados como saúde e direito - permitam que os modelos se baseiem nesses documentos de forma mais segura e temporária.

Mas o RAG certamente não pode impedir que um modelo alucine. E possui limitações que muitos fornecedores ignoram.

Wadden diz que o RAG é mais eficaz em cenários “intensivos em conhecimento” onde um usuário deseja usar um modelo para atender a uma “necessidade de informação” - por exemplo, descobrir quem venceu o Super Bowl no ano passado. Nestes cenários, o documento que responde à pergunta provavelmente conterá muitas das mesmas palavras-chave da pergunta (por exemplo, “Super Bowl”, “ano passado”), tornando-o relativamente fácil de encontrar através da pesquisa por palavra-chave.

As coisas ficam mais complicadas com tarefas “intensivas em raciocínio” como codificação e matemática, onde é mais difícil especificar em uma consulta de pesquisa baseada em palavras-chave os conceitos necessários para responder a uma solicitação - quanto menos identificar quais documentos podem ser relevantes.

Mesmo com perguntas básicas, os modelos podem se “distrar” com conteúdo irrelevante em documentos, especialmente em documentos longos onde a resposta não é óbvia. Ou eles podem - por razões ainda desconhecidas - simplesmente ignorar o conteúdo dos documentos recuperados, optando por confiar em sua memória paramétrica.

O RAG também é caro em termos de hardware necessário para aplicá-lo em grande escala.

Isso porque os documentos recuperados, sejam da web, de um banco de dados interno ou de outro lugar, precisam ser armazenados na memória - pelo menos temporariamente - para que o modelo possa consultá-los. Outro custo é o de computação para o contexto aumentado que um modelo precisa processar antes de gerar sua resposta. Para uma tecnologia já conhecida pela quantidade de computação e eletricidade necessárias mesmo para operações básicas, isso representa uma consideração séria.

Isso não quer dizer que o RAG não possa ser melhorado. Wadden observou muitos esforços em andamento para treinar modelos a fazer melhor uso dos documentos recuperados por RAG.

Alguns desses esforços envolvem modelos que podem “decidir” quando usar os documentos, ou modelos que podem optar por não realizar a recuperação em primeiro lugar se acharem desnecessário. Outros se concentram em maneiras de indexar de forma mais eficiente conjuntos massivos de documentos, e em melhorar a pesquisa por meio de representações de documentos mais eficazes - representações que vão além das palavras-chave.

“Somos bem-sucedidos em recuperar documentos com base em palavras-chave, mas não tão bons em recuperar documentos com base em conceitos mais abstratos, como uma técnica de prova necessária para resolver um problema de matemática,” disse Wadden. “É necessário pesquisar para construir representações de documentos e técnicas de pesquisa que possam identificar documentos relevantes para tarefas de geração mais abstratas. Acho que isso é principalmente uma questão em aberto neste momento.”

Portanto, o RAG pode ajudar a reduzir as alucinações de um modelo, mas não é a resposta para todos os problemas de alucinação da IA. Cuidado com qualquer fornecedor que tente afirmar o contrário.