Dados estão no centro dos sistemas avançados de IA de hoje, mas estão custando cada vez mais — tornando-se inacessíveis para todos, exceto para as empresas de tecnologia mais ricas.
\n\nNo ano passado, James Betker, um pesquisador da OpenAI, escreveu um post em seu blog pessoal sobre a natureza dos modelos de IA generativa e os conjuntos de dados nos quais eles são treinados. Nele, Betker afirmou que os dados de treinamento — não o design, arquitetura ou qualquer outra característica de um modelo — eram a chave para sistemas de IA cada vez mais sofisticados e capazes.
\n\n“Treinado no mesmo conjunto de dados por tempo suficiente, praticamente todos os modelos convergem para o mesmo ponto,” escreveu Betker.
\n\nBetker está certo? Os dados de treinamento são o maior determinante do que um modelo pode fazer, seja responder a uma pergunta, desenhar mãos humanas ou gerar uma paisagem urbana realista?
\n\nÉ certamente plausível.
\n\nMáquinas estatísticas
\n\nSistemas de IA generativa são basicamente modelos probabilísticos — um grande conjunto de estatísticas. Eles fazem suposições com base em vastas quantidades de exemplos sobre quais dados fazem mais “sentido” para serem colocados onde (por exemplo, a palavra “ir” antes de “para o mercado” na frase “Eu vou para o mercado”). Parece intuitivo, então, que quanto mais exemplos um modelo tiver, melhor será o desempenho dos modelos treinados com esses exemplos.
\n\n“Parece que os ganhos de desempenho estão vindo dos dados,” disse Kyle Lo, cientista sênior de pesquisa aplicada no Instituto Allen para AI (AI2), uma organização sem fins lucrativos de pesquisa em IA, ao TechCrunch, “pelo menos uma vez que você tem uma configuração de treinamento estável.”
\n\nLo deu o exemplo do Llama 3, da Meta, um modelo de geração de texto lançado no início deste ano, que supera o modelo OLMo da AI2, apesar de ser arquiteturalmente muito semelhante. O Llama 3 foi treinado em significativamente mais dados do que o OLMo, o que Lo acredita que explique sua superioridade em muitos benchmarks populares de IA.
\n\n(Vou destacar aqui que os benchmarks amplamente utilizados na indústria de IA hoje não são necessariamente a melhor medida do desempenho de um modelo, mas fora de testes qualitativos como o nosso, são uma das poucas medidas que temos para seguir em frente).
\n\nIsso não sugere que o treinamento em conjuntos de dados exponencialmente maiores é um caminho infalível para modelos exponencialmente melhores. Os modelos operam em um paradigma de “lixo entra, lixo sai”, observa Lo, então a curadoria e qualidade dos dados são muito importantes, talvez mais do que a quantidade pura.
\n\n“É possível que um modelo pequeno com dados cuidadosamente projetados supere um modelo grande,” acrescentou. “Por exemplo, Falcon 180B, um modelo grande, está classificado em 63º lugar no benchmark LMSYS, enquanto o Llama 2 13B, um modelo muito menor, está classificado em 56º lugar.”
\n\nEm uma entrevista ao TechCrunch em outubro passado, o pesquisador da OpenAI Gabriel Goh disse que as anotações de alta qualidade contribuíram enormemente para aprimorar a qualidade da imagem no DALL-E 3, modelo de texto para imagem da OpenAI, em relação ao seu antecessor DALL-E 2. “Acredito que esta é a principal fonte das melhorias,” disse ele. “As anotações de texto estão muito melhores do que eram [com o DALL-E 2] — nem se compara.”
\n\nMuitos modelos de IA, incluindo o DALL-E 3 e o DALL-E 2, são treinados tendo anotadores humanos rotulando os dados para que um modelo possa aprender a associar esses rótulos com outras características observadas desses dados. Por exemplo, um modelo que recebe muitas fotos de gatos com anotações para cada raça eventualmente “aprenderá” a associar termos como bobtail e shorthair com seus traços visuais distintos.
\n\nComportamento ruim
\n\nEspecialistas como Lo estão preocupados que a ênfase crescente em grandes conjuntos de dados de treinamento de alta qualidade centralizará o desenvolvimento de IA apenas nos poucos players com orçamentos de bilhões de dólares que podem se dar ao luxo de adquirir esses conjuntos. Grandes inovações em dados sintéticos ou arquiteturas fundamentais poderiam disruptir o status quo, mas nenhum parece estar no horizonte próximo.
\n\n“No geral, as entidades que governam o conteúdo potencialmente útil para o desenvolvimento de IA têm incentivos para bloquear seus materiais,” disse Lo. “E à medida que o acesso aos dados se fecha, basicamente estamos abençoando alguns pioneiros no início da aquisição de dados e puxando a escada para que ninguém mais possa acessar dados e alcançar o mesmo nível.”
\n\nDe fato, onde a corrida para adquirir mais dados de treinamento não levou a comportamentos antiéticos (e talvez até ilegais) como a agregação secreta de conteúdo protegido por direitos autorais, ela tem recompensado gigantes de tecnologia com bolsos fundos para gastar em licenciamento de dados.
\n\nModelos de IA generativos como os da OpenAI são treinados principalmente em imagens, texto, áudio, vídeos e outros dados — alguns protegidos por direitos autorais — provenientes de páginas web públicas (incluindo, problemáticas, as geradas por IA). A OpenAIs do mundo afirmam que o uso justo os protege de retaliação legal. Muitos detentores de direitos discordam — mas, pelo menos por enquanto, não podem fazer muito para impedir essa prática.
\n\nHá muitos exemplos de fornecedores de IA generativa adquirindo conjuntos massivos de dados por meio de meios questionáveis para treinar seus modelos. A OpenAI teria transcrito mais de um milhão de horas de vídeos do YouTube sem a bênção do YouTube — ou dos criadores — para alimentar seu modelo principal GPT-4. O Google recentemente ampliou seus termos de serviço em parte para poder acessar documentos públicos do Google Docs, avaliações de restaurantes no Google Maps e outros materiais online para seus produtos de IA. E a Meta é dita ter considerado arriscar processos judiciais para treinar seus modelos em conteúdo protegido por propriedade intelectual.
\n\nEnquanto isso, empresas grandes e pequenas estão dependendo de trabalhadores em países do terceiro mundo pagos apenas alguns dólares por hora para criar anotações para conjuntos de treinamento. Alguns desses anotadores — empregados por startups gigantes como a Scale AI — trabalham literalmente dias sem parar para completar tarefas que os expõem a representações gráficas de violência e derramamento de sangue sem nenhum benefício ou garantia de futuros trabalhos.
\n\nCusto crescente
\n\nEm outras palavras, até mesmo as negociações de dados mais legítimas não estão exatamente fomentando um ecossistema de IA generativa aberto e equitativo.
\n\nA OpenAI gastou centenas de milhões de dólares licenciando conteúdo de editoras de notícias, bibliotecas de mídia e muito mais para treinar seus modelos de IA — um orçamento muito além da maioria dos grupos de pesquisa acadêmica, organizações sem fins lucrativos e startups. A Meta chegou ao ponto de considerar adquirir a editora Simon & Schuster pelos direitos de trechos de e-books (no final, a Simon & Schuster foi vendida para a empresa de private equity KKR por US$ 1,62 bilhão em 2023).
\n\nCom o mercado de dados de treinamento em IA esperado para crescer de cerca de US $ 2,5 bilhões agora para quase US $ 30 bilhões em uma década, corretores de dados e plataformas estão correndo para cobrar muito caro — em alguns casos, indo contra as objeções de suas bases de usuários.
\n\nA biblioteca de mídia Shutterstock fez acordos com fornecedores de IA que variam de US $ 25 milhões a US $ 50 milhões, enquanto o Reddit afirma ter feito centenas de milhões com a licença de dados para organizações como Google e OpenAI. Poucas plataformas com dados abundantes acumulados organicamente ao longo dos anos não assinaram acordos com desenvolvedores de IA generativa, parece — de Photobucket ao Tumblr ao site de perguntas e respostas Stack Overflow.
\n\nSão os dados das plataformas para vender — pelo menos dependendo de quais argumentos legais você acredita. Mas na maioria dos casos, os usuários não estão vendo um centavo dos lucros. E isso está prejudicando a comunidade mais ampla de pesquisa em IA.
\n\n“Os jogadores menores não conseguirão pagar essas licenças de dados e, portanto, não poderão desenvolver ou estudar modelos de IA,” disse Lo. “Estou preocupado que isso possa levar a uma falta de escrutínio independente das práticas de desenvolvimento de IA.”
\n\n