A inteligência artificial generativa capturou a imaginação pública ao dar um salto na criação de textos e imagens elaborados e plausivelmente reais a partir de prompts verbais. Mas o problema - e muitas vezes há um problema - é que os resultados frequentemente estão longe da perfeição quando observados mais de perto.
As pessoas apontam dedos estranhos, os azulejos do chão se deslocam e os problemas matemáticos são precisamente isso: problemáticos, às vezes não somam.
Agora, a Synthesia - uma das ambiciosas startups de IA trabalhando em vídeos, especificamente avatares personalizados projetados para usuários empresariais criarem conteúdo de vídeo promocional, treinamento e outros - está lançando uma atualização que espera ajudá-la a superar alguns dos desafios em seu campo específico. Sua última versão apresenta avatares - construídos com base em humanos reais capturados em seu estúdio - que fornecem mais emoção, melhor rastreamento labial e o que a empresa diz ser movimentos naturais e humanos mais expressivos ao serem alimentados com texto para gerar vídeos.
A liberação vem após um impressionante progresso para a empresa até o momento. Ao contrário de outros players de IA gerativa como a OpenAI, que adotou uma estratégia de dois braços - aumentando a conscientização pública com ferramentas para consumidores como o ChatGPT enquanto também desenvolve uma oferta B2B, com suas APIs usadas por desenvolvedores independentes e grandes empresas - a Synthesia está adotando a abordagem que outras startups de IA proeminentes estão seguindo.
Assim como o foco da Perplexity em realmente acertar a busca de IA gerativa, a Synthesia está focada em realmente acertar como construir os avatares de vídeo gerativos mais parecidos com humanos possíveis. Mais especificamente, está buscando fazer isso apenas para o mercado empresarial e casos de uso como treinamento e marketing.
Essa concentração ajudou a Synthesia a se destacar em um mercado de IA muito lotado que corre o risco de se tornar comoditizado quando o hype se transforma em preocupações a longo prazo como ARR, economia unitária e custos operacionais associados às implementações de IA.
A Synthesia descreve seus novos Avatares Expressivos, a versão que será lançada na quinta-feira, como os primeiros do tipo: 'Os primeiros avatares totalmente gerados com IA do mundo'. Construídos em modelos grandes pré-treinados, a Synthesia diz que sua inovação está em como eles são combinados para alcançar distribuições multimodais que se assemelham mais de perto a como os humanos falam.
Esses são gerados instantaneamente, segundo a Synthesia, o que se destina a ser mais próximo da experiência que temos ao falar ou reagir na vida. Isso contrasta com a forma como muitas ferramentas de vídeo de IA baseadas em avatares funcionam hoje: tipicamente, essas são na verdade muitas peças de vídeo que são rapidamente costuradas juntas para criar respostas faciais que se alinham, mais ou menos, com os roteiros que são alimentados neles. O objetivo é parecer menos robótico e mais realista.
Versão anterior:
Nova versão:
Como você pode ver nos dois exemplos aqui, um da versão anterior da Synthesia e o que será lançado na quinta-feira, ainda há um longo caminho a percorrer, algo que o CEO Victor Riparbelli também admite.
'Claro que ainda não está 100% lá, mas estará muito em breve, até o final do ano. Será tão impressionante', disse ele ao TechCrunch. 'Acho que você também pode ver que a parte de IA nisso é muito sutil. Com os humanos, há tanta informação nos menores detalhes, nos menores movimentos de nossos músculos faciais. Acho que nunca poderíamos sentar e descrever, 'Sim, você sorri assim quando está feliz, mas isso é falso, não é?' Isso é algo tão complexo de descrever para os humanos, mas pode ser [capturado em] redes neurais profundas. Elas são realmente capazes de descobrir o padrão e então replicá-lo de forma previsível.' O próximo desafio é com as mãos, acrescentou.
'As mãos são, tipo, super difíceis', disse ele.
O foco em B2B também ajuda a Synthesia a ancorar sua comunicação e produto mais em uso de IA 'seguro'. Isso é essencial, especialmente com a grande preocupação hoje sobre deepfakes e o uso de IA para fins maliciosos como desinformação e fraudes. Mesmo assim, a Synthesia não conseguiu evitar completamente a controvérsia nesse aspecto. A tecnologia da Synthesia foi anteriormente mal utilizada para produzir propaganda na Venezuela e notícias falsas promovidas por contas de mídia social pró-China.
A empresa observou que tomou medidas adicionais para tentar restringir esse uso. No mês passado, atualizou suas políticas, disse, 'para restringir o tipo de conteúdo que as pessoas podem criar, investir na detecção antecipada de atores de má fé, aumentar as equipes que trabalham na segurança da IA e experimentar tecnologias de credenciamento de conteúdo como C2PA'.
Mesmo diante desses desafios, a empresa continuou a crescer.
A Synthesia foi avaliada em US $ 1 bilhão quando arrecadou US $ 90 milhões. Notavelmente, essa captação de recursos foi feita quase um ano atrás, em junho de 2023.
Riparbelli disse em uma entrevista no início deste mês que não há planos atuais para captar mais recursos, embora isso não responda realmente à pergunta se a Synthesia está sendo procurada proativamente. (Nota: Estamos muito animados por ter o próprio Riparbelli falando em um evento nosso em Londres em maio, onde certamente vou perguntar sobre isso novamente. Por favor, venha se estiver na cidade.)
O que sabemos com certeza é que a IA custa muito dinheiro para ser construída e mantida, e a Synthesia tem construído e mantido muito.
Antes do lançamento da versão de quinta-feira, mais de 200.000 pessoas criaram mais de 18 milhões de apresentações de vídeo em cerca de 130 idiomas usando os 225 avatares legados da Synthesia, afirmou a empresa. (Não divulga quantos usuários estão em seus níveis pagos, mas há muitos clientes de renome, incluindo Zoom, BBC, DuPont e mais, e as empresas pagam.) A esperança da startup, é claro, é que com a nova versão sendo lançada, esses números aumentem ainda mais.