Sora da OpenAI treinou em vídeos da Netflix?

Sora é um dos melhores modelos de texto para vídeo do mercado. Quando a OpenAI o anunciou no início de dezembro de 2024, ele produziu vídeos quase fotorrealistas (embora com alguns erros perceptíveis). O Washington Post descobriu que conteúdo da Netflix, TikTok e Twitch pode ter sido usado para treinamento.
Treinamento somente com dados públicos?Na época do anúncio, a OpenAI divulgou que Sora foi treinado usando dados públicos e licenciados , sem especificar claramente as fontes. O Washington Post (que tem uma parceria com a empresa sediada na Califórnia) gerou centenas de vídeos, descobrindo que muitos são semelhantes aos exibidos em filmes, programas de TV, jogos e mídias sociais.
Alguns vídeos gerados pelo Sora (cerca de 20 segundos sem som) parecem ser clipes de séries da Netflix (quarta-feira), jogos populares (Minecraft) e TikTok. Os vídeos finais também apresentam logotipos e marcas d'água das empresas que oferecem o conteúdo original, confirmando que foram usados para treinar o modelo.
No entanto, isso não significa necessariamente que o conteúdo foi copiado ou obtido do proprietário. Pode ter sido "retirado" de plataformas de compartilhamento de vídeos (como o YouTube) ou de redes sociais, onde foi publicado sem o consentimento do detentor dos direitos autorais. Porta-vozes da Netflix e da Twitch declararam que suas respectivas empresas não têm acordos com a OpenAI.
Os termos do YouTube proíbem o download de vídeos. No ano passado, um grupo de criadores processou a OpenAI porque transcrições de áudio de vídeos foram usadas para treinar o modelo usado pelo ChatGPT. A empresa sediada na Califórnia recebeu diversas reclamações pelo uso de livros, artigos e outras fontes. A OpenAI ainda não recebeu nenhuma reclamação sobre os dados usados para treinar o Sora, provavelmente porque a qualidade final é ruim.
Punto Informatico