Los chatbots de IA necesitan más libros de los que aprender. Estas bibliotecas están abriendo sus estanterías.

CAMBRIDGE, Massachusetts -- Todo lo que se ha dicho en internet fue solo el comienzo de la enseñanza de la inteligencia artificial sobre la humanidad. Las empresas tecnológicas ahora están aprovechando un repositorio de conocimiento más antiguo: las bibliotecas.

Casi un millón de libros publicados desde el siglo XV, en 254 idiomas, forman parte de una colección de la Universidad de Harvard que se pondrá a disposición de investigadores de IA el jueves. Próximamente también se publicarán tesoros de periódicos antiguos y documentos gubernamentales de la biblioteca pública de Boston.

Abrir las bóvedas de tomos centenarios podría ser una bonanza de datos para las empresas tecnológicas que luchan contra demandas de novelistas vivos , artistas visuales y otras personas cuyas obras creativas han sido extraídas sin su consentimiento para entrenar a los chatbots de inteligencia artificial.

"Es una decisión prudente comenzar con datos de dominio público porque son menos controvertidos en este momento que el contenido que aún está bajo derechos de autor", dijo Burton Davis, asesor general adjunto de Microsoft.

Davis dijo que las bibliotecas también contienen “cantidades significativas de datos culturales, históricos y lingüísticos interesantes” que faltan en las últimas décadas de comentarios en línea de los que los chatbots de IA han aprendido principalmente.

Con el apoyo de “donaciones sin restricciones” de Microsoft y OpenAI, creador de ChatGPT, la Iniciativa de Datos Institucionales con sede en Harvard está trabajando con bibliotecas de todo el mundo sobre cómo hacer que sus colecciones históricas estén preparadas para la IA de un modo que también beneficie a las bibliotecas y a las comunidades a las que sirven.

“Estamos intentando transferir parte del poder de la IA actual a estas instituciones”, afirmó Aristana Scourtas, directora de investigación del Laboratorio de Innovación Bibliotecaria de la Facultad de Derecho de Harvard. “Los bibliotecarios siempre han sido los guardianes de los datos y de la información”.

El conjunto de datos recientemente publicado por Harvard, Institutional Books 1.0, contiene más de 394 millones de páginas escaneadas. Una de las primeras obras data del siglo XV: reflexiones manuscritas de un pintor coreano sobre el cultivo de flores y árboles. La mayor concentración de obras data del siglo XIX y trata temas como literatura, filosofía, derecho y agricultura, todas ellas meticulosamente preservadas y organizadas por generaciones de bibliotecarios.

Promete ser una bendición para los desarrolladores de IA que intentan mejorar la precisión y confiabilidad de sus sistemas.

“Muchos de los datos utilizados en el entrenamiento de IA no provienen de fuentes originales”, afirmó Greg Leppert, director ejecutivo de la iniciativa de datos y director de tecnología del Centro Berkman Klein para Internet y Sociedad de Harvard. Esta colección de libros se remonta a la copia física escaneada por las instituciones que recopilaron esos artículos, añadió.

Antes de que ChatGPT desatara el furor comercial de la IA, la mayoría de los investigadores de IA no prestaban mucha atención a la procedencia de los fragmentos de texto que extraían de Wikipedia, de foros de redes sociales como Reddit y, a veces, de grandes repositorios de libros pirateados. Solo necesitaban una gran cantidad de lo que los informáticos llaman tokens: unidades de datos, cada una de las cuales puede representar un fragmento de una palabra.

La nueva colección de entrenamiento de IA de Harvard cuenta con un estimado de 242 mil millones de tokens, una cantidad difícil de comprender para los humanos, pero que representa solo una pequeña parte de lo que se está incorporando a los sistemas de IA más avanzados. Meta, la empresa matriz de Facebook, por ejemplo, ha afirmado que la última versión de su modelo de lenguaje de IA se entrenó con más de 30 billones de tokens extraídos de texto, imágenes y vídeos.

Meta también está luchando contra una demanda de la comediante Sarah Silverman y otros autores publicados que acusan a la compañía de robar sus libros de “bibliotecas fantasma” de obras pirateadas.

Ahora, con algunas reservas, las verdaderas bibliotecas se están poniendo de pie.

OpenAI, que también está luchando contra una serie de demandas por derechos de autor , donó 50 millones de dólares este año a un grupo de instituciones de investigación, incluida la Biblioteca Bodleian de 400 años de antigüedad de la Universidad de Oxford, que está digitalizando textos raros y utilizando IA para ayudar a transcribirlos.

Cuando la empresa contactó por primera vez a la Biblioteca Pública de Boston, una de las más grandes de Estados Unidos, la biblioteca dejó en claro que cualquier información que digitalizara sería para todos, dijo Jessica Chapel, su jefa de servicios digitales y en línea.

OpenAI tenía interés en cantidades masivas de datos de entrenamiento. Nosotros tenemos interés en cantidades masivas de objetos digitales. Así que esto es simplemente un ejemplo de cómo las cosas se están alineando, dijo Chapel.

La digitalización es costosa. Por ejemplo, para la biblioteca de Boston ha sido un trabajo minucioso escanear y seleccionar docenas de periódicos en francés de Nueva Inglaterra, ampliamente leídos a finales del siglo XIX y principios del XX por las comunidades de inmigrantes canadienses de Quebec. Ahora que este texto se utiliza como datos de entrenamiento, ayuda a financiar proyectos que los bibliotecarios quieren llevar a cabo de todos modos.

“Hemos sido muy claros: 'Somos una biblioteca pública'”, dijo Chapel. “Nuestras colecciones son para uso público, y todo lo que digitalicemos como parte de este proyecto se hará público”.

La colección de Harvard ya había sido digitalizada en 2006 para otro gigante tecnológico, Google, en su controvertido proyecto de crear una biblioteca en línea con capacidad de búsqueda de más de 20 millones de libros.

Google pasó años defendiendo las demandas de los autores contra su biblioteca de libros en línea, que incluía muchas obras nuevas y protegidas por derechos de autor. El asunto se resolvió finalmente en 2016, cuando la Corte Suprema de Estados Unidos mantuvo firmes las sentencias de tribunales inferiores que desestimaron las demandas por infracción de derechos de autor.

Ahora, por primera vez, Google ha colaborado con Harvard para recuperar volúmenes de dominio público de Google Libros y facilitar su publicación a los desarrolladores de IA. La protección de los derechos de autor en EE. UU. suele durar 95 años , e incluso más para las grabaciones de sonido.

Queda por ver cuán útil será todo esto para la próxima generación de herramientas de IA, cuando los datos se compartan el jueves en la plataforma Hugging Face, que alberga conjuntos de datos y modelos de IA de código abierto que cualquiera puede descargar.

La colección de libros presenta una mayor diversidad lingüística que las fuentes de datos de IA habituales. Menos de la mitad de los volúmenes están en inglés, aunque los idiomas europeos siguen predominando, en particular el alemán, el francés, el italiano, el español y el latín.

Una colección de libros impregnada de pensamiento del siglo XIX también podría ser “inmensamente crítica” para los esfuerzos de la industria tecnológica por construir agentes de IA que puedan planificar y razonar tan bien como los humanos, dijo Leppert.

“En la universidad, hay mucha pedagogía sobre lo que significa razonar”, dijo Leppert. “Hay mucha información científica sobre cómo ejecutar procesos y análisis”.

Al mismo tiempo, también hay muchos datos obsoletos, desde teorías científicas y médicas desacreditadas hasta narrativas racistas.

“Cuando se trata de un conjunto de datos tan grande, hay algunos problemas delicados en torno al contenido y el lenguaje dañinos”, dijo Kristi Mukk, coordinadora del Laboratorio de Innovación de Bibliotecas de Harvard, quien dijo que la iniciativa está tratando de brindar orientación sobre cómo mitigar los riesgos del uso de los datos, para “ayudarlos a tomar sus propias decisiones informadas y usar la IA de manera responsable”.

————

Associated Press y OpenAI tienen un acuerdo de licencia y tecnología que permite a OpenAI acceder a parte de los archivos de texto de AP.

ABC News

Los chatbots de IA necesitan más libros de los que aprender. Estas bibliotecas están abriendo sus estanterías.

Noticias similares

El entusiasmo republicano por Musk se enfría tras su disputa con Trump, según una nueva encuesta

Un satélite de origen polaco pasará a un ejército extranjero

Top Tech: Disney+ vuelve a ofrecer £1,99 al mes, pero con una importante mejora

Uno de los olmos más antiguos de Toronto está en sus últimas. Los investigadores se apresuran a regenerar ejemplares.

WhatsApp envía un recordatorio a todos los usuarios del Reino Unido tras confirmarse 9 grandes cambios en la aplicación de chat