Noticias para entrenar algoritmos

Tengo la impresión de que pronto veremos cada vez más noticias como esta: Associated Press (AP) ha firmado una alianza con los creadores de algoritmos como Dall·E o ChatGPT, OpenAI, que permitirá que la agencia de noticias cooperativa norteamericana utilice la tecnología y los productos de OpenAI, a cambio de que los algoritmos de OpenAI puedan, pagando, ser entrenados con el gigantesco archivo de textos de noticias generado por la agencia desde el año 1985.

AP se convirtió, en 2014, en la primera agencia que empezó, mediante una alianza con la compañía Automated Insights, a utilizar algoritmos para generar algunas de sus noticias, como resúmenes de resultados financieros o crónicas deportivas, lo que le permitió extender su cobertura de manera muy significativa. Agencias como Bloomberg actualmente utilizan este tipo de tecnologías aproximadamente en un tercio de las noticias que producen. En el caso de AP, que sirve noticias diariamente en inglés, alemán, neerlandés, francés y español, disponer simplemente de tecnologías eficientes de traducción capaces de mantener un estilo determinado puede suponer ya de por sí un beneficio importante, y dejar sin trabajo a muchas personas que hasta ahora se encargaban de llevar a cabo esas traducciones.

Para OpenAI, las noticias de AP suponen una buena manera de disponer de textos susceptibles de ser utilizados con ciertas garantías para el entrenamiento de sus algoritmos generativos, algo que podría complicarse si algunas de las demandas que han recibido compañías creadoras de algoritmos generativos, como las de algunos artistas, escritores, comediantes o la del repositorio de imágenes Getty Images llegan a prosperar. En un escenario en el que resulte cada vez más complejo obtener datos para entrenar algoritmos, acuerdos como este pueden llegar a tener un valor importante, dado que reutilizar constantemente los mismos repositorios posee, obviamente, muchas limitaciones.

El momento es importante: mientras las compañías tecnológicas creadoras de este tipo de algoritmos intentan convencer a más propietarios de información con la que entrenarlos, muchas compañías en todo tipo de industrias están planteándose si deben trabajar para utilizar sus propios datos para entrenar sus propios algoritmos, o si deben esperar para utilizar los creados por esas compañías tecnológicas. El escenario resultante de esas decisiones dará forma, en muchos sentidos, a la próxima etapa de la tecnología, que podría volver a estar dominada por unas pocas compañías o, por contra, convertirse en un modelo más democratizado y multifacético, con aportes más variados, o con la posibilidad de alimentar el desarrollo de herramientas de código abierto.

Hasta ahora, la práctica totalidad de las compañías desarrolladoras de este tipo de herramientas se habían limitado a obtener información tomándola directamente de la web mediante scraping, algo cuya legalidad había sido cuestionada por algunos de los propietarios de esa información. El web scraping es, sin duda, una herramienta polémica: si bien muchos defienden la legalidad de capturar información que ha sido hecha pública en la web, otros casos han sido calificados como abusivos. El acuerdo firmado entre AP y OpenAI marca un precedente importante en este sentido, y muy posiblemente, un cambio en el signo de la evolución de esta estratégica cuestión.

Deja un comentario