Aunque el número de usuarios de ChatGPT comienza a caer por primera vez desde su lanzamiento, con un 10% menos de visitas en todo el mundo a lo largo del mes de junio, empiezan a verse cada vez más casos de AI-spam, de páginas en la red escritas mediante algoritmos generativos – algunas no se molestas siguiera en borrar los tan reconocibles párrafos del tipo «lo siento, como modelo de lenguaje basado en inteligencia artificial, no puedo generar…» o del «en resumen…» final.
Estamos ante un absurdo conceptual de primer nivel que parte de lo que era ya una situación completamente deteriorada: la industria de la creación de contenidos, páginas creadas en factorías en las que personas se dedicaban a copiar, mezclar y pegar otras páginas con el fin de generar un flujo constante de contenidos destinados a indexar y a albergar anuncios, o a convertirse en generadores de enlaces vendidos al mejor postor. Si el SEO ya destrozó la web y llenó el mundo de granjas de páginas, ahora la llegada de los algoritmos generativos en manos de completos irresponsables promete hacerlo todavía más rápido, en lo que podría estar convirtiéndose en una degradación creciente del conjunto de internet.
Esa degradación parte de un problema de base: desconocemos con qué páginas son entrenadas los algoritmos generativos, y por el tipo de errores que vemos habitualmente en sus respuestas, tendemos a intuir que la selección de partida ya no respondía a criterios muy bien delineados. Pero la pregunta subsiguiente es evidente: ¿quién debe decidir qué páginas son seleccionadas para alimentar los algoritmos generativos?
Como ya insinuó Google hace ya años, crear algún tipo de «índice de autoridad» que decida qué páginas responden a criterios razonablemente rigurosos y cuáles son basura, mentiras, conspiranoia o directamente estupideces es algo que puede parecer muy interesante, pero que adolece de muchos problemas: el primero, subjetividad: quien tome esas decisiones, estaría obteniendo, en caso de lograr estandarizar su criterio, un poder enorme que conlleva, como diría el tío Ben, una gran responsabilidad. El segundo, factores culturales: lo que es indiscutible o cierto en un contexto cultural determinado, puede no serlo en otro. Y finalmente, interés: seleccionar unos contenidos sobre otros puede hacerse con el objetivo de preservar la verdad, o como ha ocurrido habitualmente, para conseguir ganar más dinero a costa de lo que sea.
Ahora, estamos viendo como el lanzamiento de ChatGPT a finales del pasado noviembre está comenzando a llenar la web de contenidos basura generados automáticamente, y si no se presta atención a los criterios de entrenamiento de esos algoritmos (que se hicieron públicos y de libre uso, no lo olvidemos, no porque OpenAI sea un encanto, sino porque así obtenían más datos para su entrenamiento), pronto empezarán a alimentarse de los mismos contenidos que han generado, lo que resultará en un ciclo de retroalimentación potencialmente muy negativo, capaz de convertir en «verdades por consenso» cuestiones que simplemente eran erróneas porque las primeras páginas que se utilizaron en el entrenamiento del algoritmo eran erróneas o inexactas.
Algunos profesores de Física, por ejemplo, alertan de que las respuestas de ChatGPT en su área son muchas veces incorrectas y confunden a sus alumnos, y que esos errores responden claramente a una mala selección de los textos de entrenamiento. Si cada vez más personas no solo confían en ChatGPT y en sus errores, sino que además crean contenido con ellos, terminaremos por consolidarlos como tales, como de hecho ya ocurre con buscadores y redes sociales que impulsan «verdades por consenso».
Sigo en mi preocupación: la regulación no debería tratar de controlar el desarrollo tecnológico, que es de por sí completamente, incontrolable, sino los usos de esos desarrollos: los algoritmos generativos pueden ser muy interesantes, pero utilizarlos para llenar páginas con contenidos generados automáticamente debería ser una actividad calificada como ilegal y, por tanto, perseguible. Como debería serlo también el utilizar esos algoritmos para generar publicidad personalizada, una actividad sustentada simplemente por acuerdos de términos de servicio abusivos que nadie se lee creados por compañías privadas, pero que claramente no responden a un consenso social sobre los límites que debería tener la actividad publicitaria. Si la actual publicidad ya hace sentir a muchos sensaciones cercanas a la paranoia y a creer que sus dispositivos les escuchan constantemente, veremos qué pasa cuando sean algoritmos los que, basándose en nuestra actividad en la red, diseñen los mensajes específicamente para nosotros con el único objetivo de que hagamos clic en un anuncio.
Lo que viene, si seguimos por este camino, va a ser como mirarse en un espejo cada vez más roto. Y la imagen que obtengamos no va a ser en absoluto bonita.