La IA escribe como tu autor preferido porque piratea sus libros

3

Cualquiera puede pedirle al ChatGPT de OpenAI que escriba el comienzo de este reportaje al estilo de, pongamos, Arturo Pérez-Reverte y su capitán Alatriste. «Y en un parpadeo, como quien carga y dispara un arcabuz sin apuntar mucho pero con tino, lo reescribe con esa prosa recia, sobria y desengañada de los viejos soldados que gastaban la vida entre las sombras mugrientas del Madrid de Felipe IV». Lo mismo con Elvira Lindo: el modelo Llama, de Meta, «te lo hace en un plis, con ese tono divertido y un poco gamberro de Manolito Gafotas que te hace reír y te hace llorar». Basta con pedirlo y la inteligencia artificial canibaliza en segundos el estilo de cualquier autor. Sin que las grandes plataformas hayan llegado a acuerdos con ellos ni con las entidades que gestionan sus derechos. Simplemente han recurrido a repositorios con millones de libros pirateados y los han metido en sus máquinas.

Piensa en cualquier autor; seguramente haya sido pirateado por las grandes empresas que están desarrollando modelos de inteligencia artificial que han llegado para cambiarnos la vida. Almudena Grandes, Camilo José Cela, David Uclés, Arturo Pérez-Reverte, Elvira Lindo, Javier Cercas, Javier del Castillo, Fernando Aramburu, Julia Navarro, Luis García Montero, Rosa Montero, Mario Vargas Llosa, Pedro Sánchez Castejón… y así hasta 41.000 escritores españoles. Son los que Cedro (la entidad que gestiona los derechos de autor de escritores y editores) ha identificado en el repositorio Library Genesis (LibGen), un sitio pirata de origen ruso y creado a finales de la primera década de los 2000 que permite el acceso a millones de obras pirateadas: novelas, cómics, artículos científicos…

El volumen es apabullante. LibGen funciona como una inmensa biblioteca paralela que, pese a estar bloqueada en varios países, sigue accesible para cualquiera con un buscador. Trabajadores de OpenAI y Meta han reconocido en procedimientos judiciales abiertos en Estados Unidos que estas compañías han recurrido a estos contenidos piratas para el entrenamiento de sus modelos de inteligencia artificial. La infracción que estarían cometiendo estas empresas es doble: no solo están usando sin autorización obras protegidas por derechos de autor, sino que acceden a ellas de forma ilegal e indiscriminada.

Hace tres meses, un informe de la Danish Rights Alliance, la organización que defiende los derechos de autor de los sectores creativos en Dinamarca, reveló que las principales empresas que se habían lanzado al mercado de modelos de IA generativa habían recurrido a conjuntos de datos obtenidos de sitios piratas como LibGen, Anna’s Archive, Books3, Watchseries o Common Crawl (que no es un sitio pirata en el sentido tradicional, pero aloja grandes cantidades de material protegido sin autorización).

Con este precedente, Cedro ha analizado el impacto que estas prácticas tienen sobre los autores españoles. Solo en el repositorio LibGen ha identificado tres grandes bases de datos con millones de archivos: dos con libros de ficción y no ficción y otro con contenidos científicos. En las dos primeras, las que Cedro ha estudiado por el momento, se han encontrado 7,7 millones de archivos, de los cuales 4,2 millones tienen ISBN, lo que facilita su identificación. Y entre ellos, 49.461 títulos se corresponden con obras publicadas en España, lo que afecta directamente a escritores y traductores.

En el listado de autores afectados que facilita Cedro, además de los citados arriba, figuran otros nombres como Alice Kellen, Antonio Muñoz Molina, Dolores Redondo, Elisabet Benavent, Irene Vallejo, Joana Marcus, Jordi Sierra i Fabra, Juan Gómez-Jurado, Lorenzo Silva, Luz Gabás, Santiago Muñoz Machado… La relación de firmas es heterogénea y está a la última, lo que demuestra la actualización constante de esta gran base de datos pirata.

Imagen - «Me parece un escándalo que pone en rídiculo a nuestro Estado de Derecho»

«Me parece un escándalo que pone en rídiculo a nuestro Estado de Derecho»

Lorenzo Silva

Escritor

LibGen sigue operativo y accesible desde prácticamente cualquier país, aunque su bloqueo ha sido ordenado judicialmente en Estados Unidos, Reino Unido, Francia, Alemania, Grecia o Italia. Para evitar estas restricciones, sus responsables abren constantemente webs espejo. A esas han recurrido también las grandes empresas de IA para sortear la legislación sobre propiedad intelectual. Por norma general, no se pueden explotar obras protegidas sin autorización previa de sus autores o las entidades que gestionan sus propiedad intelectual, que pueden exigir ser remunerados.

Esta canibalización de obras piratas afecta a más de 1.100 editoriales: grandes (Planeta, Anaya) medianas (Acantilado, Libros del Asteroide) y pequeñas (Edhasa, Alba).

Los autores, alerta Cedro, se enfrentan a un panorama desolador: con la piratería clásica, los lectores accedía a sus libros gratis; ahora hay máquinas que compiten con ellos pirateando su esfuerzo creativo. Esto puede hacer que su actividad «se vuelva insostenible», advierte Jorge Corrales, director general de Cedro.

A Lorenzo Silva, uno de los afectados, lo que revela este informe le parece un escándalo, un bochorno insuperable: «Si la información se confirma, y los indicios son sólidos y ya fueron denunciados hace semanas por ‘The Atlantic’, me parece un escándalo que pone en ridículo a nuestro Estado de Derecho. Seguir persiguiendo pequeños delitos e infracciones, mientras convivimos con conductas ilícitas y gravemente dañosas, realizadas por organizaciones criminales y amplificadas por grandes corporaciones que sirviéndose de ellas hacen negocio entre nosotros, es de un bochorno insuperable».

Imagen - «El Gobierno tiene que ser radical pidiendo una actuación conjunta en contra de estos ladrones»

«El Gobierno tiene que ser radical pidiendo una actuación conjunta en contra de estos ladrones»

Rosa Montero

Escritora

A Rosa Montero, por su parte, no le gusta hablar de pirateo, pues es una palabra que tiene un cierto sentido romántico. «Son ladrones», zanja. «Que LibGen haya nacido y se sostenga en una sociedad tan carente de derechos democráticos como Rusia indica claramente la catadura de este sitio web». Que además de robar los derechos de propiedad intelectual los estén usando para alimentar a las IA es un «salto cualitativo», añade. «Los neurocientíficos llevan años advirtiéndonos de que a través de las IA pueden manipular nuestra voluntad. Entonces, estamos alimentando una maquinaria de manipulación con nuestra propia producción intelectual».

«Esto no es piratería, son bandas organizadas que roban. No lo edulcoremos con la palabra piratería», dice también la escritora Julia Navarro, indignada. «Estamos asistiendo a un expolio absolutamente masivo de los libros. Es muy peligroso: da lugar a una situación en la que la IA puede generar productos que terminen compitiendo con nuestros propios libros, lo cual ya es el colmo del disparate».

Imagen - «Esto no es piratería, son bandas organizadas que roban. No lo edulcoremos con la palabra piratería»

«Esto no es piratería, son bandas organizadas que roban. No lo edulcoremos con la palabra piratería»

Julia Navarro

Escritora

Este informe de Cedro es un aviso a navegantes para la Administración española, que está desarrollando un modelo propio de inteligencia artificial generativa. Lo han llamado ALIA y se alimenta de repositorios como el de Common Crawl, que extrae contenidos de medios de comunicación sin contar con la autorización de sus titulares. El Ejecutivo ha evitado aclarar si, durante el desarrollo de ALIA, se ha respetado la propiedad intelectual. Las entidades del sector aseguran que no ha habido ningún tipo de acuerdo. Supuestamente, Common Crawl comunicó a Cedro que ha retirado de su repertorio las publicaciones que extrajo de la web de manera irregular. Pero, ¿qué pasa cuando las máquinas ya han aprendido con ellos? ¿Pueden desaprender?

Rosa Montero pide al Gobierno que actúe con firmeza. «Tiene que ser radical pidiendo una actuación conjunta en contra de estos ladrones y estos criminales. Lo malo es que no lo puedes hacer solo; esto tiene que ser algo conjunto y, desde luego, Europa tiene que ser uno de los bastiones del mundo para defenderse. Nuestro Gobierno tiene que reclamar, como algo prioritario, esa unión europea frente a este robo que supone también un peligro nacional».

Bruselas aprobó en 2024 una ley de inteligencia artificial que incluye cierta protección para los derechos de autor, aunque, a juicio de las entidades de gestión, es insuficiente. Apenas exige mínimos de transparencia. Aun así, a la hora de plasmar este texto en un Código de Buenas Prácticas, las grandes compañías han presionado para flexibilizar aún más estas condiciones, lo que ha provocado un fuerte rechazo por parte del sector cultural europeo.

En España, el ministro Urtasun intentó en enero impulsar un decreto para regular este aspecto en el desarrollo de ALIA. Pero la falta de unidad en el sector cultural, junto con la presión de las plataformas, forzó su retirada. No se ha vuelto a saber de él.

«El desarrollo tecnológico no puede, en ningún caso, avanzar a costa de quienes crean, editan y sostienen la cultura escrita», insiste Corrales, de Cedro. «Lo que está ocurriendo no pasa de un día para otro. Desde principios de este siglo, no se han tomado las decisiones necesarias para fortalecer el marco de los derechos de propiedad intelectual y posibilitar que escritores y editores puedan vivir de la monetización directa de sus obras, sino que se ha potenciado la monetización indirecta y el precio cero».

De aquellos barros, estos lodos. Y por el camino, además, la Administración se ha olvidado de cumplir sus propias normas. Cedro lleva tiempo denunciando que los organismos públicos se vienen negando por sistema a pagar por los clippings de prensa que políticos y asesores leen cada mañana. Y así el sector pierde alrededor de 40 millones de euros al año. Lo que faltaba con la inteligencia artificial es que la Administración, además de mala pagadora, sea también pirata.

Leave A Reply

Your email address will not be published.