La polémica sobre la infracción de los derechos de autor por parte de ChatGPT y de los generadores de imágenes de OpenAI, como Stable Diffusion o Dalle-E sigue en el punto de mira. Son numerosas las demandas interpuestas en los juzgados contra la entidad por infracciones relativas a la propiedad intelectual de las obras. Unas denuncias que abarcan desde escritores y desarrolladores web hasta empresas de gran calado como la agencia Getty o el diario The New York Times.
Recientemente, OpenAI ha presentado un informe ante la Comisión de Comunicaciones y Asuntos Digitales de la Cámara de los Lores de Reino Unido. En el mismo, asegura que le sería imposible entrenar a los grandes modelos lingüísticos, como GPT-4, sin tener acceso a obras protegidas por derecho de autor.
OpenAI, que facturó en torno a los 1.300 millones de dólares en 2023, parece comprometida a seguir utilizando la información disponible en Internet. Esta situación ha llevado a diferentes investigadores, ante el avance sin precedentes de la IA y la irrupción inminente de GPT-5, a suprimir sus informaciones de Internet.
El argumento de OpenAI
Sam Altman, CEO de OpenAI, se defiende asegurando que trabajan según el denominado fair use, es decir, el entrenamiento de sus modelos de IA como uso legítimo. No obstante, asegura que dan la opción de opt-out, es decir, de no participar si así lo deseasen las partes implicadas.
El fair use parte de la jurisprudencia estadounidense, recogiendo que es el propio público quien posee la potestad para utilizar libremente porciones de obras con derechos de autor con propósitos transformativos. No obstante, OpenAI asegura que ésta es su finalidad y que por ende, ni roban ni plagian a nadie.
No obstante, el hecho de determinar qué contenido es transformativo deberá ser acordado por un juez, quien con la Ley de Copyright en la mano deberá decidir qué factores se contemplan y cuáles no. Uno clave es precisamente el hecho de privar al autor de sus ingresos. De ahí la demanda interpuesta por el diario The New York Times.
OpenAI también defiende el opt-out o exclusión voluntaria. De este modo, al utilizar GPTBot va escaneando todas las páginas web online, de tal modo que quien no quisiese participar en el entrenamiento de sus modelos podría agregar una línea de código para indicar al bot que no la traspasase. Al ser el bot de agosto de 2023, queda en un limbo legal saber qué pasará con los contenidos anteriores a dicha fecha, empleados para entrenar modelos de lenguaje de ChatGPT.

La polémica del New York Times
Recientemente, OpenAI ha publicado una respuesta al respecto. La defensa de OpenAI se basa en asegurar que colaborar con organizaciones de noticias como Associated Press, Axel Springer, American Journalism Project y NYU y que ayudan a crear nuevas oportunidades. No obstante, previamente han alcanzado acuerdos con dichos medios, algo que no se contempla en la demanda del Times.
El propio Altman ha asegurado que las demandas de The New York Times contra ellos y Microsoft por copiar ilegalmente sus artículos y usarlos en ChatGPT y Copilot, respectivamente, quedarán solventadas, pues están dispuestos a pagar por la información y así poder entrenar libremente sus modelos algorítmicos.
Además, afirma que se encuentran en negociaciones constructivas con The New York Times, aunque el diario asegura una serie de daños irreparables en los que han perdido miles de millones de dólares en ingresos por lecturas de determinados artículos.
El scraping en Europa
Medios de todo el mundo, y en especial de Europa y España, se están protegiendo frente a la política ilimitada de OpenAI, que asegura que es imposible entrenar sus modelos de IA sin tomar artículos con copyright. En Europa no existe una doctrina del fair use comparable a la de EEUU, sin nombrarse a la IA.
No obstante, la reciente Ley de IA de la UE obliga a toda IA de propósito general a presentar documentación técnica y a cumplir con la legislación vigente relativa a los derechos de autor. Además, deberán presentar resúmenes detallados sobre los contenidos utilizados para el entrenamiento del modelo. El scraping, se encuentra avalado siempre y cuando fuese con fines científicos o educativos, sin ánimo de lucro.
¿La IA lee o copia infringiendo derechos de autor?
OpenAI aboga por la responsabilidad individual de los usuarios, que deberán controlar estas herramientas antes de copiar un texto aleatorio. Hay que tener en cuenta que la IA no razona como lo hace la mente humana, pues se basa en predicciones de patrones del lenguaje y en optimizar contenidos para ser conversacionales.
OpenAI se defiende asegurando que sus modelos aprenden, pero ni copian ni plagian nada. De hecho, los tecnólogos de las empresas de IA Generativa afirman que simplemente hay ‘bugs’, es decir, fallos que se corregirán si se les permite entrenar más a estas máquinas.
En resumen, se sienta un precedente con la demanda de The New York Times, ya que supondrá una revolución en el desarrollo de modelos de lenguaje y chatbots, generando incertidumbre entre los productores de IA Generativa y los productores de información. La merma y el impacto económico negativo, así como la pérdida de confianza para OpenAI, podría ser notoria a medio plazo.

































