----
/
/
Robo de contenidos, práctica común en IA
Content Theft

Robo de contenidos, práctica común en IA

El entrenamiento de sistemas de inteligencia artificial depende de datos, muchos datos, y la principal fuente de estos es la Internet.

Esto para nadie debe ser un secreto, pues muchas veces se he señalado esta realidad en el contexto de la falta de ética implícita al tomar contenidos de la Internet sin siquiera pedir permiso u otorgar los créditos de lugar.

La toma de datos, informaciones y contenidos de la Internet es un flagelo que se viene combatiendo desde años -sin mucho éxito, desafortunadamente-, agravándose primero con el auge de blogs y páginas independientes y ahora con el afán de la inteligencia artificial.

Esto a nadie debe sorprender, pero ello no impide explorar hasta donde llegan las extracciones de contenidos para entrenar los cada vez más comunes sistemas de inteligencia artificial.

En este punto es importante saber que no hay nada privilegiado o enteramente protegido en la internet. Para fines de la inteligencia artificial, todo vale, incluso violar las políticas de una plataforma como YouTube, que prohíbe expresámente recolección de contenidos sin autorización del creador.

Una reciente investigación de Proof News, según reporta Wired, da cuenta de cómo Eleuther AI, un laboratorio de investigación de IA sin fines de lucro que se enfoca en la interpretabilidad y alineación de modelos amplios, violó esas condiciones.

Eleuther AI ofrece un conjunto de datos de 825 GiB (alrededor de 885 GB) llamado The Pile que, a su vez, está compuesto por una serie de conjuntos de datos más pequeños.

Uno de esos subconjuntos de datos consta de subtítulos de YouTube, y estos fueron tomados de más de 173 mil videos pertenecientes a 48 mil canales.

La investigación menciona los canales de la BBC, Khan Academy, MIT, Harvard, Marques Brownlee, Mr. Beast, NPR, Last Week Tonight with John Oliver y muchos más.

Los consultados por la investigación afirman no haber sido contactados para hacer uso de sus materiales, lo cual equivale a robo desde el punto de vista de los creadores de contenidos.

The Pile está disponible para cualquiera sus tenga los recursos de espacio y computación requeridos para acceder a tanta información. Los usuarios incluyen compañías como Nvidia, Anthropic, Apple y Salesforce.

Si bien estas compañías no han violado nada por su cuenta, porque The Pile no fue compilada por estas sino por Eleuther AI, el caso da una idea de la severidad del asunto.

Deja una respuesta

AUTORA

ROCIO DIAZ

ARTICULOS RECIENTES

Categorías

instagram