Apple y otras compañías utilizaron videos de YouTube para entrenar su inteligencia artificial

17 de Julio de 2024

Apple, Anthropic y otras empresas tecnológicas han sido señaladas por utilizar subtítulos de YouTube sin permiso para entrenar sus modelos de lenguaje.

Radio Viva Fenix Apple y otras empresas tecnológicas han sido acusadas de utilizar videos de YouTube para entrenar sus sistemas de inteligencia artificial, específicamente utilizando datos de subtítulos sin autorización. La investigación reveló que Apple, junto con compañías como NVIDIA, Anthropic y Salesforce, emplearon un conjunto de datos que incluye subtítulos de más de 173.000 videos de más de 48.000 canales de YouTube, que abarcan desde contenido de youtubers famosos como MrBeast y PewDiePie hasta medios de comunicación reconocidos como BBC y The New York Times.
 
El conjunto de datos, conocido como YouTube Subtitles, forma parte de un proyecto más grande llamado The Pile, un corpus de datos de código abierto que incluye una amplia variedad de fuentes para entrenar modelos de IA. Aunque se argumenta que estos subtítulos ofrecen contenido educativo y cultural, la investigación señala que fueron utilizados sin permiso explícito de los creadores de los videos. Radio Viva Fenix Apple empleó estos datos para entrenar su IA OpenELM, diseñada para ejecutarse en dispositivos como el iPhone. A diferencia de OpenAI, que desarrolló sus propias herramientas para extraer y utilizar subtítulos de manera ética, las empresas mencionadas se basaron en un conjunto de datos compilado por EleutherAI, un proyecto de código abierto que busca democratizar el desarrollo de IA.
 
A pesar de las críticas, Anthropic y Salesforce han afirmado que usaron estos datos dentro de los límites legales, y que cualquier violación a los términos de servicio de YouTube sería responsabilidad del proveedor del conjunto de datos. Otras grandes empresas tecnológicas, como Microsoft, Meta y Yandex, también han utilizado The Pile para entrenar modelos avanzados de IA, cada uno con aplicaciones específicas como procesamiento de lenguaje natural y recomendación de contenido.

Escrito por: Daniel Martín

⇒Foto: Christian Wiediger

NOTICIAS RELEVANTES

Avianca ofrece reubicación sin costo tras cierre de Spirit Airlines

4 de Mayo de 2026

La aerolínea estadounidense de bajo costo Spirit Airlines anunció el cierre definitivo de sus...

Seguir leyendo →

Línea 1 del Metro de Bogotá podría extenderse: proponen tres nuevas estaciones hacia el norte

4 de Mayo de 2026

La Línea 1 del Metro de Bogotá podría crecer más allá de su trazado actual. En una audiencia...

Seguir leyendo →

El Traductor de Google cumple 20 años: la herramienta que cambió para siempre la comunicación global

4 de Mayo de 2026

El Traductor de Google celebra 20 años desde su lanzamiento, consolidándose como una de las...

Seguir leyendo →
Radio Viva Fenix



VIVO
VIVO
VIVO
VIVO
VIVO
VIVO
VIVO