Apple y otras compañías utilizaron videos de YouTube para entrenar su inteligencia artificial

17 de Julio de 2024

Apple, Anthropic y otras empresas tecnológicas han sido señaladas por utilizar subtítulos de YouTube sin permiso para entrenar sus modelos de lenguaje.

Radio Viva Fenix Apple y otras empresas tecnológicas han sido acusadas de utilizar videos de YouTube para entrenar sus sistemas de inteligencia artificial, específicamente utilizando datos de subtítulos sin autorización. La investigación reveló que Apple, junto con compañías como NVIDIA, Anthropic y Salesforce, emplearon un conjunto de datos que incluye subtítulos de más de 173.000 videos de más de 48.000 canales de YouTube, que abarcan desde contenido de youtubers famosos como MrBeast y PewDiePie hasta medios de comunicación reconocidos como BBC y The New York Times.
 
El conjunto de datos, conocido como YouTube Subtitles, forma parte de un proyecto más grande llamado The Pile, un corpus de datos de código abierto que incluye una amplia variedad de fuentes para entrenar modelos de IA. Aunque se argumenta que estos subtítulos ofrecen contenido educativo y cultural, la investigación señala que fueron utilizados sin permiso explícito de los creadores de los videos. Radio Viva Fenix Apple empleó estos datos para entrenar su IA OpenELM, diseñada para ejecutarse en dispositivos como el iPhone. A diferencia de OpenAI, que desarrolló sus propias herramientas para extraer y utilizar subtítulos de manera ética, las empresas mencionadas se basaron en un conjunto de datos compilado por EleutherAI, un proyecto de código abierto que busca democratizar el desarrollo de IA.
 
A pesar de las críticas, Anthropic y Salesforce han afirmado que usaron estos datos dentro de los límites legales, y que cualquier violación a los términos de servicio de YouTube sería responsabilidad del proveedor del conjunto de datos. Otras grandes empresas tecnológicas, como Microsoft, Meta y Yandex, también han utilizado The Pile para entrenar modelos avanzados de IA, cada uno con aplicaciones específicas como procesamiento de lenguaje natural y recomendación de contenido.

Escrito por: Daniel Martín

⇒Foto: Christian Wiediger

NOTICIAS RELEVANTES

Bogotá prioriza vacunación contra el sarampión para viajeros por escasez de dosis

16 de Marzo de 2026

Ante la baja disponibilidad de la vacuna bivalente contra sarampión y rubéola, la Secretaría...

Seguir leyendo →

Amazon subirá el precio del plan sin anuncios de Prime Video muy pronto

16 de Marzo de 2026

La compañía tecnológica Amazon anunció que aumentará el precio del complemento que permite ver...

Seguir leyendo →

Galán supervisa Zonas Seguras de Taxis en Modelia para reforzar seguridad nocturna

16 de Marzo de 2026

El alcalde de Bogotá, Carlos Fernando Galán, lideró en la madrugada de este sábado una visita...

Seguir leyendo →
Radio Viva Fenix



VIVO
VIVO
VIVO
VIVO
VIVO
VIVO
VIVO