Ejecuté una Red Neuronal en una Pestaña del Navegador para Separar una Canción en Stems

Una mesa de mezclas en un estudio de grabacion con iluminacion calida

El otro día un amigo me envió un memo de voz. "Encontré una línea de bajo increible en un viejo tema soul," dijo, "pero no puedo aislarla sin pagar 30 dolares al mes por algún servicio en la nube que quiere mi email, mi tarjeta de crédito y probablemente mi primogenito."

No se equivoca. El panorama de separacion de stems en 2026 es un caos de muros de suscripción y subidas a la nube. La mayoría de herramientas envían tu audio a una GPU remota, lo procesan y te devuelven los stems. Obtienes resultados en minutos, claro, pero tu idea de remix sin publicar ahora vive en el servidor de otro.

Queria ver si toda la cadena podía ejecutarse localmente, en una pestaña del navegador, con cero peticiones de red después de la carga inicial.

Resulta que si se puede.

Que es realmente la separacion de stems

Para quienes no esten familiarizados: la separacion de fuentes (también llamada demixing o unmixing) es el proceso de descomponer una señal de audio mezclada en sus fuentes constituyentes. Un tema pop típico es la suma de voces, batería, bajo y todo lo demás (guitarras, sintetizadores, teclados, cuerdas). El trabajó de la IA es revertir esa suma.

El estado del arte se remonta a Demucs de Meta, un modelo hibrido que opera simultaneamente en el dominio del tiempo y la frecuencia. Fue entrenado con miles de grabaciones multistem donde los stems individuales son conocidos, así que aprendio las huellas espectrales que distinguen un bombo de un bajo de una voz humana.

Lo interesante es que Demucs v4 (htdemucs) usa una arquitectura transformer fusionada con una U-Net convolucional. El transformer maneja dependencias de largo alcance (como una nota vocal sostenida sobre un fill de batería), mientras que la U-Net captura patrones espectrales locales. El resultado es significativamente menos "sangrado" entré stems comparado con enfoques anteriores.

Ejecutandolo en el navegador con ONNX + WebAssembly

El Audio Stem Splitter de Kitmul carga una versión ONNX exportada del modelo Demucs y ejecuta la inferencia completamente vía ONNX Runtime Web respaldado por WebAssembly. Sin servidor. Sin subida. Los bytes de audio nunca salen de tu máquina.

La interfaz del Audio Stem Splitter de Kitmul mostrando el area de subida y el panel de stems generados

Esto es lo que pasa cuando sueltas un archivo de audio:

El archivo se decodifica a PCM crudo usando decodeAudioData de la Web Audio API
Si la tasa de muestreo no es 44100 Hz, se remuestrea vía un OfflineAudioContext
El audio se fragmenta y alimenta al modelo ONNX en un Web Worker para evitar bloquear el hilo de la UI
El modelo genera cuatro mascaras espectrales (voces, batería, bajo, otros)
Cada mascara se aplica al espectrograma original para producir stems aislados
Los stems se codifican de vuelta a WAV para descargar

Toda la cadena es vergonzosamente paralela en teoría, pero en la práctica estas limitado por el hilo único de WASM y la RAM disponible. Una canción de 4 minutos tarda aproximadamente 3-5 minutos en un portátil moderno. No es rápido, pero no está mal para ejecutar una red neuronal en una pestaña del navegador.

El argumento de privacidad que nadie está haciendo

Cada vez que subes un tema a LALAL.AI, Moises o Stem Roller, estas enviando audio potencialmente protegido por derechos de autor (o tu propio trabajó inedito) a un servidor de terceros. Sus politicas de privacidad suelen decir que "no almacenan tus archivos permanentemente," pero la palabra clave es "permanentemente."

Con el procesamiento del lado del cliente, la cuestion de la retencion de datos es irrelevante. No hay nada que retener. Tu navegador descarga los pesos del modelo una vez (en cache para futuras visitas), ejecuta las matemáticas localmente y produce archivos de salida que existen solo en la memoria de tu dispositivo hasta que explícitamente los guardes.

Esto importa especialmente para:

Productores trabajando con material inedito
DJs preparando sets con pistas protegidas
Profesores de música creando pistas de práctica para estudiantes
Analistas de audio forense trabajando con grabaciones sensibles

Un estudio de música con instrumentos e iluminacion ambiental calida

Casos de uso prácticos que no esperaba

El caso de uso obvio es karaoke (eliminar voces, cantar encima). Pero he visto gente usar la separacion de stems para cosas que no había considerado:

Ayuda para transcripción. Una pianista de jazz me conto que separa el stem de piano de grabaciones clásicas para transcribir voicings con mayor precisión. Cuando puedes escuchar el piano aislado, captas detalles armonicos que se pierden en la mezcla completa.

Arqueología de samples. Los productores de hip-hop rebuscan en rips de vinilo buscando loops. Aislar el break de batería de un tema funk de los 70 te da un sample limpió sin tener que ecualizar los metales a mano.

Accesibilidad. Alguien con problemas de audición mencionó que potenciar el stem vocal y atenuar el instrumental hace que el contenido con mucho diálogo (podcasts con camas musicales, escenas de películas) sea significativamente más claro.

Pruebas A/B de mezclas. Si estas aprendiendo a mezclar, separar una pista profesional en stems te permite reconstruir la mezcla desde cero en tu DAW y comparar tus decisiones con el balance original.

Las limitaciones del modelo (opinion honesta)

La separacion no es perfecta. Esto es donde el modelo tiene dificultades:

Audio muy comprimido o de baja tasa de bits produce mas artefactos. Empieza con MP3 a 320kbps o WAV si puedes.
Arreglos densos con muchos instrumentos superpuestos sangran mas hacia el stem "otros." Una pista de guitarra-y-voz sola se separa de maravilla; una producción wall-of-sound tipo Phil Spector, no tanto.
Grabaciones mono pierden las pistas espaciales que ayudan al modelo a distinguir fuentes. Estereo siempre es mejor.
Archivos muy largos (>10 minutos) desafiaran la RAM de tu dispositivo. El límite de 50MB está ahí por algo.

Si necesitas resultados de calidad estudio para un lanzamiento comercial, probablemente quieras iZotope RX o el CLI completó de Demucs en una GPU. Pero para flujos de trabajó rápidos, exploración creativa o situaciones donde la privacidad importa más que la perfeccion, la separacion en el navegador es genuinamente útil.

Concepto de partitura musical y visualización de forma de onda

cómo se compara con la competencia

característica	Kitmul Stem Splitter	LALAL.AI	Moises	Demucs CLI
Procesamiento	100% local (navegador)	GPU en la nube	GPU en la nube	GPU/CPU local
Precio	Gratis	$15-30/mes	$4-17/mes	Gratis (OSS)
Privacidad	Sin subida	Subida requerida	Subida requerida	Sin subida
Configuración	Cero	Cuenta + pagó	Cuenta + pagó	Python + ffmpeg
Calidad	Buena (ONNX htdemucs)	Muy buena	Muy buena	La mejor (modelo completó)
Velocidad	3-5 min/canción	~30 seg	~1 min	~30 seg (GPU)

El compromiso es claro: sacrificas algo de velocidad y calidad marginal por cero configuración, cero coste y privacidad completa. Para la mayoría de flujos de trabajó no profesionales, es la decisión correcta.

La Web Audio API es más capaz de lo que crees

Construir esto reforzo algo que sigo descubriendo: el stack de audio del navegador está seriamente infravalorado. Entré AudioContext para procesamiento en tiempo real, OfflineAudioContext para renderizado offline, AudioWorklet para DSP personalizado en un hilo dedicado, y ahora ONNX Runtime Web para ejecutar redes neuronales, puedes construir herramientas de producción de audio legitimas que habrían requerido apps nativas hace cinco años.

Pruebalo

El Audio Stem Splitter es gratuito, funciona en cualquier navegador moderno y procesa todo localmente. Suelta un MP3 o WAV, espera unos minutos y descarga tus pistas aisladas de voces, batería, bajo e instrumentales.

Si te interesa la producción musical, el Loop Music Creator (DAW en el navegador) y el YouTube Loop Mix (herramienta DJ de doble deck) se complementan bien con stems separados para flujos de remix.

Las tres herramientas funcionan en tu navegador. Sin cuentas. Sin subidas. Sin suscripciones.