Volver al Blog
music||7 min de lectura

Ejecute una Red Neuronal en una Pestana del Navegador para Separar una Cancion en Stems

AR
Aral Roca

Creador de Kitmul

Una mesa de mezclas en un estudio de grabacion con iluminacion calida
Una mesa de mezclas en un estudio de grabacion con iluminacion calida

El otro dia un amigo me envio un memo de voz. "Encontre una linea de bajo increible en un viejo tema soul," dijo, "pero no puedo aislarla sin pagar 30 dolares al mes por algun servicio en la nube que quiere mi email, mi tarjeta de credito y probablemente mi primogenito."

No se equivoca. El panorama de separacion de stems en 2026 es un caos de muros de suscripcion y subidas a la nube. La mayoria de herramientas envian tu audio a una GPU remota, lo procesan y te devuelven los stems. Obtienes resultados en minutos, claro, pero tu idea de remix sin publicar ahora vive en el servidor de otro.

Queria ver si toda la cadena podia ejecutarse localmente, en una pestana del navegador, con cero peticiones de red despues de la carga inicial.

Resulta que si se puede.

Que es realmente la separacion de stems

Para quienes no esten familiarizados: la separacion de fuentes (tambien llamada demixing o unmixing) es el proceso de descomponer una senal de audio mezclada en sus fuentes constituyentes. Un tema pop tipico es la suma de voces, bateria, bajo y todo lo demas (guitarras, sintetizadores, teclados, cuerdas). El trabajo de la IA es revertir esa suma.

El estado del arte se remonta a Demucs de Meta, un modelo hibrido que opera simultaneamente en el dominio del tiempo y la frecuencia. Fue entrenado con miles de grabaciones multistem donde los stems individuales son conocidos, asi que aprendio las huellas espectrales que distinguen un bombo de un bajo de una voz humana.

Lo interesante es que Demucs v4 (htdemucs) usa una arquitectura transformer fusionada con una U-Net convolucional. El transformer maneja dependencias de largo alcance (como una nota vocal sostenida sobre un fill de bateria), mientras que la U-Net captura patrones espectrales locales. El resultado es significativamente menos "sangrado" entre stems comparado con enfoques anteriores.

Ejecutandolo en el navegador con ONNX + WebAssembly

El Audio Stem Splitter de Kitmul carga una version ONNX exportada del modelo Demucs y ejecuta la inferencia completamente via ONNX Runtime Web respaldado por WebAssembly. Sin servidor. Sin subida. Los bytes de audio nunca salen de tu maquina.

La interfaz del Audio Stem Splitter de Kitmul mostrando el area de subida y el panel de stems generados
La interfaz del Audio Stem Splitter de Kitmul mostrando el area de subida y el panel de stems generados

Esto es lo que pasa cuando sueltas un archivo de audio:

  1. El archivo se decodifica a PCM crudo usando decodeAudioData de la Web Audio API
  2. Si la tasa de muestreo no es 44100 Hz, se remuestrea via un OfflineAudioContext
  3. El audio se fragmenta y alimenta al modelo ONNX en un Web Worker para evitar bloquear el hilo de la UI
  4. El modelo genera cuatro mascaras espectrales (voces, bateria, bajo, otros)
  5. Cada mascara se aplica al espectrograma original para producir stems aislados
  6. Los stems se codifican de vuelta a WAV para descargar

Toda la cadena es vergonzosamente paralela en teoria, pero en la practica estas limitado por el hilo unico de WASM y la RAM disponible. Una cancion de 4 minutos tarda aproximadamente 3-5 minutos en un portatil moderno. No es rapido, pero no esta mal para ejecutar una red neuronal en una pestana del navegador.

El argumento de privacidad que nadie esta haciendo

Cada vez que subes un tema a LALAL.AI, Moises o Stem Roller, estas enviando audio potencialmente protegido por derechos de autor (o tu propio trabajo inedito) a un servidor de terceros. Sus politicas de privacidad suelen decir que "no almacenan tus archivos permanentemente," pero la palabra clave es "permanentemente."

Con el procesamiento del lado del cliente, la cuestion de la retencion de datos es irrelevante. No hay nada que retener. Tu navegador descarga los pesos del modelo una vez (en cache para futuras visitas), ejecuta las matematicas localmente y produce archivos de salida que existen solo en la memoria de tu dispositivo hasta que explicitamente los guardes.

Esto importa especialmente para:

  • Productores trabajando con material inedito
  • DJs preparando sets con pistas protegidas
  • Profesores de musica creando pistas de practica para estudiantes
  • Analistas de audio forense trabajando con grabaciones sensibles

Un estudio de musica con instrumentos e iluminacion ambiental calida
Un estudio de musica con instrumentos e iluminacion ambiental calida

Casos de uso practicos que no esperaba

El caso de uso obvio es karaoke (eliminar voces, cantar encima). Pero he visto gente usar la separacion de stems para cosas que no habia considerado:

Ayuda para transcripcion. Una pianista de jazz me conto que separa el stem de piano de grabaciones clasicas para transcribir voicings con mayor precision. Cuando puedes escuchar el piano aislado, captas detalles armonicos que se pierden en la mezcla completa.

Arqueologia de samples. Los productores de hip-hop rebuscan en rips de vinilo buscando loops. Aislar el break de bateria de un tema funk de los 70 te da un sample limpio sin tener que ecualizar los metales a mano.

Accesibilidad. Alguien con problemas de audicion menciono que potenciar el stem vocal y atenuar el instrumental hace que el contenido con mucho dialogo (podcasts con camas musicales, escenas de peliculas) sea significativamente mas claro.

Pruebas A/B de mezclas. Si estas aprendiendo a mezclar, separar una pista profesional en stems te permite reconstruir la mezcla desde cero en tu DAW y comparar tus decisiones con el balance original.

Las limitaciones del modelo (opinion honesta)

La separacion no es perfecta. Esto es donde el modelo tiene dificultades:

  • Audio muy comprimido o de baja tasa de bits produce mas artefactos. Empieza con MP3 a 320kbps o WAV si puedes.
  • Arreglos densos con muchos instrumentos superpuestos sangran mas hacia el stem "otros." Una pista de guitarra-y-voz sola se separa de maravilla; una produccion wall-of-sound tipo Phil Spector, no tanto.
  • Grabaciones mono pierden las pistas espaciales que ayudan al modelo a distinguir fuentes. Estereo siempre es mejor.
  • Archivos muy largos (>10 minutos) desafiaran la RAM de tu dispositivo. El limite de 50MB esta ahi por algo.

Si necesitas resultados de calidad estudio para un lanzamiento comercial, probablemente quieras iZotope RX o el CLI completo de Demucs en una GPU. Pero para flujos de trabajo rapidos, exploracion creativa o situaciones donde la privacidad importa mas que la perfeccion, la separacion en el navegador es genuinamente util.

Concepto de partitura musical y visualizacion de forma de onda
Concepto de partitura musical y visualizacion de forma de onda

Como se compara con la competencia

Caracteristica Kitmul Stem Splitter LALAL.AI Moises Demucs CLI
Procesamiento 100% local (navegador) GPU en la nube GPU en la nube GPU/CPU local
Precio Gratis $15-30/mes $4-17/mes Gratis (OSS)
Privacidad Sin subida Subida requerida Subida requerida Sin subida
Configuracion Cero Cuenta + pago Cuenta + pago Python + ffmpeg
Calidad Buena (ONNX htdemucs) Muy buena Muy buena La mejor (modelo completo)
Velocidad 3-5 min/cancion ~30 seg ~1 min ~30 seg (GPU)

El compromiso es claro: sacrificas algo de velocidad y calidad marginal por cero configuracion, cero coste y privacidad completa. Para la mayoria de flujos de trabajo no profesionales, es la decision correcta.

La Web Audio API es mas capaz de lo que crees

Construir esto reforzo algo que sigo descubriendo: el stack de audio del navegador esta seriamente infravalorado. Entre AudioContext para procesamiento en tiempo real, OfflineAudioContext para renderizado offline, AudioWorklet para DSP personalizado en un hilo dedicado, y ahora ONNX Runtime Web para ejecutar redes neuronales, puedes construir herramientas de produccion de audio legitimas que habrian requerido apps nativas hace cinco anos.

Pruebalo

El Audio Stem Splitter es gratuito, funciona en cualquier navegador moderno y procesa todo localmente. Suelta un MP3 o WAV, espera unos minutos y descarga tus pistas aisladas de voces, bateria, bajo e instrumentales.

Si te interesa la produccion musical, el Loop Music Creator (DAW en el navegador) y el YouTube Loop Mix (herramienta DJ de doble deck) se complementan bien con stems separados para flujos de remix.

Las tres herramientas funcionan en tu navegador. Sin cuentas. Sin subidas. Sin suscripciones.

Comparte este artículo

Boletín

Recibe Consejos de Productividad y Nuevas Herramientas Primero

Únete a creadores y desarrolladores que valoran la privacidad. En cada edición: nuevas herramientas, trucos de productividad y novedades — sin spam.

Acceso prioritario a nuevas herramientas
Cancela en cualquier momento, sin preguntas