Instalar WhisperX en local es un proceso esencial para aquellos que desean utilizar este potente transcriptor de audio sin depender de servicios en la nube. En este artículo, te guiaremos a través del proceso de instalación local de WhisperX sin importar tu sistema operativo.
Para no perderte en el proceso, debes seguir el siguiente orden que te proponemos a continuación. Encontrarás links que te lleven a la sección que detalla el proceso de instalación de cada programa, una vez completes esa parte vuelve a esta sección para continuar con el siguiente paso.
En este artículo encontrarás:
- Instala Miniconda. Ver como instalar miniconda3.
- Instala CUDA (Para usuarios con GPU NVIDIA). Ver como instalar CUDA.
- Cómo descargar Git en Windows, macOS y Linux
- Descarga el repositorio de GitHub preparado por MISTER CONTENIDOS. Ver como descargar el repositorio.
- Instalación de WhisperX. Ver cómo instalar WhisperX.
- Cómo usar WhisperX en local. Ver guía de uso.
- Cómo traducir tus trascripciones.
- Comparación de tiempos de transcripción con Whisper y WhisperX.
- Comandos Relevantes en Conda.
Descarga e instalación de Miniconda
La instalación de Miniconda es esencial para crear el entorno adecuado e instalar los paquetes necesarios para WhisperX. Además, simplificará la instalación de otros proyectos de inteligencia artificial y cualquier otro proyecto que requiera gestión de entornos y paquetes.
Para instalar Miniconda, sigue estos pasos:
- Accede a la página oficial de Miniconda: Abre tu navegador y dirígete a la página de descargas de Miniconda3.
- Descarga el instalador de Miniconda3: En la página de descargas, busca los instaladores por plataforma y descarga el correspondiente a tu sistema operativo (Windows, macOS o Linux).
- Ejecuta el instalador: Una vez descargado el instalador, búscalo en tu carpeta de descargas y haz doble clic para iniciar el proceso de instalación. Se abrirá la ventana del instalador de Miniconda3.
- Configura las opciones de instalación:
- En la primera ventana, haz clic en Next.
- Acepta la licencia de uso haciendo clic en I Agree.
- En la ventana «Install for», selecciona Just Me y haz clic en Next.
- En la siguiente ventana, selecciona la ubicación donde deseas instalar Miniconda, deja la opción por defecto y pulsa Next.
- En la ventana de “opciones de instalación”, selecciona Create start menu shortcuts y pulsa Install.
- Espera a que se complete la instalación: Este proceso puede tardar unos minutos. Al finalizar, tendrás Miniconda instalado en tu computadora.
¡Listo! Ahora tienes Miniconda instalado en tu sistema operativo y estás listo para el siguiente paso.
Proceso de Descarga e instalación de CUDA
Si tienes una tarjeta gráfica NVIDIA en tu computador, puedes instalar algo llamado CUDA, para mejorar su rendimiento en tareas específicas. Si no tienes una tarjeta de esta marca, puedes omitir este paso.
Para poder ejecutar WhisperX, debe instalar una versión igual o superior a CUDA 12.
En esta guía instalamos CUDA 12.1.0 de (febrero 2023) para una RXT 3060 12GB y funciona correctamente.
Para instalar CUDA en Windows, sigue los siguientes pasos:
- Verifica la compatibilidad de tu tarjeta gráfica con CUDA: Antes de iniciar la instalación, es importante asegurarse de que tu tarjeta gráfica es compatible con CUDA. Puedes verificar la lista de tarjetas gráficas compatibles en la página oficial de CUDA GPUs.
- Descarga el instalador de CUDA Toolkit: Visita la página oficial de descargas de CUDA Toolkit y selecciona la versión de CUDA que deseas instalar. Asegúrate de elegir la versión Windows, la arquitectura de tu sistema (por ejemplo, x86_64), la versión del sistema operativo 10 o 11 y el tipo de instalador (exe local).
- Ejecuta el instalador como administrador: Una vez descargado el instalador, haz clic derecho sobre el archivo y selecciona la opción Ejecutar como administrador para iniciar el proceso de instalación.
- Sigue las instrucciones del instalador de CUDA Toolkit: El instalador te guiará a través de varios pasos. Es recomendable mantener las opciones predeterminadas, a menos que tengas requisitos específicos.
- Verifica la instalación: Una vez completada la instalación, puedes verificar que CUDA se haya instalado correctamente abriendo una ventana de comandos (cmd) y ejecutando el comando
nvcc --version
. Este comando debería mostrar la versión de CUDA Toolkit que has instalado.
Listo, con estos pasos deberías haber completado la instalación de CUDA en Windows, preparando tu sistema para el desarrollo de aplicaciones que aprovechan el poder de procesamiento de las GPUs Nvidia.
Cómo descargar Git en Windows, macOS y Linux
Git en Windows
Para instalar Git en Whispdows sigue los siguientes pasos:
- Visita la página de descargas de Git para Windows.
- Haz clic en el enlace para descargar el instalador.
- Ejecuta el archivo descargado y sigue las instrucciones del asistente de instalación.
- Asegúrate de seleccionar las opciones predeterminadas.
- Una vez completada la instalación, abre la línea de comandos (Cmd, PowerShell o Git Bash) y verifica la instalación ejecutando:
git --version
Git en macOS
Para instalar Git en macOS sigue los siguientes pasos:
- Abre la Terminal.
- Si tienes Homebrew instalado, puedes instalar Git con el siguiente comando:
brew install git
Si no tienes Homebrew, puedes instalarlo siguiendo las instrucciones la página oficial de Homebrew. - Verifica la instalación ejecutando en la Terminal:
git --version
Git en Linux
Para instalar Git en Linux sigue los siguientes pasos:
- Abre la Terminal.
- Usa el gestor de paquetes de tu distribución para instalar Git. Aquí hay algunos ejemplos según la distribución:
- Debian/Ubuntu:
sudo apt update sudo apt install git
- Fedora:
sudo dnf install git
- Arch Linux:
sudo pacman -S git
- Debian/Ubuntu:
- Una vez completada la instalación, verifica la instalación ejecutando:
git --version
Descargar repositorio de GitHub
Para descargar el repositorio de GitHub preparado para la instalación y uso de WhisperX, sigue estos pasos:
- Descarga con Git: Busca la terminal de miniconda3 y ábrela. Una vez hecho esto ejecuta el siguiente comando en la terminal
git clone https://github.com/rgcodeai/Kit-Whisperx.git
Esto descargará el repositorio de este proyecto. - Descarga el repositorio sin Git: Ve a nuestro repositorio de GitHub Kit-Whisperx. Haz clic en el botón verde (Code) en la parte superior y selecciona Download ZIP. Descomprime el archivo en tu escritorio.
Cómo descargar e instalar WhisperX en local
Para completar el proceso de instalación de los paquetes necesarios de Whisperx, disponemos de dos opciones. Por un lado, podemos optar por la instalación casi automática mediante los archivos «environment-cpu» o «environment-cuda«. Por otro lado, si este proceso falla (lo que es poco probable, pero no imposible), podemos recurrir a la instalación manual.
Instalación automática de WhisperX
Cada uno de los archivos tiene una configuración especial, dependiendo de las características de tu PC. En particular, el archivo «environment-cpu» está destinado a usuarios que no tienen una tarjeta gráfica de la marca NVIDIA o que tienen tarjetas gráficas de otras marcas. Mientras que, el archivo «environment-cuda» es específicamente para usuarios que cuentan con GPUs de la marca NVIDIA.
Recomendación: Antes de instalar, abre la terminal de Anaconda Prompt (Miniconda3) exclusivamente para este proceso, asegurándote de no haberla usado previamente para otra tarea.
Sigue estos pasos para la instalación:
- Abre la terminal de Anaconda Prompt (Miniconda3).
- En la terminal, navega a la carpeta del proyecto descargado desde GitHub.
- Una vez en la carpeta del proyecto, utiliza uno de los siguientes comandos para iniciar el proceso de instalación:
- Para usuarios con GPU Nvidia:
conda env create -f environment-cuda.yml
- Para usuarios sin GPU Nvidia:
conda env create -f environment-cpu.yml
- Para usuarios con GPU Nvidia:
- Una vez termine el proceso de instalación ejecuta el siguiente comando para activar y correr Whisperx localmente. (La primera vez que se ejecuta se demora un poco)
- Windows:
conda activate whisperx-web-ui & python app.py
- Unix (Linux/macOS):
conda activate whisperx-web-ui && python app.py
- Windows:
Instalación Manual de WhisperX
Para configurar manualmente WhisperX en tu entorno, sigue estos pasos detallados. Este proceso incluye la creación de un nuevo entorno de conda y la instalación de las dependencias necesarias según las características de tu PC.
Recomendación: Antes de instalar, abre la terminal de Anaconda Prompt (Miniconda3) exclusivamente para este proceso, asegurándote de no haberla usado previamente para otra tarea.
Pasos para la instalación:
- Crear un nuevo entorno de Conda: Abre la terminal de Anaconda Prompt (Miniconda3) y crea un nuevo entorno llamado whisperx-web-ui con el siguiente comando:
conda create --name whisperx-web-ui python=3.10
- Activar el entorno: Activa el nuevo entorno que acabas de crear con el siguiente comando
conda activate whisperx-web-ui
- Instalar PyTorch y Torchaudio:
- Para usuarios con GPU Nvidia:
conda install pytorch==2.0.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia
- Para usuarios sin GPU:
conda install pytorch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 cpuonly -c pytorch
- Para usuarios con GPU Nvidia:
- Instalar dependencias adicionales: Ejecuta cada comando por separado ****
conda install conda-forge::gradio
conda install conda-forge::ffmpeg
- Instalar WhisperX: Finalmente, instala WhisperX utilizando el siguiente comando
pip install whisperx
Con estos pasos, habrás configurado manualmente WhisperX en tu entorno de conda. Ahora estás listo para usar la interfaz web de WhisperX y aprovechar sus capacidades de procesamiento de audio.
Cómo usar WhisperX en local
Una vez que hayas completado el proceso de instalación, abre la terminal de Miniconda3 y ejecuta alguno de los siguientes comandos para activar la interfaz de WhisperX:
- Windows:
cd Kit-Whisperx & conda activate whisperx-web-ui & python app.py
- Unix (Linux/macOS):
cd Kit-Whisperx && conda activate whisperx-web-ui && python app.py
Cómo traducir tus trascripciones
Para realizar la traducción de tus trascripciones sigue los siguientes pasos:
- Regístrate en Claude.ai.
- Usa el siguiente prompt, asegúrate de ajustar los campos entre corchetes a tus necesidades:
Traduce la siguiente trascripción en formato [SRT] siguiendo las siguientes instrucciones para realizar la traducción.
- Realiza la traducción de manera que suene natural en [IDIOMA A TRADUCIR], tanto que parezca escrita por un hablante nativo.
- Ajusta la traducción para que tenga sentido en el idioma de destino, sin modificar el propósito original del mensaje.
- Interpreta la intención del hablante para que, al realizar la traducción, cada oración se exprese de la manera en que lo diría un hablante nativo del idioma de destino.
- No modifiques los tiempos de las oraciones.
- El idioma de origen es [IDIOMA ORIGINAL]
"""
PEGA AQUÍ TU TRASCRIPCIÓN
"""
Tiempos de Transcripción con Whisper y WhisperX
En esta sección, exploraremos cuánto tiempo tardan Whisper y WhisperX en convertir un audio de 13 minutos y 38 segundos en español a texto. Realizamos esta comparación usando una tarjeta gráfica Nvidia RTX 3060 de 12 GB y un procesador Ryzen 7 5700X.
Los modelos que probamos son: Large-v2, Medium, Small y Base. Aquí tienes los resultados obtenidos.
Whisper y WhisperX en CPU Ryzen 7 5700X
Modelo | Whisper | WhisperX |
---|---|---|
Large-v2 | 23:10 min | 20:53 min |
Medium | 12:48 min | 7:44 min |
Small | 4:58 min | 5:43 min |
Base | 1:54 min | 3:40 min |
Al comparar los tiempos, vemos que WhisperX es generalmente más rápido que Whisper cuando usamos los modelos Medium y Large-v2. Por otro lado, Whisper es más rápido en los modelos Small y Base. En el siguiente gráfico será más fácil ver esta comparación:
Whisper y WhisperX en RTX 3060 – GPU (CUDA)
Modelo | Whisper | WhisperX |
---|---|---|
Large-v2 | 3.35 min | 1:25 min |
Medium | 2:41 min | 52.5 seg |
Small | 1:32 min | 32.7 seg |
Base | 48 seg | 23.9 seg |
La diferencia en los tiempos de transcripción es aún más clara cuando usamos una tarjeta gráfica (GPU). WhisperX es considerablemente más rápido en todos los casos. En particular, con el modelo Large-v2, la relación entre el tiempo que tarda y la calidad del texto obtenido es excepcional.
Eficiencia Relativa
- WhisperX demuestra ser más eficiente en la utilización de la GPU, especialmente en modelos más grandes como Large-v2.
- Whisper muestra tiempos de transcripción más rápidos en los modelos Small y Base cuando se utiliza la CPU, pero su eficiencia en GPU es menor en comparación con WhisperX.
Comandos Relevantes en Conda
Conda es un gestor de paquetes y entornos virtuales muy útil en el desarrollo de aplicaciones con Python. A lo largo del proceso de instalación y configuración de WhisperX, utilizamos varios comandos de Conda. En esta sección, revisaremos algunos de los comandos más relevantes que pueden ser de ayuda en este y otros proyectos similares.
- Navegar entre directorios:
cd ruta_directorio
- Retroceder un directorio:
cd ..
- Crear un nuevo entorno virtual:
conda create --name nombre_entorno python=version
- Activar un entorno virtual:
conda activate nombre_entorno
- Desactivar un entorno virtual:
conda deactivate
- Eliminar un entorno virtual:
conda env remove --name nombre_entorno
- Listar todos los entornos virtuales:
conda env list
- Instalar un paquete en el entorno activo:
conda install nombre_paquete
- Eliminar un paquete del entorno activo:
conda remove nombre_paquete
- Actualizar un paquete en el entorno activo:
conda update nombre_paquete
- Guardar el estado del entorno en un archivo YML:
conda env export > environment.yml
- Crear un nuevo entorno a partir de un archivo YML:
conda env create -f environment.yml