Cómo instalar Whisper en Windows ¡Guía sencilla paso a paso!

Ricardo Gonzalez
¿cómo instalar WHISPER en Windows

Contenido

¿Buscas una manera fácil y eficiente de instalar Whisper en Windows? Esta poderosa herramienta de Inteligencia Artificial te permitirá transcribir audio y video con una precisión asombrosa.



En este artículo, te mostraremos una guía detallada en múltiples pasos sencillos, para configurar Whisper en tu sistema operativo Windows. De manera que puedas aprovechar al máximo sus capacidades y agilizar tus tareas de transcripción.

Proceso para instalar Whisper en Windows

Para utilizar el transcriptor Whisper en Windows 10 o 11, es imprescindible instalar los siguientes programas:

  1. Python 3.8-3.11
  2. Chocolatey
  3. CUDA (Para usuarios con GPU NVIDIA)
  4. PyTorch

Para no perderte en el proceso, debes seguir el siguiente orden que te proponemos a continuación. Encontrarás links que te lleven a la sección que detalla el proceso de instalación de cada programa, una vez completes esa parte vuelve a esta sección para continuar con el siguiente paso.



Proceso de instalación:

  1. Instala Python. Ver como instalar Python en Windows.
  2. Instala Chocolatey. Ver como instalar Chocolatey en Windows.
  3. Instala CUDA (Para usuarios con GPU NVIDIA). Ver como instalar CUDA en Windows.
  4. Descarga el repositorio de GitHub preparado por MISTER CONTENIDOS. Ver como descargar el repositorio.
  5. Obtén el comando de instalación de PyTorch. Ver cómo obtener el comando de instalación de PyTorch en Windows.
  6. Instalación de Whisper. Ver cómo instalar Whisper en Windows.
  7. Cómo usar Whisper. Ver guía de uso.
  8. Configurando Whisper para un rendimiento optimo.

Descarga e instalación de Python en Windows

Descargar Python es esencial para el uso de Whisper, es usado en desarrollo web, ciencia de datos, automatización, y mucho más.

Para instalar Python en Windows, sigue estos pasos:

  1. Accede a la página oficial de Python: Abre tu navegador y visita el sitio oficial de Python, python.org. Navega hasta el apartado de (Downloads).
  2. Descarga el instalador de Python: La versión de Python recomendada según el repositorio oficial de Whisper en GitHub es de la 3.8 – 3.11. Selecciona la versión de Python que deseas instalar y haz clic en el botón de descarga para la versión Windows installer (64-bit). Nosotros usamos la versión 3.11.3 y todo va perfecto.
  3. Ejecuta el instalador: Una vez descargado el archivo, búscalo en tu carpeta de descargas y haz doble clic para iniciar el proceso de instalación. Verás la ventana del instalador de Python.
  4. Selecciona las opciones de instalación: Antes de continuar, asegúrate de MARCAR LA CASILLA (Add Python.exe to PATH) en la parte inferior del instalador. Esto facilitará la ejecución de Python desde la línea de comandos.
  5. Inicia el proceso de instalación: Haz clic en (Install Now) para comenzar la instalación con las configuraciones predeterminadas. El instalador te pedirá permisos de administrador. Acepta para continuar.
  6. Espera a que se complete la instalación: El proceso puede tardar unos minutos. Verás una barra de progreso mostrando el avance de la instalación. Al finalizar tendrás instalado Python en tu pc.


Listo, eso es todo lo que necesitas para instalar Python en Windows. Ahora estás listo para el siguiente paso.

Proceso de Descarga e instalación de Chocolatey en Windows

El proceso de instalación de chocolatey es necesario para instalar FFmpeg una herramienta multiplataforma que permite procesar audio y video.

Para instalar Chocolatey en windows sigue los siguientes pasos:

  1. Abre PowerShell como administrador: Busca en la barra de navegación la terminal de PowerShell, haz clic derecho sobre ella y selecciona la opción de ejecutar como administrador.
  2. Verifica la política de ejecución de PowerShell: En la terminal de PowerShell escribe el siguiente comando Get-ExecutionPolicy La idea es verificar que Diga ALLSigned.
  3. Configurar ALLSigned en PowerShell: Si ejecutando el comando del paso anterior no te muestra el mensaje ALLSigned tendrás que cambiar la política de ejecución mediante el siguiente comando, Set-ExecutionPolicy ALLSigned y confirmar el cambio con una “S” o una “Y” dependiendo del idioma en el que esté tu PC.
  4. Instalar chocolatey: Para realizar la instalación vamos ir a la página oficial de instalación de chocolatey, copiamos el comando que inicia por Set-ExecutionPolicy Bypass, lo pegamos en la terminal y damos enter.
  5. Verificación de la instalación: Para verificar que Chocolatey se ha instalado correctamente en tu equipo, debes cerrar la ventana actual de PowerShell y abrir una nueva para ejecutar el siguiente comando: choco -v. Esto te mostrará la versión de Chocolatey instalada.


Listo, eso tuvo que ser más que suficiente para realizar la instalación de chocolatey. La instalación de FFmpeg la realizaremos automáticamente al instalar el proyecto para instalar whisper en windows.

Proceso de Descarga e instalación de CUDA

Si tienes una tarjeta gráfica NVIDIA en tu computador, puedes instalar algo llamado CUDA, para mejorar su rendimiento en tareas específicas. Si no tienes una tarjeta de esta marca, puedes omitir este paso.

Para obtener información detallada y específica sobre la compatibilidad con versiones de CUDA, siempre es recomendable consultar la documentación oficial de NVIDIA y los foros de desarrolladores para las últimas actualizaciones y recomendaciones.

En esta guía instalamos CUDA 12.1.0 de (febrero 2023) para una RXT 3060 12GB y funciona correctamente.



Para instalar CUDA en Windows, sigue los siguientes pasos:

  1. Verifica la compatibilidad de tu tarjeta gráfica con CUDA: Antes de iniciar la instalación, es importante asegurarse de que tu tarjeta gráfica es compatible con CUDA. Puedes verificar la lista de tarjetas gráficas compatibles en la página oficial de CUDA GPUs.
  2. Descarga el instalador de CUDA Toolkit: Visita la página oficial de descargas de CUDA Toolkit y selecciona la versión de CUDA que deseas instalar. Asegúrate de elegir la versión Windows, la arquitectura de tu sistema (por ejemplo, x86_64), la versión del sistema operativo 10 o 11 y el tipo de instalador (exe local). Cuda 11.8 y 12.1 suelen ser las más comunes.
  3. Ejecuta el instalador como administrador: Una vez descargado el instalador, haz clic derecho sobre el archivo y selecciona la opción Ejecutar como administrador para iniciar el proceso de instalación.
  4. Sigue las instrucciones del instalador de CUDA Toolkit: El instalador te guiará a través de varios pasos. Es recomendable mantener las opciones predeterminadas, a menos que tengas requisitos específicos.
  5. Verifica la instalación: Una vez completada la instalación, puedes verificar que CUDA se haya instalado correctamente abriendo una ventana de comandos (cmd) y ejecutando el comando nvcc --version. Este comando debería mostrar la versión de CUDA Toolkit que has instalado.

Listo, con estos pasos deberías haber completado la instalación de CUDA en Windows, preparando tu sistema para el desarrollo de aplicaciones que aprovechan el poder de procesamiento de las GPUs Nvidia.

Descargar repositorio de GitHub

Para descargar el repositorio de GitHub preparado para la instalación y uso de Whisper en Windows, sigue los siguientes pasos:

  1. Descarga el repositorio: Navega a nuestro repositorio de GitHub Whisper-Transcription-Kit y descarga el proyecto realizando clic en el botón verde (code) en la parte superior, descarga el archivo ZIP y descomprímelo en tu escritorio.
  2. Crea dos carpetas: Dentro del proyecto descargado crea dos carpetas, una con el nombre input y la otra con el nombre output.


Descargar e instalar PyTorch en Windows

Para la instalación PyTorch en Windows debemos tener en cuenta dos escenarios:

  1. Usuarios con GPUs de la marca NVIDIA. (Seguir instalación de Escenario 1)
  2. Usuarios con otras marcas de GPUs o sin tarjetas gráficas. (Seguir instalación de Escenario 2)

Escenario 1 – usando CUDA

Para instalar PyTorch en Windows con CUDA, realiza los siguientes pasos:

  1. Verifica tu versión de CUDA: En caso de que no sepas qué versión de CUDA que tienes instalada, abre (cmd) y pega el siguiente comando nvcc --version

Nota importante: Si tienes instalada o instalaste la versión CUDA 12.1.0 de (febrero 2023), el script “setup_environment.bat” de nuestro proyecto en GitHub, descargara e instalara PyTorch automáticamente para el uso de Whisper.



Si no tienes instalada esta versión de CUDA deberás seguir los siguientes pasos:

  • Obtén el comando de instalación de PyTorch: Ve a la página oficial de PyTorch para copiar el comando de instalación. Selecciona mediante los recuadros la configuración que deseas, ten cuenta usar las opciones Stable, Windows, Pip, Python y la versión de CUDA que tengas instalada. Copia el comando en la casilla (Run this Command).
  • Actualiza el comando instalación: En el proyecto descargado desde GitHub anteriormente. Busca el archivo (setup_environment.bat) Haz clic derecho sobre él y selecciona la opción editar. Dentro del archivo busca la línea de código pip install torch torchvision torchaudio --index-url <https://download.pytorch.org/whl/cu121> y remplázala con el comando de instalación copiado desde PyTorch en la página anterior. Posteriormente guarda los cambios con ctrl+g.

Nota: Si necesitas otra versión de PyTorch, puedes encontrar todos los comandos de instalación de las versiones anteriores de PyTorch aquí, selecciona el comando que comience con Pip.



Escenario 2 – usando CPU

En caso de tener una tarjeta gráfica diferente de la marca NVIDIA o no tener tarjeta gráfica. Tendrás que seguir los siguientes pasos para instalar PyTorch en Windows usando tu CPU como plataforma de cómputo.

  • Obtén el comando de instalación de PyTorch: Ve a la página oficial de PyTorch para copiar el comando de instalación. Selecciona mediante los recuadros la configuración que deseas, ten cuenta usar las opciones Stable, Windows, Pip, Python y la opción de CPU. Copia el comando en la casilla (Run this Command).
  • Actualiza el comando instalación: En el proyecto descargado desde GitHub anteriormente. Busca el archivo (setup_environment.bat) Haz clic derecho sobre él y selecciona la opción editar. Dentro del archivo busca la línea de código pip install torch torchvision torchaudio --index-url <https://download.pytorch.org/whl/cu121> y remplázala con el comando de instalación copiado desde PyTorch en la página anterior. Posteriormente guarda los cambios con ctrl+g.

Esto será suficiente para iniciar con el proceso de instalación automática de las demás dependencias para instalar Whisper en Windows.



¿Cómo descargar e instalar Whisper en Windows?

Para instalar Whisper en Windows creamos un proyecto que puedes descargar en GitHub para automatizar gran parte del proceso de instalación y uso de esta herramienta.

Para descargar el repositorio creado por el equipo de Mister Contenidos, sigue estos sencillos pasos:

  1. Ejecuta como administrador (setup_enviroment.bat): En el proyecto descargado desde GitHub anteriormente. Busca el archivo (setup_environment.bat) Haz clic derecho sobre él y selecciona la opción ejecutar como administrador. Este archivo se encargará de crear un entorno virtual usando python para instalar FFmpeg, PyTorch y Whisper. (Necesita permisos de administrador para instalar FFmpeg mediante Chocolatey)

Listo, eso sería todo el proceso de instalación de Whisper en Windows.

Nota: En el repositorio de GitHub encontraras más información detallada de la función de cada archivo e información adicional del proyecto.

¿Cómo usar Whisper en Windows?

Si realizaste la instalación siguiendo la guía anteriormente descrita, el uso de Whisper es tan sencillo como seguir los siguientes pasos:

  1. Carpeta (input): En esta carpeta podrás poner tus archivos de audio o video para realizar sus correspondientes transcripciones.
  2. Archivo (run_script.bat): Una vez tengas tus archivos de audio o video en la carpeta (input) realiza doble clic sobre el archivo (run_script.bat) Esto abrirá una ventana (cmd) y ejecutará el script de python encargado de usar whisper para realizar las transcripciones de tus archivos. La primera vez que lo ejecutes tomara un poco más de tiempo para realizar la Transcripción.
  3. Carpeta (output): Una vez terminada la ejecución del anterior script, podrás encontrar las transcripciones de tus archivos en esta carpeta. (tendrán el mismo nombre de tu archivo de origen)


Notas importantes: Este proyecto usa el modelo (medium) para realizar las transcripciones. Después de algunas pruebas en español e inglés encontramos que en relación tiempo/calidad este es el modelo que deberías usar para obtener transcripciones de buena calidad. Con una tarjeta gráfica RTX3060 de 12gb y un audio en español de 4 minutos, toma alrededor de 33 segundos en terminar una transcripción en español.

Configurando Whisper para un rendimiento óptimo

Después de la instalación exitosa de Whisper, es hora de configurarlo para un rendimiento óptimo. Especialmente si no tienes una tarjeta gráfica o si tarda mucho tiempo en generarse tus transcripciones. Sigue estos pasos para configurar el modelo usado de Whisper:

  1. Edita el archivo (transcribe.py): Usa cualquier editor de código que tengas disponible o simplemente realiza clic derecho sobre este archivo y selecciona la opción editar. Busca las palabras (medium), son dos y cámbialas por alguna de las siguientes (small – base – tiny).

Prueba cuál de las anteriores versiones tiene un mejor desempeño para tu caso específico. La versión (small) es relativamente 4 veces más rápida que la versión medium y requiere 3 GB menos de VRAM para funcionar.



¡Felicidades! Has configurado con éxito Whisper para un rendimiento óptimo. Ahora puedes aprovechar sus poderosas funciones para agilizar tus flujos de trabajo y mejorar tu experiencia en Windows.

Posibles errores y soluciones

A continuación, presentamos algunos errores comunes que pueden surgir durante el proceso de instalación, junto con sus posibles soluciones. Si experimenta algún problema no mencionado aquí, le invitamos a dejarlo en los comentarios del video. Estaremos encantados de ayudarle a resolverlo.

Sus comentarios también pueden ser útiles para otros usuarios y contribuir a la creación de respuestas como esta.

Problema 1

Actualmente este error se presenta con las últimas versiones de PyTorch y Windows 11, que no reconoce un DLL.

Running Python script...
Traceback (most recent call last):
  File "C:\Users\...\Whisper-Transcription-Kit-master\transcribe.py", line 2, in <module>
    import whisper
  File "C:\Users\...\Whisper-Transcription-Kit-master\venv\Lib\site-packages\whisper\__init__.py", line 8, in <module>
    import torch
  File "C:\Users\...\Whisper-Transcription-Kit-master\venv\Lib\site-packages\torch\__init__.py", line 148, in <module>
    raise err
OSError: [WinError 126] No se puede encontrar el módulo especificado. Error loading "C:\Users\...\Whisper-Transcription-Kit-master\venv\Lib\site-packages\torch\lib\fbgemm.dll" or one of its dependencies.
Error running the Python script.
Press any key to close....

Posible solución:

  1. Acceda a la siguiente página web: https://dllme.com/dll/files/libomp140_x86_64/00637fe34a6043031c9ae4c6cf0a891d
  2. Descargue el archivo DLL faltante: libomp140.x86_64.dll.
  3. Descomprima el archivo ZIP descargado.
  4. Copie el archivo libomp140.x86_64.dll extraído del ZIP.
  5. Pegue el archivo copiado en la carpeta System32 de su equipo, donde se encuentran los demás archivos DLL. Normalmente, esta carpeta se ubica en la siguiente ruta de su disco duro principal: [Windows\System32].

!Comparte o guarda este artículo¡

Suscríbete a nuestro blog
Y recibe contenido relacionado con marketing digital, inteligencias artificiales y mucho más
Recibirás nuevo contenido cada semana