Whisper это система транскрибации аудио в текст. Установить whisper на Windows 10 можно легко, проштудировали мануалу и расскажем вам как это сделать
Что такое Whisper
Whisper — это бесплатная система распознавания речи от OpenAI. Проблема в том, что у нее нет веб-версии как у ChatGPT. Придется устанавливать вручную, читать гайды, написанные разработчиками для разработчиков, писать какой-то код и так далее. На самом деле попробовать нейросеть можно прямо из браузера, но это будет медленно и грустно. Мы будем устанавливать whisper на ПК, и использовать мощность видеокарты для работы.
Whisper — это универсальная модель распознавания речи. Он обучен на большом наборе данных разнообразного аудио, а также является многозадачной моделью, которая может выполнять многоязычное распознавание речи, а также перевод речи и идентификацию языка.
записал короткое видео, в котором показан процесс транскрибации аудио в текст на ПК с windows 10 whisper
Транскрибация бывает полезна при реализации некоторых проектов, узнайте больше про транскрибацию записи телефонных разговоров
Скачиваем проект Whisper с hithub
Основные требования при установке Whisper на Windows 10
Проверяем, установлен ли у вас на ПК Python
В командной строке введите
python
Если питон установлен, терминал выведет информацию в версией, например Python 3.10.9
если этого не случилось
Берем релиз Python 3.10.9 32bit Windows installer или Python 3.9.9 cannot be used on Windows 7 or earlier
После установки проверим успешно ли все прошло, в cmd командуем
pip
Если pip не работает
Ну вот мы и получили уведомление
‘Pip‘ Is Not Recognized As An Internal Or External Command
ремонтируем
в cmd
echo %PATH%
если нашли в ответе типа
C:\Users\HOME\AppData\Roaming\Python\Python39\Scripts
значит все работает, если нет Windows key + R и
sysdm.cpl
вкладка Дополнительно (Advanced), затем Переменные среды (Environment Variables)
системные переменные Path — изменить, добавить новый и по умолчанию добавляем путь
C:\Users\HOME\AppData\Roaming\Python\Python39\Scripts
далее cmd
setx PATH “%PATH%; C:\Users\HOME\AppData\Roaming\Python\Python39\Scripts
если не получилось, в панели управления делаем так
все заработало, обязательно делаем pip upgrade в cmd
python.exe -m pip install --upgrade pip
Для реализации транскрибации с использованием GPU качаем и устанавливаем torch. Мы использовали Python 3.9.9 и PyTorch 1.10.1 для обучения и тестирования наших моделей, но ожидается, что код будет совместим с Python 3.8–3.10 и последними версиями PyTorch.
вот например команда для установки pytorch:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
удалить pytorch:
pip3 uninstall torch
Также требуется, чтобы в вашей системе был установлен инструмент командной строки ffmpeg
, который доступен в большинстве менеджеров пакетов, устанавливаем его на Windows через команду cmd:
choco install ffmpeg
Доступные модели и языки
| Size | Parameters | English-only model | Multilingual model | Required VRAM | Relative speed |
|:——:|:———-:|:——————:|:——————:|:————-:|:—————:|
| tiny | 39 M | `tiny.en` | `tiny` | ~1 GB | ~32x |
| base | 74 M | `base.en` | `base` | ~1 GB | ~16x |
| small | 244 M | `small.en` | `small` | ~2 GB | ~6x |
| medium | 769 M | `medium.en` | `medium` | ~5 GB | ~2x |
| large | 1550 M | N/A | `large` | ~10 GB | 1x |
Существует пять размеров моделей, четыре версии только на английском языке, предлагающие компромисс между скоростью и точностью. Ниже приведены названия доступных моделей, их примерные требования к памяти и относительная скорость.
Производительность Whisper сильно различается в зависимости от используемого языка.
Установка Whisper на Windows 10
Вы можете скачать и установить (или обновить) последнюю версию Whisper с помощью следующей команды в консоли командной строки cmd так:
pip install -U openai-whisper
или так
pip install git+https://github.com/openai/whisper.git
Модель преобразования последовательности к последовательности Whisper обучается различным задачам обработки речи, включая распознавание многоязычной речи, перевод речи, идентификацию разговорного языка и обнаружение голосовой активности. Все эти задачи совместно представлены в виде последовательности токенов, которые должны быть предсказаны декодером, что позволяет одной модели заменить множество различных этапов традиционного конвейера обработки речи. Формат многозадачного обучения использует набор специальных токенов, которые служат спецификаторами задач или целями классификации.
Запускаем конфигурацию транскрибации Whisper на Windows10 через cmd
whisper "F:\audio.mp3" --model medium --language ru --device cuda --task transcribe
Файлы транскрибации будут лежать в указанной директории cmd
пример возможных конфигураций whisper
whisper “C:\speech to text\test.mp3" --model medium.en --device cpu
whisper "C:\speech to text\test.mp3" --model medium.en --device cuda
whisper "C:\speech to text\test_video.mp3" --language tr --model small --device cuda --task translate --task transcribe
whisper "C:\speech to text\test.mp3" --language tr --model small --device cuda -o "C:\speech to text" --task translate
whisper "C:\speech to text\test_video.mp3" --language en --model base.en --device cpu --task translate --task transcribe
whisper "C:\speech to text\test_video.mp3" --language en --model base.en --device cpu --task transcribe
как перейти в директорию через cmd
На заметку, если у вас видеокарта с 8Gb памяти, используйте в конфигурации Whisper базу —model medium
Если ничего не получилось, смотрим видео от разработчика
Ответы на вопросы по установке whisper в комментариях, если все равно не получается, но очень хочется, мы установим вам whisper на windows дистанционно 1000₽ напишите заявку.