Whisper это система транскрибации аудио в текст. Установить whisper на Windows 10 можно легко, проштудировали мануалу и расскажем вам как это сделать

Что такое Whisper

Whisper — это бесплатная система распознавания речи от OpenAI. Проблема в том, что у нее нет веб-версии как у ChatGPT. Придется устанавливать вручную, читать гайды, написанные разработчиками для разработчиков, писать какой-то код и так далее. На самом деле попробовать нейросеть можно прямо из браузера, но это будет медленно и грустно. Мы будем устанавливать whisper на ПК, и использовать мощность видеокарты для работы.

Whisper — это универсальная модель распознавания речи. Он обучен на большом наборе данных разнообразного аудио, а также является многозадачной моделью, которая может выполнять многоязычное распознавание речи, а также перевод речи и идентификацию языка.

Процесс распознавания аудио в текст с Whisper

записал короткое видео, в котором показан процесс транскрибации аудио в текст на ПК с windows 10 whisper

Транскрибация бывает полезна при реализации некоторых проектов, узнайте больше про транскрибацию записи телефонных разговоров

Скачиваем проект Whisper с hithub

Основные требования при установке Whisper на Windows 10

Проверяем, установлен ли у вас на ПК Python

В командной строке введите

python

Если питон установлен, терминал выведет информацию в версией, например Python 3.10.9

если этого не случилось

Устанавливаем Python

Берем релиз Python 3.10.9 32bit Windows installer или Python 3.9.9 cannot be used on Windows 7 or earlier

После установки проверим успешно ли все прошло, в cmd командуем

pip
если все хорошо, терминал нам скажет в ответ
если все хорошо, терминал нам скажет в ответ

Если pip не работает

Ну вот мы и получили уведомление

‘Pip‘ Is Not Recognized As An Internal Or External Command

ремонтируем

в cmd

echo %PATH%

если нашли в ответе типа

C:\Users\HOME\AppData\Roaming\Python\Python39\Scripts

значит все работает, если нет Windows key + R и

sysdm.cpl

вкладка Дополнительно (Advanced), затем Переменные среды (Environment Variables)

системные переменные Path — изменить, добавить новый и по умолчанию добавляем путь

C:\Users\HOME\AppData\Roaming\Python\Python39\Scripts

далее cmd

setx PATH “%PATH%; C:\Users\HOME\AppData\Roaming\Python\Python39\Scripts

если не получилось, в панели управления делаем так

pithon modify 3

все заработало, обязательно делаем pip upgrade в cmd

python.exe -m pip install --upgrade pip

Устанавливаем pytorch

Для реализации транскрибации с использованием GPU качаем и устанавливаем torch. Мы использовали Python 3.9.9 и PyTorch 1.10.1 для обучения и тестирования наших моделей, но ожидается, что код будет совместим с Python 3.8–3.10 и последними версиями PyTorch.

качаем pytorch для whisper

вот например команда для установки pytorch:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

удалить pytorch:

pip3 uninstall torch

Устанавливаем декодер ffmpeg

Также требуется, чтобы в вашей системе был установлен инструмент командной строки ffmpeg, который доступен в большинстве менеджеров пакетов, устанавливаем его на Windows через команду cmd:

choco install ffmpeg

Доступные модели и языки

| Size | Parameters | English-only model | Multilingual model | Required VRAM | Relative speed |
|:——:|:———-:|:——————:|:——————:|:————-:|:—————:|
| tiny | 39 M | `tiny.en` | `tiny` | ~1 GB | ~32x |
| base | 74 M | `base.en` | `base` | ~1 GB | ~16x |
| small | 244 M | `small.en` | `small` | ~2 GB | ~6x |
| medium | 769 M | `medium.en` | `medium` | ~5 GB | ~2x |
| large | 1550 M | N/A | `large` | ~10 GB | 1x |

Существует пять размеров моделей, четыре версии только на английском языке, предлагающие компромисс между скоростью и точностью. Ниже приведены названия доступных моделей, их примерные требования к памяти и относительная скорость.

Производительность Whisper сильно различается в зависимости от используемого языка.

Установка Whisper на Windows 10

Устанавливаем Whisper

Вы можете скачать и установить (или обновить) последнюю версию Whisper с помощью следующей команды в консоли командной строки cmd так:

pip install -U openai-whisper

или так

pip install git+https://github.com/openai/whisper.git

Модель преобразования последовательности к последовательности Whisper обучается различным задачам обработки речи, включая распознавание многоязычной речи, перевод речи, идентификацию разговорного языка и обнаружение голосовой активности. Все эти задачи совместно представлены в виде последовательности токенов, которые должны быть предсказаны декодером, что позволяет одной модели заменить множество различных этапов традиционного конвейера обработки речи. Формат многозадачного обучения использует набор специальных токенов, которые служат спецификаторами задач или целями классификации.

Запускаем конфигурацию транскрибации Whisper на Windows10 через cmd

whisper "F:\audio.mp3" --model medium --language ru --device cuda --task transcribe

Файлы транскрибации будут лежать в указанной директории cmd

пример возможных конфигураций whisper

whisper “C:\speech to text\test.mp3" --model medium.en --device cpu
whisper "C:\speech to text\test.mp3" --model medium.en --device cuda
whisper "C:\speech to text\test_video.mp3" --language tr --model small --device cuda --task translate --task transcribe
whisper "C:\speech to text\test.mp3" --language tr --model small --device cuda -o "C:\speech to text" --task translate
whisper "C:\speech to text\test_video.mp3" --language en --model base.en --device cpu --task translate --task transcribe
whisper "C:\speech to text\test_video.mp3" --language en --model base.en --device cpu --task transcribe

как перейти в директорию через cmd

На заметку, если у вас видеокарта с 8Gb памяти, используйте в конфигурации Whisper базу —model medium

Если ничего не получилось, смотрим видео от разработчика

Ответы на вопросы по установке whisper в комментариях, если все равно не получается, но очень хочется, мы установим вам whisper на windows дистанционно 1000₽ напишите заявку.

0 0 голоса
Article Rating
Подписаться
Уведомить о
guest

8 Комментарий
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии