Qwen3-ASR-Toolkit: бесплатный инструмент для транскрипции аудио любой длительности / forpes.ru

Главная
Qwen3-ASR-Toolkit: бесплатный инструмент для транскрипции аудио любой длительности

Qwen3-ASR-Toolkit: бесплатный инструмент для транскрипции аудио любой длительности +10

21.09.2025 15:18

stas-clear 0 3300 Источник

Команда Alibaba Cloud выпустила Qwen3-ASR-Toolkit — открытый инструмент для транскрипции аудио- и видеофайлов любой длительности. Решение построено на базе модели Qwen3-ASR (ранее Qwen3-ASR-Flash) и устраняет ключевую проблему большинства API для распознавания речи — ограничение по длительности файла.

Чем Qwen3-ASR-Toolkit отличается от конкурентов

Техническая основа

Qwen3-ASR-Toolkit использует мультимодальную архитектуру Qwen3-Omni, обученную на десятках миллионов часов аудиоданных. Модель поддерживает 11 языков: английский, китайский, русский, японский и другие, эффективно работает с различными акцентами и автоматически фильтрует фоновый шум.

По результатам бенчмарков на Common Voice и LibriSpeech, модель превосходит по точности Gemini 2.5 Pro и другие популярные решения для распознавания речи.

Решение проблемы длительности

API версия Qwen3-ASR имеет жёсткое ограничение — 3 минуты на запрос. Для часовых подкастов или длинных лекций это критично. Toolkit обходит лимит через интеллектуальное разделение:

Voice Activity Detection (VAD) находит естественные паузы в речи
Файл разбивается на сегменты без обрезки слов посередине предложений
Сегменты обрабатываются параллельно (по умолчанию 4 потока, до 8+)
Результаты склеиваются в единый текст

Универсальность форматов

Поддерживаются все популярные форматы через FFmpeg:

Видео: MP4, MOV, MKV
Аудио: MP3, WAV, M4A

Инструмент автоматически приводит звук к требуемому формату 16 кГц моно, независимо от исходной частоты дискретизации или количества каналов.

Установка и настройка

Требования

Python 3.8+
FFmpeg (для обработки медиафайлов)
API-ключ DashScope от Alibaba Cloud

Установка FFmpeg

# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

# macOS (с Homebrew)
brew install ffmpeg

# Windows: скачать с https://ffmpeg.org/download.html

Установка Qwen3-ASR-Toolkit

# Установка из PyPI
pip install qwen3-asr-toolkit

# Или из исходников
git clone https://github.com/QwenLM/Qwen3-ASR-Toolkit.git
cd Qwen3-ASR-Toolkit
pip install .

Получение API-ключа

Зарегистрируйтесь в DashScope Console
Создайте API-ключ
Установите переменную окружения:

# Linux/macOS
export DASHSCOPE_API_KEY=your_key_here

# Windows
set DASHSCOPE_API_KEY=your_key_here

Использование

Базовый пример

# Простая транскрипция
qwen3-asr -i "/path/to/lecture.mp4"

# С указанием ключа в команде
qwen3-asr -i "/path/to/podcast.wav" -key "your_api_key"

Оптимизация производительности

# Увеличение количества потоков до 8
qwen3-asr -i "/path/to/meeting.m4a" -j 8

# Подробный вывод для отладки
qwen3-asr -i "/path/to/conference.mp3" -v

# Комбинирование параметров
qwen3-asr -i "/path/to/longfile.wav" -j 8 -v

Программное использование

from qwen3_asr_toolkit import transcribe_file

result = transcribe_file(
    input_path="/path/to/audio.mp3",
    api_key="your_key",
    num_threads=4,
    verbose=True
)
print(result)

Технические детали

Архитектура обработки

Извлечение аудио: FFmpeg конвертирует входной файл
Ресэмплинг: приведение к 16 кГц моно через ffmpeg -i input -ar 16000 -ac 1 output.wav
VAD-сегментация: определение пауз длиннее 0.5-1 сек для разбивки
Параллельная обработка: concurrent.futures.ThreadPoolExecutor с настраиваемым количеством потоков
Склеивание результатов: формирование финального текста с таймстампами

Производительность

На тестовом оборудовании (Core i7, 16 ГБ RAM):

30-минутный MP3: 2-3 минуты обработки при 4 потоках
Точность на русском языке: ~95% (зависит от качества записи)
Поддержка акцентов: от московского до региональных диалектов

Ограничения

Требует интернет-соединения (облачное API)
Нет кэширования результатов
Зависит от квот DashScope (бесплатные лимиты проверяйте в консоли)

Практические сценарии применения

Для журналистов и исследователей

Транскрипция интервью и пресс-конференций
Обработка архивных записей
Создание субтитров для видеоматериалов

Для разработчиков

Интеграция в системы автоматизации
Создание голосовых ботов и ассистентов
Обработка пользовательского контента

Для образования

Транскрипция лекций и семинаров
Создание текстовых версий учебных материалов
Поддержка людей с нарушениями слуха

Альтернативы и сравнение

Решение	Лимит времени	Языки	Цена	Качество (RU)
Qwen3-ASR-Toolkit	Нет	11	Бесплатно*	95%
OpenAI Whisper	Нет	99+	Локально	90-93%
Google Speech-to-Text	10 часов	125+	$0.006/мин	92-95%
Яндекс SpeechKit	30 сек (API)	12	₽1.20/мин	96-98%

*Бесплатно в рамках квот DashScope

Заключение

Qwen3-ASR-Toolkit демонстрирует подход Alibaba к демократизации ИИ-технологий через открытые инструменты. Для русскоязычных пользователей это особенно ценно — модель качественно обрабатывает речь с различными акцентами и не требует дополнительного обучения.

Инструмент идеально подходит для задач, где нужна быстрая и точная транскрипция без ограничений по длительности. Единственное требование — стабильное интернет-соединение для обращений к API.

Репозиторий проекта

*Результаты могут варьироваться в зависимости от условий записи и акцента спикеров.

Комментарии (0)

fosihas
22.09.2025 10:41
#28867318
1. Зарегистрируйтесь в DashScope Console
еще тут квест на получение АЙ-ди

ls-la
22.09.2025 10:41
#28868108
Не очень понял, всё это считается локально или на далёком сервере? Если локально, зачем api? А если на сервере - зачем производительность на тестовом оборудовании?

А что на счёт потокового аудио, его получится распознать? Это вроде как идеально подходящее - без ограничения по длительности.

А что на счёт качества распознавания? На сколько шумный звук подходит? Как по пунктуации?

photobum
22.09.2025 10:41
#28868618
Кто нибудь смог зарегистрироваться?