Команда Alibaba Cloud выпустила Qwen3-ASR-Toolkit — открытый инструмент для транскрипции аудио- и видеофайлов любой длительности. Решение построено на базе модели Qwen3-ASR (ранее Qwen3-ASR-Flash) и устраняет ключевую проблему большинства API для распознавания речи — ограничение по длительности файла.

Чем Qwen3-ASR-Toolkit отличается от конкурентов

Техническая основа

Qwen3-ASR-Toolkit использует мультимодальную архитектуру Qwen3-Omni, обученную на десятках миллионов часов аудиоданных. Модель поддерживает 11 языков: английский, китайский, русский, японский и другие, эффективно работает с различными акцентами и автоматически фильтрует фоновый шум.

По результатам бенчмарков на Common Voice и LibriSpeech, модель превосходит по точности Gemini 2.5 Pro и другие популярные решения для распознавания речи.

Решение проблемы длительности

API версия Qwen3-ASR имеет жёсткое ограничение — 3 минуты на запрос. Для часовых подкастов или длинных лекций это критично. Toolkit обходит лимит через интеллектуальное разделение:

  1. Voice Activity Detection (VAD) находит естественные паузы в речи

  2. Файл разбивается на сегменты без обрезки слов посередине предложений

  3. Сегменты обрабатываются параллельно (по умолчанию 4 потока, до 8+)

  4. Результаты склеиваются в единый текст

Универсальность форматов

Поддерживаются все популярные форматы через FFmpeg:

  • Видео: MP4, MOV, MKV

  • Аудио: MP3, WAV, M4A

Инструмент автоматически приводит звук к требуемому формату 16 кГц моно, независимо от исходной частоты дискретизации или количества каналов.

Установка и настройка

Требования

  • Python 3.8+

  • FFmpeg (для обработки медиафайлов)

  • API-ключ DashScope от Alibaba Cloud

Установка FFmpeg

# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg

# macOS (с Homebrew)
brew install ffmpeg

# Windows: скачать с https://ffmpeg.org/download.html

Установка Qwen3-ASR-Toolkit

# Установка из PyPI
pip install qwen3-asr-toolkit

# Или из исходников
git clone https://github.com/QwenLM/Qwen3-ASR-Toolkit.git
cd Qwen3-ASR-Toolkit
pip install .

Получение API-ключа

  1. Зарегистрируйтесь в DashScope Console

  2. Создайте API-ключ

  3. Установите переменную окружения:

# Linux/macOS
export DASHSCOPE_API_KEY=your_key_here

# Windows
set DASHSCOPE_API_KEY=your_key_here

Использование

Базовый пример

# Простая транскрипция
qwen3-asr -i "/path/to/lecture.mp4"

# С указанием ключа в команде
qwen3-asr -i "/path/to/podcast.wav" -key "your_api_key"

Оптимизация производительности

# Увеличение количества потоков до 8
qwen3-asr -i "/path/to/meeting.m4a" -j 8

# Подробный вывод для отладки
qwen3-asr -i "/path/to/conference.mp3" -v

# Комбинирование параметров
qwen3-asr -i "/path/to/longfile.wav" -j 8 -v

Программное использование

from qwen3_asr_toolkit import transcribe_file

result = transcribe_file(
    input_path="/path/to/audio.mp3",
    api_key="your_key",
    num_threads=4,
    verbose=True
)
print(result)

Технические детали

Архитектура обработки

  1. Извлечение аудио: FFmpeg конвертирует входной файл

  2. Ресэмплинг: приведение к 16 кГц моно через ffmpeg -i input -ar 16000 -ac 1 output.wav

  3. VAD-сегментация: определение пауз длиннее 0.5-1 сек для разбивки

  4. Параллельная обработка: concurrent.futures.ThreadPoolExecutor с настраиваемым количеством потоков

  5. Склеивание результатов: формирование финального текста с таймстампами

Производительность

На тестовом оборудовании (Core i7, 16 ГБ RAM):

  • 30-минутный MP3: 2-3 минуты обработки при 4 потоках

  • Точность на русском языке: ~95% (зависит от качества записи)

  • Поддержка акцентов: от московского до региональных диалектов

Ограничения

  • Требует интернет-соединения (облачное API)

  • Нет кэширования результатов

  • Зависит от квот DashScope (бесплатные лимиты проверяйте в консоли)

Практические сценарии применения

Для журналистов и исследователей

  • Транскрипция интервью и пресс-конференций

  • Обработка архивных записей

  • Создание субтитров для видеоматериалов

Для разработчиков

  • Интеграция в системы автоматизации

  • Создание голосовых ботов и ассистентов

  • Обработка пользовательского контента

Для образования

  • Транскрипция лекций и семинаров

  • Создание текстовых версий учебных материалов

  • Поддержка людей с нарушениями слуха

Альтернативы и сравнение

Решение

Лимит времени

Языки

Цена

Качество (RU)

Qwen3-ASR-Toolkit

Нет

11

Бесплатно*

95%

OpenAI Whisper

Нет

99+

Локально

90-93%

Google Speech-to-Text

10 часов

125+

$0.006/мин

92-95%

Яндекс SpeechKit

30 сек (API)

12

₽1.20/мин

96-98%

*Бесплатно в рамках квот DashScope

Заключение

Qwen3-ASR-Toolkit демонстрирует подход Alibaba к демократизации ИИ-технологий через открытые инструменты. Для русскоязычных пользователей это особенно ценно — модель качественно обрабатывает речь с различными акцентами и не требует дополнительного обучения.

Инструмент идеально подходит для задач, где нужна быстрая и точная транскрипция без ограничений по длительности. Единственное требование — стабильное интернет-соединение для обращений к API.

Репозиторий проекта

*Результаты могут варьироваться в зависимости от условий записи и акцента спикеров.

Комментарии (0)


  1. fosihas
    22.09.2025 10:41

    1. Зарегистрируйтесь в DashScope Console

    еще тут квест на получение АЙ-ди


  1. ls-la
    22.09.2025 10:41

    Не очень понял, всё это считается локально или на далёком сервере? Если локально, зачем api? А если на сервере - зачем производительность на тестовом оборудовании?

    А что на счёт потокового аудио, его получится распознать? Это вроде как идеально подходящее - без ограничения по длительности.

    А что на счёт качества распознавания? На сколько шумный звук подходит? Как по пунктуации?


  1. photobum
    22.09.2025 10:41

    Кто нибудь смог зарегистрироваться?