Описание проекта
Ayta.ai решает проблему речевых барьеров для людей с заиканием, позволяя им свободнее общаться в онлайн-звонках через Zoom, Google Meet и другие платформы. Наше решение основывается на способности многих людей с заиканием говорить без запинок при шёпоте: система улавливает шёпот пользователя, а затем мгновенно преобразует его в обычную речь с сохранением индивидуальных голосовых характеристик. Задержка при конвертации не превышает одной секунды, что обеспечивает естественность в реальном времени и помогает избавить собеседников от дискомфорта.
Благодаря Ayta.ai люди с заиканием могут без стеснения участвовать в рабочих совещаниях, образовательных мероприятиях и неформальных встречах. Проект улучшает качество жизни и устраняет социальные барьеры, позволяя пользователям донести свои мысли ясно и уверенно. Наше решение интегрируется в существующие платформы для видеоконференций, упрощая процесс внедрения и масштабирования.
Технологии, использованные в проекте:
Real-Time ASR (автоматическое распознавание речи): На базе архитектуры HuBERT для точного и быстрого распознавания шёпота, обеспечивая практически мгновенный отклик.
Real-Time TTS (синтез речи): Используем StyleTTS2 для создания реалистичной, эмоционально богатой речи в режиме реального времени.
Voice Cloning (клонирование голоса): Модель ECAPA-TDNN сохраняет уникальные характеристики голоса каждого пользователя, позволяя ему звучать естественно и узнаваемо после конвертации из шёпота в обычную речь.
Презентовали разработанные модели на 2-х ведущих международных конференциях уровня A* в области речевых технологий:
Interspeech 2024 (http://dx.doi.org/10.21437/Interspeech.2024-2091)
ICASP 2024 (http://dx.doi.org/10.1109/OJSP.2023.3343342)
Стадия проекта
Действующее решение
Рынки и сферы применения
Образование: Поддержка студентов с речевыми особенностями в дистанционном обучении. Корпоративный сектор: Инклюзивность на рабочих местах и участие в онлайн-конференциях. Здравоохранение: Реабилитация и поддержка людей с заиканием и другими речевыми расстройствами. Социальные платформы: Устранение барьеров в общении через голосовые чаты. Кибербезопасность: Биометрическая аутентификация по голосу для пользователей с речевыми особенностями.
Ключевые достижения
Команда Ayta.ai разработала технологию преобразования шёпота в полноценно звучащую речь с высокой схожестью с исходным голосом пользователя. Это решение существенно снижает барьеры в коммуникации для людей с заиканием. Мы добились минимизации задержки между окончанием произнесённой фонемы и воспроизведением результирующей речи до 800 миллисекунд, что обеспечивает комфортное взаимодействие в режиме реального времени.
Особое значение имеет то, что программа получила положительные отклики от людей с тяжёлой формой заикания, для которых решение оказалось не только практичным инструментом, но и обладало терапевтическим эффектом. Доступ к этой технологии даёт пользователям возможность уверенно выступать на деловых встречах, образовательных мероприятиях и общественных платформах, тем самым расширяя их социальные и профессиональные перспективы. Разработанная система интегрируется с ведущими платформами видеоконференций, гарантируя простоту подключения и широкие возможности масштабирования.
Измеримые результаты
В ходе тестирования проекта мы получили свыше 85 откликов от пользователей с заиканием, которые оценили удобство и эффективность использования решения. Из их отзывов следует, что технология не только облегчает процесс общения, но и позитивно влияет на эмоциональное состояние, снижая тревожность и неуверенность в разговоре.
Высокая степень сходства с голосом пользователя делает процесс коммуникации естественным, что может способствовать более активному участию людей с заиканием в профессиональных и социальных мероприятиях. В перспективе это может привести к экономическим преимуществам за счёт расширения круга клиентов и партнёров, а также к социальной значимости благодаря улучшению качества жизни и повышению уровня вовлечённости и трудоустройства людей с заиканием.
Уникальность проекта
Наш проект уникален тем, что, в отличие от конкурентов, мы применяем целостный подход на базе нейронных сетей (HuBERT, StyleTTS2, ECAPA-TDNN), обеспечивая высокое качество звучания и гибкость решения. На рынке существует лишь один схожий продукт из Нидерландов (https://whispp.com), где используется классическая цифровая обработка сигнала, не дающая сопоставимого уровня качества и естественности речи. Благодаря нашим разработкам в области распознавания, синтеза и клонирования голоса, Ayta.ai способен обеспечивать крайне низкую задержку, при этом сохраняя индивидуальные особенности голоса пользователя и максимально приближаясь к «живому» звучанию. Такой комплексный нейросетевой подход делает наше решение более точным, адаптивным и комфортным для реального применения.
Планы на будущее
Мы планируем дальнейшую оптимизацию скорости работы, уменьшая задержку до 300–400 миллисекунд, чтобы ещё больше повысить комфорт общения. Для расширения аудитории мы будем сотрудничать с медицинскими центрами, логопедами и общественными организациями, помогая людям с заиканием и другими речевыми расстройствами (например, дисфонией или после операций на горле). Кроме того, разрабатываем мобильную версию нашего решения, которую можно будет использовать как для видеозвонков, так и для обычных звонков по сотовой сети. Мы рассчитываем, что это позволит вовлечь новую аудиторию и предоставить удобную альтернативу классическим методам реабилитации речи. Помимо помощи людям с заиканием, мы видим потенциал применения в телемедицине и дистанционной реабилитации, способствуя повышению качества жизни людей с различными речевыми нарушениями.
Партнеры или инвесторы
Арсен Томский - инициатор и инвестор Ayta AI, CEO, основатель inDrive