11 марта 2013 г.
Специалисты британской компании EI Technologies разработали интеллектуальную систему Xpression, которая улавливает изменения голоса человека. Установленная на смартфоне программа распознает настроение владельца и может отправлять данные лечащему врачу, тем самым предупреждая развитие депрессии.
АНАЛИЗ ЭМОЦИЙ
Создатели Xpression Мэтт Добсон и Дункан Барклай специализируются на анализе голоса. Их программа может угадывать пять эмоциональных состояний: спокойствие, счастье, грусть, злость и тревогу. Приложение фиксирует в течение дня, как изменяются эмоции человека, и отправляет эти данные по электронной почте психологу.
Программа работает в связке с удаленным сервером и посылает на него фрагменты речи длиной 200 миллисекунд. Там происходит анализ данных: громкость голоса, его сила, изменение высоты тона и темпа речи, что позволяет системе точно оценить эмоциональное состояние человека.
Психолог Национальной службы здравоохранения Великобритании Адриан Скиннер считает, что общество давно нуждается в подобной технологии. «Во время депрессии люди склонны переставать заполнять дневники настроения. Это приложение поможет нам лучше отслеживать признаки депрессии изо дня в день, контролируя настроение пациента», — отмечает г-н Скиннер.
Мэтт Добсон из EI Technologies рассказал РБК daily, что Xpression будет доступно для потребителей в ближайшие 12 месяцев. «Мы бы хотели, чтобы каждый человек смог воспользоваться нашим приложением, так как мы убеждены, что многие люди смогут извлечь выгоду от его использования. Было бы здорово, если Xpression будет использоваться по всему миру, но мы не ожидаем, что кто-нибудь переведет его, скажем, на русский язык, прежде чем мы запустимся», — добавил г-н Добсон.
ТРУДНОСТИ ПЕРЕВОДА
По словам аналитика рынка мобильных гаджетов Михаила Фадеева, в основе подобного рода решений лежат системы искусственного интеллекта, работающие по принципу нейронной сети.
«Схожий механизм используется в системах голосового ввода (Siri), рукописного ввода текста, а также в системах распознавания печатного текста (OCR). Система изначально «натаскивается» производителями на большом массиве эталонных образцов. Например, множество (сотни, тысячи человек) проговаривают эталонные фразы. Перед тем как использовать такую систему, каждый конкретный человек должен в течение какого-то времени «приучить» ее к специфике своего голоса — произносить те же самые эталонные фразы в своем обычном повседневном состоянии. В дальнейшем программа следит за отклонениями тембра голоса и его громкости, изменениями промежутков между звуками и словами, сравнивает все это с профилем человека и на основании отклонений и изменений делает вывод о настроении, — говорит г-н Фадеев. — Например, когда человек нервничает, он в подавляющем большинстве случаев начинает говорить громче и быстрее».
Эксперт добавил, что данное приложение требует очень тщательного подхода к внедрению поддержки различных языков: дело в том, что британцы, русские, китайцы и представители всех остальных народов, как правило, говорят с разной скоростью. А те же итальянцы, например, в среднем говорят куда громче британцев. Кроме того, люди разного возраста и разных полов также говорят с различными интонациями.
НИШЕВОЙ ПРОРЫВ
По словам коммерческого директора компании «Вобис Компьютер» Михаила Чернышова, в профессиональной сфере технологии анализа голоса используются не один десяток лет.
«Яркий пример — израильская компания Nемеsуsсо, чьи решения применяются и в государственных, и в частных структурах. Причем при анализе возможно распознавание большого числа самых разных оттенков эмоционального состояния человека, от уровня стресса до смущения, — рассказывает г-н Чернышов. — У Xpression есть одно весомое преимущество. Скажем так, это первая на моей памяти разработка в области анализа голоса, способная приносить пользу на уровне обывателей. Заметьте, продукт EI Technologies — это не развлекательный сервис, а серьезное нишевое предложение с конкретной целевой аудиторией».
Ирина Юзбекова