Петербургские ученые решили задачу мгновенной транскрибации человеческой речи в электронный текст. Это достижение без преувеличения выводит человеческую цивилизацию на новый этап развития, является реальной отечественной инновацией. По оценкам экспертов, западные ученые отстают в аналогичных разработках на несколько лет. Научный руководитель научно-исследовательского инновационного центра Санкт-Петербургского университета телекоммуникаций имени проф. М.А. Бонч-Бруевича, доктор технических наук Самуил Горелик поделился с корреспондентом «В кризис.ру» подробностями разработки.

— Раньше считалось, что переводить человеческий голос в текст компьютеру не под силу – ведь в отличие от человека машина не способна различать слова при интонационных, тембровых и акцентных особенностях речи разных людей?

— Оказалось – это возможно. Создана самообучающаяся программа для транскрибации русской речи. Ее разработали в лаборатории фирмы Media Insight (http://mediainsight.ru). Задача транскрибации, — получения электронного текста из аудиофайлов, — была решена петербургским ученым Вадимом Фроловым. Продвижение разработанной технологии осуществляет петербургская компания «Медиаинсайт Ру», которой руководит Павел Лапшин. На эту работу ушло семь лет упорного труда людей с лингвистическим и математическим образованием. На сегодняшний день в вопросе транскрибации господин Фролов опередил остальных разработчиков мира на несколько лет.

— На каких языках реализована система транскрибации? 

— Сейчас система работает на четырех языках: русском, немецком, английском и французском. В будущем может быть запущена на любом европейском языке, подготовка для каждого займет 2-3 месяца, а на китайском или индийском, других «сложных языках» — в среднем, 6-7 месяцев. Возможности для развития в плане количества языков – не ограничены. Сегодня самое трудное в транскрибации — это создание словарей, которые нужно наполнять. Поэтому транскрибатор должен самообучаться. Как раз эту проблему и решил Вадим Фролов.

— Как может самообучаться компьютер? Ведь он работает по схеме бинарного кодирования, раскладывая любую задачу на множество элементарных вопросов с тремя вариантами ответа: «да», «нет» либо «да+нет»?

— Именно это и было первоначальной сложностью: компьютер не мог самообучаться. Сегодня же транскрибатор учится при каждом поисковом запросе. Процесс познания происходит по следующей схеме. Система ориентируется на ключевую фразу, которая появилась в текстах электронных средств массовой информации, а затем ищет аудио-информацию, связанную с первой по контексту. И таким образом обучается правильно расшифровывать сочетания звуков в слова. То есть, обучение происходит с каждой новостью, попавшей в эфир радиостанций или телеканалов.

Во время поиска составляются словари наиболее часто встречающихся фонемных словосочетаний, слов и даже связанных предложений, к тому же учитывается интонация произношения. Это не обычный словарь, его работа основана на сложном математическом алгоритме. Транскрибатор не выдает как обычный поисковик множество вариантов одного и того же материала. Он фильтрует на входе всю полученную информацию.

— И где сегодня может использоваться такая система? 

— Пока транскрибация человеческой речи используется в первую очередь как система мониторинга и поиска в аудио- и видеоархивах, как система поиска в эфирах радио, ТВ и Интернета, где требуется обнаружить тематический контент. Безусловно, транскрибация лучше работает на радиостанциях, там, где высокое качество языка и точность произношения 90-95%. Но сегодня проводятся эксперименты и с телефонными частотами, где не требуется строгая чистота речи.

— Можно ли использовать систему в качестве прослушивающего устройства? Ведь ее использование при борьбе с коррупцией и экстремизмом открывает самые широкие перспективы. К каждой камере видеонаблюдения сейчас нужно сажать оператора-диспетчера. А если звуки расшифрованы в текст, то поиск ключевых слов может происходить автоматически и мгновенно… Очень эффективный «Большой Брат» получается.

— Конечно да. Можно прослушивать радиостанции, телеканалы и ролики в Интернете на предмет выявления террористических призывов или высказываний, нарушения станциями рекламных лицензий.

Насчет эффективности системы для анализа информации с камер видео и приборов аудио-наблюдения – к сожалению, данная система к этому не имеет прямого отношения. Но существуют другие системы для решения подобной задачи. Давайте поговорим об этом в другой раз. Теоретически система могла бы прослушивать-анализировать  телефонные разговоры частных лиц, но для решения такой задачи лучше применять другие подходы и сегодня, насколько я знаю, для реализации этой идеи нет готовых технических устройств.

Насчет тотальной слежки и контроля, то ее в целом можно наладить и без системы on-line транскрибации. Поэтому главная защита от «Большого Брата» — это включенность страны в глобальный открытый рынок.

— Как планируется дальше развивать проект? Какова на сегодняшний день стоимость разработки? 

— В Научно-исследовательском инновационном Центре СПбГУТ на основе технологии Mediainsight по заданию министерства связи РФ разрабатывается комплекс оборудования для мониторинга теле- и радиовещательных СМИ. К технологии проявляют интерес коммерческие и общественные организации, которым необходимо контролировать заказываемую в СМИ рекламу. Ведутся переговоры с крупными поисковыми системами, в том числе и с зарубежными. Если говорить о вложенных в разработку средствах, то они в настоящий момент составляют несколько миллионов долларов. Чтобы довести до широкого применения разработанную технологию, нужно вложить еще много средств и усилий в разработку приложений.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *