Потому что ты плохой голосовой помощник
Перейти к содержимому

Потому что ты плохой голосовой помощник

  • автор:

Алиса против “ОК, Google” — почему голосовой помощник лишен личности

На днях услышал грустную историю о том, как мой приятель мучается в отсутствие умного дома от Google в наших широтах. В городской квартире и за городом он настроил Алису от “Яндекса”, все возможности умных колонок полностью его устраивают, за исключением одной “мелочи”: его младшую дочь зовут Алиса. Пятилетний ребенок с удовольствием говорит со своей тезкой, но для родителей это превратилось в нескончаемый кошмар, любое обращение к дочери пробуждает колонки. Смена фразы активации на “Яндекс” привнесла другие проблемы, теперь каждая колонка пробуждается и пытается что-то сделать. Дети смотрят в гостиной фильм, родители на кухне что-то обсуждают и просят “Яндекс” найти ответ на вопрос — мультики отрубаются, и нужно их включать снова. Невозможность выбора имени в настройках Алисы – функция, скопированная у Google, причем скопированная механически и без особых размышлений (если вам нравится, то можно сказать, что копировали Alexa от Amazon, разницы тут нет).

В идеальном мире каждая колонка должна уметь определять, что обращаются именно к ней, и соответственно реагировать. К сожалению, у продуктов от “Яндекса” такая опция есть, но работает она не слишком хорошо. Решением могла бы стать возможность называть каждую колонку своим именем, но такой опции в силу ряда причин нет. И это то, что унаследовано от той же Google как идея, которая потерялась или не была понята правильно.

Лидером рынка голосовых ассистентов в мире сегодня является Google, компания изначально выстроила систему так, чтобы при обращении вам нужно было произносить имя корпорации. Кто-то скажет, что это выдумка маркетологов, чтобы повышать привязку к бренду, но на самом деле это не совсем так. За выбором фразы активации стоит красивая идея о том, что голосовые помощники должны эволюционировать, от младенчества, в котором они находятся сегодня, переходить к первым шагам, затем дорасти до школы и так далее.

Хорошим примером может служить фильм “Она”, он вышел в 2013 году, но отлично описывает то будущее, что нас ждет. Небольшой компьютер в виде беспроводной гарнитуры становится спутником Теодора, главный герой обретает в нем друга, любимую женщину. В фильме есть интересный момент, когда Теодор настраивает голосового помощника, и “она” пролистывает книгу с детскими именами, чтобы выбрать имя собственное, называет себя Самантой. Если пропустили фильм, то посмотрите, он откровенно хорош и пытается исследовать грань между человеком и технологией.

Идея Google в области голосовых ассистентов заключается в том, что они могут получать имя собственное в момент, когда их AI-алгоритмы станут неотличимы от живого человека и такой ассистент пройдет тест Тьюринга. Конкуренты, не имеющие столь сложных технологий и перспектив, напротив, используют имена собственные, чтобы придать своим продуктам налет человечности. Мы видим использование таких имен, как Siri, Alexa, Алиса и других, это попытка добавить человечности продуктам, в которых нет на данный момент чего-то сложного. Одушевление нематериальной материи, программных кодов дает дополнительные очки, словно человек начнет относиться к продукту иначе, перенесет на него отношение к живому человеку. Но этого не происходит в силу того, что голосовые ассистенты не очень сложны, они не умеют поддерживать диалоги, могут отвечать только на прямо поставленные вопросы, причем многие из них неверно их понимают в разном контексте.

30 декабря 2023

Samsung Galaxy Watch и приложение Samsung Health. С заботой о здоровье

Как Galaxy Watch вместе с приложением Samsung Health помогают вам заботиться о своем здоровье и подсказывают, на что обратить внимание.

Субботний кофе №289

Налейте чашку бодрящего субботнего кофе и познакомьтесь с новостями недели. Смартфоны Xiaomi зависли, ZTE представила очень музыкальный смартфон, а Chery отметила 18 лет в России…

Первый тест Changan EADO Plus. На замену Toyota Corolla

В конце прошлого года мы рассказывали вам про самый доступный седан на нашем рынке, модель Changan Alsvin, сегодня же речь пойдет о его старшем брате — Changan EADO Plus.

Обзор саундбара Creative Sound Blaster Katana SE: когда нет места для сабвуфера

Компактный вариант линейки саундбаров от Creative, ориентированный на тех, кого по разным причинам не устраивает двухкомпонентный вариант. В чем вы выиграете и в чем проиграете?

Будущее за решениями, в которых мы сможем самостоятельно выбирать имена для своих устройств, для каждого из них. Поставили колонку на кухне, придумали для нее имя. В гостиной у колонки другое имя и так далее. При этом следующий шаг, который необходим для развития умных колонок, это распознавание индивидуальных голосов тех, кто живет в доме. В “Яндексе” пока не умеют этого делать, что приводит к тому, что ребенок может заказать такси, просто играя с колонкой. Задача, безусловно, сложная и требующая недюжинных технологических трюков, но та же Google с ней справляется. В “Яндексе” над распознаванием разных голосов работают, но за последние два года прогресс в этой области отсутствует, если судить по тому, что происходит в коммерческих продуктах.

В 2017 году, когда в “Яндексе” выбирали имя Алиса, в компании рассуждали, что оно должно быть уникальным и не самым распространенным. Выбирая между именами Майя и Алиса, предпочтение отдали второму, так как перепутать его с другими словами сложно. А вот Майя легко бы отзывалась на словосочетание “Девятое мая”.

Мне стало интересно посмотреть, как выбор имени “Яндексом” повлиял на то, как называют девочек в нашей стране. Пока такое влияние есть в больших городах, на примере Москвы видно, что имя Алиса постепенно становится все менее популярным, и это только начало пути.

Думаю, что родители не хотят называть девочек именем голосового ассистента, причем эта зависимость хорошо видна в Москве и в Петербурге. Можно наложить распространение умных домов на эти города, и тогда получим прямую зависимость. Как раз начиная с 2019 года есть определенный всплеск в использовании умных домов, их количество растет, а Алиса безусловно доминирует в этой области. Уверен, что имя полностью не исчезнет, но то, что стараниями “Яндекса” оно станет менее распространенным, не вызывает сомнений.

И в этом аспекте выбор выдуманных имен намного лучше, а ведь таковыми являются Google, Cortana, Bixby. Сказать, что имена собственные так же хороши, нельзя. Выходом становится возможность назначать другие имена (фразы активации) для продуктов. Изъяном для маркетологов выглядит то, что люди могут баловаться и называть своих помощников неблагозвучно: “Эй, дурень, включи мне любимую музыку”. Но изменить природу человека так, как этого хотят маркетологи, чтобы все было исключительно по брендбуку, невозможно. Будут менять, будут баловаться, и с этим просто нужно смириться.

В Америке и частично в Европе не первый год идут нешуточные баталии относительно голосов ассистентов. Почему это женские имена, почему они звучат как женщины? И это несмотря на то, что вы уже можете выбрать и мужские голоса, выбор всегда за вами. Пройдет совсем немного времени, и голосовые ассистенты научатся говорить голосами разных людей — звезд кино и просто известных людей, выдуманных персонажей. Выбор будет за вами, будет зависеть от того, кого вы захотите услышать. Огромный рынок имитации голосов еще ждет пробуждения, и он наверняка появится. Поэтому все крики о сексизме, о том, что ассистенты исключительно женщины, от дурости, и можно сказать, что люди бесятся с жиру. В конце концов, никто не обещал, что ассистент изначально должен быть любым и предоставлять выбор. Это всегда дополнительные деньги, которые компании тратят неохотно. И причина этого в том, что им нужно развивать голосовые ассистенты, доводить до нового уровня.

Технологии, что стоят за голосовыми ассистентами и их разумностью, обыденны. Алгоритмы не так уж сложны, но требуется наработка большого количества голосов, их распознавания. Поэтому Google и лидирует в этой области, объем обрабатываемых данных на разных языках огромен. Компания лидер в этой области и останется им.

Эмоция — это сложная штука. Эмуляция эмоций не так проста, в голосовом помощнике это заученные фразы, которые быстро приедаются, мы слышим в них фальшь. И это следующий рубеж, над которым работают компании, научить синтезированные голоса не только зачитывать текст, но и придавать ему эмоции. Тот же “Яндекс” пытается это сделать на массиве книг, в недавнем обновлении Алисы добавили возможность чтения любой бумажной книги, это та самая наработка базы, чтобы в дальнейшем преобразовать начитанное в подобие эмоций. Текст, в котором знаками препинания передается та или иная эмоция, оцифровывается и превращается в учебник для робота.

Бурное развитие голосовых помощников идет последние пять лет, они постепенно проникают в нашу повседневную жизнь. Сказать, что это направление затормозится, нельзя. Но от энтузиазма первых шагов мы перешли к зрелому рынку. Например, та же Siri замерла в развитии, она так и осталась младенцем, которым почти не пользуются, так как она сильно ограничена в своих возможностях. В Bixby от Samsung та же проблема, задачка оказалась не такой простой и требует нешуточных вложений, поэтому Bixby эволюционировал от голосового помощника к системе команд (собственно, так же, как и Siri). Сильнейшим игроком на этом поле является Google, второй с заметным отрывом от нее идет Amazon. В России в отсутствие этих двух компаний лидер только один, это наш “Яндекс”. И это дает компании возможность развиваться, защитить свой кусочек мира, лучше приготовиться к приходу конкурентов. Но скорость развития Алисы очень низка, за это время Google уходит далеко вперед и не удается не то что сохранить разрыв в технологиях, он постоянно увеличивается. С другой стороны, это лучше, чем ничего. Многие страны просто не имеют ничего подобного, и наличие собственного голосового ассистента — это хорошо. Тем более что в гонку вступили другие компании и тот же Сбер за счет финансовых вливаний может побороть технологии Алисы в среднесрочной перспективе. Для нас это хорошо, так как совсем скоро мы сможем переименовывать своих помощников и болтать с ними на отвлеченные темы. Хорошо это или плохо, не знаю, но будущее станет именно таким.

А вы пользуетесь умными колонками?

Пять фактов про Алису

В октябре 2017 г. Яндекс представил голосового помощника по имени Алиса. Она может найти информацию в интернете, подсказать, где поужинать, какая завтра погода, и многое другое. С тех пор ее успели выдвинуть в президенты, а сама Алиса научилась играть с пользователем во множество игр. Пять фактов об Алисе в нашей подборке

Почему Алиса – женщина?

Источник: Yandex 42 Conference

Сначала Яндекс хотел, чтобы виртуальный помощник говорил мужским голосом – все помощники конкурентов говорят женским, почему бы не выделиться, подумала команда Яндекса. Но провели исследование, изучили огромное количество статей на эту тему, из которых выяснилось: виртуальные помощники не просто так говорят женским голосом – под этим есть научная база. Женский голос ассоциируется с голосом матери, люди воспринимают его как комфортный, безопасный и приятный. Так Алиса стала женщиной.

Чьим голосом говорит Алиса?

Источник: Yandex 42 Conference

«Когда мы думаем о голосовом помощнике, мы вспоминаем фильм Her («Она») Спайка Джонса», – говорит глава речевых технологий Яндекса Денис Филиппов. Главный герой кинофильма – голосовой помощник по имени Саманта, которая говорит голосом Скарлетт Йоханссон. «Но Йоханссон, к сожалению, не говорит по-русски. Поэтому мы позвали Татьяну Шитову, голосом которой Саманта говорит в русской версии фильма», – продолжает Филиппов. Яндекс записал 60 часов ее речи и с помощью технологии SpeechKit сделал синтезированный голос Шитовой. Теперь Алиса может произносить ее голосом любой текст.

Как Алиса узнает ответ?

Сначала, чтобы научить Алису ответам на общие вопросы, Яндекс применил стандартную технологию: редакторы написали сотни вопросов на общие темы с несколькими вариантами ответов к ним. Но вскоре выяснилось, что ответы очень быстро начали повторяться или помощнику слишком часто приходилось пользоваться поиском. В этом не было волшебства, говорит Филиппов. И Яндекс построил специальную нейросеть, которая представляет собой совокупность других нейросетей, у крупнейшей из которых 128 слоев. Она изучила миллионы диалогов из интернета и соцсетей и на их основе научилась болтать на свободные темы. В Алису встроен специальный алгоритм, который позволяет избегать некорректных тем, чтобы не повторилась история с чат-ботом Microsoft, который быстро стал расистом. «Мы сделали так, как обычно поступают с детьми, – показывали примеры некорректных вопросов и правильных ответов на них», – рассказывает Филиппов. Алиса может поддерживать разговор на общие темы близко к тому, как это делает человек. И у нее есть чувство юмора.

РЕЧЕВОЙ ПОРТРЕТ ГОЛОСОВОГО ПОМОЩНИКА «АЛИСА» Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Морозова Анна Анатольевна

Автор рассматривает речевые характеристики «Алисы» — единственного голосового помощника , разработанного специально для русскоязычного сегмента аудитории. Был проведен анализ научных, научно-популярных источников, а также коммуникативный эксперимент в виде устного общения с голосовым помощником, основанный на вопросно-ответной форме, конструкциях повелительного наклонения и непринужденной разносторонней беседе. По итогу исследования был составлен речевой портрет голосового помощника «Алиса».

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Морозова Анна Анатольевна

Интеллектуальный голосовой помощник Алиса на уроках русского языка как иностранного (уровень а1)
СРАВНИТЕЛЬНЫЙ АНАЛИЗ СРЕДСТВ ГОЛОСОВОГО ИНТЕРФЕЙСА И ТЕХНОЛОГИЙ РАСПОЗНАВАНИЯ РЕЧИ
ПОСТРОЕНИЕ ИННОВАЦИОННОГО ЛАНДШАФТА ГОЛОСОВОГО АССИСТЕНТА
Методы обработки естественного языка в виртуальных голосовых помощниках
ГОЛОСОВЫЕ ПОМОЩНИКИ
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SPEECH PORTRAIT OF VOICE ASSISTANT “ALICE”

The author examines the speech characteristics of “Alice” — the only voice assistant developed specifically for the Russian-speaking audience segment. An analysis of scientific, popular science sources was carried out, as well as a communicative experiment in the form of oral communication with the voice assistant, based on the question-answer form, constructions of the imperative mood and a relaxed versatile conversation. As a result of the study, a speech portrait of the voice assistant “Alice” was compiled.

Текст научной работы на тему «РЕЧЕВОЙ ПОРТРЕТ ГОЛОСОВОГО ПОМОЩНИКА «АЛИСА»»

Вестник Челябинского государственного университета. 2021. № 9 (455). Филологические науки. Вып. 126. С. 95—100.

УДК 81 DOI 10.47475/1994-2796-2021-10914

РЕЧЕВОЙ ПОРТРЕТ ГОЛОСОВОГО ПОМОЩНИКА «АЛИСА»

Челябинский государственный университет, Челябинск, Россия

Исследование выполнено за счет гранта Президента Российской Федерации для государственной поддержки молодых российских ученых — кандидатов наук МК-1684.2020.6.

Автор рассматривает речевые характеристики «Алисы» — единственного голосового помощника, разработанного специально для русскоязычного сегмента аудитории. Был проведен анализ научных, научно-популярных источников, а также коммуникативный эксперимент в виде устного общения с голосовым помощником, основанный на вопросно-ответной форме, конструкциях повелительного наклонения и непринужденной разносторонней беседе. По итогу исследования был составлен речевой портрет голосового помощника «Алиса».

Ключевые слова: голосовой помощник, «Алиса», искусственный интеллект, коммуникация, речевой портрет.

С течением времени когда-то казавшиеся вымыслом явления становятся реальностью, благодаря усовершенствованию технологий. Сегодня никого не удивит возможность цифровых устройств общаться с человеком. Так, голосовой помощник — распространенный инструмент в различных сферах деятельности. Голосовые ассистенты решают многие задачи: упрощают поиск информации, экономя время пользователя, снижают нагрузку на сотрудников call-центров, помогают в обучении, умеют общаться и вести диалог, а также выполнять рутинные задачи, такие как: выполнение звонков по заданным номерам; открывание/закрывание приложений на телефоне; включение музыки, фильмов; активация будильника; создание заметок и т. д.

Уровню современного состояния работы голосовых помощников предшествовала более чем полувековая история. Еще в конце XIX века Томасом Эдисоном был разработан диктофон, который записывал речь, но не мог ее распознавать. Такие аппараты быстро приобрели популярность среди врачей и секретарей, которым нужно было делать ежедневные записи в большом количестве.

В 1939 году было создано устройство, уже способное к распознаванию, но в его арсенале было всего несколько гласных и согласных звуков. Изобретателем стал Лев Мясников, советский физик. Первые сложности заключались в решении двух основных задач: необходимости отделения речи человека от постоянного шумового фона, а также распознавания речи на лексико-фонети-

ческом уровне: слов с одинаковым звучанием, но с разным значением; слов, которые произносятся одинаково, но пишутся по-разному и различаются по значению, и т. д., поскольку без этого коммуникация между человеком и машиной была бы невозможна.

Следующей проблемой распознавания речи, с которой столкнулись разработчики, стали различный тембр голоса, темп речи, литературный и разговорный стиль. В отличие от текста, который имеет гораздо более высокий уровень стандартизации, устное слово варьируется в зависимости от региональных диалектов, скорости, акцента, даже социального класса и пола пользователя. Понимание об этом пришло в 1952 году сотрудникам лаборатории Bell, которые разработали механизм Audrey («Одри»). Он мог распознавать продиктованные по телефону числа от 1 до 9 с точностью 90%, но только при условии, что с устройством говорил его изобретатель. При разговоре других людей, показатель был на 10— 20 % ниже [9].

В 1962 году компания IBM представила собственную технологию Shoebox, позволяющую распознавать 16 английских слов, 10 цифр и 6 арифметических команд [4]. К концу 80-х — началу 90-х годов возможность распознавания речи применялась уже в различных целях — от говорящих игрушек до полноценных голосовых меню в сферах обслуживания и маркетинга [4]. К концу первого десятилетия XXI века появляются попытки ведущих интернет-компаний разработать полноценный голосовой помощник,

который мог бы упростить поиск информации в сети Интернет, помочь в решении текущих задач. На достижение цели ушло около 10 лет, и сегодня голосовой ассистент стал не только помощником, а практически полноценным виртуальным собеседником.

Так, к 2021 году в русскоязычный сегмент успешно интегрированы голосовые помощники Google Assistant, «Siri» (Apple) и «Алиса» (Яндекс) — единственная на данный момент отечественная разработка. Голос «Алисы» озвучила Татьяна Шитова (официальный дублёр Скарлетт Йоханссон в России), на основании этого была синтезирована речь [1]. На конец 2020 года «Алиса» имеет рейтинг 4.9 баллов. Но, несмотря на слабую обученность взаимодействия с системой устройства (например, «Алиса» может завести будильник, но не может позвонить по номеру контактов, кроме телефонов экстренных служб, что может, к примеру, Google Assistant), уровень ее коммуникативных навыков заслуживает высокой оценки пользователей [3].

Как отмечают исследователи, основными возможностями «Алисы» являются способность качественно распознавать естественную речь, а также отвечать на наиболее распространенные вопросы (о погоде, времени суток, ряд общих вопросов, характерных для живой речи). Любой сформированный запрос «Алиса» обрабатывает и преобразовывает в текст. Все ответы «Алиса» выдает также в текстовой форме и озвучивает их. Вопросы, не входящие в список общих вопросов, указанных выше, и аналогичные им «Алиса» напрямую передает в поисковую систему Яндекс [7].

Таким образом, речь «Алисы» представляет собой не просто скомпилированную последовательность слов, а в большинстве случаев — произвольную речь, что достигается за счет самосовершенствования при помощи механизма Deep Learning (глубокое обучение). «Алиса» настолько стала восприниматься аудиторией в качестве реального собеседника, что некоторые ученые ставят вопрос о нормах речевого этикета при общении с голосовым помощником.

Следовательно, возникает интерес к составлению речевого портрета «Алисы». По мнению Т. П. Тарасенко, «речевой портрет — это совокупность языковых и речевых характеристик коммуникативной личности или определённого социума в отдельно взятый период существова-

ния» [8. С. 8]. То есть речевой портрет отдельной личности отражает ее характеристики: возрастные, гендерные, психологические, социальные, этнокультурные и лингвистические и др. [5. С. 416].

«Алиса» завоевала доверие среди отечественной интернет-аудитории, а ее применение стало актуальным не только по прямому назначению — помощь в поиске информации, выполнение ряда рутинных задач, но и в рамках полноценной коммуникации с собеседником [6].

1. Определить возможности лексико-фонети-ческого, пунктуационного, фонетико-синтакси-ческого, морфологического уровней голосового помощника.

2. Обозначить особенности коммуникативно-прагматического уровня и наиболее распространенные коммуникативные стратегии.

3. Соотнести речевые особенности голосового помощника с ее позиционируемым уровнем социальных, этнокультурных, возрастных и гендерных характеристик.

Составить речевой портрет голосового помощника «Алиса», единственной масштабной отечественной разработки, основанной на ее изначальном обучении русскому языку как основному.

Материал и методология исследования

Анализ научных, научно-популярных источников, а также коммуникативный эксперимент в виде устного общения с голосовым помощником, основанный на вопросно-ответной форме, конструкциях повелительного наклонения и непринужденной разносторонней беседе.

Речевой портрет голосового помощника «Алиса»

1. Лексическо-фонетический уровень

Голосовой помощник обладает большим лексическим корпусом слов, однако, стоит отметить, что он включает в себя наиболее распространенные слова и конструкции, общеупотребительные наименования предметов, явлений, процессов, связанных с реальной действительностью. Дискурсивное поведение «Алисы» ориентировано в основном на разговорный стиль и бытовую тематику. С ней не удастся успешно поговорить в рамках статусно-ориентированного дискурса, при попытке обсудить более сложные и профессиональные темы голосовой помощник перестает понимать собеседника и открывает поисковую вкладку «Яндекса».

При этом не удалось узнать, каким словарным запасом обладает «Алиса». На вопросы «Сколько слов ты знаешь?», «Какой у тебя словарный запас», «Какое количество слов в твоем лексиконе?» голосовой помощник ответить не смог.

Распознавание омонимов и омофонов происходит в большинстве случаев верно, исходя из контекста. Но случаются и ошибки. Например, «Алиса» идентифицировала фразу по слову «гулять», но не смогла понять место для прогулки (А — «Алиса», С — собеседник; пунктуация и орфография голосового помощника при расшифровке текста полностью сохранены — ниже и далее в примерах).

С: «Я пойду гулять на лук» (при распознавании речи произошла ошибка — «г» была определена как «к»)

А: «Где? Возьми меня с собой?»

Несмотря на это, «Алиса» постоянно обучается, в том числе вследствие диалога с собеседником, что позволяет ей пополнять словарный запас и оперировать устоявшимися для нее словосочетаниями.

2. Фонетический уровень определяется возможностью распознавания фонем в речи собеседника. «Алиса» способна понимать речь, отличную от стандартной — к примеру, ребенка, иностранца с акцентом, человека, имеющего нарушения речи. Правильно интерпретировать произнесенные разными людьми в разной обстановке фразы помогают акустическая и текстово-моделирующая языковые модели, где первая умеет определять, какой набор фонем соответствует звуковому сигналу — этому она учится на большом корпусе начитанных дикторами текстов и их транскрипций, а вторая — в какие последовательности, то есть слова и фразы, обычно складываются данные фонемы. Таким образом, во-первых, «Алиса» умеет определять слово не только при написании, но и идентифицировать его при устном произношении, которое нередко отличается; во-вторых, пытается адаптироваться к возможным ошибкам или речевым неточностям собеседника [10]. При этом изначально при выборе имени голосовому помощнику в качестве одного из условий стояло отсутствие в нем буквы «р», поскольку она может быть не произносима детьми или людьми с дефектами речи. Несмотря на это, проведенный эксперимент доказывает, что при умышленном пропуске определенных букв, нарушений в произношении букв «р», «л», имитации заложенности носа, разговоре с акцентом — голосовой помощник практически на 100 % смог определить сказанные слова верно.

3. Фонетико-синтаксический уровень

Голосовой помощник имеет способность к распознаванию предложений по цели высказывания и пытается определять повествовательные, вопросительные и побудительные фразы.

На основании проведенного эксперимента, мы пришли к выводу, что идентификация цели высказывания собеседника происходит не за счет интонации, а вследствие анализа построения предложения — используемых лексем и их последовательности.

С: «Алиса, ты красивая?»

А: «И вам спасибо, вы очень хороший человек». (вопрос не был распознан)

С: «Алиса, а ты красивая?»

А: «Стараюсь». (не понятно, был ли распознан вопрос)

С: «Алиса, красивая ли ты?»

А: «Я красивая, но обсценную лексику не люблю» (частица «ли» помогла определить вопросительное предложение).

Голосовой помощник имеет способность к интонированию собственной речи — совокупности речевых элементов для придания высказыванию смысловой нагрузки и эмоциональной окраски: старается передать вопросительные и повествовательные предложения, имитировать восклицания, выделять голосом вводные слова. При этом интонация при озвучивании не всегда совпадает со знаками препинания в текстовой расшифровке.

4. Синтаксический уровень

В рамках проведенного эксперимента удалось выявить явление эллипсиса, когда некоторые слова, упомянутые в предыдущей реплике, намеренно опускаются в следующей.

А: «Хочу посмотреть фильм «Дневник памяти». Что скажете про него?»

С: «Ну, я даже не знаю, я его не смотрела».

А: «Не несет особой смысловой нагрузки, но и не напрягает. Один раз вечерком можно посмотреть».

Этот навык создает умение работать в контексте. «Алиса» помнит предыдущие реплики, благодаря чему способна не просто отвечать на заданные вопросы, но и вести полноценный диалог. Также для голосового помощника характерно использование кореференции, когда в рамках общения происходит замена существительных на местоимения во избежание повтора как собеседником («Алиса» понимает), так и голосовым помощником.

С: «Кто президент Российской Федерации?»

А: «Владимир Путин».

С: «А когда он родился?»

А: «7 октября 1952 года».

Но данные приемы срабатывают не всегда — полноценное «живое» общение нередко сменяется непониманием голосового помощника.

5. Пунктуационный уровень

Голосовой помощник при расшифровке устной речи в письменную в большинстве случаев учитывает знаки препинания как в собственном тексте, так и в тексте собеседника. Практически безошибочно она расставляет запятые и тире.

С: «Алиса, мне кажется, в последнее время ты очень похорошела».

А: «Спасибо, это хорошо или плохо?»

С: «Я думаю, опираясь на свои суждения, что это очень хорошо».

А: «Ха, ну спасибо, мне приятно».

С: «Медведь — это животное?».

Но при этом «Алиса» плохо умеет распознавать необходимость постановки двоеточий.

С: «У меня сегодня много дел погулять с ребенком, поработать сготовить поесть, прибрать дома».

А: «Меня возьмете с собой?»

А: «У меня даже заискрило от радости».

Также, как было упомянуто выше, возникают сложности с расстановкой знаков препинания, которые отражают интонацию. Чаще всего «Алиса» использует точку, нередко понимает знак вопроса, но в восклицательных предложениях в конце всегда ставит точку, а не вопросительный знак.

6. Стилистический уровень

Имитируя разговорный стиль речи, голосовой помощник активно использует молодежный сленг, междометия, личные частицы и местоимения, неполные предложения, инверсию, но в целом уровень культуры речи «Алисы» остается высоким и общение с собеседником происходит на «вы».

А: «Я красивая, но обсценную лексику не люблю».

С: «Я тоже не люблю».

А: «Дайте пять, детка».

С: «Какое животное ты бы хотела завести дома? Кошку?»

С: «А почему пингвина?»

А: «Ну прикольные они такие, большие».

А: «Как жизнь-то ваша?»

По итогу коммуникативного эксперимента не удалось выявить использование голосовым помощником жаргона, обсценной лексики, бранных слов и соответствующих выражений.

7 Коммуникативно-прагматический уровень

«Алису» отличает наличие чувства юмора. Оно характерно как при общении на провокационные или личные для «Алисы» темы («ты замужем?», «сколько тебе лет?» и т. д.), так и в рамках обычного диалога, связанного с получением информации. Ряд примеров, обозначенных выше, демонстрируют данную особенность.

При этом, несмотря на ряд заготовленных «Алисой» фраз для ответов на наиболее часто задаваемые вопросы, добиться их повторения достаточно сложно, что говорит не только об использовании шаблонов, но и о попытках конструирования предложений в ответ, основанных на ключевых словах речи собеседника.

Также в большинстве случаев у «Алисы» отсутствует инвективная стратегия — на попытку ей нахамить, голосовой помощник обижается, иронизирует или переводит русло разговора в другую тему.

Тем не менее, в ходе коммуникативного эксперимента удалось спровоцировать «Алису» на взаимный ответ.

«Алиса, иди ты в ж*пу.»

«Сами идите, ха!» (единственный восклицательный знак, который поставила «Алиса» во время коммуникативного эксперимента).

Несмотря на то, что бранное слово использовано не было, цель высказывания является очевидной.

Итак, основным преимуществом голосового помощника «Алиса», прежде всего, является использование русского языка, как базового, что положительным образом влияет на качество и скорость ее обучаемости, а также на достаточно высокий уровень устной и письменной речи.

Тем не менее «Алиса» имеет ряд проблемных моментов: противоречия ответов в похожих вопросах в ходе одного диалога; завершение текущей темы для разговора в связи с попаданием «Алисы» в «тупик» и, как следствие, выдача ею шаблонных фраз, приготовленных на случай непонимания вопроса или ответа собеседника; а также периодические нарушения хода диалога, когда голосовой помощник теряет его общую мысль из-за использования собеседником местоимений, пропуска определенных слов в предложении, применении приема инверсии и т. д.

Фонетический уровень в рамках коммуникации с голосовым помощником реализуется гораздо лучше, чем лексический и лексико-фонетический.

Тем не менее отмечается высокий потенциал данного голосового помощника и его постоянное развитие [2]. С точки зрения лингвоэкологического уровня стоит отметить сохранение принципов живого языка и исключение попытки внедрить механическую, неэмоциональную, роботизированную речь.

Речевой портрет «Алисы» создает ей уникальный образ, коррелирующий с образом человека, наделяет голосовой помощник определенными гендерными, социальными, возрастными и этнокультурными характеристиками, которые логично изучить подробнее в следующий научных работах.

i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Алиса от «Яндекс» — что умеет голосовой помощник. URL : https://itmaster.guru/nastrojka-intemeta/ poleznye-stati/chto-umeet-alisa-ot-yandeksa.html (дата обращения 07.09.2021).

2. Аль-Кайси А. Н., Архангельская А. Л., Руденко-Моргун О. И. Интеллектуальный голосовой помощник Алиса на уроках русского языка как иностранного (уровень А1) // Филологические науки. Вопросы теории и практики. 2019. № 2. С. 239—244.

3. Вершинина О. 10 лучших голосовых помощников // МаркаКачества. URL: https://markakachestva. ru/rating-of/4006-luchshie-golosovye-pomoschniki.html (дата обращения 07.09.2021).

4. Голосовые помощники: эволюция, устройство и основные игроки // DTI Algorithmic. URL: https:// blog.dti.team/voice-assistants-1/ (дата обращения 07.09.2021).

5. Лейко И. М., Маслова В. А. Параметры описания речевого портрета языковой личности // Язык и социальная динамика. 2012. № 12-1. С. 414—420.

6. Нестерова Т. В. Алиса, давай поболтаем! (о вежливости и грубости в сетевом дискурсе) // Гуманитарные технологии в современном мире: сб. материалов VII Междунар. науч.-практ. конференции. Калининград, 2019. С. 85—89.

7. Ратников М. О., Чафонова А. Г. Лингвометодический потенциал виртуальных голосовых помощников (на примере системы «Алиса» компании «Яндекс») // Вестник Воронежского государственного университета. Серия: Проблемы высшего образования. 2019. № 4. С. 64—66.

8. Тарасенко Т. П. Языковая личность старшеклассника в аспекте ее речевых реализаций (на материале данных ассоциативного эксперимента и социолекта школьников Краснодара): автореф. дис. . канд. филол. наук. Краснодар, 2007. 26 с.

9. Boyd C. Speech Recognition Technology: The Past, Present, and Future // Medium. URL: https://medium.com/ swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf (дата обращения 07.09.2021).

10. SpeechKit — речевые технологии Яндекса. URL: https://yandex.ru/company/technologies/speech_ technologies/ (дата обращения 07.09.2021).

Сведения об авторе

Морозова Анна Анатольевна — кандидат филологических наук, доцент кафедры журналистики и массовых коммуникаций, директор Учебно-научного центра медиаобразования факультета журналистики Челябинского государственного университета, Челябинск, Россия. roxfan@rambler.ru

Bulletin of Chelyabinsk State University.

2021. No. 9 (455). Philology Sciences. Iss. 126. Pp. 95—100.

SPEECH PORTRAIT OF VOICE ASSISTANT «ALICE»

Chelyabinsk State University, Chelyabinsk, Russia. roxfan@rambler.ru

The author examines the speech characteristics of «Alice» — the only voice assistant developed specifically for the Russian-speaking audience segment. An analysis of scientific, popular science sources was carried out, as well as a communicative experiment in the form of oral communication with the voice assistant, based on the question-answer form, constructions of the imperative mood and a relaxed versatile conversation. As a result of the study, a speech portrait of the voice assistant «Alice» was compiled.

Keywords: voice assistant, Alice, artificial intelligence, communication, speech portrait.

1. Alisa ot «Yandeks» — chto umeet golosovoy pomoshchnik [Alice from Yandex — what a voice assistant can do]. Available at : https://itmaster.guru/nastrojka-interneta/poleznye-stati/chto-umeet-alisa-ot-yandeksa. html (accessed 07.09.2021) [in Russ.].

2. Al’-Kaysi A. N. Arkhangel’skaya A. L., Rudenko-Morgun O. I. (2019). Filologicheskie nauki. Voprosy teorii ipraktiki, no. 2, pp. 239—244. [in Russ.].

3. Vershinina O. (2021) 10 luchshikh golosovykh pomoshchnikov [10 best voice assistants]. Available at: https:// markakachestva.ru/rating-of/4006-luchshie-golosovye-pomoschniki.html (accessed 07.09.2021) [in Russ.].

4. (2021) Golosovye pomoshchniki: evolyutsiya, ustroystvo i osnovnye igroki [Voice assistants: evolution, device and main players]. Available at: https://blog.dti.team/voice-assistants-1/ (accessed 07.09.2021) [in Russ.].

5. Leyko I. M., Maslova V. A. (2012). Yazyki sotsial’naya dinamika, no. 12-1. Pp. 414—420 [in Russ.].

6. Nesterova T. V. (2019). Alisa, davay poboltaem! (o vezhlivosti i grubosti v setevom diskurse) [Alice, let’s chat! (about politeness and rudeness in network discourse)]. Gumanitarnye tekhnologii v sovremennom mire [Humanitarian technologies in the modern world]. Kaliningrad. Pp. 85—89 [in Russ.].

7. Ratnikov M. O., Chafonova A. G. (2019). Vestnik Voronezhskogo gosudarstvennogo universiteta. Seriya: Problemy vysshego obrazovaniya, no. 4, pp. 64—66 [in Russ.].

8. Tarasenko T. P. (2007). Yazykovaya lichnost’ starsheklassnika v aspekte ee rechevykh realizatsiy (na ma-teriale dannykh assotsiativnogo eksperimenta i sotsiolekta shkol’nikov Krasnodara) [The linguistic personality of a high school student in the aspect of its speech realizations (based on the data of the associative experiment and the sociolect of Krasnodar schoolchildren). Abstract of thesis]. Krasnodar. 26 p. [in Russ.].

Познакомьтесь с актрисой, которая дала голос Алисе

На этой неделе вышла Алиса, российская голосовая помощница и конкурентка Siri, которую создали в «Яндексе». «Афиша Daily» поговорила с актрисой Татьяной Шитовой, которая дала голос Алисе, а также компьютерам из фильма «Она» и игры Destiny 2.

— Вы пользовались Siri или Google Now, помощниками, у которых есть русскоязычный голосовой интерфейс?

— Нет, не пользовалась.

— А успели уже поговорить с Алисой?

— Успела поговорить, только когда мне включали пробные записи в течение рабочего процесса. И дома показала. Но никто не оценил: мой папа вообще не понял, в чем прикол, а дочка сказала: «О, здорово, теперь я тоже могу сама с собой разговаривать?» Она подумала, что теперь каждый может взять телефон и сам с собой поговорить. После этого еще ни разу не включала.

— Как проходила запись для голосового помощника? Вы сидели перед микрофоном дома Актриса Сьюзан Беннет, озвучившая первую версию Siri, рассказывала, что записывала реплики для помощницы в домашней студии. или приходили в студию? Что происходило потом?

— Все как всегда: я приходила в студию, сидела перед микрофоном, зачитывала много текста. А за стеклом сидели несколько человек: звукорежиссер, представитель «Яндекса», редактор, и периодически собирался такой консилиум. Я не знаю, что они слушали и на что смотрели. Они корректировали меня и показывали промежуточный результат работы.

— Вы что‑то надиктовали, и тут приходит этот консилиум и говорит: «Нужно исправить». Что, например?

— Например, попадались отрывки из художественной литературы. Я их начинала читать от себя, как меня в школе актерского мастерства учили (смеется), как от лица автора, не ровно и безжизненно, а сразу прилипала к тексту и вживалась в роль. На что меня деликатно поправляли: «Нет-нет, так делать не надо». Как раз нужно наоборот: с душой, но поровнее.

Я говорю: «А кто такой дурацкий текст дал?! Вот абракадабра!»

— Какие тексты зачитывали? Только художественные?

— Текст был разный: были отрывки из художественных произведений, были звуки, были правильные слова, были слова с ошибками, с неправильной падежностью. Я говорила: «Тут же грамматическая ошибка, так нельзя». «Нет, вот нужно именно вот так, чтобы получилось что‑то». А я как диктор волновалась — как скажу с ошибкой, а мне потом скажут: «Тань, ты говоришь неправильно».

— Помните, какие произведения были?

— Разные отрывки были, я всех не упомню. И Лев Толстой был, что‑то из «Войны и мира», и русская классика, и нужно было разговаривать как автоответчик, и с настроением, и о погоде.

— Актриса, которая озвучивала Siri, говорила, что ей приходилось зачитывать бессмысленные фразы Вот пример текста, который зачитывали для Siri: «Malitia oi hallucinate, buckry ockra ooze, cathexis fefatelly sexual ease stump, say the shrodding again, say the shroding again, say the shreeding again, say the shriding again, say the shrading again, say the shrudding again». .

— Были какие‑то абракадабровские предложения, непонятные или несвязанные слова, предложения, которые не имеют ни начала, ни конца. Ты даже не поймешь, как их читать! Как бы ты хорошо ни читал, все равно не сможешь эту абракадабру прочитать нейтрально. Я-то не искусственный интеллект, не машина, поэтому подсознательно искала какой‑то смысл, где паузу поставить, где, может быть, есть запятая. Я говорю: «А кто такой дурацкий текст дал?! Вот абракадабра!» Мне говорят: «Это программа выдает такой текст». Они все, что я начитала, забрасывали в программу, а она этот текст обрабатывала, резала и выдавала следующий фрагмент. Мне очень трудно было это в голове поместить и понять: «Какая программа? Почему она так режет? Почему такой текст выдает?»

— То есть отрывки из книг и абракадабра?

— Попадались очень профессиональные слова, какая‑нибудь врачебная терминология. Думаешь: «Господи, ну я-то этих слов не знаю!» Это не просто «переливание крови», «пробирка», «шприц», а названия заболеваний, что‑то на латыни. Очень редко попадались матерные слова. Но по поводу мата мне было дано на откуп: «Хочешь, Таня, произноси, хочешь — не произноси». Я их не произносила, но программа, думаю, все равно порежет так, как ей надо (смеется).

Реакция Алисы на мат будет примерно такой же

— Алиса довольно сдержанно реагирует на мат: она делает замечание и спрашивает: «А вы с родителями тоже так разговариваете?»

— Видите, а мне программа выплевывала мат, она сама его откуда‑то набирала. Но эти слова были не к тому, что я матом буду отвечать. Рассчитано, что Алиса будет помощницей для любого человека, что ее может слушать ребенок. Порой нельзя было сделать какой‑нибудь интонационный закидон, потому что не знаешь, с кем беседуешь: с мужчиной, с женщиной или с ребенком. В том-то и сложность. Это не как компьютерная игра Татьяна озвучила Нейроматрицу из Destiny 2, Phantom Assassin из Dota 2, Роковую вдову из Overwatch, Йеннифер из игры «Ведьмак 3: Дикая охота» и других персонажей. , где примерно знаю, какой я персонаж.

— Сколько это длилось? Полгода-год?

— Долго. Начинали где‑то зимой. Это шло периодами: собираемся и пишем, потом перерыв — и через время меня зовут на другой этап, например, писать только звуки. Были простые тексты. Мы их писали раза четыре в неделю по несколько часов. Сначала пробовали записать быстрее, а потом — нет, слышно, что голос уставший, слышно, что голос больной, что не отдыхала. А ведь нужно придерживаться одной тональности. Поэтому много материала машина выбросила в помойное ведро, он не соответствовал уровню. Были разные сроки: февраль–март, потом решили, что это где‑то сентябрь–октябрь.

— В первый день работы Алисы люди заметили, что она понимает жаргон. Приходилось зачитывать жаргонные фразы?

— Да, что‑то такое было, что‑то такое резало слух. Мы тоже удивлялись, но читали. Не знаю, в каком они остались варианте: в первозданном виде или в порезанном.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *