В этом году лицом новогодней рекламной кампании Сбера станет самый первый бренд-амбассадор банка — Жорж Милославский. Персонаж, которого сыграл всенародно любимый актер театра и кино Леонид Куравлев в фильме «Иван Васильевич меняет профессию», еще в 1973 году призывал: «Храните деньги в сберегательной кассе».
Оказавшись в 2020 году, герой узнает, что теперь Сбер больше чем банк, не просто финансовая компания, а технологический гигант. А как раз одна из компаний экосистемы Сбера и сделала возращение любимого персонажа возможным.
Помимо воссоздания внешности киногероя с помощью технологий искусственного интеллекта, создателям ролика необходимо было синтезировать его голос, который является важной составляющей образа героя. Эту нестандартную задачу решали специалисты Группы ЦРТ, входящей в экосистему Сбера.
Обычно для качественного синтеза речи с помощью технологии TTS (text-to-speech) требуется не менее 20 часов речи диктора, записанной в студии по определенному текстовому шаблону. В случае с голосом Леонида Куравлева задача требовала нестандартного подхода.
Во-первых, нужен был именно тот голос, которым актер говорил 47 лет назад, а с годами его речь изменилась. Во-вторых, даже с учетом того, что актер на протяжении 70-х годов много снимался в кино, записи его голоса не всегда подходили для работы. В разных кинокартинах, в зависимости от роли, актер менял манеру речи и подачу, на его монологи накладывалась фоновая музыка и шум, плюс старые записи, даже оцифрованные, содержат дефекты.
В общей сложности в распоряжении команды ЦРТ было около четырех минут разнообразно звучащей речи актера из таких фильмов, как «Глубокие родственники», «Суета сует», «Не может быть» и «Иван Васильевич меняет профессию». Эти аудиодорожки легли в основу обучения системы TTS и синтеза речи.
Для зрителей и слушателей такое аудио ничем не отличается от обычного, и они не смогут различить, что было синтезировано, а что – архивная запись. Однако специальные системы детектирования, которые разрабатывает Группа ЦРТ, способны определить искусственность голоса. Это позволяет защититься от хакеров и безопасно использовать TTS в коммерческих проектах компании.
Благодаря такой кропотливой работе Жорж Милославский побывал на концерте NILETTO, познакомился с новыми сервисами Сбера, а также подарил зрителям радость и веру в новогоднее чудо, ведь такие необычные волшебные истории обычно случаются в канун самого любимого праздника – Нового года.
Владислав Крейнин, старший вице-президент, директор Департамента маркетинга и коммуникаций:
«В нашей новой рекламной кампании мы хотели еще раз рассказать, что сегодня Сбер уже больше чем банк. А как это сделать просто и технологично? Используя самые передовые технологии, которые у нас есть, мы не только перенесли Жоржа Милославского в 2020 год, но и смогли объединить сразу несколько поколений нашей страны и зарядить предпраздничным настроением, которое так сегодня необходимо всем нам. Вся представленная история – это знакомство героя с новым миром, динамичным, цифровым, полным возможностей. И в этом увлекательном путешествии у любимого киноперсонажа есть доверенный и надежный помощник – Сбер».
Дмитрий Дырмовский, генеральный директор Группы компаний ЦРТ:
«Группа ЦРТ создает технологии мирового уровня, синтез речи (Text-to-speech, TTS) – одна из них. Мы создаем ее на стыке методов глубинного обучения, что позволяет добиться высокого качества звучания синтезированного голоса. Учитывая задачи и сроки этого проекта, мы пошли нестандартным путем: собрали данные для обучения TTS из фрагментов фильмов, построили фонемную транскрипцию, выровняли со звуковой дорожкой, очистили данные от постороннего шума. Затем имеющуюся модель, обученную на большом экспрессивном наборе данных, обучили говорить новым голосом, сделали голос эмоциональным, похожим на нашего героя. Так, с помощью нейросетей всего по четырем минутам речи нам удалось воссоздать голос 50-летней давности. Но, несмотря на то что на непрофессиональный слух синтезированный голос неотличим от реального, это все-таки синтез. Для того чтобы выявлять синтезированный голос от живой человеческой речи, в ЦРТ разрабатывают специальные системы детектирования спуфинг-атак (попыток взлома), они учитывают массу характеристик звука, указывающих на то, что голос не является живым. Мы всегда должны быть на шаг впереди: не только создавать новые технологии и продукты, но и постоянно искать новые средства их защиты. Последние мировые конкурсы демонстрируют, что нам это удается».
Посмотреть видеоролик можно по ссылке.