Инструкция по суперпродвинутой озвучке текста

Эта статья предназначена для всех, кто уже использует озвучку текста или собирается начать. Вы можете использовать ее для своего ролика на YouTube, в телефонии, в программировании или роботехнике (на эту тему есть отдельная статья). Мы предлагаем Вам самую продвинутую систему для синтеза речи в интернете (которую мы назвали USSML (UniTools Speech Synthesis Markup Language = Язык Разметки Синтеза Речи UniTools)), причем еще и одну из самых дешевых. Также мы всегда открыты к Вашим предложениям, отзывам и пожеланиям в нашей группе ВКонтакте или в нашем телеграм-канале поддержки UniTools.

Бесплатное демо озвучки текста

Ударения

Если робот неверно поставил ударение в слове (что бывает весьма редко), то можно это исправить, добавив знак "*" (звездочка) ПОСЛЕ необходимой ударной гласной в слове.

В коде ударные гласные выделяются светло-зеленым цветом

Пример:

Паузы

Чтобы робот сделал вынужденную паузу, можно добавить несколько знаков "-" (дефис). Чем больше знаков подряд будет, тем длиннее пауза. Один дефис соответствует примерно 200 миллисекундам. Максимальная длина паузы - 5 минут (= 300 секунд = 300 000 миллисекунд)

Также паузы можно задать с помощью конструкции (-кол-во миллисекунд паузы-), например (-1530-), где 1530 - кол-во миллисекунд, которое должна продлиться пауза.

Теперь паузы доступны для всех голосов!

В коде паузы выделяются светло-голубым цветом.

Пример:

Фонемы   Beta

Это режим пока работает в режиме Beta теста (может выдавать ошибки и работать не стабильно) (работает пока только для русского языка).

Фонемы — это минимальные сегментные единицы языка (проще говоря - звуки). Применять фонемы при синтезе речи может быть полезно если нейросеть не понимает ударения через * или же неверно произносит слово.

Некоторые голоса поддерживают фонемы (подробнее о том, какие указано здесь). Это значит, что Вы сами можете задать произношение конкретного слова с помощью специального алфавита (который мы сами разработали), который очень похож на фонетический разбор слова, который все делали в школе (а Вы думали не пригодится? Пригодится). Также Вы можете использовать IPA (Международный фонетический алвавит) (читать Википедию).

Фонемы можно использовать двумя способами.

Первый способ

  • Все фонемы должны оборачиваться в "//" (например: "/пр"им"е*р/"). Тогда они будут подсвечиваться розовым цветом.
  • Проговорите слово и определите, из каких звуков оно состоит (используйте таблицу ниже).
  • Также необходимо поставить ударение после ударного звука во избежание ошибок.
  • Напишите фонетическую конструкцию Вашего слова и оберните в символ "/".

Второй способ (Автоматический)

  • Выделите ОДНО СЛОВО и нажмите кнопку "Фонемы", чтобы автоматически превратить это слово в USSML фонемы.
  • Если автоматическая генерация фонем создала фонемы без ударения (без "*" между "/ /"), то его (во избежание ошибок) необходимо поставить вручную (после ударной гласной).
  • Если автоматическая генерация выдала ошибку, то используйте первый метод.

Во втором столбце (USSML) указаны все символы (через пробел), которые могут использоваться для обозначения конкретной фонемы (то есть они означают одно и тоже).

Палатализа́ция (от лат. palatum — среднее нёбо) — подъём средней части спинки языка к твёрдому нёбу и продвижение всего языка вперёд, сопровождающие губную, переднеязычную или заднеязычную артикуляцию согласного (иногда используется термин непереходное смягчение). Т.е. язык касающийся неба - патализированная согласная.
Таблица фонетических символов
IPA USSML Описание Пример
b б

твердая "б" (voiced bilabial plosive)

рыба [rɨbə] /рыба/

б'

мягкая "б" (palatalized voiced bilabial plosive)

бюро [bʲʊro] /б"уро/

d д

твердая "д" (voiced alveolar plosive)

дом [dom] /дом/

д'

мягкая "д" (palatalized voiced alveolar plosive)

дядя [dʲadʲə] /д"ад"а/

f ф

твердая "ф" (voiceless labiodental fricative)

форт [fort] /форт/

ф'

мягкая "ф" (palatalized voiceless labiodental fricative)

финал [fʲɪnal] /ф"инал/

g г

твердая "г" (voiced velar plosive)

гол [gol] /гол/

ɡʲ г'

мягкая "г" (palatalized voiced velar plosive)

герой [ɡʲɪroj] /г"ирой/

j й

звук "й" (palatal approximant)

я [ja] /йа/, дизайн [dʲzajn] /д"зайн/

k к

твердая "к" (voiceless velar plosive)

кот [kot] /кот/, ку [ku] /ку/

к'

мягкая "к" (palatalized voiceless velar plosive)

кино [kʲɪno] /к"ино/, кю [kʲu] /к"у/

l л

твердая "л" (alveolar lateral approximant)

луч [lʊt͡ɕ] /луч/

л'

мягкая "л" (palatalized alveolar lateral approximant)

лес [lʲes] /л"ес/

m м

твердая "м" (bilabial nasal)

мама [mamə] /мама/

м'

мягкая "м" (palatalized bilabial nasal)

меч [mʲet͡ɕ] /м"еч/

n н

твердая "н" (alveolar nasal)

нос [nos] /нос/

н'

мягкая "н" (palatalized alveolar nasal)

няня [nʲanʲə] /н"ан"а/

p п

твердая "п" (voiceless bilabial plosive)

папа [papə] /папа/

п'

мягкая "п" (palatalized voiceless bilabial plosive)

пена [pʲenə] /п"ена/

r р

твердая "р" (alveolar trill)

рок [rok] /рок/

р'

мягкая "р" (palatalized alveolar trill)

рис [rʲis] /р"ис/

s с

твердая "с" (voiceless alveolar fricative)

суд [sʊd] /суд/

с'

мягкая "с" (palatalized voiceless alveolar fricative)

сено [sʲenə] /с"ена/, русь [rʊsʲ] /рус"/

ɕ: щ

шипящая "щ" (long voiceless alveolo-palatal fricative)

щит [ɕ:it] /щит/

ʂ ш

шипящая "ш" (voiceless retroflex fricative)

шест [ʂest] /шест/

t т

твердая "т" (voiceless alveolar plosive)

танк [tank] /танк/

т'

мягкая "т" (palatalized voiceless alveolar plosive)

тётя [tʲotʲə] /т"от"а/

t͡s ц

звонкая "ц" (voiceless alveolar affricate)

царь [t͡sarʲ] /цар"/

t͡ɕ ч

глухая "ч" (voiceless alveolo-palatal affricate)

чуть [t͡ɕʉtʲ] /чʉт"/

v в

твердая "в" (voiced labiodental fricative)

вон [von] /вон/

в'

мягкая "в" (palatalized voiced labiodental fricative)

весы [vʲɪsɨ] /в"исы/

x х

твердая "х" (voiceless velar fricative)

хор [xor] /хор/

х'

мягкая "х" (palatalized voiceless velar fricative)

химия [xʲimʲə] /х"им"а/

z з

твердая "з" (voiced alveolar fricative)

зуб [zub] /зуб/

з'

мягкая "з" (palatalized voiced alveolar fricative)

зима [zʲɪma] /з"има/

ʑ: ж:

буквосочетания "зж" и "жж" (long voiced alveolo-palatal fricative)

езжу [jeʑːʊ] /йеʑ*у/, вожжи [voʑ:ɨ̞] /вож:И/

ʐ ж

короткая "ж" (voiced retroflex fricative)

жена [ʐɨ̞na] /жИна/

ə о э а

Шва — безударные "а", "о" или "э" (mid central vowel)

корова [kɐrovə] /кАрова/, молоко [məlɐ′ko] /малА′ко/

a а*

ударная "а" или "я" (open front unrounded vowel)

там [tam] /там/, мяч [mʲat͡ɕ] /м"ач/, яма [jamə] /йама/

ɐ А

безударная "а" (near-open central vowel

каравай [kərɐvaj] /карАвай/, голова [gəlɐva] /галАва/

e е*

ударная "е" (close-mid front unrounded vowel)

печь [pʲet͡ɕ] /п"еч/

ɛ э*

ударная "э" (open-mid front unrounded vowel)

это [ɛtə] /эта/

i и*

ударная "и" (close front unrounded vowel)

лист [lʲist] /л"ист/

ɪ е и

"е" или "и" после палатализованной согласной в безударном слоге (near-close front unrounded vowel)

дерево [dʲerʲɪvə] /д"ер"ива/

ɨ̞ Е И

"е" или "и" после непалатализованной согласной в безударном слоге (near-close central unrounded vowe)

жена [ʐɨ̞na] /жИна/

ɨ ы*

ударная "ы" (close central unrounded vowel)

рыло [rɨlə] /рыла/

o о*

ударная "о" (close-mid back rounded vowel)

кот [kot] /кот/

u у*

ударная "у" или "ю" (close back rounded vowel)

муж [muʂ] /муш/, вьюга [vʲugə] /в"уга/

ʊ у

безударная "у" или "ю" (near-close back rounded vowel)

сухой [sʊxo̞j] /сухо̞й/, мужчина [mʊɕːinə] /муɕ*ина/

Пример:

Диалог

Чтобы заставить программу произносить разные фразы разными голосами (голоса могут повторяться) необходимо:

  • Начать печатать с НОВОЙ строки
  • Все фразы делятся по абзацем, поэтому каждый абзац - отдельная фраза и должен начинаться с голоса автора, ЛИБО ТЕКСТ БУДЕТ ЗАЧИТАН ГОЛОСОМ ПО УМОЛЧАНИЮ, который указан в выпадающем списке. Обратите на это внимание!
  • Напечатать "!" (восклицательный знак), а затем имя автора, которым необходимо произнести фразу
  • Имя должно быть напечатано так, как оно написано в выпадающем списке авторов
  • После имени должны стоять ":" и пробел
  • Если все верно, то автор подсветится как в коде ниже
  • Внимательно следите за абзацами и знаком нажатием на "Enter"
  • Можно использовать переменные (см. ниже)

В коде голоса-авторы обозначены жирным шрифтом красного цвета на светло-желтом фоне

Пример:

Высота голоса и темп речи

Если Вы не определились с голосом для озвучки, то Вы можете использовать переменные. Каждое объявление переменной должно начинаться со слова "var". Далее идет пробел, слово для замены, пробел и слово, на которое надо заменить. Для голоса автора это будет выглядеть как показано ниже

  • Сначала пишется имя голоса, который берется за основу
  • Далее пишется в процентах новая высота голоса, например +10% или 10 или +10 (поддерживаются все эти формы записи)
  • Третье значение - скорость речи, где 1 - обычная скорость, 1.1 - немного ускоренная, 0.9 - замедленная и т.д.
  • Использование точки или запятой в скорости неважно.
  • Если не указывать третье значения, то по умолчанию оно установлено в 1
  • Все значения НЕОБХОДИМО разделять знаком ";" (точка с запятой)
  • Обратите внимание, что мы не взимаем оплату за изменение темпа или высоты голоса, если текст не изменился. Экспериментируйте!
  • Можно использовать переменные (см. ниже)

Пример:

Переменные

Если Вы не определились с голосом для озвучки, то Вы можете использовать переменные. Каждое объявление переменной должно начинаться со слова "var". Далее идет пробел, слово для замены, пробел и слово, на которое надо заменить. Для голоса автора это будет выглядеть как показано ниже

В коде переменные подсвечены синим цветом

Пример:

Разбиение на файлы

Если Вам необходимо разбить озвучку на несколько частей, но Вы не хотите пользоваться аудиоредактором или несколько раз озвучивать несколько частей текста, то просто разбейте текст на части с помощью конструкции === (эта конструкция должна быть отдельной строчкой).

Остальной процесс озвучки не будет ничем отличаться, Вы также на выходе получите полный аудиофайл. Но при скачивании Вы сможете загрузить zip архив в котором будут все части Вашего текста с названиями 0_segment_of_act.mp3, 1_segment_of_act.mp3... Также в архиве будет и полный файл со всеми частями под названием full_speech.mp3

В коде места разбиения будут подсвечены розовым цветом.

Пример:

Выделение

Если во время нажатия на кнопку "Озвучить текст" в поле вода будет выделена фраза, то при озвучке будет использоваться только она. Это можно использовать для отладки озвучки небольших фраз.
Даже если Вы уже объявили переменные и не выделили их, то переменные все равно будут действовать. НЕ ЗАБУДЬТЕ ВЫДЕЛИТЬ И ГОЛОС АВТОРА (!ГОЛОС:), если хотите, чтобы отрывок был озвучен в режиме диалога (несколькими голосами)

Пример:

Комментарии

Чтобы робот никак не учитывал строку (ни автора, ни фразу, ни переменную), начните ее со знака "#". Также, даже если курсор не в начале строки, то комбинацией "Ctrl+/" можно ее быстро закомментировать и раскомментировать

В коде закомментированые строки начинаются с # и подсвечиваются серым цветом

Пример:

Голоса

man - Мужской голос

woman - Женский голос

manman - Премиум мужской голос

womanman - Премиум женский голос

manman - Роботизированный мужской голос

womanman - Роботизированный женский голос

Список доступных голосов представлен в этой статье, а также мы поддерживаем ВСЕ голоса Google Cloud TTS и Microsoft Azure TTS. Для этого достаточно вместо привычного голоса писать полное имя голоса из списка, например:

То есть, все голоса (даже которых нет в наших списках) также поддерживаются. Кстати, Вы можете дать им свои имена. Для этого используйте переменные

Работа с редактором кода

На странице "озвучки текста" в бесплатной и платной версиях используется настоящий редактор кода. Это сделано для того, чтобы в процессе написания вы могли видеть подсветку синтаксиса (голосов робота, пауз, ударений). Также, благодаря такому решению, Вы можете использовать привычные Вам сочетания клавиш (горячие клавиши - hotKeys). Вот примеры некоторых из них:

  • Ctrl + A: выделить все
  • Ctrl + Z: отменить действие
  • Ctrl + Y: вернуть действие
  • Ctrl + Home: поставить курсор в начало текста
  • Ctrl + End: поставить курсор в конец текста
  • Alt + : переместиться в начало строки
  • Alt + : переместиться в конец строки

Об интерфейсе

Вверху находятся 5 выпадающих списков, в которых Вы можете выбрать язык озвучки автора, его голос, формат выходного файла, а также темп и высоту речи. Ниже располагается редактор кода для Вашего текста. В него Вы можете ввести и обычный тест, и использовать наш "код", указанный выше. Ниже расположена кнопка "озвучить", рядом с которой располагается стоимость озвучки. Обратите, что указана примерная цена за озвучку всего текста. Чтобы узнать точную цену - кликните по кнопке "Рассчитать", тогда на кнопке "Озвучить" будет написана точная цена озвучки данного фрагмента. Еще ниже располагается аудиодорожка с Вашим файлом. Вы можете ее прослушать и/или скачать. Внешний вид интерфейса представлен ниже.

Пример экрана
Если остались вопросы, вступайте в наш телеграм-канал поддержки UniTools или в наше сообщество ВК UniTools.

Поделитесь с друзьями ссылкой на сервис!

vk tg tg tg tg