Владеенето на език е богатство, даващо по-добър старт в живота и възможност както за по-платена работа, така и за по-активна комуникация с хора от различни държави. Отворените граници и пазар на труда, съчетани с глобализацията, превърнаха владеенето на език в необходимост, а не в предимство.
Днес има 196 страни, но колко езика се говорят по света?
В момента се знае за 7 117 езика, които се говорят от хора по целия свят, според Ethnologue – най-подробния каталог на световните езици. За съжаление, този брой намалява всеки месец. От общия брой езици, 90% се говорят от по-малко от 100,000 души.
Meta разработи проекта Massively Multilingual Speech (MMS), който успява да разшири поддръжката на езици и подобри производителността на моделите за разпознаване и синтез на реч. Използвайки техники за само-надзорено обучение и разнообразен набор от религиозни текстове, MMS проектът поддържа и разпознава над 1100 езика.
Преодоляване на езиковите бариери
За да се справи с липсата на маркирани данни за много езици, проектът MMS използва религиозни текстове, като Библията, които са преведени на множество езици. Това позволява създаването на набор от данни, съдържащ четене на Новия завет на над 1100 езика, като се разширява езиковото покритие.
Моделите се справиха равномерно добре с мъжки и женски гласове, като Meta твърди, че не е въведена религиозна предубеденост.
Използване на самоконтролирано обучение
Традиционните модели за контролирано разпознаване на реч изискват повече от 32 часа данни на език, което е недостатъчно за много езици. За да се справи с този проблем, проектът MMS използва техниката за обучение за самоконтролирано представяне на реч wav2vec 2.0. Чрез обучение на самоконтролирани модели на приблизително 500 000 часа речеви данни на 1400 езика, проектът значително намали зависимостта си от етикетирани данни. След това получените модели бяха фино настроени за специфични речеви задачи, като многоезично разпознаване на реч и езикова идентификация.
Впечатляващи резултати
Моделите MMS показаха впечатляващи резултати при оценяването. В сравнение с OpenAI’s Whisper, моделите на MMS намалиха степента за грешки в думите, като покриват 11 пъти повече езици. Освен това, проектът MMS успешно изгради системи за текст-към-реч за над 1100 езика, като генерираната реч показа високо качество, въпреки ограничения брой различни говорители за много езици.
Важно е да се признае, че моделите имат недостатъци, като грешки в транскрипцията или неправилно тълкуване от модела за реч-към-текст, което може да доведе до обиден или неточен език. Проектът MMS подчертава сътрудничеството в областта на изкуствения интелект, за да се намали риска от такива проблеми.
Източник: Agma Studio