Студија на случај: Разговорна вештачка интелигенција

Над 3 илјади часа податоци собрани, сегментирани и транскрибирани за да се изгради ASR на 8 индиски јазици

Збирка на исказ
Владата има за цел да им овозможи на своите граѓани лесен пристап до интернет и дигитални услуги на нивниот мајчин јазик преку проектот Башини.

BHASHINI, индиската платформа за превод на јазици управувана од вештачка интелигенција, е витален дел од иницијативата Дигитална Индија.

Дизајнирана да обезбеди алатки за вештачка интелигенција (ВИ) и обработка на природен јазик (НЛП) на ММСП, стартапите и независните иноватори, платформата Бхашини служи како јавен ресурс. Неговата цел е да промовира дигитално вклучување преку овозможување на индиските граѓани да комуницираат со дигиталните иницијативи на земјата на нивните мајчини јазици.

Дополнително, има за цел значително да ја прошири достапноста на интернет содржините на индиски јазици. Ова е особено насочено кон областите од јавен интерес како што се владеењето и политиката, науката и технологијата итн. Следствено, ова ќе ги поттикне граѓаните да користат интернет на својот јазик, промовирајќи го нивното активно учество.

Искористете го НЛП за да овозможите разновиден екосистем на придонесувачи, партнерски субјекти и граѓани со цел надминување на јазичните бариери, со што ќе се обезбеди дигитално вклучување и зајакнување

Решение во реалниот свет

Ослободување на моќта на локализација со податоци

На Индија и требаше платформа која ќе се концентрира на создавање повеќејазични сетови на податоци и јазични технолошки решенија засновани на вештачка интелигенција со цел да обезбеди дигитални услуги на индиски јазици. За да ја започне оваа иницијатива, Индискиот институт за технологија, Мадрас (IIT Madras) соработуваше со Шаип за собирање, сегментирање и транскрипција на збирки податоци на индиски јазик за да се изградат повеќејазични модели на говор.

Предизвици

За да му помогне на клиентот со нивната говорна карта за говорна технологија за индиски јазици, тимот требаше да стекне, сегментира и транскрибира голем број податоци за обука за да изгради модел на вештачка интелигенција. Критичните барања на клиентот беа:

Собирање на податоци

  • Добијте 3000 часа податоци за обука на 8 индиски јазици со 4 дијалекти по јазик.
  • За секој јазик, добавувачот ќе собере Extempore Speech и
    Разговорен говор од возрасни групи од 18-60 години
  • Обезбедете разновидна мешавина на говорници по возраст, пол, образование и дијалекти
  • Обезбедете разновидна мешавина на средини за снимање според Спецификациите.
  • Секоја аудиоснимка треба да биде најмалку 16 kHz, но по можност 44 kHz

Сегментација на податоци

  • Создајте говорни сегменти од 15 секунди и означете го звукот до милисекунди за секој даден звучник, тип на звук (говор, џагор, музика, шум), вртења, искази и фрази во разговорот
  • Создадете го секој сегмент за неговиот насочен звучен сигнал со полнење од 200-400 милисекунди на почеток и крај.
  • За сите сегменти, мора да се пополнат следните објекти, т.е., Време на започнување, Време на завршување, ИД на сегментот, Ниво на гласност, Тип на звук, Јазичен код, ИД на звучник итн.

Транскрипција на податоци

  • Следете ги упатствата за детали за транскрипција околу знаци и специјални симболи, правопис и граматика, букви, кратенки, контракции, индивидуални говорни букви, броеви, интерпункциски знаци, акроними, дисфлуент, говор, неразбирлив говор, нецелни јазици, не-говор итн.

Проверка на квалитет и повратни информации

  • Сите снимки ќе бидат подложени на проценка и валидација на квалитетот, само потврден говор треба да се испорача

Решение

Со нашето длабоко разбирање на разговорната вештачка интелигенција, му помогнавме на клиентот да ги собере, сегментира и транскрибира податоците со тим од стручни собирачи, лингвисти и прибележувачи за да изгради голем корпус на аудио база на податоци на 8 индиски јазици

Обемот на работа за Шаип вклучуваше, но не беше ограничен на стекнување големи количини на податоци за обука за аудио, сегментирање на аудио снимките во повеќе, транскрипција на податоците и доставување соодветни JSON-датотеки што ги содржат метаподатоците [SpeakerID, Age, Gender, Language, Dialect,
Мајчин јазик, квалификација, занимање, домен, формат на датотека, фреквенција, канал, тип на аудио, број на звучници, број на странски јазици, употребено поставување, звук со тесен појас или широк опсег, итн.]. 

Шаип собрал 3000 часа аудио податоци во обем додека ги одржувал посакуваните нивоа на квалитет потребни за обука на технологијата за говор за сложени проекти. Беше земен формулар за експлицитна согласност од секој од учесниците.

1 Собирање на податоци