Студија на случај: Разговорна вештачка интелигенција

Над 3 илјади часа собрани податоци, сегментирани и транскрибирани за да се изгради ASR на 8 индиски јазици
Разговорен ај
Владата има за цел да им овозможи на своите граѓани лесен пристап до интернет и дигитални услуги на нивниот мајчин јазик преку проектот Башини.

BHASHINI, индиската платформа за превод на јазици управувана од вештачка интелигенција, е витален дел од иницијативата Дигитална Индија.

Дизајнирана да обезбеди алатки за вештачка интелигенција (ВИ) и обработка на природен јазик (НЛП) на ММСП, стартапите и независните иноватори, платформата Бхашини служи како јавен ресурс. Неговата цел е да промовира дигитално вклучување преку овозможување на индиските граѓани да комуницираат со дигиталните иницијативи на земјата на нивните мајчини јазици.

Дополнително, има за цел значително да ја прошири достапноста на интернет содржините на индиски јазици. Ова е особено насочено кон областите од јавен интерес како што се владеењето и политиката, науката и технологијата итн. Следствено, ова ќе ги поттикне граѓаните да користат интернет на својот јазик, промовирајќи го нивното активно учество.

Решение во реалниот свет

Ослободување на моќта на локализација со податоци

На Индија и требаше платформа која ќе се концентрира на создавање повеќејазични сетови на податоци и јазични технолошки решенија засновани на вештачка интелигенција со цел да обезбеди дигитални услуги на индиски јазици. За да ја започне оваа иницијатива, Индискиот институт за технологија, Мадрас (IIT Madras) соработуваше со Шаип за собирање, сегментирање и транскрипција на збирки податоци на индиски јазик за да се изградат повеќејазични модели на говор.

Предизвици

За да му помогне на клиентот со нивната говорна карта за говорна технологија за индиски јазици, тимот требаше да стекне, сегментира и транскрибира голем број податоци за обука за да изгради модел на вештачка интелигенција. Критичните барања на клиентот беа:

Собирање на податоци

  • Добијте 3000 часа податоци за обука на 8 индиски јазици со 4 дијалекти по јазик.
  • За секој јазик, добавувачот ќе собере Extempore Speech и
    Разговорен говор од возрасни групи од 18-60 години
  • Обезбедете разновидна мешавина на говорници по возраст, пол, образование и дијалекти
  • Обезбедете разновидна мешавина на средини за снимање според Спецификациите.
  • Секоја аудиоснимка треба да биде најмалку 16 kHz, но по можност 44 kHz

Сегментација на податоци

  • Создајте говорни сегменти од 15 секунди и означете го звукот до милисекунди за секој даден звучник, тип на звук (говор, џагор, музика, шум), вртења, искази и фрази во разговорот
  • Создадете го секој сегмент за неговиот насочен звучен сигнал со полнење од 200-400 милисекунди на почеток и крај.
  • За сите сегменти, мора да се пополнат следните објекти, т.е., Време на започнување, Време на завршување, ИД на сегментот, Ниво на гласност, Тип на звук, Јазичен код, ИД на звучник итн.

Транскрипција на податоци

  • Следете ги упатствата за детали за транскрипција околу знаци и специјални симболи, правопис и граматика, букви, кратенки, контракции, индивидуални говорни букви, броеви, интерпункциски знаци, акроними, дисфлуент, говор, неразбирлив говор, нецелни јазици, не-говор итн.

Проверка на квалитет и повратни информации

  • Сите снимки ќе бидат подложени на проценка и валидација на квалитетот, само потврден говор треба да се испорача

Решение

Со нашето длабоко разбирање на разговорната вештачка интелигенција, му помогнавме на клиентот да ги собере, сегментира и транскрибира податоците со тим од стручни собирачи, лингвисти и прибележувачи за да изгради голем корпус на аудио база на податоци на 8 индиски јазици

Обемот на работа за Шаип вклучуваше, но не беше ограничен на стекнување големи количини на податоци за обука за аудио, сегментирање на аудио снимките во повеќе, транскрипција на податоците и доставување соодветни JSON-датотеки што ги содржат метаподатоците [SpeakerID, Age, Gender, Language, Dialect,
Мајчин јазик, квалификација, занимање, домен, формат на датотека, фреквенција, канал, тип на аудио, број на звучници, број на странски јазици, употребено поставување, звук со тесен појас или широк опсег, итн.].

Шаип собрал 3000 часа аудио податоци во обем додека ги одржувал посакуваните нивоа на квалитет потребни за обука на технологијата за говор за сложени проекти. Беше земен формулар за експлицитна согласност од секој од учесниците.

1 Собирање на податоци

2. Сегментација на податоци

  • Аудио податоците што беа собрани беа дополнително поделени во говорни сегменти од по 15 секунди и беа означени во милисекунди за секој даден звучник, тип на звук, свиоци, искази и фрази во разговорот
  • Создаден секој сегмент за неговиот насочен звучен сигнал со полнење од 200-400 милисекунди на почетокот и на крајот на звучниот сигнал.
  • За сите сегменти, следните објекти беа присутни и пополнети, т.е., време на започнување, време на завршување, ID на сегментот, ниво на гласност (гласно, нормално, тивко), примарен тип на звук (говор, џагор, музика, шум, преклопување), звучник на јазичен код ИД, Транскрипција итн.

3. Проверка на квалитет и повратни информации

  • Сите снимки беа оценети за квалитет и беа испорачани само потврдени говорни снимки со WER од 90% и TER од 90%
  • Следена листа за проверка на квалитет:
    » Максимум 15 секунди должина на сегментот
    » Транскрипција од одредени домени, имено: Време, различни видови вести, здравство, земјоделство, образование, работни места или финансии
    » Низок шум во позадина
    » Нема исклучено аудио клип – Нема изобличување
    » Правилна аудио сегментација за транскрипција

4. Транскрипција на податоци
Сите изговорени зборови, вклучувајќи двоумење, полни зборови, лажни стартови и други вербални тикови, беа прецизно фатени во транскрипцијата. Ги следевме и упатствата за детали за транскрипција околу големи и мали букви, правопис, голема буква, кратенки, контракции, броеви,
интерпункциски знаци, акроними, дисфлуентен говор, не-говорни звуци итн. Покрај тоа, Работниот тек следен за собирање и транскрипција е како што следува:

Исходот

Висококвалитетните аудио податоци од стручни лингвисти ќе му овозможат на Индискиот институт за технологија - Мадрас, прецизно да обучи и изгради повеќејазични модели за препознавање говор на 8 индиски јазици со различни дијалекти во предвиденото време. Моделите за препознавање говор може да се користат за:

  • Надминете ја јазичната бариера за дигитална инклузија преку поврзување на граѓаните со иницијативите на нивниот мајчин јазик.
  • Промовира дигитално управување
  • Катализатор за формирање екосистем за услуги и производи на индиски јазици
  • Полокализирана дигитална содржина во доменот од јавен интерес, особено владеење и политика
Златна-5-ѕвезда

Бевме импресионирани од експертизата на Шаип во просторот за разговорна вештачка интелигенција. Нивната севкупна компетентност за извршување на проекти од извори, сегментирање, транскрипција и доставување на потребните податоци за обука од стручни лингвисти на 8 јазици во строги временски рокови и упатства; додека сè уште се одржува прифатливиот стандард на квалитет“.

Забрзајте го развојот на апликацијата Conversational AI за 100%

Избрани клиенти

Зајакнување на тимовите да градат водечки светски производи за вештачка интелигенција.