Suopuhe
Yleistä | Puhujantunnistus | Puhesynteesi

PUHUJANTUNNISTUS

1. HANKKEEN TAVOITTEET

Hankkeella oli seuraavat tavoitteet:
  1. Puhujantunnistusohjelma. Luoda sellainen (prototyyppinen) tietokoneohjelma, jolla voidaan hakea aiemmin kerätystä puhujatietokannasta puhuja, joka muistuttaa eniten uutta, tuntematonta puhujaa ja ilmaista todennäköisyys, millä nämä kaksi henkilöä ovat sama puhuja.
  2. Puhujatietokanta. Tätä päämäärää varten koota sellainen puhujatietokanta, joka käsittäisi noin 200 mies- ja naispuhujaa eri puolilta Suomea.
  3. Puhujaprofiili. Laatia sellainen tietokoneohjelma, joka laskee puhujatietokannan jokaiselle puhujalle (automaattisesti) puhujan äänitiedostosta puhujaprofiilin, mihin liittyi tehtävä osoittaa, mitkä akustiset parametrit erottelevat parhaiten puhujia.
  4. Viestiliikennepuheen ymmärrettävyys. Edellisistä jossakin määrin erillinen tavoite oli tutkia lentoliikenteen viestinnässä käytetyn puheen ymmärrettävyyteen liittyviä tekijöitä. Ks. luku 4.

2. KÄSITEMÄÄRITTELYJÄ

Puhujantunnistus käyttää puhujaprofiileja seuraaviin tarkoituksiin. (a) Puhujan verifikaatiossa (todentaminen) aineisto voidaan prosessoida teknisesti opimaalisesti ja puhuja pyrkii itse tunnistamisen onnistumiseen. Kun tavoitteena on vastata vain kysymykseen, ovatko kaksi vertailtavaa puhujaa sama vai eri puhuja, on kyseessä (b) puhujien diskriminaatio (erottelu). Kun valmiiksi laskettujen puhujaprofiilien joukosta pyritään löytämään uuden puhujan profiilia eniten vastaava profiili, on kysymyksessä (c) puhujien samankaltaisuusasteen osoittaminen. Jos samankaltaisuuden arviointiin liittyy myös uuden ja maksimaalisesti samankaltaisen puhujan etsiminen puhujatietokannasta kehitetyn ohjelman ja todennäköisyysalgoritmin avulla, kyseessä on (d) puhujan identifikaatio.

3. PUHUJANTUNNISTUS

3.1. Akateemiset tahot

Helsingin yliopiston fonetiikan laitos (Antti Iivonen, Kirsi Harinen, Leena Keinänen, Jussi Kirjavainen, Launo Tuuri, Päivikki Eskelinen-Rönkä, Mari Horppila, Hanna Liisanantti, Tuija Niemi-Laitinen, Leena Perälä, Liisa Vilhunen, Olli Rissanen).
Ohjelmakehityksen alihankkijana on ollut Joensuun yliopiston Tietojenkäsittelytieteen laitos (prof. Pasi Fränti, Tomi Kinnunen, Ville Hautamäki ja Teemu Kilpeläinen).
Tallinnan Teknillisen yliopiston Kybernetiikan laitoksen kanssa (MSc Einar Meister) on ollut tutkimussopimus.

3.2. Rahoittajatahot

Rahoittajatahoina olivat Ilmailulaitos, Ilmavoimien Viestikoelaitos, Keskusrikospoliisi, Onnettomuustutkintakeskus ja Scando OY.

3.3. Testiaineistot

Puhujat tuottivat seuraavat testiaineistot matkapuhelimen kautta: 1) lukutekstin, joka käsitti 26 virkettä ja jossa oli osin samasanaista tekstiä, 2) ns. rikkaat lauseet, joihin sisältyi vierassanoja (esim kofeiini, abstrakti), 3) aakkoset, 4) joukon lukuja, 5) lomamatkaa koskevia haastattelukysymyksiä, joihin puhujat vastasivat spontaanisti, 6) spontaania kuvakerrontaa. Identtisiä kaksosia koskevassa osiossa oli oma mikrofonilla äänitetty aineisto.
Tavoitteessa 4 käytettiin tausta-aineistona lennonjohtajien viestiliikennepuhetta.

3.4. Äänitykset ja siirtolinjat

Siirtolinjoja oli kaksi. Kaikkien puhujien äänitys tapahtui Nokia 3330 matkapuhelimen välityksellä joko suoraan kannettavaan tietokoneeseen tai Soneran puhelinsovelluksen välityksen kautta vastaanottavaan hankkeen palvelinkoneseen.

3.5. Hankkeen tulosaineisto

Hankkeessa on (1) kehitetty Praat-puheenkäsittelyohjelmalla SpeakerProfiler-ohjelmaskripti, joka tuottaa automaattisesti moniparametrisen puhujaprofiilin, (2) tutkittu parametrien erottelukykyä ja eri virhelähteitä, (3) kerätty noin 240 puhujaa käsittävä puhujatietokanta suomenkielistä puhetta (etupäässä GSM-matkapuhelinpuhetta) (4) kehitetty puhujantunnistusohjelma ProfMatch (Joensuun alihankinta). Ohjelma on toteutettu käyttäen ANSIC kieltä, ja on siten siirrettävissä monelle eri laitealustalle ja käyttöjärjestelmälle. Ohjelmassa on komentorivipohjainen käyttöliittymä. ProfMatch-ohjelma etsii suljetusta puhujatietokannasta tuntemattoman puhujan. Ohjelma antaa myös tunnistuksen varmuusarvon. Ohjelma käyttää datafuusiotekniikkaa yhdistäessään puhujaprofiileissa olevien eri piirrejoukkojen tunnistustulokset yhdeksi tunnistustulokseksi. Eri piirrejoukkojen tunnistustuloksia painotetaan piirrejoukkojen tilastollisella erottelukyvyllä (painot on ensin laskettu DiscrTest-ohjelmalla).

3.6. Tunnistustulokset

Tunnistukseen vaikuttavia muuttujia ovat puhujien määrä, puhenäytteen kesto, tekninen siirtokanava, puheaineiston tyyli ja laskentaan mukaan otettujen parametrien kombinaatio. Parhaimmiksi parametreiksi ovat osoittautuneet mel-kepstri, lineaarinen kepstri, pitkäaikaisspektri (LTAS) ja perustaajuustilasto.

C-kasettitasoisen puheen tunnistus sadalla puhujalla (puolet naisia) onnistui 100%:sesti ja GSM-puheen tunnistus lähes 100%:sesti, jos puheen tallennustekniikka on suhteellisen hyvälaatuinen ja muuttumaton. Mikäli tallennuksen taso heikkenee ja eri kanavalaatuja ja puhetyylejä sekoitetaan, ovat tunnistustulokset heikompia (tulos 62,8%).

Puhujan verifikaatiossa tunnistukseen käytettävä puhenäytteen kesto voidaan puristaa hyvin lyhyeksi (noin 2 s). Puhujan identifikaatiossa noin 10 sekunnin näyte riittää, jos äänitekniikka on vähintään keskinkertaista luokkaa. Identtisten kaksosten aineiston piirreanalyysi osoitti kaikissa tapauksissa systemaattisia eroja kaksosten kesken.

4. VIESTILIIKENNEPUHEEN YMMÄRRETTÄVYYS

Ilmailun viestiliikennepuhetutkimuksen tavoitteena oli kartoittaa äidinkieleltään suomenkielisten lennonjohtajien radiopuheviestinnän ymmärrettävyyteen vaikuttavia tekijöitä ICAO:n ja Ilmailulaitoksen asettamien normien ja ohjeistuksen viitekehyksessä.. Pääaineiston keruu toteutettiin siten, että kaikki tutkimuskohteina olleiden työpisteiden radiolähetykset tallennettiin päätallentimen rinnalle kahden viikon ajaksi kytkettyyn NiceLog -digitaaliseen tallennuslaitteeseen. Radiolähetysten tallentaminen tapahtui ympärivuorokautisesti (24 h / 14 vrk) sekä lähettimeltä (TX) että vastaanottimelta (RX) neljässä eri formaatissa. Edellä kuvatun tallennusmenettelyn avulla saatu täsmälleen sama lähetys 8 eri formaatissa mahdollistaa lähettimen ja vastaanottimen sekä tallennusmuotojen teknisten ja laadullisten erojen tutkimuksen. Tutkimukseen osallistui 39 lennonjohtajaa.
Viestiliikennepuheen ymmärrettävyyden kolmikannan muodostavat tekniset tekijät, ympäristötekijät ja puhujaperäiset inhimilliset tekijät. Viestiliikennepuhetutkimuksen pääaineiston tallennuksessa huomioidut eri tallennusmuodot mahdollistavat eri pakkausalgoritmien tutkimuksen ja vertailun. Tutkittavia parametrejä olivat puheen perustaajuuden (F0) keskimääräinen arvo ja harmonisten suhde kohinaan (HNR). Edellä mainittujen mitattavian perusparametrien lisäksi kompressioiden vaikutusta puheen ymmärrettävyyteen on arvioitu myös kuulonvaraisesti. Esikokeiden tulokset osoittavat, että kompression aste vaikuttaa jonkin verran sekä HNR- että F0-analyysiin. Pakkausmenetelmät eroavat toisistaan myös kuulonvaraisen arvion perusteella.
Puheen teknisten pakkausmuotojen ohella viestiliikennepuhelähetyksen kanssa samanaikaisesti esiintyvien hälyäänten laatu ja määrä vaikuttavat oleellisesti puheen ymmärrettävyyteen. Rajoitetulla siirtokaistalla amplitudiltaan huomattavasti voimakkaammat, laajakaistaiset tai spektriltään puheenkaltaiset hälyäänet voivat merkittävästi huonontaa samanaikaisesti tuotetun/kuuluvan puheen ymmärrettävyyttä. Yleisstandardin mukainen sanaa minuutissa -mittayksikkö osoittautui ongelmalliseksi informaation siirtonopeuden mittarina. ICAO:n julkaisemasta radiopuhelinoppaasta ei nimittäin yksiselitteisesti selviä, onko puhenopeusstandardi tarkoitettu koskevan kansainvälisen ilmailuenglannin lisäksi sopimusvaltioiden kansallisessa ilmailussa käytettyjä kieliä. Esimerkiksi suomen kieli on puhenopeusyksiköllä sanaa minuutissa mitattuna hitaampaa kuin englanti, koska suomenkieliset sanat ovat usein pitkiä ts. useampitavuisia, jolloin niitä myös mahtuu minuuttiin vähemmän kuin lyhyempiä englannin kielellä puhuttuja sanoja. ICAO:n käyttämä yksikkömuodon sanaa minuutissa tilalla olisi puhenopeuden määrittelyssä suositeltavampaa käyttää tavua sekunnissa -yksikköä, koska artikulaationopeus ilmaisee tarkemmin puhujan aktuaalista puheentuottonopeutta.
Valid XHTML 1.0!
mailto:webmaster
Last modified: Sun Jan 2 16:20:00 EET 2005