Ihmisen ja tietokoneen välisessä vuorovaikutuksessa puheentunnistusteknologia on kehittynyt huomattavasti viime vuosien aikana. Puhekäyttöliittymien kaupallinen suosio kasvoi valtavasti, kun virtuaaliavustajien Google Assistantin, Amazon Alexan, Microsoft Cortanan ja Applen Sirin käyttö yleistyi. Vaikka nämä käyttöliittymät ovat olleet suhteellisen menestyksekkäitä nykyteknologian standardeihin nähden, niissä on silti vielä paljon vikoja ja heikkoluksia käytettävyyden suhteen.
Graafisille käyttöliittymille on jo kehitetty tietyt suuntaviivat, joiden pohjalta niitä kannattaa lähteä rakentamaan. Puheentunnistukselle ei kuitenkaan ole vielä vastaavanlaista empiiriseen ja teoreettiseen tutkimukseen perustuvaa, yleisesti validoitua ja hyväksyttyä toimintatapaa.
Tämä artikkeli perustuu tutkimukseen, jossa on koottu havaintoja 21:stä tieteellisestä julkaisusta, jotka tutkivat käyttäjien kokemuksia puhekäyttöliittymästä. Kyseisen tutkimuksen tavoitteena oli tutustua olemassa olevaan kirjallisuuteen ihmisen ja tietokoneen välisestä puhevuorovaikutuksesta ja verrata miten se asettuu samaan linjaan graafisen käyttöliittymän suunnittelun suuntaviivojen kanssa.
Tutkimusta varten kehiteltiin 10 suuntaviivaa, jotka perustuvat kolmeen merkittävään, jo olemassa olevaan graafisen käyttöliittymän suuntaviivaan
- Järjestelmän tilan näkyvyys ja palaute: Käyttöliittymien pitäisi tehdä järjestelmän tilasta näkyvä, ja antaa informatiivista palautetta käyttäjille.
- Järjestelmän tekeminen oikeaa maailmaa vastaavaksi: Käyttöliittymien tulisi kuvata symbolit ja ohjaimet järjestelmästä vastaamaan oikeaa maailmaa.
- Käyttäjien hallinta ja vapaus: Käyttöliittymien pitäisi antaa käyttäjille hallinta järjestelmän toiminnoista.
- Johdonmukaisuus läpi käyttöliittymän: Järjestelmien pitäisi pyrkiä johdonmukaisuuteen, niin että samanlaiset toiminnot johtavat samanlaisiin lopputuloksiin käyttöliittymässä.
- Käyttäjävirheiden ehkäisy: Käyttöliittymillä pitäisi olla virheentorjuntamekanismi ja rajoitteet rakennettu sisään, auttamaan käyttäjiä, niin että he eivät tee virheitä, kun he käyttävät käyttöliittymää.
- Tunnistaminen ennemmin kuin muistaminen: Käyttäjien tulisi tunnistaa toiminnot ja vaihtoehdot, pelkästään keskustelun, käyttömahdollisuuksien ja järjestelmän toiminnallisuuden läpinäkyvyyden kautta.
- Käytön joustavuus ja tehokkuus: Käyttöliittymien pitäisi olla joustavia ja niiden tulisi edistää tehokasta vuorovaikutusta (kuten antamalla pikanäppäimiä tuttuihin toimintoihin).
- Minimalismi muotoilussa ja dialogissa: Käyttöliittymien pitäisi olla suunniteltu minimalistisiksi niiden muotoilussa ja vuoropuhelussa. Niiden tulisi antaa vain tarvittava tieto, jotta lyhyen ajan muistin taakka vähenisi.
- Antaa käyttäjien tunnistaa ja palautua virheistään: Käyttöliittymien pitäisi helpottaa käyttäjiä tunnistamaan ja palautumaan virheistään, tarjoamalla heille yksinkertaisen virheenkäsittelymenetelmän ja kyvyn palata taaksepäin toiminnoissa.
- Avun tarjonta ja dokumentointi: Käyttöliittymien tulisi antaa apua ja dokumentointia käyttäjille johdatellakseen heidät läpi keskustelun.
Seuraavaksi käydään läpi mitä havaintoja puheentunnistusta tutkineista julkaisuista löydettiin. Jokaisesta kategoriasta tehtiin erilliset havainnot.
-
Järjestelmän tilan näkyvyys ja palaute
Yksi käyttäjien kokemista ongelmista oli näkyvyyden puute, siitä milloin oli käyttäjän vuoro vastata ja miten käyttöliittymälle tulisi puhua. Järjestelmän vähäisen palautteen ja läpinäkyvyyden takia monilla käyttäjillä oli myös vaikeuksia tietää mitä puhekäyttöliittymä pystyi tekemään.
Toinen ongelma oli epäselvyys, siitä miten käyttäjän puhesyöte käsiteltiin. Monet tulkitsivat väärin puheentunnistusvirheet. Käyttäjät eivät tienneet ymmärsikö käyttöliittymä heidän puhesyötteensä. Ihmiset turvautuvat edelleen puhekäyttöliittymien visuaaliseen palautteeseen tulkitessaan, onko heidän syötteensä ymmärretty.
-
Järjestelmän soveltaminen oikeaan maailmaa vastaavakasi
Havaittiin että antamalla käyttäjille malli, joka vastasi tuttuja, tosi elämän keskusteluja, tehtävän suoritusta ja käytön helppoutta saatiin lisättyä. Sitä vastoin, mikäli keskustelu oli vieraanoloista, se vähensi käytettävyyttä.
-
Käyttäjien hallinta ja vapaus
Monet käyttäjät kokivat turhautumista, käyttöliittymien hallinnan puutteen takia. He kokivat olonsa hoputetuksi, kun he keskustelivat puhekäyttöliittymän kanssa ja olivat huolissaan, että heiltä jää joitakin kohtia keskustelusta ymmärtämättä. Näppäimistökäyttöliittymää käyttäessä käyttäjät tunsivat olevansa enemmän hallinnassa, kuin puheentunnistusta käyttäes
sä. Tutkimuksissa huomattiin, että vanhemmat käyttäjät halusivat välillä tehdä aloitteen, mutta olivat toisinaan tyytyväisiä, että järjestelmä oli hallinnassa. Antamalla käyttäjille hallinta keskustelusta, voidaan parantaa suoritusta ja käyttäjätyytyväisyyttä.
Yksi tutkijoista oli kehittänyt ilman vuoroja toimivan keskustelujärjestelmän (”out-of-turn interaction”), jonka avulla käyttäjät pystyivät antamaan tietoa etukäteen, jota myöhemmin tarvittiin vuoropuhelussa. Se vähensi tehtävän suorituksen kestoaikaa ja lisäsi käytettävyyttä.
Toinen tutkija mahdollisti, että vanhemmat ihmiset pystyivät keskeyttämään keskustelun sanomalla ”apua” tai ”koti”, jonka jälkeen he pystyivät itse ohjaamaan keskustelua.
-
Johdonmukaisuus läpi käyttöliittymän
Yksikään tutkimus ei puhunut johdonmukaisuudesta. Puhekäyttöliittymät ovat vielä niin aikaisessa kehitysvaiheessa, että ei ole olemassa selkeää ymmärrystä, siitä miltä johdonmukaisuuden tulisi sisältää.
-
Käyttäjävikojen ehkäisy
Käyttäjävikojen estäminen on tärkeää, jotta käyttöliittymän luotettavuus säilyisi. Kuitenkin, vaikka luonnollisen kielen käsittelyssä tapahtuvat virheet ovat todella yleisiä, ne eivät aina heikennä käyttäjän vuorovaikutusta puhekäyttöliittymän kanssa.
-
Tunnistaminen ennemmin kuin muistaminen
Audion käyttäminen ainoana ulostulon muotona lisää kuuntelijan kognitiivista taakkaa ja vaatii pitkien tietopätkien muistamista. Neljä tutkimusta havaitsi, että antamalla useita eri vaihtoehtoja käyttäjälle lisää kamppailua muistamisen kanssa. Yksi hankaluuksista oli se, että käyttäjät eivät tienneet miten puhekäyttöliittymän kanssa tulisi keskustella. Käyttäjät eivät olleet varmoja, siitä miten heidän tulisi muotoilla lauseensa, niin että käyttöliittymä ymmärtäisi heitä. Käyttäjät usein yrittävät arvailla mitä he voivat sanoa. Jotkut tutkimukseen osallistuneista eivät suorittaneet tiettyä tehtävää, koska he eivät ymmärtäneet tai muistaneet miten se tehdään.
-
Käytön joustavuus ja tehokkuus
Joustavuuden puute aiheuttaa käyttöliittymän tuottavuuden ja tyytyväisyyden heikentymistä. Kun tekstimuotoista hakua verrattiin puhehakuun, huomattiin että näppäimistön tarjoamat pikanäppäimet paransivat tehtävän suoritustehokkuutta. Yksi tutkijoista sanoo, että on kuitenkin huomioitava, että puheentunnistus ominaisuus voi lisätä tehokkuutta, koska käyttäjä voi vain kertoa pyyntönsä, ilman hakua graafisen käyttöliittymän kautta.
-
Minimalismi muotoilussa ja dialogissa
Miten ylläpitää suuria määriä tietoa, jota puhekäyttöliittymä esittää? Tutkittaessa valikon vaihtoehtojen alku- ja jälkiefektejä, huomattiin että mikäli tarjolla oli viisi tai sitä enemmän vaihtoehtoja, se vaikutti kykyyn muistaa aiemmat vaihtoehdot. Havaittiin myös, että vaihtoehtojen vähäinen määrä ei kuitenkaan auttanut kaikkien vaihtoehtojen muistamisessa.
Toinen ongelma oli yksi vahvistusilmoituksista, jolla ilmoitettiin käyttäjälle, että puheentunnistus ymmärsi käyttäjän oikein. Tutkimus osoitti, että käyttäjät suosivat epäsuoria vahvistukset enemmän kuin toistuvia selkeitä vahvistuksia.
-
Antaa käyttäjien tunnistaa ja palautua virheistään
Yleensä käyttäjien virheet tapahtuvat puheentunnistuksessa ja aloittelijoiden on vaikea korjata näitä virheitä tekemättä lisää virheitä.
Kommunikointivaikeudet aiheuttivat turhautumista käyttäjissä. Eräs tutkija huomautti, että tarvitaan uusia tapoja käyttäjien palautumiseksi näistä ongelmista.
Käyttäjät toistivat ja uudelleen-muotoilivat väärinymmärrettyjä kysymyksiä ja pyyntöjä. Monet käyttäjistä puhuivat lujempaa, mikäli käyttöliittymä ei tunnistanut heitä ensimmäisellä kerralla. Jos käyttäjä ei pystynyt korjaamaan virhettä, niin hän vain hyväksyi sen ja antoi asian olla. Joillakin käyttäjillä oli vaikeuksia päästä takaisin edelliseen valikkoon tai perua toiminto.
-
Avun tarjonta ja dokumentointi
Tutkimuksista selvisi, että käyttäjät suoriutuivat paremmin puhekäyttöliittymän kanssa käytyään ensin vuorovaikutteisen harjoituskurssin. Avun tarjonta asteittain läpi keskustelun, ohjaa käyttäjää suoriutumaan tehtävistä tehokkaasti. Etenkin asiayhteydellinen apu oli hyödyllistä. Se vähensi kognitiivista taakkaa, sekä tarjosi apua käyttäjille ainoastaan silloin, kun he sitä pyysivät.
Tutkimuksessa haluttiin tuoda esille myös muita yleisiä ongelmia, joita monissa julkaisuissa käsiteltiin.
Läpinäkyvyyden ja yksityisyyden varmistaminen
Monille käyttäjille oli epäselvää mitä tietoa heistä kerättiin. Ongelmana oli etenkin julkisilla paikoilla, se että ihmiset kokevat olonsa epämukavaksi, kun kuka tahansa lähettyvillä pystyy kuulemaan mitä tietoja jaetaan. Heitä huolestutti omien tietojensa yksityisyys.
Huomio siitä miten asiayhteys vaikuttaa puhevuorovaikutukseen
Kaksi julkaisua käsitteli ihmisten mukavuusastetta puhuessa lujaa puhekäyttöliittymälle. Huomattiin että ihmisille on usein epämiellyttävää puhua puhelimeen muiden ihmisten edessä, koska tämä ei ole normaali vuorovaikutuksen tapa. On todennäköisempää, että ihmiset käyttävät tekstikäyttöliittymää julkisilla paikoilla, säästäen puhekäyttöliittymän yksityisiin hetkiin.
Päähuomioita
Kaikista kategorioista kokonaisvaltaisimmin oli käsitelty ”Tunnistaminen ennemmin kuin muistaminen”. Koska ainoana ulostulona on ääni, on täysin ymmärrettävää, että suurimmat ongelmat ilmenevät tällä alueella. Ilman mitään visuaalisia työkaluja, jotka voisivat auttaa käyttäjiä läpi keskustelun, on välttämätöntä, että käyttöliittymä pystyy opastamaan käyttäjää puheen avulla, tarjoten vain pienen määrän tietoa kerrallaan, jotta käyttäjän ei tarvitse kamppailla muistinsa kanssa.
Suurimmat käytettävyyteen liittyvät ongelmat puhekäyttöliittymän kanssa ilmenivät keskustelun vaatimassa kognitiivisessa taakassa, tarpeessa ohjata vuorovaikutusta, sekä vikojen käsittelyssä.
Jotta puhekäyttöliittymistä saataisiin lähes täydellisiä, tarvitaan samanlaisia tutkimuksia, kuin mitä graafiselle käyttöliittymälle on tehty. Keräämällä käyttäjien havaintoja saadaan luotua tarvittavat ohjeet, joiden pohjalta puhekäyttöliittymiä lähdetään suunnittelemaan. Tarvittavat suuntaviivat tullaan luomaan todennäköisesti lähivuosina. Voimme siis odottaa entistä käyttökelpoisempia ja intuitiivisempia puhekäyttöliittymiä.