Lukuaika noin 2 minuuttia
Maailmalla puhekäyttöliittymät ovat olleet jo pitkään arkipäivää, mutta suomessa vielä tälläkin hetkellä suurin osa viestinnästä tuotetaan peukaloilla. Puhekäyttöliittymä tarvitsee toimiakseen toimivan tekoälyn, joka ymmärtää puhuttua kieltä. Suomi on kielenä kuitenkin niin pieni, ettei massiivinen tuotekehitys ole yksityisille yrityksille liiketaloudellisesti järkevää. Lisäksi suomen kielen lukemattomat päätteet tekevät kielestä monimutkaisemman verrattuna esimerkiksi suoraviivaisempaan englantiin. Päätelaitteet, eli puhelimet ovat kuitenkin jo pitkään olleet riittävän tehokkaita puheohjauksen käyttämiseen.
Nyt tilanne on lopultakin muuttumassa. Suomi ja suomen kieli pääsevät hyötymään suoraan jättimäisten teknologiayritysten tutkimusryhmien tuloksista. Varsinkin Google ja Facebook ovat laittaneet paljon paukkuja tekoälymallien kehitykseen, joista erityisesti luonnollisen kielen ymmärtämisessä ja tuottamisessa on viime vuosina saatu isoja läpimurtoja. Jättiläisillä on toki omat intressinsä kehittää malleja, mutta ohjelmakoodi on onneksi avointa. Varsinkin Googlen julkaisema neuroverkkopohjainen BERT-malli paransi luonnollisen kielen käsittelyyn liittyvien tehtävien suorituskykyä. Myös Elon Muskin osallisuudesta kuuluisa OpenAi-yritys tekee aktiivista kehitystä juuri luonnolliseen kieleen liittyen.
Miksi kielen ymmärtäminen on sitten niin vaikeaa?
Tekoälyn on nykyään helppo ymmärtää, onko teksti kieliopin mukaista, sillä kieliopissa on tarkat säännöt. Semantiikkaan liittyvä sisällön ymmärtäminen ja tekstin merkittävien sanojen tunnistaminen on aiemmin ollut haastavaa. Neuroverkkomallit ovat toimineet melko hyvin lyhyillä teksteillä, mutta pitkät tekstit ovat aiheuttaneet haasteita. Pidemmissä teksteissä prosessointiaika on kasvanut ja tarkkuus laskenut. Uusien mallien arkkitehtuuri onkin erilainen, joka mahdollistaa pidemmän tekstin käsittelyn monessa pienessä palassa, joista jokainen pala voidaan käsitellä samanaikaisesti rinnakkaisajona. Pragmatiikka, eli tilanteen vaikutus viestiin, on vielä tällä hetkellä tekoälylle haaste. Kone ei vielä ymmärrä ironiaa.
Tekoälymallien parantumiseen auttaa myös kasvava datan määrä, jolla malleja voidaan kouluttaa. Uusimpia malleja voidaan kouluttaa internetissä olevalla tekstiaineistolla, esimerkiksi suomen kielen koulutukseen on käytetty Suomi24-foorumilla olevia keskusteluja. Kun datan määrä on riittävä, tekoälylle voidaan luoda malli, joka ymmärtää millainen suomen kieli on.
Aisoft auttaa sinua myös luonnollisen kielen käsittelyyn (NLP) liittyviin ratkaisuihin. Ota yhteyttä, kun tarvitset apua kielidatasi kanssa.
Lisää tietoa BERT-mallista Linkki