Kalevalan päivän kunniaksi Onerva-startupimme julkaisi oman Digi-Lönnrotin keräämään suomenkielistä puhetta, jolla varmistetaan tulevaisuuden huoltovarmuus, omavaraisuus ja suomen kielen sekä kulttuurimme säilyminen robottien ja tekoälyn aikakaudella.
Ennen kuin kerrotaan lisää Digi-Lönnrotista ja maailmoja syleilevistä tavoitteista, palataan muutaman kuukauden takaiseen mielenkiintoiseen juttuun Hesarissa. Valkovenäläinen kirjailija Jevgeni Morozov käväisi Suomessa ja kertoi ajatuksiaan maailman menosta. Lue haastattelu tästä: https://www.hs.fi/talous/art-2000005880222.html
Valtioiden roolia pitää kasvattaa, jotta digijätit eivät orjuuta meitä
Morozovilla on synkähkö kuvan maailman menosta ja siitä miten isot teknologiajätit tulevat ottamaan vallan. Eikä hän toki ole ainoa. Yuval Noah Harari maalailee myös synkkiä dystopia-kuvia mm. kirjassaan 21 oppituntia maailman tilasta.
Jotta digijätit eivät saa liikaa valtaa, Morozov näkee, että valtion roolia pitäisi kasvattaa.
Hänen ehdottama malli pisti silmään haastattelusta, koska se on ajankohtainen meidän Onervan kannalta:
1. ”Morozov kaipaa omaisuusmallin vastapainoksi ajatuksia yhteisöllisestä datan omistuksesta.”
2.”Ensin suurempi osa tiedoista voitaisiin saada tavalla tai toisella julkiseen käyttöön, yhteiseksi omaisuudeksi. Henkilötiedoista puhdistettu data pantaisiin töihin, esimerkiksi kouluttamaan eurooppalaista tekoälyä.”
3. ”Kun näin olisi rakennettu julkinen ”datakerros”, Morozovin visiossa sen päälle voisivat paikalliset yhteisöt – esimerkiksi kaupungit tai osuuskunnat – rakentaa omiin tarpeisiinsa uusia, pienempiä palveluja, jotka sopivat paikallisiin tarpeisiin. Ne taas voisivat vähitellen korvata Googlen ja Facebookin kaltaisia jättejä, voimauttaa eurooppalaisia yhteisöjä ja kääntää verkon kehityksen suunnan.”
Viime vuoden lopulla heitin Valtiovarainministeriöön ja yrityskumppaneillemme idean alkaa keräämään kansallista ääniarkistoa, jota voisi käyttää sekä julkisten että yksityisten tekoäly-sovellusten, käytännössä puhebottien ja robottien kouluttamisessa.
Idea tuli kun keskustelimme puheteknologian ja tekoälyn kehittäjien kanssa niin yliopisto kuin yritysmaailmasta.
Puhe käyttöliittymänä ja yhtenä ilmentymänä esimerkiksi meidän kehittämät sosiaaliset robotit tulevat olemaan valtava mullistus, jonka suuruutta suomalaiset eivät vielä ihan ymmärrä.
Haasteena on, että meillä ei ole suomenkielistä äänidataa saatavilla, jotta voisimme kehittää näitä sovelluksia. Ensinnäkin meidän pitää kehittää suomalaisia puheentunnistus-softaa (speech-to-text) mutta myös luonnollisen kielen ymmärtämisen (NLP/NLU) sovelluksia.
Tällä hetkellä meidän pitää hyödyntää kansainvälisten isojen toimijoiden (kuten Google) sovelluksia ja hyväksyä, että tieto menee Suomen ja mahdollisesti EU:n ulkopuolelle.
Näitä sovelluksia ei lisäksi välttämättä pääse opettamaan omalla aineistolla, esimerkiksi meidän tapauksessa vanhusten puheella.
Kotimaisella äänirekisterillä varmistetaan, että suomalainen tekoäly- ja robotisaatiokehitys ei ole kansainvälisten jättien varassa
Jotta voimme taata tietoturvan ja pitää tiedot Suomessa tai organisaatioiden omilla palvelimilla, meillä pitää olla suomea ymmärtäviä speech-to-text ja NLU -sovelluksia.
Ja jotta voimme kehittää omia puhesovelluksia ja niitä hyödyntäviä robotteja, puhebotteja ja muita puheohjauksen ratkaisuja niin vähittäiskauppaan, pankkisektorille, valtiohallintoon, sosiaali- ja terveysalalle tai muuhun teollisuuteen johon Amazonin tai Googlen ratkaisut eivät riitä, meillä pitää olla valtava ääniaineisto, jolla opettaa näitä algoritmeja.
Kotimaisella äänirekisterillä varmistetaan, että suomalainen tekoäly- ja robotisaatiokehitys ei ole kansainvälisten jättien varassa.
Kun meillä on esimerkiksi +10 000 tuntia puhetta kansallisessa äänitietopankissa suomeksi (+ ruotsiksi + saameksi), labeloituna, teksitettynä ja sisältäen rikasta metatietoa, voimme kouluttaa hyvin nopeasti erilaisia puhetta ymmärtäviä chatbotteja, sosiaalisia/avustavia robotteja sekä toteuttaa puheohjaukseen perustuvia sovelluksia.
Voimme luoda kansalliseen äänitietokantaan erilaisia käyttötapauksia varten erilaista puhetta, esimerkiksi:
- arkipäivän keskustelu kotona
- ajanvarausterveyskeskukseen
- asiointi kauppakeskuksessa
- asiointi pankissa
- asiointi virastossa (Vero, Kela, Tulli…)
- vanhusten puhe kotihoidon kanssa
- jne.
Näin tuotekehittäjät saavat käyttöönsä riittävän määrän, laadukasta ja rikasta opetusdataa, jotta voivat rakentaa suomenkielisiä äänisovelluksia nopeasti ja turvallisesti.
Me lähdemme keräämään omaa ääniarkistoa vanhushoivan robottia varten (lue: Onerva-bot oppii savoa) yhdessä kuntien vanhushoivien kanssa. Tämä data on puhtaasti meidän tuotekehitystä varten. Mutta kun meillä on prosessi miten kerätä vanhusten ääntä, miksi emme keräisi samalla ääntä muita käyttötapauksia varten?
Ja kannattaako tietoa jättää meidän, tai minkään muunkaan yrityksen haltuun? Eikö sen kerätyn datan pitäisi olla kaikkien saatavilla, jotta kuka tahansa voisi kehittää parempi tekoäly- ja robotisaatioratkaisuja?
Tällöin mentäisiin Jevgeni Morozovin visioon, jossa data on valtion hallussa. Tällöin valtio tarjoaa julkisen datakerroksen, jonka päälle paikallisyhteisöt, yritykset, tutkijat ja muut toimijat voivat kehittää omia palveluitaan ja tuotteita.
Suomen vahvuutena onkin pitkälle viety digitaalisuus ja monet keskitetyt, laadukkaat kansalliset rekisterit. Voitaisiinko äänirekisterin lisäksi tekoälyn kehittäjille avata (anonymisoituna jne.) kenties terveysrekisterejä, trafin, YLE:n, Tullin ja muiden julkisten toimijoiden arkistoja?
Lahjoita puhetta -kampanjalla osallistut tekoälyn kehittämiseen
Siitä pääsemmekin meidän Digi-Lönnrotiin.
Käynnistimme Kalevalan päivän kunniaksi Onervalla Lahjoita puhetta -kampanjan. Pääset lahjoittamaan puhetta tästä linkistä.
Tarkoituksena on joukkoistamisen (crowdsourcing) kautta kerätä eri ikäisiltä ihmisiltä ääntä ympäri Suomea.
Kyseessä on beta-versio, jota kehitämme jatkuvasti, lisäämme vuorosanoja joita lahjoittajat voivat lukea ja parannamme teknistä alustaa. Ja ajan myötä laajennamme alustaa yrityskumppaniemme kanssa ja siirrämme tiedot valtiojohtoisen toimijan haltuun ja sitä kautta kaikkien suomalaisten saataville.
Visio on suuri mutta aloitamme pienin, ketterin askelein. Lahjoita puhetta -sivusto on ensimmäinen konkreettinen askel.
Tervetuloa siis lahjoittamaan ääntä ja sitä kautta tukemaan ja kehittämään suomalaista tekoälyn kehitystä.
One thought on “Digi-Lönnrot varmistaa suomalaisen kulttuurin ja kielen säilymisen robottien aikakaudella”