Suomenkieliset arkistot on vapautettava tekoälyn oppimateriaaliksi

Tämä alue on avoin kaikille rekisteröityneille käyttäjille. Muille alueille voivat kirjoittaa vain yhdistyksen jäsenet.
Viesti
Julkaisija
Uusi kielipolitiikka
Viestit: 2183
Liittynyt: 08.12.2017 17:48
Paikkakunta: Global
Viesti:

Suomenkieliset arkistot on vapautettava tekoälyn oppimateriaaliksi

#1 Lukematon viesti Kirjoittaja Uusi kielipolitiikka » 31.01.2019 19:22

[quote]Suomen kielen lautakunta julkaisi viime lokakuussa kannanoton, jonka mukaan suomen kieltä uhkaa nopea heikkeneminen. Kannanotossa korostui sähköisten palveluiden ja digitaalisen tekstimaailman englanninkielisyys.

Tekoälyn kehityksessä olisikin syytä kiinnittää erityistä huomiota teknologian kehitykseen, sekä siihen, millä kielellä sen teemme.

Tekoälyn kyky ymmärtää puhetta on kehittynyt maailmalla. Kehitys on sitä nopeampaa, mitä enemmän tekoälyä käytetään.

Erityisesti englanninkielisissä maissa kodit, työpaikat ja asiakaspalvelu ovat jo täynnä erilaisia virtuaalisia assistentteja, viestisovelluksia ja työkaluja, jotka jatkuvasti oppivat käyttäjiensä kielestä ja puheesta.

Nämä palvelut ovat lisääntyneet myös Suomessa. Työkalujen englanninkielisyys heikentää väistämättä suomen kielen asemaa työpaikoilla, esimerkiksi uudissanojen kehityksessä. Moni hakeekin jo tietoa englanniksi, sillä suomen kielellä saattaa saada huonompia hakutuloksia.

Yritykset haluavat jatkossakin tarjota asiakaspalvelua suomeksi. Mikäli tekoälyä halutaan hyödyntää suomenkielisen puheen ymmärtämiseen, on tekoälyn opettamiseen oltava saatavilla suomenkielistä, litteroitua puhetta.

Ongelma on tällaisen materiaalin vähyys tai kaupallinen saatavuus. Tekoälyn opetukseen kävisivät esimerkiksi televisio-­ohjelmien tekstitykset, sillä tämänkaltainen tekstimuodossa oleva puhedata on sanastoltaan runsasta ja edustaa normaalia kieltä, jota ihmiset käyttävät. Tällaista dataa on tällä hetkellä hyvin hankala saada tekoälyn opetuskäyttöön.

Suomessakin on yrityksiä ja tutkimuslaitoksia, joilla on käsissään tekoälyyn perustuvaa teknologiaa, jonka avulla voidaan ymmärtää puhetta.

Turun yliopiston TurkuNLP-ryhmässä kehitettiin viime vuonna luonnollisen kielen käsittelyn jäsennintyökalu, joka sijoittui kansainvälisessä kilpailussa maailman huipulle.

Jäsentimen avulla ihmisten käyttämä luonnollinen kieli muuttuu rakenteiksi ja malleiksi, joiden pohjalta kone voi ymmärtää kieltä syvemmin. Erilaiset automatisoidut asiakaspalvelut perustuvat tällaisille jäsentimille, jotka oppivat ­käyttäjien puheesta ja hakusanoista.

Tällä hetkellä juridinen ympäristö siitä, kuka saa käyttää ja luovuttaa suomenkielistä dataa muiden käyttöön on epäselvä. Useat toimijat, joilla olisi hallussaan potentiaalista dataa, eivät voi antaa sitä tekoälyn kaupalliseen opetuskäyttöön.

Esimerkiksi vaikka FIN-­CLARIN-konsortion Kielipankki-portaali tarjoaa keskitetyn alustan kielidatan jakamiseen. Suurin osa sisällöstä on kuitenkin jouduttu rajoittamaan vain tutkimuskäyttöön.

Suomessa pitäisi luoda yhteinen tahtotila ja keinot jakaa opetusdataa suomenkielistä tekoälyä kehittävien yritysten ja tutkimuslaitosten kesken. Ei liene tarkoitus, että estämme Suomessa suomen kieltä ymmärtävän tekoälyn synnyn rajoittamalla datan kaupallista käyttöä.

Suomessa kehitetty kieliteknologia avaa ovia myös vientiin: englannin kielen ylivalta tekoälyn kehityksessä on luonnollisesti ongelmallista kaikkialla muualla, paitsi englanninkielisissä maissa.

TurkuNLP-ryhmän työkalu pystyy suomen ja englannin lisäksi jäsentämään tekstiä yli viidelläkymmenellä kielellä. Suomen esimerkki luoda paikallista tekoälyä kielialueemme pienuudesta huolimatta nostaisi maamme profiilia tekoälymaana entisestään.

Jos haluamme pystyä tekoälyaikakautenakin hyödyntämään teknologiaratkaisuja suomeksi, on suomenkielisen tekoälyn opetusdataksi soveltuvat datavarannot vapautettava tekoälyn käyttöön pikimmiten.

Tero Ojanperä

toimitusjohtaja, Silo.AI

Filip Ginter

apulaisprofessori, Turun yliopisto, Tulevaisuuden teknologioiden laitos

TurkuNLP-kieliteknologiaryhmän vetäjä

Lähde: Kauppalehti mielipidekirjoitus 31.1.2019