Työttömyyden ennustamisesta – Google vs. Tilastokeskus

Elinkeinoelämän tutkimuslaitoksen (ETLA) raportti numero 31 julkaistiin 14.8.2014. Siinä selvitettiin, “voiko Google-hauilla ennustaa nykyhetken ja lähitulevaisuuden työttömyyttä Suomessa.” Johtopäätös oli, että “yksinkertainen kausivaihtelun huomioivalla muuttujalla täydennetty AR(1)- malli, johon on liitetty Google-hakujen yleisyyttä kuvaava muuttuja, ennustaa paremmin nykyhetken sekä lähitulevaisuuden työttömyyttä Suomessa kuin sama malli ilman Google-muuttujaa.” Samalla todetaan, että “AR(15)-malli olisi selittänyt parhaiten työttömyyden vaihtelua vuosina 2004–2014. Selkeyden ja lyhyen tarkasteluvälin vuoksi käytetään kuitenkin yksinkertaisempaa mallia.“

Laajennettu Google Indexin sisältämä malli on muotoa

jossa 𝑦 on työttömyyden arvo nykyhetkellä, 𝑥 on Google Indexin arvo nykyhetkellä ja 𝑒 on virhetermi. Google Indexin arvo “kuvaa tiettyjen työttömyysturvaan liittyvien hakusanojen yleisyyttä kullakin ajanhetkellä“.

Ennustetarkkuus

Tämän laajennettu malli selittää 79 % havaittujen arvojen vaihtelusta (R²), mutta sen ennustevirhettä ei ole raportissa mainittu. Ennustevirhettä mitataan absoluuttisten suhteellisten virheiden keskiarvona, “Mean Absolute Percentage Error” (MAPE). Yksinkertaisempi malli, jossa Google indeksin arvoista on mukana vain tuorein 𝑥, ennustaa tulevaa työttömyysastetta 6,7 – 9 % keskivirheellä. Ilman Google Indeksiä ennusteen keskivirhe olisi 7,8 – 11,4 %. Suurin virhe syntyi kauimmaksi tulevaisuuteen eli kuuden kuukauden päähän ennustettaessa.

Ennustetarkkuus riippuu paljon mallin yksityiskohdista ja siitä, mitä Googlen hakutermejä käytetään Google Indexin muodostamisessa. Tuleekin mieleen, kuinka pieni keskivirhe tämä n. 7 % oikeastaan on. Käytetty malli on miltei yksinkertaisin mahdollinen ja muita tietoja kuin työttömyysasteen aikasarjaa itseään ja Google Indexiä ei ole hyödynnetty. Jos ennustetarkkuutta on helppo parantaa muilla tiedoilla kuin Googlen hakusanojen esiintymismäärillä, vähenee tämän muuttujan merkittävyys ennustetta tehdessä.

Esittelemmekin lineaarisen mallin, joka käyttää pörssikursseja sekä tilastokeskuksen avoimesti jakamia tietoja selittämään tulevaa työttömyyttä. Näitä tietoja ovat teollisuuden uudet tilaukset (alk. 2005) ja avoimet työpaikat (alk. 2003). Seuraavaksi tutustumme hieman ennustettavaan aikasarjaan ja käytettävään malliin, kuvaillemme datan esikäsittelyn vaiheet ja teemme muutamia ennusteita.

Työttömyys

Työttömyys Suomessa on vahvasti kausittaista. Kuvassa 1 näkyy mustalla työttömyysaste ja punaisella sen kohinaton versio. Sininen katkoviiva näyttää työttömyyden trendin eli sen, mitä jää jäljelle kohinan ja kausivaihtelun poistamisen jälkeen.

Kuva 1: Työttömyysaste Suomessa v. 1989-2015. Punainen viiva kuvaa aikasarjaa, josta kohina on poistettu.

Kuvassa 2 näkyy työttömyysaste hajotettuna trendiin, kausivaihteluun ja kohinaan. Aikasarjan additiivisuus tarkoittaa sitä, että alkuperäinen työttömyysastetta kuvaava aikasarja saadaan laskemalla yhteen kaikki kolme hajotettua komponenttia. Jättämällä pois kohinan saamme kuvan 1 punaisen viivan ja jättämällä pois kausivaihtelun saamme ennakoinnin kohteena olevan aikasarjan (kuva 3).

Kuvassa 3 nähdään, että logaritmi pörssin 25 suurimman yrityksen muodostamasta OMXH25-indeksistä, teollisuuden uudet tilaukset ja avoimien työpaikkojen lukumäärä kaikki ennakoivat tulevaa työttömyysastetta. Pörssi-indeksi ennakoi 1990-luvun lamaa lähes 20 kuukautta etukäteen ja nykyään työttömyyden kehitystä n. 10 kk etukäteen. Viimeisenä muutamana vuotena pörssikurssit ja työttömyyden suunta ovat jostakin syystä eriytyneet. Näin kävi viimeksi IT-kuplan puhkeamisen aikoihin vuosituhannen vaihteessa. Samoin ovat eriytyneet teollisuuden uudet tilaukset, jotka ennen v. 2012 puoliväliä olivat hyvin linjassa 6 kk myöhemmin mitatun työttömyysasteen kanssa, mutta jotka sittemmin ovat polkeneet paikoillaan samalla kun työttömyys on noussut. Vain avoimien työpaikkojen määrä on pitänyt pintansa myös viime vuosina luotettavana työttömyyden ennakoijana.

Työttömyyden ennakointi

Työttömyysasteen ennakointia varten toteutamme lineaarisen mallin, jossa selittävinä muuttujina ovat edellisen kuukauden työttömyysaste, 10 kk viivästetty pörssi-indeksi, 6 kk viivästetty teollisuuden uudet tilaukset –data ja 6 kk viivästetty avoimet työpaikat -data. Kaikki aikasarjat normalisoidaan eli niiden keskiarvo asetetaan nollaksi ja keskihajonta yhden yksikön suuruiseksi. Keskihajonnan muutos otetaan huomioon virheen suuruutta laskettaessa.

Kuva 2: Työttömyyden aikasarja hajotettuna trendiin, kausivaihteluun ja kohinaan.

Kuva 3: Työttömyysaste, logaritminen OMXH25 indeksi, teollisuuden uudet tilaukset ja avoimien työpaikkojen aikasarjat sovitettuna päällekkäin.

Mallilla ennakoidaan työttömyysastetta vuosille 2004-2014 ETLAn raportin hengessä. Ennustevirhettä mitataan osittamalla aikasarjat 10 perättäiseen osaan ja ennakoimalla jokaista osaa vuorollaan ilman, että malli on nähnyt kyseistä dataa aikaisemmin. Tämä on nimeltään ”10 fold cross validation” ja se antaa hyvän kuvan todellisesta keskivirheestä. Ennuste ja kausivaihtelun sisältävä työttömyysasteen aikasarja ovat kuvassa 4.

Kuva 4: Työttömyysaste vuosina 2004-2014 ja sen 6 kk etukäteen laadittu ennuste punaisella.

Mallin ennusteen keskivirhe on ETLAn raportissa käytetyllä MAPE-mittarilla n. 3,12 %. Käyttämällä Tilastokeskuksen ”small dataa” pystyy ennustamaan tulevaa työttömyysastetta kuuden kuukauden päähän n. 65 % tarkemmin kuin käyttämällä Googlen big dataa. Ennusteeseen saa sisällytettyä kausivaihtelun yksinkertaisesti laskemalla yhteen ennustetun työttömyysasteen ja historiallisen kausivaihtelun, kuten kuvassa 4 on tehty.

Yhteenveto

Vaikka Google Indexin käyttö työttömyyden ennustamisessa on kiistämättä hyödyllistä, tutkimatta on, paljonko edellä käytetyt muuttujat selittävät työttömyydestä verrattuna Googleen syötettyihin hakutermeihin ja niiden esiintymismääriin. Suomessa on käytettävissä paljon hyvälaatuista avointa dataa mm. edellä esiteltyjen ennusteiden tekemiseen, mutta muualla Euroopassa tilanne ei välttämättä ole yhtä hyvä. Googlen hauilla ei sen sijaan ole vastaavaa saatavuusrajoitetta.

Toinen merkittävä ongelma on tiedon ajantasaisuus. Googlen hakutiedot päivittyvät lähes jatkuvasti, mutta tilastokeskuksella saattaa mennä tarvittavan datan koostamiseen ja julkaisuun useita kuukausia – tämä on tilanne esim. avoimien työpaikkojen tilaston suhteen. Tiedon vanhentuminen käsiin on ongelma avoimen tiedon käytettävyydelle.

Alkuperäinen kirjoitus julkaistiin LinkedIn-palvelussa.

Econometrics