{"id":13,"date":"2019-06-24T09:06:25","date_gmt":"2019-06-24T06:06:25","guid":{"rendered":"https:\/\/lapsus.kapsi.fi\/blog\/?p=13"},"modified":"2020-05-04T13:20:44","modified_gmt":"2020-05-04T10:20:44","slug":"tyottomyyden-ennustamisesta-google-vs-tilastokeskus","status":"publish","type":"post","link":"https:\/\/lauriviitanen.kapsi.fi\/blog\/tyottomyyden-ennustamisesta-google-vs-tilastokeskus\/","title":{"rendered":"Ty\u00f6tt\u00f6myyden ennustamisesta &#8211; Google vs. Tilastokeskus"},"content":{"rendered":"\n<figure class=\"wp-block-image\"><img decoding=\"async\" loading=\"lazy\" width=\"698\" height=\"400\" src=\"https:\/\/lapsus.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01.jpeg\" alt=\"\" class=\"wp-image-14\" srcset=\"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01.jpeg 698w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-300x172.jpeg 300w\" sizes=\"(max-width: 698px) 100vw, 698px\" \/><\/figure>\n\n\n\n<p>Elinkeinoel\u00e4m\u00e4n tutkimuslaitoksen (ETLA) <a href=\"http:\/\/pub.etla.fi\/ETLA-Raportit-Reports-31.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">raportti numero 31<\/a> julkaistiin 14.8.2014. Siin\u00e4 selvitettiin, &#8220;<em>voiko Google-hauilla ennustaa nykyhetken ja l\u00e4hitulevaisuuden ty\u00f6tt\u00f6myytt\u00e4 Suomessa.<\/em>&#8221; Johtop\u00e4\u00e4t\u00f6s oli, ett\u00e4 &#8220;y<em>ksinkertainen\n kausivaihtelun huomioivalla muuttujalla t\u00e4ydennetty AR(1)- malli, johon\n on liitetty Google-hakujen yleisyytt\u00e4 kuvaava muuttuja, ennustaa \nparemmin nykyhetken sek\u00e4 l\u00e4hitulevaisuuden ty\u00f6tt\u00f6myytt\u00e4 Suomessa kuin \nsama malli ilman Google-muuttujaa.<\/em>&#8221; Samalla todetaan, ett\u00e4 &#8220;<em>AR(15)-malli olisi selitt\u00e4nyt parhaiten ty\u00f6tt\u00f6myyden vaihtelua vuosina 2004\u20132014.<\/em> <em>Selkeyden ja lyhyen tarkasteluv\u00e4lin vuoksi k\u00e4ytet\u00e4\u00e4n kuitenkin yksinkertaisempaa mallia.<\/em>&#8220;<\/p>\n\n\n\n<p>Laajennettu Google Indexin sis\u00e4lt\u00e4m\u00e4 malli on muotoa<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" loading=\"lazy\" width=\"498\" height=\"31\" src=\"https:\/\/lapsus.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva1.jpeg\" alt=\"\" class=\"wp-image-15\" srcset=\"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva1.jpeg 498w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva1-300x19.jpeg 300w\" sizes=\"(max-width: 498px) 100vw, 498px\" \/><\/figure>\n\n\n\n<p>jossa \ud835\udc66&nbsp;on ty\u00f6tt\u00f6myyden arvo nykyhetkell\u00e4, \ud835\udc65&nbsp;on Google Indexin arvo nykyhetkell\u00e4 ja \ud835\udc52&nbsp;on virhetermi. Google Indexin arvo &#8220;<em>kuvaa tiettyjen ty\u00f6tt\u00f6myysturvaan liittyvien hakusanojen yleisyytt\u00e4 kullakin ajanhetkell\u00e4<\/em>&#8220;.<\/p>\n\n\n\n<h2>Ennustetarkkuus<\/h2>\n\n\n\n<p>T\u00e4m\u00e4n laajennettu malli selitt\u00e4\u00e4 79 % havaittujen arvojen \nvaihtelusta (R\u00b2), mutta sen ennustevirhett\u00e4 ei ole raportissa mainittu. \nEnnustevirhett\u00e4 mitataan absoluuttisten suhteellisten virheiden \nkeskiarvona, &#8220;Mean Absolute Percentage Error&#8221; (MAPE). Yksinkertaisempi \nmalli, jossa Google indeksin arvoista on mukana vain tuorein \ud835\udc65, \nennustaa tulevaa ty\u00f6tt\u00f6myysastetta 6,7 \u2013 9 % keskivirheell\u00e4. Ilman \nGoogle Indeksi\u00e4 ennusteen keskivirhe olisi 7,8 \u2013 11,4 %. Suurin virhe \nsyntyi kauimmaksi tulevaisuuteen eli kuuden kuukauden p\u00e4\u00e4h\u00e4n \nennustettaessa.<\/p>\n\n\n\n<p>Ennustetarkkuus riippuu paljon mallin yksityiskohdista ja siit\u00e4, \nmit\u00e4 Googlen hakutermej\u00e4 k\u00e4ytet\u00e4\u00e4n Google Indexin muodostamisessa. \nTuleekin mieleen, kuinka pieni keskivirhe t\u00e4m\u00e4 n. 7 % oikeastaan on. \nK\u00e4ytetty malli on miltei yksinkertaisin mahdollinen ja muita tietoja \nkuin ty\u00f6tt\u00f6myysasteen aikasarjaa itse\u00e4\u00e4n ja Google Indexi\u00e4 ei ole \nhy\u00f6dynnetty. Jos ennustetarkkuutta on helppo parantaa muilla tiedoilla \nkuin Googlen hakusanojen esiintymism\u00e4\u00e4rill\u00e4, v\u00e4henee t\u00e4m\u00e4n muuttujan \nmerkitt\u00e4vyys ennustetta tehdess\u00e4.<\/p>\n\n\n\n<p>Esittelemmekin lineaarisen mallin, joka k\u00e4ytt\u00e4\u00e4 p\u00f6rssikursseja sek\u00e4\n tilastokeskuksen avoimesti jakamia tietoja selitt\u00e4m\u00e4\u00e4n tulevaa \nty\u00f6tt\u00f6myytt\u00e4. N\u00e4it\u00e4 tietoja ovat teollisuuden uudet tilaukset (alk. \n2005) ja avoimet ty\u00f6paikat (alk. 2003). Seuraavaksi tutustumme hieman \nennustettavaan aikasarjaan ja k\u00e4ytett\u00e4v\u00e4\u00e4n malliin, kuvaillemme datan \nesik\u00e4sittelyn vaiheet ja teemme muutamia ennusteita.<\/p>\n\n\n\n<h2>Ty\u00f6tt\u00f6myys<\/h2>\n\n\n\n<p>Ty\u00f6tt\u00f6myys Suomessa on vahvasti kausittaista. Kuvassa 1 n\u00e4kyy \nmustalla ty\u00f6tt\u00f6myysaste ja punaisella sen kohinaton versio. Sininen \nkatkoviiva n\u00e4ytt\u00e4\u00e4 ty\u00f6tt\u00f6myyden trendin eli sen, mit\u00e4 j\u00e4\u00e4 j\u00e4ljelle \nkohinan ja kausivaihtelun poistamisen j\u00e4lkeen.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" loading=\"lazy\" width=\"1024\" height=\"768\" src=\"https:\/\/lapsus.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva2-1024x768.jpeg\" alt=\"\" class=\"wp-image-16\" srcset=\"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva2.jpeg 1024w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva2-300x225.jpeg 300w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva2-768x576.jpeg 768w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva2-850x638.jpeg 850w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>Kuva 1: Ty\u00f6tt\u00f6myysaste Suomessa v. 1989-2015. Punainen viiva kuvaa aikasarjaa, josta kohina on poistettu.<\/p>\n\n\n\n<p>Kuvassa 2 n\u00e4kyy ty\u00f6tt\u00f6myysaste hajotettuna trendiin, \nkausivaihteluun ja kohinaan. Aikasarjan additiivisuus tarkoittaa sit\u00e4, \nett\u00e4 alkuper\u00e4inen ty\u00f6tt\u00f6myysastetta kuvaava aikasarja saadaan laskemalla\n yhteen kaikki kolme hajotettua komponenttia. J\u00e4tt\u00e4m\u00e4ll\u00e4 pois kohinan \nsaamme kuvan 1 punaisen viivan ja j\u00e4tt\u00e4m\u00e4ll\u00e4 pois kausivaihtelun saamme \nennakoinnin kohteena olevan aikasarjan (kuva 3).<\/p>\n\n\n\n<p>Kuvassa 3 n\u00e4hd\u00e4\u00e4n, ett\u00e4 logaritmi p\u00f6rssin 25 suurimman yrityksen \nmuodostamasta OMXH25-indeksist\u00e4, teollisuuden uudet tilaukset ja \navoimien ty\u00f6paikkojen lukum\u00e4\u00e4r\u00e4 kaikki ennakoivat tulevaa \nty\u00f6tt\u00f6myysastetta. P\u00f6rssi-indeksi ennakoi 1990-luvun lamaa l\u00e4hes 20 \nkuukautta etuk\u00e4teen ja nyky\u00e4\u00e4n ty\u00f6tt\u00f6myyden kehityst\u00e4 n. 10 kk \netuk\u00e4teen. Viimeisen\u00e4 muutamana vuotena p\u00f6rssikurssit ja ty\u00f6tt\u00f6myyden \nsuunta ovat jostakin syyst\u00e4 eriytyneet. N\u00e4in k\u00e4vi viimeksi&nbsp;IT-kuplan \npuhkeamisen aikoihin vuosituhannen vaihteessa. Samoin ovat \neriytyneet&nbsp;teollisuuden uudet tilaukset, jotka ennen v. 2012 puoliv\u00e4li\u00e4 \nolivat hyvin linjassa 6 kk my\u00f6hemmin mitatun ty\u00f6tt\u00f6myysasteen kanssa, \nmutta jotka sittemmin ovat polkeneet paikoillaan samalla kun ty\u00f6tt\u00f6myys \non noussut. Vain avoimien ty\u00f6paikkojen m\u00e4\u00e4r\u00e4 on pit\u00e4nyt pintansa my\u00f6s \nviime vuosina luotettavana ty\u00f6tt\u00f6myyden ennakoijana.<\/p>\n\n\n\n<h2>Ty\u00f6tt\u00f6myyden ennakointi<\/h2>\n\n\n\n<p>Ty\u00f6tt\u00f6myysasteen ennakointia varten toteutamme lineaarisen mallin, \njossa selitt\u00e4vin\u00e4 muuttujina ovat edellisen kuukauden ty\u00f6tt\u00f6myysaste, 10\n kk viiv\u00e4stetty p\u00f6rssi-indeksi, 6 kk viiv\u00e4stetty teollisuuden uudet \ntilaukset \u2013data ja 6 kk viiv\u00e4stetty avoimet ty\u00f6paikat -data. Kaikki \naikasarjat normalisoidaan eli niiden keskiarvo asetetaan nollaksi ja \nkeskihajonta yhden yksik\u00f6n suuruiseksi. Keskihajonnan muutos otetaan \nhuomioon virheen suuruutta laskettaessa.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" loading=\"lazy\" width=\"1024\" height=\"768\" src=\"https:\/\/lapsus.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva3-1024x768.jpeg\" alt=\"\" class=\"wp-image-17\" srcset=\"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva3.jpeg 1024w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva3-300x225.jpeg 300w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva3-768x576.jpeg 768w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva3-850x638.jpeg 850w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>Kuva 2: Ty\u00f6tt\u00f6myyden aikasarja hajotettuna trendiin, kausivaihteluun ja kohinaan.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" loading=\"lazy\" width=\"1024\" height=\"768\" src=\"https:\/\/lapsus.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva4-1024x768.jpeg\" alt=\"\" class=\"wp-image-18\" srcset=\"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva4.jpeg 1024w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva4-300x225.jpeg 300w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva4-768x576.jpeg 768w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva4-850x638.jpeg 850w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>Kuva 3: Ty\u00f6tt\u00f6myysaste, logaritminen OMXH25 indeksi, teollisuuden \nuudet tilaukset ja avoimien ty\u00f6paikkojen aikasarjat sovitettuna \np\u00e4\u00e4llekk\u00e4in.<\/p>\n\n\n\n<p>Mallilla ennakoidaan ty\u00f6tt\u00f6myysastetta vuosille 2004-2014 ETLAn \nraportin hengess\u00e4. Ennustevirhett\u00e4 mitataan osittamalla aikasarjat 10 \nper\u00e4tt\u00e4iseen osaan ja ennakoimalla jokaista osaa vuorollaan ilman, ett\u00e4 \nmalli on n\u00e4hnyt kyseist\u00e4 dataa aikaisemmin. T\u00e4m\u00e4 on nimelt\u00e4\u00e4n \u201d<em>10 fold cross validation<\/em>\u201d\n ja se antaa hyv\u00e4n kuvan todellisesta keskivirheest\u00e4. Ennuste ja \nkausivaihtelun sis\u00e4lt\u00e4v\u00e4 ty\u00f6tt\u00f6myysasteen aikasarja ovat kuvassa 4.<\/p>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" loading=\"lazy\" width=\"1024\" height=\"768\" src=\"https:\/\/lapsus.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva5-1024x768.jpeg\" alt=\"\" class=\"wp-image-19\" srcset=\"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva5.jpeg 1024w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva5-300x225.jpeg 300w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva5-768x576.jpeg 768w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi01-kuva5-850x638.jpeg 850w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>Kuva 4: Ty\u00f6tt\u00f6myysaste vuosina 2004-2014 ja sen 6 kk etuk\u00e4teen laadittu ennuste punaisella.<\/p>\n\n\n\n<p>Mallin ennusteen keskivirhe on ETLAn raportissa k\u00e4ytetyll\u00e4 \nMAPE-mittarilla n. 3,12 %. K\u00e4ytt\u00e4m\u00e4ll\u00e4 Tilastokeskuksen \u201dsmall dataa\u201d \npystyy ennustamaan tulevaa ty\u00f6tt\u00f6myysastetta kuuden kuukauden p\u00e4\u00e4h\u00e4n n. \n65 % tarkemmin kuin k\u00e4ytt\u00e4m\u00e4ll\u00e4 Googlen big dataa. Ennusteeseen saa \nsis\u00e4llytetty\u00e4 kausivaihtelun yksinkertaisesti laskemalla yhteen \nennustetun ty\u00f6tt\u00f6myysasteen ja historiallisen kausivaihtelun, kuten \nkuvassa 4 on tehty.<\/p>\n\n\n\n<h2>Yhteenveto<\/h2>\n\n\n\n<p>Vaikka Google Indexin k\u00e4ytt\u00f6 ty\u00f6tt\u00f6myyden \nennustamisessa on kiist\u00e4m\u00e4tt\u00e4 hy\u00f6dyllist\u00e4, tutkimatta on, paljonko \nedell\u00e4 k\u00e4ytetyt muuttujat selitt\u00e4v\u00e4t ty\u00f6tt\u00f6myydest\u00e4 verrattuna Googleen \nsy\u00f6tettyihin hakutermeihin ja niiden esiintymism\u00e4\u00e4riin. Suomessa on \nk\u00e4ytett\u00e4viss\u00e4 paljon hyv\u00e4laatuista avointa dataa mm. edell\u00e4 esiteltyjen \nennusteiden tekemiseen, mutta muualla Euroopassa tilanne ei v\u00e4ltt\u00e4m\u00e4tt\u00e4 \nole yht\u00e4 hyv\u00e4. Googlen hauilla ei sen sijaan ole vastaavaa \nsaatavuusrajoitetta.<\/p>\n\n\n\n<p>Toinen merkitt\u00e4v\u00e4 ongelma on tiedon ajantasaisuus. \nGooglen hakutiedot p\u00e4ivittyv\u00e4t l\u00e4hes jatkuvasti, mutta \ntilastokeskuksella saattaa menn\u00e4 tarvittavan datan koostamiseen ja \njulkaisuun useita kuukausia&nbsp;\u2013 t\u00e4m\u00e4 on tilanne esim. avoimien \nty\u00f6paikkojen tilaston suhteen. Tiedon vanhentuminen k\u00e4siin on ongelma \navoimen tiedon k\u00e4ytett\u00e4vyydelle.<\/p>\n\n\n\n<p class=\"has-small-font-size\"><em>Alkuper\u00e4inen kirjoitus julkaistiin <\/em><a href=\"https:\/\/www.linkedin.com\/pulse\/ty%C3%B6tt%C3%B6myyden-ennustamisesta-google-vs-tilastokeskus-lauri-viitanen\/\"><em>LinkedIn<\/em><\/a><em>-palvelussa.<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Elinkeinoel\u00e4m\u00e4n tutkimuslaitoksen (ETLA) raportti numero 31 julkaistiin 14.8.2014. Siin\u00e4 selvitettiin, &#8220;voiko Google-hauilla ennustaa nykyhetken ja l\u00e4hitulevaisuuden ty\u00f6tt\u00f6myytt\u00e4 Suomessa.&#8221; Johtop\u00e4\u00e4t\u00f6s oli, ett\u00e4 &#8220;yksinkertainen kausivaihtelun huomioivalla muuttujalla t\u00e4ydennetty AR(1)- malli, johon on liitetty Google-hakujen yleisyytt\u00e4 kuvaava muuttuja, ennustaa paremmin nykyhetken sek\u00e4 l\u00e4hitulevaisuuden ty\u00f6tt\u00f6myytt\u00e4 Suomessa kuin sama malli ilman Google-muuttujaa.&#8221; Samalla todetaan, ett\u00e4 &#8220;AR(15)-malli olisi selitt\u00e4nyt parhaiten ty\u00f6tt\u00f6myyden&#8230;<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[8],"tags":[11,10,12,9],"_links":{"self":[{"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/posts\/13"}],"collection":[{"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/comments?post=13"}],"version-history":[{"count":3,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/posts\/13\/revisions"}],"predecessor-version":[{"id":22,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/posts\/13\/revisions\/22"}],"wp:attachment":[{"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/media?parent=13"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/categories?post=13"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/tags?post=13"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}