{"id":23,"date":"2019-06-24T09:13:02","date_gmt":"2019-06-24T06:13:02","guid":{"rendered":"https:\/\/lapsus.kapsi.fi\/blog\/?p=23"},"modified":"2020-05-04T13:20:43","modified_gmt":"2020-05-04T10:20:43","slug":"mita-ajatuksesi-koyhyydesta-kertovat-tuloistasi","status":"publish","type":"post","link":"https:\/\/lauriviitanen.kapsi.fi\/blog\/mita-ajatuksesi-koyhyydesta-kertovat-tuloistasi\/","title":{"rendered":"Mit\u00e4 ajatuksesi k\u00f6yhyydest\u00e4 kertovat tuloistasi?"},"content":{"rendered":"\n<figure class=\"wp-block-image\"><img decoding=\"async\" loading=\"lazy\" width=\"700\" height=\"376\" src=\"https:\/\/lapsus.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi02.jpeg\" alt=\"\" class=\"wp-image-25\" srcset=\"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi02.jpeg 700w, https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-content\/uploads\/2019\/06\/linkedin-blogi02-300x161.jpeg 300w\" sizes=\"(max-width: 700px) 100vw, 700px\" \/><\/figure>\n\n\n\n<p>Helsingin sanomat julkaisi kes\u00e4kuussa 2015 <a href=\"http:\/\/www.hs.fi\/sunnuntai\/a1305963827420\" target=\"_blank\" rel=\"noreferrer noopener\">k\u00f6yhyyskyselyn<\/a>,\n jolla kartoitettiin suomalaisten ajatuksia k\u00f6yhyydest\u00e4. Kyselyn \nlaativat hyvinvointisosiologian professori Juho Saari ja ryhm\u00e4 \nsuomalaisia tutkijoita. Se sis\u00e4lsi useita monivalintakysymyksi\u00e4, \njoitakin taustoittavia kysymyksi\u00e4 ja kaksi avointa kysymyst\u00e4 \nk\u00f6yhyydest\u00e4. N\u00e4ist\u00e4 ensimm\u00e4inen oli &#8220;<em>Kuvaile millainen ihminen on Suomessa sinun mielest\u00e4si k\u00f6yh\u00e4; mist\u00e4 tunnistat k\u00f6yh\u00e4n ihmisen?<\/em>&#8221; ja toinen &#8220;<em>Millaiseen elintasoon k\u00f6yh\u00e4n tulisi mielest\u00e4si Suomessa tyyty\u00e4; millaiseen el\u00e4m\u00e4\u00e4n h\u00e4nell\u00e4 tulisi olla mahdollisuus?<\/em>&#8221; <\/p>\n\n\n\n<p>Saman vuoden joulukuussa julkaistiin kyselyn tuloksia l\u00e4pik\u00e4yv\u00e4 <a href=\"http:\/\/www.hs.fi\/sunnuntai\/a1450417337441\" target=\"_blank\" rel=\"noreferrer noopener\">artikkeli<\/a>, jossa todettiin, ett\u00e4 &#8220;<em>mit\u00e4\n varakkaampia ihmiset ovat, sit\u00e4 enemm\u00e4n he n\u00e4kev\u00e4t k\u00f6yhyyden k\u00f6yh\u00e4n \nomaksi syyksi. K\u00f6yh\u00e4t n\u00e4kev\u00e4t, ett\u00e4 my\u00f6s yhteiskunnan rakenteilla on \nvaikutusta.<\/em>&#8221; Artikkelin mukaan prof. Saari piti huolestuttavana sit\u00e4, ett\u00e4 &#8220;<em>hyv\u00e4ss\u00e4 asemassa olevista niin suuri osa n\u00e4kee k\u00f6yhyyden johtuvan yksil\u00f6llisist\u00e4 syist\u00e4<\/em>&#8220;. Artikkeli toteaa, ett\u00e4 t\u00e4llainen &#8220;<em>asenne\n n\u00e4kyy my\u00f6s p\u00e4\u00e4tt\u00e4jien tekemiss\u00e4 ratkaisuissa, joissa on korostettu \nihmisen aktivointia ja omaa panosta. Liian v\u00e4h\u00e4n kiinnitet\u00e4\u00e4n huomiota \nk\u00f6yhyytt\u00e4 aiheuttaviin rakenteellisiin seikkoihin.<\/em>&#8220;<\/p>\n\n\n\n<p>Koneoppimisen ja luonnollisen kielen k\u00e4sittelyn n\u00e4k\u00f6kulmasta \nkiinnostavin asia artikkelissa oli kuitenkin koe, jossa aineistosta \npoimittiin erilleen 125 suurituloisimman ja 125 k\u00f6yhimm\u00e4n vastaukset. \nEnsimm\u00e4isess\u00e4 joukossa perheiden tulot olivat 15 500\u2013250 000 euroa \nkuukaudessa, toisessa alle 500 euroa kuukaudessa. Vastaukset annettiin \nluettavaksi sosiologiasta opinn\u00e4ytety\u00f6t\u00e4\u00e4n tekev\u00e4lle opiskelijalle niin,\n ettei kerrottu, mitk\u00e4 niist\u00e4 ovat k\u00f6yhien ja mitk\u00e4 rikkaiden \nvastauksia. H\u00e4n sitten lajitteli vastaukset sis\u00e4ll\u00f6n mukaan ja pystyi \narvaamaan tulotason oikein 65 prosentissa tapauksista.<\/p>\n\n\n\n<p>Kuinka hyv\u00e4 opiskelijan lajittelutarkkuus oli? Kuinka l\u00e4helle 65 % \nlajittelutarkkuutta luonnollisen kielen tilastollisella analyysill\u00e4 ja \nkoneoppimismenetelmill\u00e4 on mahdollista p\u00e4\u00e4st\u00e4? Mitk\u00e4 tekij\u00e4t avoimissa \ntekstivastauksissa vaikuttavat eniten menetelmien tarkkuuteen? N\u00e4m\u00e4 ovat\n kiinnostavia kysymyksi\u00e4 ja niiden tutkiminen saattaa paljastaa jotakin \npaitsi teksteist\u00e4 itsest\u00e4\u00e4n my\u00f6s k\u00e4ytetyist\u00e4 menetelmist\u00e4. Ensin \ntarvitaan kuitenkin sopiva koeasetelma ja luokittelumenetelm\u00e4.<\/p>\n\n\n\n<h2>Koeasetelma<\/h2>\n\n\n\n<p>Tekstivastausten luokittelemiseen k\u00e4ytet\u00e4\u00e4n <strong>tukivektorikonetta<\/strong>,\n koska ne p\u00e4rj\u00e4\u00e4v\u00e4t lajitteluongelmissa yleens\u00e4 verrattain hyvin. \nTekstidataa esik\u00e4sitell\u00e4\u00e4n eri tavoilla ja luokitteluun sovelletaan \nerilaisia kerneleit\u00e4, jotta voidaan tutkia, mik\u00e4 toimii hyvin kyseisess\u00e4\n tapauksessa ja mahdollisesti my\u00f6s muissa samankaltaisissa tapauksissa.<\/p>\n\n\n\n<p>Artikkelissa mainitussa kokeessa opiskelijalle annettiin kaikkein \nsuuri- ja pienituloisimpien vastaukset, mutta t\u00e4ss\u00e4 kokeessa valitaan \ntekstit vastaajan oman aseman mukaan niin, ett\u00e4 vain kaikkein hyv\u00e4- ja \nhuono-osaisimpien vastaukset ovat mukana. Molemmista joukoista on mukana\n n. 300 vastausta. Artikkelin kokeen kuvauksessa ei mainittu, \nannettiinko opiskelijalle tekstivastaus vain toisesta kysymyksest\u00e4 vai \nmolemmista ja siksi luokittelua kokeillaan molemmilla tavoilla.<\/p>\n\n\n\n<p>Aineistoa silm\u00e4m\u00e4\u00e4r\u00e4isesti l\u00e4pik\u00e4ydess\u00e4 vaikuttaa silt\u00e4, ett\u00e4 \nkielioppi ja v\u00e4limerkkien k\u00e4ytt\u00f6 ovat samankaltaisia vastaajan \nkategoriasta eli asemasta riippumatta. Itse\u00e4\u00e4n hyv\u00e4osaisina pit\u00e4v\u00e4t \ntuntuvat vastaavan lyhyemmin ja k\u00e4ytt\u00e4v\u00e4n ilmaisuja, jotka viittaavat \nkorkean koulutuksen ja sivistyksen tasoon. Tarkempi testi paljastaa, \nett\u00e4 vastauksen pituus ja oma asema eiv\u00e4t korreloi juuri lainkaan (rho =\n 0.03). Silm\u00e4ily antaa my\u00f6s vaikutelman, ett\u00e4 huono-osaiset kirjoittavat\n p\u00e4\u00e4asiassa k\u00f6yhien tarpeista ja arjen ongelmista, kun taas hyv\u00e4osaiset \nkirjoittavat asioista, joita heill\u00e4 on ja k\u00f6yhill\u00e4kin pit\u00e4isi olla.<\/p>\n\n\n\n<p>Vaikuttaa siis silt\u00e4, ett\u00e4 parhaiten tekstin kirjoittajan asemaa \nm\u00e4\u00e4ritt\u00e4v\u00e4t yksitt\u00e4isten sanojen tai lyhyiden ilmaisujen k\u00e4ytt\u00f6. \nKielioppi, sanaj\u00e4rjestys, taivutusmuodot ja muut tekstin yksityiskohdat \neiv\u00e4t vaikuta merkityksellisilt\u00e4. T\u00e4llaisessa tilanteessa <strong>n-gram mallit<\/strong> ja yksitt\u00e4isi\u00e4 n-grameja toisiinsa vertailevat kernelit toimivat erinomaisesti.<\/p>\n\n\n\n<h2>Koemenetelm\u00e4t<\/h2>\n\n\n\n<p>Teksti\u00e4 esik\u00e4sitell\u00e4\u00e4n monin tavoin ennen varsinaista luokittelua. \nEnsiksi kaikki numerot poistetaan. Sen j\u00e4lkeen v\u00e4limerkit kuten \/, \\, \n&amp;, ? ja ! korvataan sopivilla termeill\u00e4. T\u00e4ll\u00e4 tavoin pystyt\u00e4\u00e4n \nsis\u00e4llytt\u00e4m\u00e4\u00e4n esim. huudahdusten k\u00e4ytt\u00f6 tekstianalyysiin tai laskemaan \nkerneleiss\u00e4, montako toteavaa lausetta vastauksessa on. Lopuksi kaikki \nmuut erikoismerkit poistetaan ja kaikki isot kirjaimet muutetaan \npieniksi.<\/p>\n\n\n\n<p>Luokittelutarkkuutta mitataan sek\u00e4 ns. &#8220;stop-sanojen&#8221; kanssa ett\u00e4 \nilman niit\u00e4. Stop-sanoja ovat monet konjunktiot ja jotkin pronominit. \nStop-sanojen poiston yhteydess\u00e4 j\u00e4ljelle j\u00e4\u00e4v\u00e4t sanoille suoritetaan \nstemmaus eli typistys.<\/p>\n\n\n\n<p>N-grameista tutkitaan <strong>mono-, bi- ja tri-grameja<\/strong>, koska ne todenn\u00e4k\u00f6isesti mallintavat tekstien t\u00e4rkeimm\u00e4t ilmaisut. Tukivektorikoneessa k\u00e4ytet\u00e4\u00e4n <strong>bag-of-words, termirelevanssi, termil\u00e4heisyys ja semanttista kerneli\u00e4<\/strong> eri &#8220;slack cost&#8221; eli C-parametrin arvoilla.<\/p>\n\n\n\n<p>Tekstivastauksien esik\u00e4sittely, n-gramien muodostaminen ja kernelien laskeminen suoritetaan <strong>R<\/strong>-kielen ja erityisesti <strong>tm<\/strong>-kirjaston avulla. Itse tukivektorikoneiden laskenta suoritetaan <strong>MATLAB<\/strong>issa <strong>libsvm<\/strong>-kirjastoa hyv\u00e4ksik\u00e4ytt\u00e4en, koska siin\u00e4 on tuki itse lasketuille kerneleille.<\/p>\n\n\n\n<h2>Tulokset<\/h2>\n\n\n\n<p>Parhaat tulokset saatiin k\u00e4ytt\u00e4m\u00e4ll\u00e4 data molemmista kysymyksist\u00e4. \nStop-sanojen poistaminen ja typistys eiv\u00e4t juurikaan vaikuttaneet \nluokittelutarkkuuteen, mutta lyhensiv\u00e4t kyll\u00e4 laskenta-aikaa. Mit\u00e4 \npidempi\u00e4 ilmaisuja luokittelussa k\u00e4ytettiin, sit\u00e4 heikompi lopputulos \noli. Toisin sanoen mono-gramit eli yksitt\u00e4iset sanat johtivat parhaaseen\n luokittelutarkkuuteen kahden tai kolmen sanan mittaisten ilmaisujen \nsijaan. Lis\u00e4ksi v\u00e4limerkkien sis\u00e4llytt\u00e4minen luokitteluun sopivina \ntermein\u00e4 paransi luokittelutarkkuutta 2-4 %-yksikk\u00f6\u00e4.<\/p>\n\n\n\n<p>Lopullinen out-of-sample luokittelutarkkuus oli n. <strong>60-70 %<\/strong>\n riippuen hieman siit\u00e4, miten 600 tekstin\u00e4ytett\u00e4 jakautuvat \ntukivektorikoneen koulutus- ja testijoukkoihin. Kerneleist\u00e4 parhaiten \ntoimi <strong>termil\u00e4heisyys-kerneli<\/strong>, jonka tarkkuus oli \ntyypillisesti 1-3 %-yksikk\u00f6\u00e4 muita kerneleit\u00e4 parempi. My\u00f6s \ntermirelevanssi- ja semanttinen kerneli p\u00e4rj\u00e4siv\u00e4t usein hyvin, riippuen\n aineistosta. Paras tarkkuus saavutettiin yleens\u00e4 C-parametrin arvoilla \n4-8 muilla paitsi semanttisella kernelill\u00e4, jolla toimivin C-parametrin \narvo oli l\u00e4hemp\u00e4n\u00e4 0,4:\u00e4\u00e4.<\/p>\n\n\n\n<p>Kaiken kaikkiaan voitaneen sanoa, ett\u00e4 kohtuullinen \nluokittelutarkkuus on saavutettavissa kernelist\u00e4 riippumatta. N\u00e4in \npienell\u00e4 aineistolla merkitt\u00e4vin tarkkuuteen vaikuttava tekij\u00e4 on \nsattuma ja paras luokittelija saattaisikin siksi olla eri kernelien \nyhdistelm\u00e4 yksitt\u00e4isen kernelin sijaan.<\/p>\n\n\n\n<h2>Yhteenveto tuloksista<\/h2>\n\n\n\n<p>Koneoppimismenetelmill\u00e4 p\u00e4\u00e4stiin keskim\u00e4\u00e4rin ihmistasoiseen \nluokittelutarkkuuteen ainakin kyseisen sosiologian opiskelijan kohdalla.\n Aineisto oli pieni ja vertailun l\u00e4ht\u00f6kohdat ep\u00e4reilut, koska ihmisell\u00e4 \non paljon enemm\u00e4n tietoa k\u00e4ytett\u00e4viss\u00e4\u00e4n yhteiskunnasta, taloudesta, \nel\u00e4m\u00e4st\u00e4 ja kielest\u00e4. Tukivektorikoneen piti aloittaa tyhj\u00e4lt\u00e4 p\u00f6yd\u00e4lt\u00e4 \nja muodostaa mielipiteens\u00e4 ilman mit\u00e4\u00e4n kontekstia eli ymm\u00e4rryst\u00e4 \nymp\u00e4r\u00f6iv\u00e4st\u00e4 maailmasta. Sen k\u00e4ytt\u00e4m\u00e4 aineisto tosin oli yli kaksi \nkertaa suurempi kuin ihmisverrokilla (600 teksti\u00e4 vs. 250).<\/p>\n\n\n\n<p>Kaikesta huolimatta tulokset ovat rohkaisevia. Luonnollisen kielen \nanalysointi ja tulosten hy\u00f6dynt\u00e4minen tutkimuksessa tai liiketoiminnassa\n ei edellyt\u00e4 v\u00e4ltt\u00e4m\u00e4tt\u00e4 edes sanojen v\u00e4listen suhteiden prosessointia \npuhumattakaan merkityksen ymm\u00e4rt\u00e4misest\u00e4 tai kyvyst\u00e4 havaita sarkasmia. \nSuoraviivaisella sanojen esiintymism\u00e4\u00e4rien laskemisella p\u00e4\u00e4see jo \npitk\u00e4lle. Kohtalaisen pienill\u00e4 panostuksilla voi siis saada vuosien \naikana kertyneest\u00e4 tekstidatasta hy\u00f6ty\u00e4 irti.<\/p>\n\n\n\n<h2>Loppusanat<\/h2>\n\n\n\n<p>Sosiologian opiskelija tai tukivektorikone eiv\u00e4t lopulta pystyneet \narvaamaan kovin hyvin vastaajan talouden tuloja tai omaa asemaa siit\u00e4, \nmiten vastaaja kirjoitti k\u00f6yhist\u00e4 ja k\u00f6yhyydest\u00e4. Noin 65 % \nluokittelutarkkuus asettuu l\u00e4hemm\u00e4s puoliv\u00e4li\u00e4 kuin \u00e4\u00e4rip\u00e4it\u00e4: jos \nluokittelu olisi ollut mahdotonta, hyv\u00e4- ja huono-osaiset olisivat \nkirjoittaneet k\u00f6yhist\u00e4 ja k\u00f6yhyydest\u00e4 samalla tavalla ja tarkkuus olisi \nollut n. 50 %. Jos luokittelu olisi ollut helppoa, olisivat vastaukset \nolleet kuin y\u00f6 ja p\u00e4iv\u00e4 ja tarkkuus n. 100 %.<\/p>\n\n\n\n<p>Saatujen tulosten valossa voitaneen vet\u00e4\u00e4 johtop\u00e4\u00e4t\u00f6s, ett\u00e4 \nSuomessa sek\u00e4 rikkaat ett\u00e4 k\u00f6yh\u00e4t ovat melko valveutuneita k\u00f6yhist\u00e4 ja \nk\u00f6yhyydest\u00e4. Tuloerot eiv\u00e4t ole ainakaan viel\u00e4 johtaneet t\u00e4ydelliseen \nasenteiden ja elinpiirien eriytymiseen. Parantamisen varaa kuitenkin on.\n Pit\u00e4isik\u00f6 ennen kaikkea hyv\u00e4osaisia ja rikkaita kouluttaa k\u00f6yh\u00e4n \narjesta ja k\u00f6yhyyden syist\u00e4 ja seurauksista enemm\u00e4n, ettei asia olisi \nesim. p\u00e4\u00e4tt\u00e4v\u00e4ss\u00e4 asemassa oleville liian tuntematon ja et\u00e4inen?<\/p>\n\n\n\n<h2>Kiitokset<\/h2>\n\n\n\n<p>Erityiskiitokset Juho Saarelle k\u00f6yhyyskyselydatan jakamisesta ja kehitysideoista.<\/p>\n\n\n\n<p class=\"has-small-font-size\"><em>Alkuper\u00e4inen kirjoitus julkaistiin <a href=\"https:\/\/www.linkedin.com\/pulse\/mit%C3%A4-ajatuksesi-k%C3%B6yhyydest%C3%A4-kertovat-tuloistasi-lauri-viitanen\/\">LinkedIn<\/a>-palvelussa.<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Helsingin sanomat julkaisi kes\u00e4kuussa 2015 k\u00f6yhyyskyselyn, jolla kartoitettiin suomalaisten ajatuksia k\u00f6yhyydest\u00e4. Kyselyn laativat hyvinvointisosiologian professori Juho Saari ja ryhm\u00e4 suomalaisia tutkijoita. Se sis\u00e4lsi useita monivalintakysymyksi\u00e4, joitakin taustoittavia kysymyksi\u00e4 ja kaksi avointa kysymyst\u00e4 k\u00f6yhyydest\u00e4. N\u00e4ist\u00e4 ensimm\u00e4inen oli &#8220;Kuvaile millainen ihminen on Suomessa sinun mielest\u00e4si k\u00f6yh\u00e4; mist\u00e4 tunnistat k\u00f6yh\u00e4n ihmisen?&#8221; ja toinen &#8220;Millaiseen elintasoon k\u00f6yh\u00e4n tulisi mielest\u00e4si&#8230;<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":[],"categories":[2,13],"tags":[19,4,17,16,18,14,15],"_links":{"self":[{"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/posts\/23"}],"collection":[{"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/comments?post=23"}],"version-history":[{"count":3,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/posts\/23\/revisions"}],"predecessor-version":[{"id":27,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/posts\/23\/revisions\/27"}],"wp:attachment":[{"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/media?parent=23"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/categories?post=23"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/lauriviitanen.kapsi.fi\/blog\/wp-json\/wp\/v2\/tags?post=23"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}