Olet täällä

Music mood annotation using semantic computing and machine learning

Saari, Pasi
978-951-39-6073-5; 1459-4323
University of Jyväskylä.
Jyväskylä studies in humanities (243)
2015

Pasi Saari osoittaa väitöskirjassaan ensi kertaa kattavasti laajan online-aineiston hyödyt musiikin ilmaisemien tunnetilojen mallinnuksessa. Väitöskirjassa kehitetyt laskennalliset menetelmät nojaavat verkossa saatavilla olevaan musiikkitietoon, niin sanottuihin tageihin, sekä audiotiedostoista laskettuihin piirteisiin. Ne kykenevät ennustamaan tehokkaasti, mitä tunnetiloja musiikkikappaleet ilmaisevat. Musiikkipalvelut käyttävät tämän tyyppisiä menetelmiä eri tarkoituksiin, kuten kiinnostavan musiikin suositteluun kuulijoille.

- Aiemmin musiikin tunteita kuvaavat mallit ovat nojanneet rajoitetusti saatavilla oleviin aineistoihin, korkeintaan muutamiin satoihin musiikkikappaleisiin. Tässä tutkimuksessa käytettiin jopa satoja tuhansia kappaleita mallien pohjana, Pasi Saari kertoo.

Tagit ovat yleinen tapa jäsentää sisältöä online-palveluissa (esim. Last.fm, AllMusic). Ne pohjautuvat joko verkkoyhteisöiden tai toimittajien tekemiin merkintöihin. Tagit ovat kuitenkin varsin epäluotettavia niiden käyttötavoista johtuen. Ongelman ratkaisuksi väitöskirjassa kehitettiin semanttisen laskennan menetelmä, joka kykeni “siivoamaan” tagitietoa riittävän käyttökelpoiseksi. Tässä hyödynnettiin myös psykologiasta tuttua emootiomallia.

Audio-pohjaiset mallit ovat erityisen tehokkaita

Väitöskirjassa havaittiin yllättäen, että koneoppimisen menetelmä, joka ennustaa musiikin tunteita audio-piirteistä, kykenee tarkempiin arvioihin kuin ihmiset tagatessaan kappaleita. Työssä kehitetyn menetelmän teho perustuu laajoihin aineistojen käyttöön siivotun tagitiedon avulla.

Myös musiikkigenre kannattaa ottaa huomioon tunnemallien opettamisessa. Sekä tagi- että audio-pohjaisten mallien mukauttaminen eri genreihin paransi tunnistustarkkuutta, erityisesti arvioitaessa musiikin positiivisia ja negatiivisia tunnetiloja, siis iloa ja synkkyyttä. Sama soinnillinen piirre voi edustaa esimerkiksi raskaassa metallimusiikissa eri tunnetilaa kuin uusimmassa pop-hitissä.

- Audio-pohjaiset mallit ovat erityisen käytännöllisiä. Ne kykenevät arvioimaan pelkän äänitiedoston perusteella, onko kappale energinen juhlatunnelman nostattaja vai kenties melankolinen syysillan ratto. Arvioinnissa ei siis tarvita käsintehtyjä annotointeja eli luokitteluja Mallit soveltuvat periaatteessa suoraan mille tahansa musiikille, Saari selventää.

 

15,00 €
Varasto: 
2