The Suomi24 Sentences Corpus 2001-2017, Korp version 1.2

Suomi24 virkkeet -korpus 2001-2017, Korp-versio 1.2


Persistent Identifier of this resource:

Access location:

The corpus contains all the discussion forums of the Suomi24 online social networking website from 1st January 2001 to 31st December 2017 available in the Suomi24 API.

Researchers can download the entire corpus (see


2021-04-21: In the updated version 1.2, some new annotations were inserted. Each sentence in the corpus now includes sentiment annotation (polarity: positive, negative, or neutral). The polarity information was obtained with an automatic classifier, trained with the FinnSentiment data (; see also Lindén, Jauhiainen & Hardwick, 2020).

2020-02-20: The updated version 1.1 includes some minor corrections: in the previous version, the nicknames of writers were missing in some posts from the years 2009–2012 and 2014, and the characters ', " and & that occurred in some nicknames were incorrectly displayed as ', " or &. Moreover, the part "2017H2" in the previous title of the corpus was replaced by the years "2001–2017".

Aineisto sisältää Suomi 24 keskustelupalvelun kaikki Suomi24 APIssa saatavilla olevat keskustelupalstat ajalta 1.1.2001–31.12.2017.

Keskustelujen sisältö esitetään enintään kappaletasolla, ei kokonaisina kommentteina (viesteinä) tai kommenttiketjuina.

Tutkijat voivat myös ladata käyttöönsä koko Suomi24-aineiston Kielipankin latauspalvelusta, ks.


2021-04-21: Aineistosta julkaistiin päivitetty versio 1.2, jonka kuhunkin virkkeeseen on lisätty virkkeen tunnetilaa (sentiment) ilmaiseva polaarisuustieto (positiivinen, neutraali, negatiivinen). Polaarisuustieto on tuotettu luokittimella, joka on opetettu FinnSentiment-aineistolla (; ks. myös Lindén, Jauhiainen & Hardwick, 2020).

2020-02-20: Aineistosta julkaistiin korjattu versio 1.1. Se sisältää aiemmasta versiosta vuosilta 2009–2012 ja 2014 puuttuneet kirjoittajan nimimerkkitiedot, ja kaikissa nimimerkeissä merkit ', " ja & näkyvät sellaisinaan, eivät ', " ja &. Lisäksi aineiston aikaisemman nimen osa "2017H2" korvattiin vuosivälillä "2001–2017".

