Skip to content

Latest commit

 

History

History
51 lines (26 loc) · 4.87 KB

README.md

File metadata and controls

51 lines (26 loc) · 4.87 KB

Avoimia suomenkielisiä NLP-tekstiaineistoja

English summary: A list of open Finnish NLP datasets

Avoimia suomenkielisiä tekstiaineistoja kieliteknologian menetelmien kehittämiseen ja testaamiseen. Sisältää myös Creative Commons non-commercial -lisensoituja (CC NC) aineistoja vaikka ne eivät oikeastaan olekaan avoimia.

Tekstikokoelmia (self-supervised learning)

Eduskunnan avoin data: Useita valtiopäiväasiakirjoja, esimerkiksi hallituksen esitykset, asiantuntijalausunnot, jne. Lisenssi: CC BY 4.0

Suomenkielinen Wikipedia 2017: Suomenkielisten Wikipedia-artikkelien tekstit 1.1.2018. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku BioNLP -ryhmän kehittämää dependenssijäsennintä. Lisenssi: CC BY 4.0

Wikipedia-dumpit: Wikipedian kaikki artikkelit Wiki markup -muodossa. Päivittyy kuukausittain. Lisenssi: CC-BY-SA, GNU Free Documentation License

Common Crawl: Avoin, jatkuvasti päivittyvä hakurobotin keräämä koko julkisen webin sisältö. Suomenkieliset sivustot tunnistettu automaattisen kielentunnistuksen perusteella. Käyttöehdot

Project Gutenberg: Vanhoja kirjoja, joiden tekijänoikeudet ovat rauenneet. Lisenssi: Tyypillisesti public domain, tarkista jokaisen yksittäisen kirjan kohdalla

Vanhat aikakauslehdet: Kansalliskirjaston digitoimia vanhoja, ennen vuotta 1875 julkaistuja suomen- ja ruotsinkielisiä aikakauslehtiartikkeleita. Lisenssi: CC BY 4.0

Iltapäivälehtien uutisotsikoita: Iltapäivälehden verkkosivulla vuosien 2018-2020 välillä julkaistujen uutisten otsikot ja tiivistelmät. Lisenssi: MIT

Finnish OpenSubtitles 2017: Elokuvien tekstityksiä opensubtitles.org-sivustolta. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku BioNLP -ryhmän dependenssijäsennintä. Lisenssi CC BY

Ylen eduskuntavaalikoneiden vastaukset 2011, 2015 ja 2019: Ehdokkaiden vastaukset Ylen eduskuntavaalikoneiden kysymyksiin, vapaateksti ja kategoriset vastaukset. Lisenssi: CC BY NC 3.0

Ylilauta: Ylilauta-keskustelupalstan viestit vuosilta 2012-2014. Lisenssi: CC BY NC

Reddit: Reddit-keskustelualustan kaikki viestit vuoteen 2019 asti. Suomenkielistä keskustelua on esimerkiksi r/Suomi-keskustelualueella. Lisenssi: ?

Annotoituja aineistoja (supervised learning)

Universal dependencies Finnish TDT: Kieliopillisesti jäsennettyjä dokumentteja. Lisenssi: CC BY-SA 4.0

Parallel Universal Dependencies (PUD) treebanks: 1000 kieliopillisesti jäsennettyä lausetta. Lisenssi: CC BY-SA 4.0

Universal dependencies FinnTreeBank 1: Kieliopillisesti jäsennettyjä lauseita. Lisenssi: CC BY 4.0

Eduskunta-vkk: Lauseluokitteluaineisto. Perustuu ministerien vastauksiin kansanedustajien kirjallisiin kysymyksiin. Lisenssi: CC BY 4.0

FiNER: Uutisartikkeleita, joihin on käsin merkitty entiteetit (named entity recognition, NER). Lisenssi: CC BY-ND-NC 1.0 (Digitoday-aineisto), CC BY-SA 3.0 (Wikipedia-aineisto)

Opusparcus: Samaa tarkoittavien lauseiden (parafraasit) kokoelma. Suomeksi ja viidellä muulla kielellä. Lauseet ovat peräisin elokuvien ja TV-sarjojen tekstityksiä sisältävästä OpenSubtitles2016-kokoelmasta. Lisenssi: CC BY NC

Konekäännösaineistoja

EuroParl. Euroopan parlamentin kokousten puheita ammattikääntäjien suomeksi ja muille EU:n virallisille kielille kääntämänä. Lisenssi: "We are not aware of any copyright restrictions of the material. If you use this data in your research, please contact [email protected]."

WMT en-fi testset 2016 ja 2017: 6000 lausetta (3000 kumpanakin vuonna). Ammattikääntäjien suomeksi ja englanniksi kääntämät. Lisenssi: CC BY 4.0

WikiMatrix: Wikipediasta koneellisesti etsittyjä erikielisiä, mutta samaa tarkoittavia lauseita. 1620 kieliparia, mukaan lukien suomeksi. Lisenssi: CC BY-SA