Dataudtræk - Artikler om Mark Zuckerberg

Update 28. marts 2022

extract_data.R indeholder kode til at rense data
clean_text.py indeholder kode til at rengøre det rå tekstindhold i stamdata

Data

Vedhæftet findes resultaterne af et dataudtræk fra JP/POLITIKENS HUS data lake af artikler, hvor "Mark Zuckerberg" indgår.

Udtrækket har følgende komponenter:

news_zuckerberg.csv: selve udtrækket af rådata for "Mark Zuckerberg"-artikler, i alt >1.500 artikler
clean_texts.json: artikler fra 1., hvor selve teksten er forsøgt rengjort
stories_count_brand_year.csv: et groft skøn over antallet af udgivne artikler opdelt på brand (jp/pol/eb) og år
topics.json: prædikterede topics for artikler i 1 med EB's nuværende topic-model "Tabloid".

Herunder en række mere detaljerede oplysninger om de enkelte komponenter

news_zuckerberg.csv

Dette er selve dataudtrækket, sådan som det ser ud i Ekstra Bladets kildesystemer, dvs. rådata. Datasættet er forsøgt renset, sådan at tabellen kun indeholder unikke artikler (dette er dog ikke lykkedes 100 procent). Hver række svarer til en artikel.

Tabellen indeholder følgende felter med navne, der langt hen ad vejen fremstår selvforklarende: brand,sub_brand,cms_publication,section_id,content_id,article_url,article_title,article_lead,section_name,first_published,first_published_date,tag_scheme_term_array,tag_scheme_array,last_modified,article_body,cms_database,year,month

Her et par eksempel: 'cms_publication' angiver publikationens navn. 'content_id' er en unik identifikator for en artikel og svarer til en primærnøgle. 'article_title', 'article_lead' og 'article_body' udgør tilsammen en artikels indhold. 'article_url' indeholder url til artiklen. 'section_name' indeholder navnet på den sektion, artiklen er rubriceret under.

osv.

clean_texts.json:

Her er artiklerne fra news_zuckerberg.csv forsøgt rengjort ved at fjerne diverse huskumsnusk, specialtegn, HTML-kode m.v. fra det rå artikelindhold.

Artikelteksterne kan kobles til data i news_zuckerberg.csv vha. 'content_id'.

stories_count_brand_year.csv

Af denne tabel fremgår et udtræk af antallet unikke artikler (content-id's) opdelt på brand og år.

Dette tal er en proxy - groft estimat - for antallet af udgivne artikler opdelt på de forskellige medier.

topics.json

Her er tabelleret de prædikterede topics for artiklerne i news_zuckerberg.csv med Ekstra Bladets Data Science teams seneste Topic-model, der går under navnet "Tabloid".

De prædikterede topics kan kobles til artiklerne i news_zuckerberg.csv gennem 'content_id'.

For en uddybende forklaring til disse prædiktioner henvises til Ekstra Bladets Data Science afdeling.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.gitignore		.gitignore
README.md		README.md
clean_text.py		clean_text.py
extract_data.R		extract_data.R
extract_keywords.py		extract_keywords.py
predict_tags.py		predict_tags.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Dataudtræk - Artikler om Mark Zuckerberg

Update 28. marts 2022

Data

news_zuckerberg.csv

clean_texts.json:

stories_count_brand_year.csv

topics.json

About

Releases

Packages

Languages

ebanalyse/news_zuckerberg

Folders and files

Latest commit

History

Repository files navigation

Dataudtræk - Artikler om Mark Zuckerberg

Update 28. marts 2022

Data

news_zuckerberg.csv

clean_texts.json:

stories_count_brand_year.csv

topics.json

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages