Архива на транскрипти од телефонските разговори на најголемите цареви во Македонија (2006-2015).
Транскриптите (во ова репо) се текстуални фајлови и json фајлови кои се генерирани после успешно парсирање на текстуалните фајлови и се наоѓаат во „транскрипти“ директориумот.
Почетокот на секој разговор МОРА да биде во овој формат:
Разговор помеѓу Драган Павловиќ-Латас и Сашо Мијалков
Прифатливи се и следниве формати:
- Разговор помеѓу Драган Павловиќ-Латас и Сашо Мијалков и (ден по избори)
-
- Разговор помеѓу Драган Павловиќ-Латас и Сашо Мијалков
- 1.Разговор помеѓу Драган Павловиќ-Латас и Сашо Мијалков и (ден по избори)
Ако некој соговорник има надимак или второ презиме, МОРА да стои линија помеѓу последните 2 дела од името. Ова мора да е исто како во сите други транскрипти.
Драган Павловиќ-Латас мора да биде Драган Павловиќ-Латас, не може да биде Драган Павловиќ- Латас, Драган Павловиќ Латас или Драган Павловиќ, заради конзистенција нели, пошто филтрите и статистиките се базираат на имињата и презимињата (и иницијалите).
Ниеден соговорник НЕ МОЖЕ да има само едно име, мора да има две (или три споени со -). И мора да има два иницијали во разоворот. СЕКОГАШ! Не често, но се случува во некои разговори да пишува само „соговорник“ и во разговорот да е маркиран како „С:“.
Можни варијанти:
Еден Соговорник „ЕС:“
Непознат Соговорник „НС:“
Соговорник Некој „СН:“
Откако ќе се осигурате дека текстуалниот фајл е добро форматиран, пуштете го парсерот:
$ python parser.py 10
Разговори од 10-та бомба:
Разговор помеѓу Гордана Јанкулоска и Мартин Протугер
Разговор помеѓу Миле Јанакиески и Никола Груевски
Разговор помеѓу Миле Јанакиески и Никола Груевски
Разговор помеѓу Миле Јанакиески и Никола Груевски
Разговор помеѓу Миле Јанакиески и Никола Груевски
Разговор помеѓу Миле Јанакиески и Никола Груевски
Разговор помеѓу Некој Соговорник и Миле Јанакиески
Разговор помеѓу Миле Јанакиески и Никола Груевски
Разговор помеѓу Миле Јанакиески и Никола Груевски
Ова значи дека транскриптот од бомбата број 10 е зачуван во 10.txt, парсерот успешно ги поминал сите записи и успеал да генерира објекти од линиите во текстуалниот фајл. По успешното парсирање, 10.json се генерира во истиот директориум.
Консултирајте се пред да објавувате нешто, или пишете овде ако налетате на проблеми.
{
"бомба": "10",
"разговори": [
{
"соговорници": [
{"презиме": "Јанкулоска", "иницијали": "ГЈ", "име": "Гордана"},
{"презиме": "Протугер", "иницијали": "МП", "име": "Мартин"}
],
"содржина": [
"ГЈ: Ало?",
"МП: Еј, кажи Горде?",
"ГЈ: Мартин, извини, за оваа поракава што ти ја препратив, за да сме поефикасни. Дај некако на нашиве да им се каже да не се глупираат со штабовиве. Наши од УМС кршат штабови на Љубе.",
"МП: Добро, добро.",
"ГЈ: И сеа знаеш, јас се глупрам, викам не можеме да ги најдеме, а у Центар Даме е, знаеш, Даме Мирчевски.",
"МП: Добро, добро"
]
},
...
]
}
$ python deploy.py DB_URL
Прилично е глупава скриптата, ако сака некој да ја направи попаметна треба да: ги апдејтира само променетите документи, само на тие места кај што се променети.
Уште една глупа работа што мора да се прави сега за сега е да се инсталира couchapp која работи само на python2, а сѐ друго работи само на python3 :) long story short:
$ pip2 install couchapp --user
$ cd workdir/bombstats/
$ couchapp push razgovori DB_URL
- create index.html that links to other tables / presentation of data
- pages with stats:
- number of people appearing in recordings
- freqeuncy of people
- frequency of pairs
- maybe add d3.js to the repo instead of linkink
- fix any typos in names
- PEER REVIEW!!!
- divide April 18th and 19th recordings per day
- translate in Macedonian