Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

UP outputting verb patterns as a part of the event ? #47

Open
khaledJabr opened this issue Oct 15, 2018 · 6 comments
Open

UP outputting verb patterns as a part of the event ? #47

khaledJabr opened this issue Oct 15, 2018 · 6 comments

Comments

@khaledJabr
Copy link

UP produces some events of the form : (you have to scroll horizontally to see the whole line)

20170715	PTY	---	0831		AAW_ARB_20070130.0053-1	unidentified			- * [0831] # تنحى

- * [0831] # تنحى is a rule that is used to match a verb, and I am not sure what does UP think this responds to (or treats as ).

@khaledJabr
Copy link
Author

per request by @JingL1014, Here are a couple of examples where this happens

<Sentence date="20170715" id="AAW_ARB_20070227.0047-9" sentence="True" source="unidentified">
<Text>
الى ذلك، ولليوم الثاني على التوالي، خرج امس سكان احياء وسط الخرطوم في مظاهرة احتجاجا على الغاء السلطات ميدانا عاما يعرف بـ«ميدان المولد او ميدان عبد المنعم» ظل تاريخيا مخصصا لإقامة احتفالات سكان مدينة الخرطوم بالذكرى السنوية لمولد الرسول صلى الله عليه وسلم، وأسفرت مصادمات عنيفة وقعت بين المتظاهرين والشرطة عن اصابة ثلاثة اشخاص على الاقل بإصابات متفاوتة، واتهم المتظاهرون الشرطة باستخدام القوة ضدهم، ووصفوا ذلك بأنه انتهاك للدستور والقانون ووثيقة حقوق الانسان التي كفلت هذا الحق للجميع.
</Text>
<Parse>1	الى	إلى	ADP	P---------	AdpType=Prep	2	case	_	_
2	ذلك	ذٰلك	PRON	SD----MS2-	Case=Gen|Gender=Masc|Number=Sing|PronType=Dem	0	root	_	_
3	,	,	PUNCT	G---------	_	2	punct	_	_
4	و	و	CCONJ	C---------	_	6	cc	_	_
5	ل	ل	ADP	P---------	AdpType=Prep	6	case	_	_
6	اليوم	يوم	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	11	obl	_	_
7	الثاني	ثاني	ADJ	A-----MS2D	Case=Gen|Definite=Def|Gender=Masc|Number=Sing	6	amod	_	_
8	على	على	ADP	P---------	AdpType=Prep	9	case	_	_
9	التوالي	توالي	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	6	nmod	_	_
10	,	,	PUNCT	G---------	_	9	punct	_	_
11	خرج	خرج	VERB	VP-A-3MS--	Aspect=Perf|Gender=Masc|Number=Sing|Person=3|Voice=Act	2	parataxis	_	_
12	امس	أمس	ADV	D---------	_	11	advmod	_	_
13	سكان	ساكن	NOUN	N------P1R	Case=Nom|Definite=Cons|Number=Plur	11	nsubj	_	_
14	احياء	حي	ADJ	A-----MP1I	Case=Nom|Definite=Ind|Gender=Masc|Number=Plur	13	amod	_	_
15	وسط	وسط	ADP	PI------4-	AdpType=Prep|Case=Acc	16	case	_	_
16	الخرطوم	خرطوم	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	11	obl	_	_
17	في	في	ADP	P---------	AdpType=Prep	18	case	_	_
18	مظاهرة	مظاهرة	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	11	obl	_	_
19	احتجاجا	احتجاج	NOUN	N------S4I	Case=Acc|Definite=Ind|Number=Sing	18	nmod	_	_
20	على	على	ADP	P---------	AdpType=Prep	21	case	_	_
21	الغاء	إلغاء	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	19	nmod	_	_
22	السلطات	سلطة	NOUN	N------P2D	Case=Gen|Definite=Def|Number=Plur	21	nmod	_	_
23	ميدانا	ميدأنا	X	U---------	_	22	nmod	_	_
24	عاما	عام	NOUN	N------S4I	Case=Acc|Definite=Ind|Number=Sing	23	obj	_	_
25	يعرف	عرف	VERB	VIIA-3MS--	Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|Person=3|VerbForm=Fin|Voice=Act	21	acl	_	_
26	ب	ب	ADP	P---------	AdpType=Prep	28	case	_	_
27	"	"	PUNCT	G---------	_	28	punct	_	_
28	ميدان	ميدان	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	25	obj	_	_
29	المولد	مولد	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	28	nmod	_	_
30	او	أو	CCONJ	C---------	_	31	cc	_	_
31	ميدان	ميدان	X	U---------	_	29	conj	_	_
32	عبد	عبد	X	U---------	_	33	nmod	_	_
33	المنعم	منعم	X	U---------	_	29	nmod	_	_
34	"	"	PUNCT	G---------	_	28	punct	_	_
35	ظل	ظل	AUX	VP-A-3MS--	Aspect=Perf|Gender=Masc|Number=Sing|Person=3|Voice=Act	36	cop	_	_
36	تاريخيا	تاريخي	ADJ	A-----MS4I	Case=Acc|Definite=Ind|Gender=Masc|Number=Sing	28	xcomp	_	_
37	مخصصا	مخصص	ADJ	A-----MS4I	Case=Acc|Definite=Ind|Gender=Masc|Number=Sing	36	amod	_	_
38	ل	ل	ADP	P---------	AdpType=Prep	39	case	_	_
39	اقامة	إقامة	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	36	nmod	_	_
40	احتفالات	احتفال	NOUN	N------P2R	Case=Gen|Definite=Cons|Number=Plur	39	nmod	_	_
41	سكان	ساكن	NOUN	N------P2R	Case=Gen|Definite=Cons|Number=Plur	40	nmod	_	_
42	مدينة	مدينة	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	41	nmod	_	_
43	الخرطوم	خرطوم	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	42	nmod	_	_
44	ب	ب	ADP	P---------	AdpType=Prep	45	case	_	_
45	الذكرى	ذكرى	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	39	obl	_	_
46	السنوية	سنوي	ADJ	A-----FS2D	Case=Gen|Definite=Def|Gender=Fem|Number=Sing	45	amod	_	_
47	ل	ل	ADP	P---------	AdpType=Prep	48	case	_	_
48	مولد	مولد	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	45	nmod	_	_
49	الرسول	رسول	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	48	nmod	_	_
50	صلى	صلى	VERB	VP-A-3MS--	Aspect=Perf|Gender=Masc|Number=Sing|Person=3|Voice=Act	45	acl	_	_
51	الله	الله	X	U---------	_	50	nsubj	_	_
52	على	على	ADP	P---------	AdpType=Prep	53	case	_	_
53	ه	هو	PRON	SP---3MS2-	Case=Gen|Gender=Masc|Number=Sing|Person=3|PronType=Prs	50	obj	_	_
54	و	و	CCONJ	C---------	_	55	cc	_	_
55	سلم	سلم	VERB	VP-A-3MS--	Aspect=Perf|Gender=Masc|Number=Sing|Person=3|Voice=Act	50	conj	_	_
56	,	,	PUNCT	G---------	_	55	punct	_	_
57	و	و	CCONJ	C---------	_	58	cc	_	_
58	اسفرت	أسفر	VERB	VP-A-3FS--	Aspect=Perf|Gender=Fem|Number=Sing|Person=3|Voice=Act	50	conj	_	_
59	مصادمات	مصادمة	NOUN	N------P4I	Case=Acc|Definite=Ind|Number=Plur	58	obj	_	_
60	عنيفة	عنيف	ADJ	A-----FS4I	Case=Acc|Definite=Ind|Gender=Fem|Number=Sing	59	amod	_	_
61	وقعت	وقع	VERB	VP-A-3FS--	Aspect=Perf|Gender=Fem|Number=Sing|Person=3|Voice=Act	59	acl	_	_
62	بين	بين	ADP	PI------4-	AdpType=Prep|Case=Acc	63	case	_	_
63	المتظاهرين	متظاهر	NOUN	N------P2D	Case=Gen|Definite=Def|Number=Plur	61	obl	_	_
64	و	و	CCONJ	C---------	_	65	cc	_	_
65	الشرطة	شرطة	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	63	conj	_	_
66	عن	عن	ADP	P---------	AdpType=Prep	67	case	_	_
67	اصابة	إصابة	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	61	obj	_	_
68	ثلاثة	ثلاثة	NUM	QV----M-2R	Case=Gen|Definite=Cons|Gender=Masc|NumForm=Word|NumValue=3	67	nummod	_	_
69	اشخاص	شخص	NOUN	N------P2I	Case=Gen|Definite=Ind|Number=Plur	68	nmod	_	_
70	على	على	ADP	P---------	AdpType=Prep	71	case	_	_
71	الاقل	أقل	ADJ	A-----MS2D	Case=Gen|Definite=Def|Gender=Masc|Number=Sing	67	amod	_	_
72	ب	ب	ADP	P---------	AdpType=Prep	73	case	_	_
73	اصابات	إصابة	NOUN	N------P2I	Case=Gen|Definite=Ind|Number=Plur	71	obl	_	_
74	متفاوتة	متفاوت	ADJ	A-----FS2I	Case=Gen|Definite=Ind|Gender=Fem|Number=Sing	73	amod	_	_
75	,	,	PUNCT	G---------	_	74	punct	_	_
76	و	و	CCONJ	C---------	_	28	cc	_	_
77	اتهم	اتهم	VERB	VP-A-3MS--	Aspect=Perf|Gender=Masc|Number=Sing|Person=3|Voice=Act	28	acl	_	_
78	المتظاهرون	ألمتظاهرون	ADJ	A-----MP1D	Case=Nom|Definite=Def|Gender=Masc|Number=Plur	77	nsubj	_	_
79	الشرطة	شرطة	NOUN	N------S1D	Case=Nom|Definite=Def|Number=Sing	78	nmod	_	_
80	ب	ب	ADP	P---------	AdpType=Prep	81	case	_	_
81	استخدام	استخدام	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	77	obj	_	_
82	القوة	قوة	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	81	nmod	_	_
83	ضد	ضد	ADP	PI------4-	AdpType=Prep|Case=Acc	84	case	_	_
84	هم	هو	PRON	SP---3MP2-	Case=Gen|Gender=Masc|Number=Plur|Person=3|PronType=Prs	81	obj	_	_
85	,	,	PUNCT	G---------	_	87	punct	_	_
86	و	و	CCONJ	C---------	_	87	cc	_	_
87	وصفوا	وصفوا	VERB	VP-A-3MP--	Aspect=Perf|Gender=Masc|Number=Plur|Person=3|Voice=Act	77	conj	_	_
88	ذلك	ذٰلك	PRON	SD----MS4-	Case=Acc|Gender=Masc|Number=Sing|PronType=Dem	87	obj	_	_
89	ب	ب	ADP	P---------	AdpType=Prep	92	case	_	_
90	ان	أن	CCONJ	C---------	_	92	mark	_	_
91	ه	هو	PRON	SP---3MS4-	Case=Acc|Gender=Masc|Number=Sing|Person=3|PronType=Prs	92	nsubj	_	_
92	انتهاك	انتهاك	NOUN	N------S1I	Case=Nom|Definite=Ind|Number=Sing	87	obj	_	_
93	ل	ل	ADP	P---------	AdpType=Prep	94	case	_	_
94	الدستور	دستور	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	92	nmod	_	_
95	و	و	CCONJ	C---------	_	96	cc	_	_
96	القانون	قانون	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	94	conj	_	_
97	و	و	CCONJ	C---------	_	98	cc	_	_
98	وثيقة	وثيقة	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	92	conj	_	_
99	حقوق	حق	NOUN	N------P2R	Case=Gen|Definite=Cons|Number=Plur	98	nmod	_	_
100	الانسان	إنسان	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	99	nmod	_	_
101	التي	الذي	DET	SR----FS2-	Case=Gen|Gender=Fem|Number=Sing|PronType=Rel	99	cc	_	_
102	كفلت	كفل	VERB	VP-A-3FS--	Aspect=Perf|Gender=Fem|Number=Sing|Person=3|Voice=Act	99	acl	_	_
103	هذا	هٰذا	PRON	SD----MS4-	Case=Acc|Gender=Masc|Number=Sing|PronType=Dem	104	det	_	_
104	الحق	حق	NOUN	N------S4D	Case=Acc|Definite=Def|Number=Sing	102	obj	_	_
105	ل	ل	ADP	P---------	AdpType=Prep	106	case	_	_
106	الجميع	جميع	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	102	obj	_	_
107	.	.	PUNCT	G---------	_	2	punct	_	_
</Parse></Sentence>

Another one :

<Sentence date="20170715" id="AAW_ARB_20070106.0022-13" sentence="True" source="unidentified">
<Text>
وخرج المتظاهرون المسلمون الى الشوارع في سريناجار العاصمة الصيفية لولاية جامو وكشمير التي تقطنها أغلبية سنية مرددين هتافات منها «يسقط بوش».
</Text>
<Parse>1	و	و	CCONJ	C---------	_	0	root	_	_
2	خرج	خرج	VERB	VP-A-3MS--	Aspect=Perf|Gender=Masc|Number=Sing|Person=3|Voice=Act	1	parataxis	_	_
3	المتظاهرون	ألمتظاهرون	NOUN	N------P1D	Case=Nom|Definite=Def|Number=Plur	2	nsubj	_	_
4	المسلمون	مسلم	ADJ	A-----MP1D	Case=Nom|Definite=Def|Gender=Masc|Number=Plur	3	amod	_	_
5	الى	إلى	ADP	P---------	AdpType=Prep	6	case	_	_
6	الشوارع	شارع	NOUN	N------P2D	Case=Gen|Definite=Def|Number=Plur	2	obl	_	_
7	في	في	ADP	P---------	AdpType=Prep	8	case	_	_
8	سريناجار	سريناجار	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	2	obl	_	_
9	العاصمة	عاصمة	NOUN	N------S2D	Case=Gen|Definite=Def|Number=Sing	8	nmod	_	_
10	الصيفية	صيفي	ADJ	A-----FS2D	Case=Gen|Definite=Def|Gender=Fem|Number=Sing	9	amod	_	_
11	ل	ل	ADP	P---------	AdpType=Prep	12	case	_	_
12	ولاية	ولاية	NOUN	N------S2R	Case=Gen|Definite=Cons|Number=Sing	9	nmod	_	_
13	جامو	جامو	X	X---------	Foreign=Yes	12	nmod	_	_
14	و	و	CCONJ	C---------	_	15	cc	_	_
15	كشمير	كشمير	NOUN	N------S4I	Case=Acc|Definite=Ind|Number=Sing	13	conj	_	_
16	التي	الذي	PRON	SR----FS4-	Case=Acc|Gender=Fem|Number=Sing|PronType=Rel	9	cc	_	_
17	تقطن	تقطن	VERB	VIJA-3FS--	Aspect=Imp|Gender=Fem|Mood=Jus|Number=Sing|Person=3|VerbForm=Fin|Voice=Act	9	acl	_	_
18	ها	هو	PRON	SP---3FS4-	Case=Acc|Gender=Fem|Number=Sing|Person=3|PronType=Prs	17	obj	_	_
19	اغلبية	أغلبية	NOUN	N------S1R	Case=Nom|Definite=Cons|Number=Sing	17	nsubj	_	_
20	سنية	سنية	ADJ	A-----FS1I	Case=Nom|Definite=Ind|Gender=Fem|Number=Sing	19	amod	_	_
21	مرددين	مرددين	X	U---------	_	22	nmod	_	_
22	هتافات	هتاف	X	U---------	_	20	nmod	_	_
23	من	من	ADP	P---------	AdpType=Prep	24	case	_	_
24	ها	هو	PRON	SP---3FS2-	Case=Gen|Gender=Fem|Number=Sing|Person=3|PronType=Prs	22	nmod	_	_
25	"	"	PUNCT	G---------	_	26	punct	_	_
26	يسقط	يسقط	ADV	D---------	_	2	advmod	_	_
27	بوش	بوش	X	X---------	Foreign=Yes	26	nsubj	_	_
28	".	".	PUNCT	G---------	_	27	punct	_	_
</Parse></Sentence>

@PTB-OEDA
Copy link
Member

PTB-OEDA commented Oct 19, 2018 via email

@khaledJabr
Copy link
Author

@PTB-OEDA The underlying issue is in the output of UP. UP outputs to an evts.OUT_FILE_NAME file, and each row contains the following (from left to right) :

story_date, source code, target code, event code, sentence_ID, sentence_ID(repeated), story_source, source actor text, target actor text, event text

In my very first example, UP outputted - * [0831] # تنحى (which is a rule from our dictionaries) as an event text (or source/target text), which does not make much sense. It might be a output error, but we're suspecting it might also be an internal UP error in the way it handles dictionaries or the way it does verb matching.

@ahalterman
Copy link
Member

We raised this issue back in June, too (#33) when it was occurring in English. It's possible there are errors in both dictionaries, but this is also perhaps some indication that it's a UP problem.

@PTB-OEDA
Copy link
Member

PTB-OEDA commented Oct 19, 2018 via email

@JingL1014
Copy link
Collaborator

JingL1014 commented Oct 25, 2018

I found the error is partially due to the fact that the source, target actor text is not kept track in the pattern matching phase (the source, target actor code is updating). I fixed some, but am still working on keeping track of source, target actor text when a transformation pattern is matched.

Also, I am thinking to reformat the output event text as follows for better visualization:
1
Is this format acceptable? I generate this using Pandas package, or is there any other suggestion for the output format.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants