Difference between revisions of "Fix before version 1.0"

From Icelandic Parsed Historical Corpus (IcePaHC)
Jump to: navigation, search
(Additional sanity checks)
(Additional sanity checks)
Line 571: Line 571:
  
 
12. ip-inf3.q could be: IP-INF* idoms finite_verb
 
12. ip-inf3.q could be: IP-INF* idoms finite_verb
 +
 +
13. NP* idoms verb
  
 
==A few sentences that might need to be looked at==
 
==A few sentences that might need to be looked at==
  
 
1. '''fyrstan''' in 1450.vilhjalmur.2239: hjó fyrstan þann kappa
 
1. '''fyrstan''' in 1450.vilhjalmur.2239: hjó fyrstan þann kappa

Revision as of 11:28, 10 October 2011

Below are errors found in v0.9 that need to be dealt with.

Sanity checks

bad-advp.q

(ADVP* idoms ADV) AND (ADVP* idoms RP)

Fix: En þeir Pálnatóki og Sveinn röru út eftir (1260.JOMSVIKINGAR.NAR-SAG,.1358)

Þegar þing$ $inu sleit og þeir feðgar fóru heimleiðis heyrða ég getið eftir þeim skyggnu að líka hefði sést þar merki til að djöflagangur$ $inn hefði þá inn eftir sveimað og sést hefði (1659.PISLARSAGA.BIO-AUT,.259)

og fékk sá er þar upp á vakta skyldi sléttar þakkir fyrir umhirðing sína .-. (1791.JONSTEINGRIMS.BIO-AUT,139.1108)

ég skal reyna að staulast með þér fram eftir ,-, ef þú vilt .-. (1850.PILTUR.NAR-FIC,.1252)

maddama góð ,-, ég dróst hingað fram eftir með honum Guðmundi mínum ,-, rétt að gamni mínu ,-, (1850.PILTUR.NAR-FIC,.1356)

Við glugga þar rétt uppi yfir sat Ragnheiður litla ,-, dóttir biskups ,-, (1882.TORFHILDUR.NAR-FIC,.1444)

(PP (P Við-við)
    (NP (N-A glugga-gluggi)
        (ADVP (ADV þar-þar) (ADV rétt-rétt) (ADV uppi-uppi) (RP yfir-yfir))))

svo aftur varð ungu mönnu$ $num í dal$ $num ,-, að líta löngum augum upp eftir til hans Brands á Fossi .-. (1902.FOSSAR.NAR-FIC,.11)

Vegur$ $inn frá Grund og þangað fram er drjúgum langur ,-, (1902.FOSSAR.NAR-FIC,.866)

til þess að ræða við hann um það ,-, sem fram undan sé ,-, burtför hans úr þessum heimi ,-, er fyrir honum liggi að leiða til lykta í Jerúsalem .-. (1920.ARIN.REL-SER,.713)

og hún heimtaði að ég kæmi inn fyrir og fengi kaffi .-. (1985.MARGSAGA.NAR-FIC,.118)

og ég strauk höndu$ $num niður eftir hrygg$ $num og aftur upp (2008.MAMMA.NAR-FIC,.486)

bad-argument.q

(!IP*|VP|RRC*|FRAG iDoms *-SBJ*|*-OB[12]*)

Why is FRAG a part of this query?

This sanity check found this QTP, where the NPs were marked NP-SBJ, NP-OB1, NP-OB2. The verb gera/gjöra is probably missing but I think we can't mark these NPs as arguments without it:

Ó ,-, drottinn minn jesús kristus ,-, þakkir eg þér af öllum mætti .-. (1525.ERASMUS.NAR-SAG,.131)

This sanity check found the FS (false start) item NP-SBJ þið. According to the PPCEME guidelines, "[w]ithin a false start, internal structure is indicated as far as is feasible." However, I think this does not necessarily extend to single NPs, so I have changed FS idoms NP-SBJ to FS idoms NP.

Hvort þið ætlið þið að ég muni að heldur vilja trúa á þann krossfesta Cristum er þessi maður boðar af .-. (1525.GEORGIUS.NAR-REL,.1032)

Similarly, although this echo question clearly shows a subject and an object, the NPs cannot be tagged as arguments in the QTP.

"-" Þér beðið hennar ?-? "-" (1888.VORDRAUMUR.NAR-FIC,.444)

And although the ADJP in the following can have the dash tag -LOC (ADJP-LOC), the NP must be bare, i.e. cannot be NP-SBJ:

Skratt$ $inn fjarri mér .-. (1908.OFUREFLI.NAR-FIC,.852)

The NP in the following heading/title is obviously a subject, but still it must be parsed as NP but not NP-SBJ.

Konu saknað (1985.MARGSAGA.NAR-FIC,.708)

Another example of internal structure of QTP I changed (NP-OB1 > NP; NP-SBJ > NP):

- Bara ,-, Ekkert ,-, Við Tómas .-. (2008.MAMMA.NAR-FIC,.1459)

bad-cp-adv.q

(CP-ADV* exists) AND (!IP*|PP*|$ROOT|CONJP*|CP-ADV* idoms CP-ADV*)

Why isn't QTP included here?

Are the following the right parse for CP-ADV?

( (IP-MAT (PP (P Í-í)
	      (NP (N-D nafni-nafn)
		  (NP-POS (N-G samhljóðanda-samhljóðandi)
			  (Q-G hvers-hver)
			  (CP-ADV (CODE {COM:unsure_of_parse})
				  (WADVP-1 0)
				  (C sem-sem)
				  (IP-SUB (ADVP *T*-1)
					  (ADVP (ADV eins-eins)))))))
				      (NP (NP-MSR (PRO-D því-það))
					  (ADJR-D frekara-frekur)
					  (N-D fylgi-fylgi)
					  (CONJP (CONJ og-og)
						 (NX (N-D framkvæmd-framkvæmd)))
					  (CP-ADV (WADVP-3 0)
						  (C sem-sem)
						  (IP-SUB (ADVP *T*-3)
							  (NP-SBJ (PRO-N hann-hann))
							  (BEDI var-vera)
							  (NP-PRD (QR-N meiri-mikill)
								  (N-N skörungur-skörungur)
								  (NP-CMP (D-D hinum-hinn)))
							  (PP (P að-að)
							      (NP (N-D lærdómi-lærdómur) (CONJ og-og) (N-D röggsemd-röggsemd))))))))))
	  (. .-.))
  (ID 1725.BISKUPASOGUR.NAR-REL,.141))
( (IP-MAT (IP-MAT-1 (PP (P Um-um)
			(NP (Q-A allt-allur) (D-A þetta-þessi)))
		    (MDDS skyldu-skulu)
		    (DO gerast-gera)
		    (NP-SBJ (NUM-N 3-þrír) (NS-N genpartar-genpartur))
		    (, ,-,)
		    (PP (P með-með)
			(NP (NP-POS (PRO-G þeirra-hann)
				    (ADVP (CP-ADV (CODE *XXX*)
						  (WADVP-2 0)
						  (C sem-sem)
						  (IP-SUB (ADVP *T*-2)
							  (ALSO og-og)
							  (NP-POS (NUM-G tveggja-tveir) (ADJ-G erlegra-erlegur) (NS-G manna-maður))))))
			    (NS-D undirskriftum-undirskrift)))

Should the CP-ADV here be CP-FRL?

( (IP-MAT (CONJ en-en)
	  (NP-SBJ (PRO-N hann-hann))
	  (VBDI sagði-segja)
	  (NP-OB1 (CODE *XXX*)
		  (CP-ADV (WADVP-1 0)
			  (C sem-sem)
			  (IP-SUB (ADVP *T*-1)
				  (NP-SBJ *exp*)
				  (VBN farið-fara)
				  (HVDI hafði-hafa)))))
  (ID 1450.VILHJALMUR.NAR-SAG,14.198))

In the following, shouldn't CP-CMP idominate IP-SUB and IP-SUB idominate CP-THT (not CP-ADV). I also don't think that the ADVP-TMP is moved from within the CP-ADV.

( (IP-MAT (ADVP (ADVR Svo-svo)
		(CP-CMP (WADVP-1 0)
			(C sem-sem)
			(ADVP-TMP-2 (ADV nú-nú))
			(CODE {COM:unsure})
			(CP-ADV (C að-að)
				(IP-SUB (WADVP *T*-1)
					(ADVP-TMP *ICH*-2)
					(NP-SBJ (NPR-N Jón-jón)
						(N-N stjúpsonur-stjúpsonur)
						(NP-POS (PRO-N minn-minn)))
					(BEDI var-vera)
					(ADJP (ADJ-N laus-laus))
					(PP (P í-í)
					    (NP (Q-D öllu-allur)
						(NP-POS (PRO-D sínu-sinn))
						(N-D ráði-ráð)))))))
	  (VBDI ráðfærði-ráðfæra)
	  (NP-SBJ (PRO-N eg-ég))
	  (NP-OB1 (PRO-A mig-ég))
...
  (ID 1791.JONSTEINGRIMS.BIO-AUT,157.1472))

bad-cp-frl-1.q

(!ADJP-SPR|ADVP*|NP*|CP-FRL*|CONJP idoms CP-FRL*)

There are 9 instances of PP idominating CP-FRL (which is not ruled out, see discussion here). Now the question is whether cases like the following have the right parse, that is PP idoms CP-FRL.

( (IP-MAT (IP-MAT-1 (NP-SBJ (N-N Geirmundur-geirmundur))
		    (BEDI var-vera)
		    (ADJP (ADJP (ADJ-N bráðþroska-bráðþroska))
			  (CONJP (CONJ og-og)
				 (NP (NP-POS (N-G frískleika-frískleiki))
				     (N-N piltur-piltur))))
		    (, ,-,)
		    (PP (CP-FRL (WPP-2 (P til-til)
				       (WNP (WPRO-G hvers-hver)))
				(C sem-sem)
				(IP-SUB (PP *T*-2)
					(NP-SBJ (PRO-N hann-hann))
					(VBDI gekk-ganga)))))

bad-cp-rel.q

([1]CP-REL|CP-DEG|CP-DEG-SPE|CP-REL-SPE exists) AND (IP*|PP*|$ROOT idoms [1]CP-REL|CP-DEG|CP-DEG-SPE|CP-REL-SPE)

Is the following parse alright (CP-REL on clause level)?

( (IP-IMP-SPE (CONJ og-og)
	      (VBPI gleðjist-gleðja)
	      (ADVP-TMP (ADV ei-ei) (CONJ og-og) (ADV ei-ei))
	      (PP (P í-í)
		  (NP (N-D augliti-auglit)
		      (NP-POS (PRO-D mínu-minn))))
	      (, ,-,)
	      (CODE {COM:on_empty_imp_subject})
	      (CP-REL-SPE (WNP-1 0)
			  (C er-er)
			  (IP-SUB-SPE (NP-SBJ *T*-1)
				      (ADVP-TMP (ADVR fyrr-fyrr))
				      (DODI gerðuð-gera)
				      (NP-OB1 (NP-POS (PRO-A minn-minn))
					      (N-A vilja-vilji))))
	      (. .-.)
	      (" "-"))
  (ID 1150.HOMILIUBOK.REL-SER,.1060))

Is this OK?

			  (IP-SUB (NP-SBJ *T*-1)
				  (HVDI hafði-hafa)
				  (VBN veitt-veita)
				  (NP-OB2 (NPR-A Gretti-grettir))
				  (, ,-,)
				  (PP (P við-við)
				      (NP (SUCH-A slíkt-slíkur) (N-A ofurefli-ofurefli))
				      (CP-REL (WPP-2 0)
					      (C sem-sem)
					      (IP-SUB (NP-SBJ (PRO-N hann-hann))
						      (VBDI átti-eiga)
						      (IP-INF (PP *T*-2)
							      (TO að-að)
							      (VB eiga-eiga)))))))))
	  (. .-.))
  (ID 1310.GRETTIR.NAR-SAG,.1265))

bad-double-nom.q

TTT-problem?

	      (CP-THT-SPE-PRN-2 (C að-að)
				(IP-SUB-SPE (NP-OB1 (N-A vald-vald)
						    (CONJ og-og)
						    (N-A skipan-skipan)
						    (, ,-,)
						    (N-A forræði-forræði)
						    (CONJ og-og)
						    (N-N varðveisla-varðveisla)
						    (CODE {strange_nominative})
						    (NP-POS (NPR-G Oddastaðar-oddastaður)
							    (CONJ og-og)
							    (NPR-G Ólafskirkju-ólafskirkja)
							    (PP (P í-í)
								(NP (NPR-D Vatnsfirði-vatnsfjörður))))

Strange sentence (look at the NP-ADV - is this really the right parse?; NP-MSR would also be pretty strange but probably a better parse):

	      (CP-THT-SPE-PRN-1 (C að-að)
				(IP-SUB-SPE (CODE {COM:unsure_of_meaning})
					    (NP-OB1 (ADJ-N ófært-ófær)
						    (N-N lið-lið)
						    (NP-PRN (CONJ bæði-bæði)
							    (NP (N-N kerling$-kerling)
								(D-N $in-hinn)
								(, ,-,)
								(NP-PRN (N-N móðir-móðir)
									(NP-PRN (FW Darii-darius))))
							    (, ,-,)
							    (CONJP (CONJ og-og)
								   (NP (NS-N dætur-dóttir)
								       (NP-POS (PRO-G hans-hann))))))
					    (BEPS sé-vera)
					    (VAN gefið-gefa)
					    (ADVP-DIR (ADV aftur-aftur))
					    (NP-SBJ (NPRS-D Serkjum-serki))
					    (CODE *XXX*)
					    (NP-ADV (QP (ADVR svo-svo) (Q-N mikið-mikill))
						    (N-N gull-gull)
						    (, ,-,)
						    (CP-CMP-SPE (WNP-2 0)
								(C sem-sem)
								(IP-SUB-SPE (NP-SBJ *T*-2)
									    (ADVP-LOC (ADV þar-þar))
									    (BEPI er-vera)
									    (PP (P í-í)
										(NP (N-D móti-mót)))
									    (VAN boðið-bjóða))))))
	      (, ,-,)

bad-hver.q

Are these parses OK (look at NP-SBJ hver) or is it simply a quantifier?

( (IP-MAT (CONJ og-og)
	  (NP-SBJ *con*)
	  (VBDI sagði-segja)
	  (ADVP-TMP (ADV þá-þá))
	  (CP-QUE (WNP-1 (WPRO-A hvað-hver))
		  (C 0)
		  (IP-SUB (NP-OB1 *T*-1)
			  (NP-SBJ (WPRO-N hver-hver))
			  (MDDS skyldi-skulu)
			  (RP að-að)
			  (DO gera-gera)))
	  (, ,-,)
							    (CONJP (ADVP (ADV svo-svo))
								   (ALSO og-og)
								   (NP (N-A prófan-prófan)
								       (CONJ og-og)
								       (N-A dóm-dómur)
								       (CP-QUE-PRN (WADVP-7 (WADV hversu-hversu))
										   (C 0)
										   (IP-SUB (NP-SBJ (WPRO-N hver-hver))
											   (BEPI er-vera)
											   (ADVP (ADVP *T*-7)
												 (ADV löglega-löglega))
											   (PP (P til-til)
											       (NP (N-G arfs-arfur)))
											   (VBN kominn-koma))))))))
			(CONJP (ADVP (ADV svo-svo))
			       (ALSO og-og)
			       (PP (P um-um)
				   (NP (N-A dóm-dómur)
				       (CONJ og-og)
				       (N-A prófan-prófan)
				       (CP-QUE-PRN (WADVP-4 (WADV hversu-hversu))
						   (C 0)
						   (IP-SUB (ADVP *T*-4)
							   (NP-SBJ (WPRO-N hver-hver))
							   (BEPI er-vera)
							   (ADVP (ADV löglega-löglega))
							   (PP (P til-til)
							       (NP (N-G arfs-arfur)))
							   (VAN getinn-geta))))))
(IP-SUB-SPE (NP-SBJ (PRO-N þér-þú))
	    (VBPI viðið-vita)
	    (NP-OB1 (PRO-A það-það)
		    (CP-THT-SPE-PRN *ICH*-6))
	    (ADVP (ADV vel-vel))
	    (, ,-,)
	    (CP-THT-SPE-PRN-6 (C að-að)
			      (IP-SUB-SPE (IP-SUB-SPE (NP-ADV-LFD (CP-FRL-SPE (WADJP (WADV hversu-hversu) (ADJ-N megtugur-megtugur))
																					       (C að-að)
																					       (IP-SUB-SPE (NP-SBJ (WPRO-N hver-hver))
																							   (BEPI er-vera)
																							   (PP (ADV hér-hér)
																							       (P á-á)
																							       (NP (N-D jörðu-jörð))))))
( (IP-MAT (CONJ og-og)
	  (NP-SBJ *exp*)
	  (MDDI mátti-mega)
	  (ADVP-DIR (ADV þaðan-þaðan))
	  (VB sjá-sjá)
	  (PP (RP inn-inn)
	      (P um-um)
	      (NP (Q-A allt-allur) (N-A hús$-hús) (D-A $ið-hinn)))
	  (, ,-,)
	  (CP-QUE (WNP-1 (WPRO-N hvað-hver))
		  (C 0)
		  (IP-SUB (NP-OB1 *T*-1)
			  (NP-SBJ (WPRO-N hver-hver))
			  (VBDI tók-taka)
			  (NP-OB2 (PRO-D sér-sig))
			  (PP (P fyrir-fyrir)
			      (NP (NS-A hendur-hönd)))))
	  (. .-.))
  (ID 1882.TORFHILDUR.NAR-FIC,135.1918))


More examples:

( (IP-MAT (NEG Eigi-ekki)
	  (BEPI er-vera)
	  (ADVP-LOC (ADV hér-hér))
	  (VAN greint-greina)
	  (CP-QUE (WNP-1 (WD-N hver-hver)
			 (NP-POS (NS-G vopna-vopn))
			 (NS-N skipti-skipta))
		  (C 0)
		  (IP-SUB (NP-SBJ *T*-1)
			  (PP (P með-með)
			      (NP (WPRO-D hverjum-hver)))
			  (BEDI voru-vera))))
  (ID 1450.VILHJALMUR.NAR-SAG,72.1447))
				  (NP-PRN (CONJ-2 (CODE *XXX*)
						  (OTHER-A annað-annar)
						  (WPRO-A hvert-hver))
					  (N-N líkneski-líkneski)
( (IP-MAT-SPE (ADVP-TMP (ADV nú-nú))
	      (VBDI skildi-skilja)
	      (NP-SBJ (PRO-N hann-hann))
	      (ADVP (ADV auðvitað-auðvitað))
	      (PP (NP (WPRO-G hvers-hver))
		  (P vegna-vegna))
	      (. .-.))
  (ID 1985.MARGSAGA.NAR-FIC,.1253))
( (FRAG (PP (P Af-af)
	    (NP (WPRO-D hverju-hver)))
	(IP-INF (RP af$-af)
		(VB $sala-sala)
		(NP-OB2 (PRO-D sér-sig))
		(NP-OB1 (N-D veröld-veröld)
			(NP-POS (N-G barns$-barn) (D-G $ins-hinn))))
	(. ?-?))
  (ID 1985.SAGAN.NAR-FIC,.810))
		    (PP (P þótt-þótt)
			(CP-ADV (C 0)
				(IP-SUB (NP-OB1 (PRO-N það-það)
						(CP-QUE-PRN *ICH*-2))
					(BEPS sé-vera)
					(NP-SBJ (MAN-D manni-maður))
					(ADVP (ADV kannski-kannski))
					(NEG ekki-ekki)
					(ADVP (ADVS efst-efra))
					(PP (P í-í)
					    (NP (N-D huga-hugi)))
					(NP-TMP (Q-A alla-allur) (NS-A daga-dagur))
					(CP-QUE-PRN-2 (WNP-3 (WPRO-N hver-hver))
						      (C 0)
						      (IP-SUB (NP-SBJ *T*-3)
							      (VBDI vó-vega)
							      (NP-OB1 (WPRO-A hvern-hver))
							      (PP (P fyrir-fyrir)
								  (NP (NUM-D tveimur-tveir) (NS-D áratugum-áratugur)))))))))

Adverbs, particles or ...

1. Fram in fram og aftur and aftur og fram is usually tagged as RP. Is that the right way? (Similarly, I changed niður from RP to ADV in the ADVP norður og niður.)

2. There is a lot of inconsistency in how we parse hér inn, hér inni, þar inn, þar inni. Sometimes these are parsed as ADVP (hér, þar) idominated by PP (inn(i)); sometimes ADVP iprecedes RP. How do we do this?

3. How do we parse fram hjá einhverjum (hann fór fram hjá mér) and fram hjá (hann fór fram hjá)? Similar problem is fram undan.

ECM

	  (PP (P á-á)
	      (NP (D-A þetta-þessi)
		  (N-A hervirki-hervirki)
		  (CP-REL (WNP-2 0)
			  (C er-er)
			  (IP-SUB (NP-SBJ (PRO-N vér-ég))
				  (VBPI trúum-trúa)
				  (NP-OB1 (NP-POS (PRO-A vora-vor))
					  (NS-A menn-maður))
				  (IP-INF (NP-OB1 *T*-2)
					  (VBN þolað-þola)
					  (HV hafa-hafa)
					  (PP (P í-í)
					      (NP (NP-POS (NS-G synda-synd))
						  (N-A gjald-gjald)))
...
  (ID 1350.MARTA.REL-SAG,.859))

Passive

1. Is it possible to tag the IP-MAT-SPE in the following as the subject and skip the expletive?

				      (ADVP (ADV svo-svo)
					    (CP-CMP-SPE (WADVP-2 0)
							(C sem-sem)
							(IP-SUB-SPE (ADVP *T*-2)
								    (NP-SBJ *exp*)
								    (PP (P í-í)
									(NP (ADJS-D fyrsta-fyrri) (N-D sálmi-sálmur)))
								    (VAN skrifað-skrifa)
								    (BEPI er-vera)
								    (, :-:)
								    (IP-MAT-SPE (NP-SBJ (PRO-N Þú-þú))
										(BEPI ert-vera)
										(NP-PRD (NP-POS (PRO-N minn-minn))
											(N-N son-sonur))))))))
	      (. ,-,))
  (ID 1540.NTACTS.REL-BIB,265.853))

Expletives

ES not in the first place.

Various inconsistencies and errors

Það fyrst as in:

Það fyrst að þér megi þetta ekki í hug vera er þú ert fulltíða. (1400.viglundur.352)
En það hið þriðja að fyrir má bíta að ég sé mín eigi ráðandi (1400.viglundur.356)

VAN|VB idoms RP

allt saman

OTHER+WPRO-N (annaðhvort) or OTHER+WPRO

megi in subjunctive or indicative?

megin (as in hinumegin (hinum megin) -- dative? NP-ADV?

I have been fixing NP-ADV nokkuð to NP-MSR in some places, as in Er ég það nokkuð (nökkuð), án þess hann gæti nokkuð áttað sig

PP idoms PRO

klukkan tíu

Predicate idoms quantifier (Q-*) -- is this ADJP or NP-PRD?

aftur -- bare ADVP or either ADVP-DIR or ADVP-TMP (depending on the context)

Eiga einhverjum eitthvað að þakka (CP-EOP sometimes, as in 1835.jonasedli.77)

CP-REL þar sem -- either WADV or ADV

IP-INF* idoms BE (heyrist honum vera gengið inn í skemmuna - 1850.piltur.1148; hann sagðist vera ...)

Additional sanity checks

1. CP-THT idoms C idoms sem

2. NP-POS idoms NP-POS, CONJP idoms NP-POS

3. IP*PRN idoms NP-SBJ idoms con

4. (ADJP* idomsonly {1}ADV|ADVR|ADVS)

5. CP* idoms NP|CONJ

6. ADV* idoms *-meira|*-nokkuð|*-nokkur ...

7. NP-MSR that might be NP-PRD (1450.vilhjalmur.2311)

8. CONJP idoms C

9. Update bad-hver2.q (search for the lemma, not hver*|HVER*|Hver*)

10. CP* idoms !IP*

11. bad-ich-trace.q is (CP* iDoms W*) AND (W* sameIndex \*ICH\**); but we could also search for (CP* iDoms W*) AND (W* sameIndex \*ICH\**)

12. ip-inf3.q could be: IP-INF* idoms finite_verb

13. NP* idoms verb

A few sentences that might need to be looked at

1. fyrstan in 1450.vilhjalmur.2239: hjó fyrstan þann kappa