CEG - Cronfa Electroneg o Gymraeg
Llunio yn wreiddiol gan Ellis, N. C., O'Dochartaigh, C., Hicks, W., Morgan, M., & Laporte, N. ym Mhrifysgol Bangor yn 2001:
https://www.bangor.ac.uk/canolfanbedwyr/ceg.php.cy
Trosi i fformat CWB/CQP gan Jonathan Jones ym Mhrifysgol Georgia
Electronic Corpus of Welsh
Originally compiled by Ellis, N. C., O'Dochartaigh, C., Hicks, W., Morgan, M., & Laporte, N. at the University of Bangor in 2001:
https://www.bangor.ac.uk/canolfanbedwyr/ceg.php.en
Converted to CWB/CQP format by Jonathan Jones at the University of Georgia
Maint / Size:
1,223,383 o enghreifftiau / tokens
49,479 o fathau / types
Ystorfa
Mae'r ystorfa yma'n cynnwys y ffeiliau testun codio gwreiddiol o'r CEG ac cyfres o sgriptiau sy'n trosi'r ffeiliau CEG i fformat sy'n gytûn gyda Open Corpus Work Bench a CQP. I ddefnyddio'r sgriptiau eich hun, bydd rhaid i chi osod Perl, R, a CWB a rhaid i chi'n defnyddio Unix. Bydd rhaid i chi osod y modiwl Perl Text::CSV hefyd.
Pan pob gofyniad yn cael ei fodlon, dechreuwch build.sh ac bydd y corffws yn trosi i fformat CWB a bydd y ffeiliau ar gael yn y cyfeiriadur cwb_out. Symudwch y cyfeiriadur data i eich lle corffws ac y ffeil ceg yn y cyfeiriadur registry i eich registry CWB. Efallai bydd rhaid i chi newid y llinellau HOME ac INFO yn y ffeil registry, yn dibynnu ar ble oeddech chi'n symud y cyfeiriadur data.
Repository
This repository contains the original coded text files from the CEG and a series of scripts with which to convert the CEG into a format that is compatible with the Open Corpus Work Bench and CQP. To run these scripts yourself, you need to have Perl, R, and CWB installed and you must be running on a Unix machine. The Text::CSV Perl module must also be installed.
When all of the dependencies are met, run build.sh, and the corpus will be converted to CWB format and files will be available in the cwb_out folder. Move the data directory to wherever you store your corpora, and the ceg file in the registry directory to your CWB registry. You may need to change the HOME and INFO lines in the registry file depending on where you put the data directory.
Defnyddio'r corffws
Mae tagiau am awdur, teitl, dyddiad, math, a genre gyda'r testunau. Mae brawddegau eu tagio hefyd ar sail atalnodiad, ond dydw i ddim yn gallu gwarantu cywirdeb. Mae'r acenion yn ymddangos ar ôl y llafariad (+ = acen grom, % = didolnod, / = acen acíwt, \ = acen ddisgynedig)
Mae'r priodoleddau lleoliadol yn dod o'r ffeiliau testun gwreiddiol.
- Gair (word)
- Rhan ymadrodd (pos)
- Yn defnyddio'r diffiniadau y ffeiliau testun gwreiddiol gyda ffurfiau ferf o'r maes lema gwreiddiol.
- Lema (lemma)
- Treiglad (mut)
- dim
- meddal
- llaes
- trwynol
- h-llaf
Using the corpus
Texts are tagged for author, title, year, type, and genre. Sentences are also tagged based on punctuation, but accuracy cannot be guaranteed. Accents are placed after the vowel (+ = circumflex, % = diaeresis, / = acute accent, \ = grave accent)
Positional attributes come from the original text files.
- Word (word)
- Part of speech (pos)
- Uses the original text files' definitions plus verb forms included in the lemma field in the original files.
- Lemma (lemma)
- Mutation (mut)
- none (dim)
- soft (meddal)
- aspirate (llaes)
- nasal (trwynol)
- h-prothesis (h-llaf)