(click here to read the README in English)
Mae sgriptiau i fireinio amrywiaeth o fodelau sydd wedi eu rhag-hyfforddi ac ar gael o hwb modelau HuggingFace.
run_xlsr-large-53.sh
- i fireinio modelau cyntaf wav2vec2 amlieithog gan Facebook : facebook/wav2vec2-large-xlsr-53 yn ogystal a chreu ac optimeiddio model iaith KenLMrun_xls-r-1b.sh
- i fireinio modelau wav2vec2 amlieithog mwy : facebook/wav2vec2-xls-r-1b yn ogystal a chreu ac optimeiddio model iaith KenLMrun_en_cy.sh
- mireinio facebook/wav2vec2-large-xlsr-53 ar gyfer model adnabod lleferydd acwstig yn unig ond yn ddwyieithog.run_base-cy.sh
- mireinio model arbrofol sydd wedi ei rhag-hyfforddi gan uned techiaith gyda rhagor o sain lleferydd Cymraeg yn ogystal a chreu ac optimeiddio model iaith KenLM ategol.
Datblygwyd y sgriptiau cyntaf ar gyfer y Gymraeg yn ystod wythnos fireinio i ieithoedd llai eu hadnoddau gan HuggingFace.
Adeiladwyd a ddefnyddiwyd is-setiau ein hunain o ddata Common Voice Cymraeg a Saesneg gan Mozilla ar gyfer mireinio'r modelau mwyaf effeithiol. Gweler https://github.com/techiaith/docker-commonvoice-custom-splits-builder.
Mae'r project yn cynnwys sgriptiau i hyfforddi modelau iaith KenLM gyda thestun o gorpws broject OSCAR ar wefan Datasets HuggingFace a'u optimeiddio o fewn ddull dadgodio CTC. (rydym wedi integreiddio Parlance CTC Decode gyda HuggingFace i alluogi wella canlyniadau gyd chymorth modelau iaith)
$ make
$ make run
Er mwyn llwytho i lawr data Common Voice, mae angen i chi greu ffeil Python i gynnwys yr URL. Mae enghraifft/templed i'w weld yn y ffeil cv_version.template.py
. Nodwch enw'r ffeil (heb yr estyniad .py
) o fewn y sgript hoffwch ei ddefnyddio i hyfforddi. e.e. o fewn y sgript mireinio wav2vec2-large-xlsr-53 gan Facebook, run_xlsr-large-53.sh
, newidiwch yr enw ar gyfer CV_CONFIG_FILE
.
(disgwylir eich bod wedi llwytho'r set(iau) data Common Voice o'u wefan ac wedi lleoli'r ffeil .tar.gz
ar weinydd http
lleol eich hunain)
Yna i ddechrau hyfforddi, dewisich unrhyw un o'r pedwar sgript "run"
root@d702159be82f:/xlsr-ft-train# ./run_xlsr-large-53.sh
Yn dibynnu ar y cerdyn graffics, bydd yn gymryd rhai oriau i hyfforddi.
Bydd y sgriptiau yn werthuso'r modelau yn ystod hyfforddi. Dyma'r canlyniadau ar ol i pob cam gwblhau
Language | Training Data | Test Data | Model | Decode | WER | CER |
---|---|---|---|---|---|---|
CY | cv11 training+validation (s=max) | cv11 test | wav2vec2-large-xlsr-53 | greedy | 6.04% | 1.88% |
CY | cv11 training+validation (s=max) | cv11 test | wav2vec2-large-xlsr-53 | ctc | 6.01% | 1.88% |
CY | cv11 training+validation (s=max) | cv11 test | wav2vec2-large-xlsr-53 | ctc with lm (kenlm, n=5) | 4.05% | 1.49% |
CY | cv11 training+validation (s=max) | bangor custom | wav2vec2-large-xlsr-53 | greedy | 37.46% | 14.11% |
CY | cv11 training+validation (s=max) | bangor custom | wav2vec2-large-xlsr-53 | ctc | 37.18% | 14.08% |
CY | cv11 training+validation (s=max) | bangor custom | wav2vec2-large-xlsr-53 | ctc with lm (kenlm, n=5) | 31.51% | 14.84% |
CY+EN | cv11 training+validation cy+en (s=max) | cv11 test cy+en | wav2vec2-large-xlsr-53 | greedy | 17.07% | 7.32% |
CY+EN | cv11 training+validation cy+en (s=max) | cv11 test cy | wav2vec2-large-xlsr-53 | greedy | 7.13% | 2.2% |
CY+EN | cv11 training+validation cy+en (s=max) | cv11 test en | wav2vec2-large-xlsr-53 | greedy | 27.54% | 11.6% |
CY+EN | cv11 training+validation (s=max) | bangor custom | wav2vec2-large-xlsr-53 | greedy | 40.76% | 15.42% |
CY+EN | cv11 training+validation (s=max) | bangor custom | wav2vec2-large-xlsr-53 | ctc | 40.47.18% | 15.34% |
CY | cv11 training+validation+custom other (s=3) | cv11 test | wav2vec2-xls-r-1b | greedy | 15.82% | 4.53% |
CY | cv11 training+validation+custom other (s=3) | cv11 test | wav2vec2-xls-r-1b | ctc | 15.72% | 4.50% |
CY | cv11 training+validation+custom other (s=3) | cv11 test | wav2vec2-xls-r-1b | ctc with lm (kenlm, n=5) | 10.17% | 3.42% |
CY | cv11 training+validation+custom other (s=3) | cv11 test | wav2vec2-large-xlsr-53 | greedy | 16.73% | 4.63% |
CY | cv11 training+validation+custom other (s=3) | cv11 test | wav2vec2-large-xlsr-53 | ctc | 16.62% | 4.61% |
CY | cv11 training+validation+custom other (s=3) | cv11 test | wav2vec2-large-xlsr-53 | ctc with lm (kenlm, n=5) | 10.45% | 3.42% |
CY | cv11 training+validation (s=3) | cv11 test | wav2vec2-large-xlsr-53 | greedy | 17.42% | 4.83% |
CY | cv11 training+validation (s=3) | cv11 test | wav2vec2-large-xlsr-53 | ctc | 17.29% | 4.80% |
CY | cv11 training+validation (s=3) | cv11 test | wav2vec2-large-xlsr-53 | ctc with lm (kenlm, n=5) | 10.82% | 3.58% |
Allwedd:
- "custom other" : is-set ychwanegol sydd wedi ei greu gyda recordiadau o frawddegau unigryw o fewn 'other.tsv' yn Common Voice. h.y. heb i neb wrando eto a'u cadarnhau
- "s=3" : yr uchafswm ar y nifer o recordiadau mesul frawddeg unigryw o fewn Common Voice
- "s=max" : uchafswm eitha uchel, fel caniateir pob un recordiad o frawddeg yn y is-set.
- "bangor custom" : set profi trawsgrifiadau gan Prifysgol Bangor: https://git.techiaith.bangor.ac.uk/data-porth-technolegau-iaith/corpws-profi-adnabod-lleferydd/-/tree/master/data/trawsgrifio