Skip to content

Latest commit

 

History

History
68 lines (47 loc) · 5.63 KB

File metadata and controls

68 lines (47 loc) · 5.63 KB

Mireinio modelau wav2vec2 ar gyfer y Gymraeg

(click here to read the README in English)

Mae sgriptiau i fireinio amrywiaeth o fodelau sydd wedi eu rhag-hyfforddi ac ar gael o hwb modelau HuggingFace.

  • run_xlsr-large-53.sh - i fireinio modelau cyntaf wav2vec2 amlieithog gan Facebook : facebook/wav2vec2-large-xlsr-53 yn ogystal a chreu ac optimeiddio model iaith KenLM
  • run_xls-r-1b.sh - i fireinio modelau wav2vec2 amlieithog mwy : facebook/wav2vec2-xls-r-1b yn ogystal a chreu ac optimeiddio model iaith KenLM
  • run_en_cy.sh - mireinio facebook/wav2vec2-large-xlsr-53 ar gyfer model adnabod lleferydd acwstig yn unig ond yn ddwyieithog.
  • run_base-cy.sh - mireinio model arbrofol sydd wedi ei rhag-hyfforddi gan uned techiaith gyda rhagor o sain lleferydd Cymraeg yn ogystal a chreu ac optimeiddio model iaith KenLM ategol.

Datblygwyd y sgriptiau cyntaf ar gyfer y Gymraeg yn ystod wythnos fireinio i ieithoedd llai eu hadnoddau gan HuggingFace.

Adeiladwyd a ddefnyddiwyd is-setiau ein hunain o ddata Common Voice Cymraeg a Saesneg gan Mozilla ar gyfer mireinio'r modelau mwyaf effeithiol. Gweler https://github.com/techiaith/docker-commonvoice-custom-splits-builder.

Mae'r project yn cynnwys sgriptiau i hyfforddi modelau iaith KenLM gyda thestun o gorpws broject OSCAR ar wefan Datasets HuggingFace a'u optimeiddio o fewn ddull dadgodio CTC. (rydym wedi integreiddio Parlance CTC Decode gyda HuggingFace i alluogi wella canlyniadau gyd chymorth modelau iaith)

Sut i'w ddefnyddio...

$ make

$ make run

Er mwyn llwytho i lawr data Common Voice, mae angen i chi greu ffeil Python i gynnwys yr URL. Mae enghraifft/templed i'w weld yn y ffeil cv_version.template.py . Nodwch enw'r ffeil (heb yr estyniad .py) o fewn y sgript hoffwch ei ddefnyddio i hyfforddi. e.e. o fewn y sgript mireinio wav2vec2-large-xlsr-53 gan Facebook, run_xlsr-large-53.sh, newidiwch yr enw ar gyfer CV_CONFIG_FILE.

(disgwylir eich bod wedi llwytho'r set(iau) data Common Voice o'u wefan ac wedi lleoli'r ffeil .tar.gz ar weinydd http lleol eich hunain)

Yna i ddechrau hyfforddi, dewisich unrhyw un o'r pedwar sgript "run"

root@d702159be82f:/xlsr-ft-train# ./run_xlsr-large-53.sh

Yn dibynnu ar y cerdyn graffics, bydd yn gymryd rhai oriau i hyfforddi.

Gwerthuso

Bydd y sgriptiau yn werthuso'r modelau yn ystod hyfforddi. Dyma'r canlyniadau ar ol i pob cam gwblhau

Language Training Data Test Data Model Decode WER CER
CY cv11 training+validation (s=max) cv11 test wav2vec2-large-xlsr-53 greedy 6.04% 1.88%
CY cv11 training+validation (s=max) cv11 test wav2vec2-large-xlsr-53 ctc 6.01% 1.88%
CY cv11 training+validation (s=max) cv11 test wav2vec2-large-xlsr-53 ctc with lm (kenlm, n=5) 4.05% 1.49%
CY cv11 training+validation (s=max) bangor custom wav2vec2-large-xlsr-53 greedy 37.46% 14.11%
CY cv11 training+validation (s=max) bangor custom wav2vec2-large-xlsr-53 ctc 37.18% 14.08%
CY cv11 training+validation (s=max) bangor custom wav2vec2-large-xlsr-53 ctc with lm (kenlm, n=5) 31.51% 14.84%
CY+EN cv11 training+validation cy+en (s=max) cv11 test cy+en wav2vec2-large-xlsr-53 greedy 17.07% 7.32%
CY+EN cv11 training+validation cy+en (s=max) cv11 test cy wav2vec2-large-xlsr-53 greedy 7.13% 2.2%
CY+EN cv11 training+validation cy+en (s=max) cv11 test en wav2vec2-large-xlsr-53 greedy 27.54% 11.6%
CY+EN cv11 training+validation (s=max) bangor custom wav2vec2-large-xlsr-53 greedy 40.76% 15.42%
CY+EN cv11 training+validation (s=max) bangor custom wav2vec2-large-xlsr-53 ctc 40.47.18% 15.34%
CY cv11 training+validation+custom other (s=3) cv11 test wav2vec2-xls-r-1b greedy 15.82% 4.53%
CY cv11 training+validation+custom other (s=3) cv11 test wav2vec2-xls-r-1b ctc 15.72% 4.50%
CY cv11 training+validation+custom other (s=3) cv11 test wav2vec2-xls-r-1b ctc with lm (kenlm, n=5) 10.17% 3.42%
CY cv11 training+validation+custom other (s=3) cv11 test wav2vec2-large-xlsr-53 greedy 16.73% 4.63%
CY cv11 training+validation+custom other (s=3) cv11 test wav2vec2-large-xlsr-53 ctc 16.62% 4.61%
CY cv11 training+validation+custom other (s=3) cv11 test wav2vec2-large-xlsr-53 ctc with lm (kenlm, n=5) 10.45% 3.42%
CY cv11 training+validation (s=3) cv11 test wav2vec2-large-xlsr-53 greedy 17.42% 4.83%
CY cv11 training+validation (s=3) cv11 test wav2vec2-large-xlsr-53 ctc 17.29% 4.80%
CY cv11 training+validation (s=3) cv11 test wav2vec2-large-xlsr-53 ctc with lm (kenlm, n=5) 10.82% 3.58%

Allwedd: