Adnabod lleferydd

Mae technolegau adnabod lleferydd yn trosi lleferydd neu iaith lafar i destun ysgrifenedig yn awtomatig.
Mae’r dechnoleg yn hanfodol ar gyfer creu gwasanaethau hygyrch, cynyddu cynhwysiant digidol, ac yn sail i lawer o wasanaethau modern fel is-deitlau awtomatig, systemau trawsgrifio a cynorthwywyr llais.

Mathau o Leferydd a Thrawsgrifio
Mae yna amrywiaeth o fathau gwahanol o leferydd a thrawsgrifio, gan gynnwys:
- Lleferydd wrth ddarllen – prosesu lleferydd sy’n darllen testun wedi’i ysgrifennu ymlaen llaw. Mae’n cynnwys iaith mwy ffurfiol a gywir o ran geirfa.
- Lleferydd digymell – prosesu lleferydd o sgyrsiau arferol a naturiol. Mae’n cynnwys oedi, ail-adrodd geiriau neu ail-gychwyn brawddegau a siarad yn llai ffurfiol gyda ambell i air Saesneg (‘code switching’)
- Trawsgrifio sain cyfan – prosesu recordiadau sain byr neu hir
- Trawsgrifio byw – trosi lleferydd i destun wrth i chi siarad
- Trawsgrifio ferbatim – cofnodi pob gair, oedi, ac ymadrodd yn union fel y’u lleferwyd
- Trawsgrifio is-deitlau hawdd eu darllen – creu is-deitlau o leferydd sy’n haws eu dilyn
- Trawsgrifio cyfarfodydd – cofnodi sgyrsiau aml-siaradwr gyda’r gallu i adnabod lleisiau a labelu pwy sy’n siarad
Adnoddau Adnabod Lleferydd ar gyfer Ddatblygwyr
Modelau
Mae ein modelau adnabod lleferydd Cymraeg a Saesneg ar gael i ddatblygwyr eu defnyddio mewn dwy ffordd:
- Drwy ganolfan APIs yr uned – ar gyfer integreiddio hawdd i’ch systemau a’ch gwasanaethau [URL canolfan APIs]
- Yn lleol – drwy lawrlwytho o wefan Hugging Face a’u rhedeg ar weinydd neu gyfrifiadur lleol eich hunain [short code collections modelau Huggingface]
Data
Mae ein casgliadau data ar gyfer adnabod lleferydd ar gael hefyd yn hwylus o wefan Hugging Face.
Ein Gwaith Datblygu
Ers sawl blwyddyn bellach, rydym wedi bod yn datblygu adnoddau adnabod lleferydd Cymraeg o ansawdd gorau bosib. Mae’r gwaith hwn wedi cynnwys casglu, creu a dosbarthu corpws sylweddol o ddata lleferydd Cymraeg ar ffurf cod agored. Ein nod yw galluogi datblygwyr o bob cwr i ddefnyddio’r data i greu a gwella eu darpariaeth adnabod lleferydd Cymraeg eu cynhyrchion a’u gwasanaethau, gan gyfrannu at hyrwyddo a chynorthwyo’r Gymraeg.
Wrth i’r data gynyddu, rydym wedi ei ddefnyddio i hyfforddi a datblygu modelau adnabod lleferydd ein hunain, gan ddilyn datblygiadau cyffrous y maes. Ein cam cyntaf oedd HTK (Hidden Markov Model Toolkit), cyn symud ymlaen i Kaldi a’i ddulliau mwy pwerus. Yn fwy diweddar, rydym wedi troi at hyfforddi modelau rhwydweithiau niwral arloesol fel wav2vec2 a Whisper. Gyda phob cam, gwelsom welliannau sylweddol – nid yn unig o ran cywirdeb, ond hefyd o ran y gallu i ddeall amrywiaeth eang o acenion Cymraeg a delio â sefyllfaoedd sain heriol.
Wrth ddatblygu adnoddau ar gyfer y Gymraeg, rydym hefyd yn ymwybodol o’r angen i fedru trawsgrifio Saesneg yn dda. Mae llawer o siaradwyr Cymraeg yn defnyddio’r ddwy iaith yn eu bywydau bob dydd, ac mae’n bwysig bod ein systemau’n gallu delio â’r ddwy iaith yn effeithiol – naill ai ar wahân neu mewn sgyrsiau sy’n newid rhwng y ddwy iaith.
Cymwysiadau Ymarferol gyda Adnabod Lleferydd
Mae ein modelau adnabod lleferydd ar waith mewn apiau a gwasanaethau go iawn ers sawl blwyddyn:
- Trawsgrifiwr – gwasanaeth ar-lein sy’n galluogi defnyddwyr i drawsgrifio eu recordiadau sain yn awtomatig [URL Trawsgrifiwr]
- Macsen – pecyn prototeip cynorthwyydd llais Cymraeg [URL Macsen]
Cydweithio a Phartneriaid
Nid gwaith ar ein pen ein hunain yw hwn. Rydym wedi cydweithio’n agos gyda nifer o sefydliadau a datblygwyr eraill, gan gynnwys:
- Mozilla Foundation drwy’r prosiect Common Voice
- Partneriaid rhwydwaith AI-iaith canolog Cymru-Llydaw
- Amazon a Chymdeithas Llywodraeth Leol Cymru (WLGA)
- Llu o gynhyrchwyr podlediadau a chynhyrchwyr sain lleferydd eraill sydd wedi cyfrannu eu data ac wedi rhoi caniatâd i ni ei rannu wedi’i drawsgrifio gennym
Mae’r cydweithrediadau hyn wedi bod yn hanfodol ar gyfer casglu data amrywiol, rhannu arbenigedd, a sicrhau bod ein hadnoddau’n ateb anghenion go iawn defnyddwyr a sefydliadau.
Gan Edrych i’r Dyfodol
Mae ein gwaith yn parhau i esblygu wrth i ni archwilio posibiliadau cyffrous technolegau newydd. Rydym yn datblygu systemau adnabod lleferydd sy’n gallu cyfieithu’n uniongyrchol o’r Gymraeg i’r Saesneg, gan gyfuno adnabod lleferydd a chyfieithu peirianyddol mewn un cam. Yn ogystal, rydym yn ymchwilio i alluoedd deallusol eraill megis adnabod iaith, adnabod acen, ac adnabod cywair – galluoedd sy’n hanfodol ar gyfer creu systemau mwy soffistigedig a sensitif i gyd-destun.
Rydym hefyd yn ymchwilio i fodelau iaith mawr (LLMs) sy’n gallu deall a phrosesu cyfarwyddiadau llafar yn Gymraeg, gan agor drysau newydd ar gyfer rhyngwynebau naturiol a chynorthwywyr llais Cymraeg.
Os hoffech chi wybod mwy am ein gwaith, neu os oes gennych chi ddiddordeb mewn cydweithio â ni, byddem wrth ein bodd yn clywed gennych chi. Cysylltwch â ni i drafod sut y gallwn ni gydweithio i ddatblygu technolegau lleferydd Cymraeg ymhellach.