Adnabod lleferydd
Mae technolegau adnabod lleferydd yn trosi lleferydd neu iaith lafar i destun ysgrifenedig yn awtomatig.
Mae’r dechnoleg yn hanfodol ar gyfer creu gwasanaethau hygyrch, cynyddu cynhwysiant digidol, ac yn sail i lawer o wasanaethau modern fel is-deitlau awtomatig, systemau trawsgrifio a chynorthwywyr llais.
Mathau o Leferydd a Thrawsgrifio
Mae yna amrywiaeth o fathau gwahanol o leferydd a thrawsgrifio, gan gynnwys:
- Lleferydd wrth ddarllen – prosesu lleferydd sy’n darllen testun wedi’i ysgrifennu ymlaen llaw. Mae’n cynnwys iaith fwy ffurfiol a gywir o ran geirfa.
- Lleferydd digymell – prosesu lleferydd o sgyrsiau arferol a naturiol. Mae’n cynnwys oedi, ail-adrodd geiriau neu ail-gychwyn brawddegau a siarad yn llai ffurfiol gydag ambell i air Saesneg (‘code switching’)
- Trawsgrifio sain cyfan – prosesu recordiadau sain byr neu hir
- Trawsgrifio byw – trosi lleferydd i destun wrth i chi siarad
- Trawsgrifio ferbatim – cofnodi pob gair, oedi, ac ymadrodd yn union fel y’u llefarwyd
- Trawsgrifio is-deitlau hawdd eu darllen – creu is-deitlau o leferydd sy’n haws eu dilyn
- Trawsgrifio cyfarfodydd – cofnodi sgyrsiau aml-siaradwr gyda’r gallu i adnabod lleisiau a labelu pwy sy’n siarad
Adnoddau Adnabod Lleferydd ar gyfer Datblygwyr
Modelau
Mae ein modelau adnabod lleferydd Cymraeg a Saesneg ar gael i ddatblygwyr eu defnyddio mewn dwy ffordd:
- Drwy ganolfan APIs yr uned – ar gyfer integreiddio hawdd i’ch systemau a’ch gwasanaethau
- Yn lleol – drwy lawrlwytho o wefan Hugging Face a’u rhedeg ar weinydd neu gyfrifiadur lleol eich hunain:
Data
Mae ein casgliadau data ar gyfer adnabod lleferydd ar gael hefyd yn hwylus o wefan Hugging Face.
Ein Gwaith Datblygu
Wrth i’r data gynyddu, rydym wedi ei ddefnyddio i hyfforddi a datblygu modelau adnabod lleferydd ein hunain, gan ddilyn datblygiadau cyffrous y maes. Ein cam cyntaf oedd HTK (Hidden Markov Model Toolkit), cyn symud ymlaen i Kaldi a’i ddulliau mwy pwerus. Yn fwy diweddar, rydym wedi troi at hyfforddi modelau rhwydweithiau niwral arloesol fel wav2vec2 a Whisper. Gyda phob cam, gwelsom welliannau sylweddol – nid yn unig o ran cywirdeb, ond hefyd o ran y gallu i ddeall amrywiaeth eang o acenion Cymraeg a delio â sefyllfaoedd sain heriol.
Wrth ddatblygu adnoddau ar gyfer y Gymraeg, rydym hefyd yn ymwybodol o’r angen i fedru trawsgrifio Saesneg yn dda. Mae llawer o siaradwyr Cymraeg yn defnyddio’r ddwy iaith yn eu bywydau bob dydd, ac mae’n bwysig bod ein systemau’n gallu delio â’r ddwy iaith yn effeithiol – naill ai ar wahân neu mewn sgyrsiau sy’n newid rhwng y ddwy iaith.
Cymwysiadau Ymarferol gydag Adnabod Lleferydd
Mae ein modelau adnabod lleferydd ar waith mewn apiau a gwasanaethau go iawn ers sawl blwyddyn:
- Trawsgrifiwr – gwasanaeth ar-lein sy’n galluogi defnyddwyr i drawsgrifio eu recordiadau sain yn awtomatig
- Macsen – pecyn prototeip cynorthwyydd llais Cymraeg
Cydweithio gyda Phartneriaid
Nid gwaith ar ein pen ein hunain yw hwn. Rydym wedi cydweithio’n agos gyda nifer o sefydliadau a datblygwyr eraill, gan gynnwys:
- Mozilla Foundation drwy’r prosiect Common Voice
- Partneriaid rhwydwaith AI-iaith canolog Cymru-Llydaw
- Amazon a Chymdeithas Llywodraeth Leol Cymru (WLGA)
- Llu o gynhyrchwyr podlediadau a chynhyrchwyr sain lleferydd eraill sydd wedi cyfrannu eu data ac wedi rhoi caniatâd i ni ei rannu wedi’i drawsgrifio gennym
Mae’r cydweithrediadau hyn wedi bod yn hanfodol ar gyfer casglu data amrywiol, rhannu arbenigedd, a sicrhau bod ein hadnoddau’n ateb anghenion go iawn defnyddwyr a sefydliadau.
Gan Edrych i’r Dyfodol
Mae ein gwaith yn parhau i esblygu wrth i ni archwilio posibiliadau cyffrous technolegau newydd. Rydym yn datblygu systemau adnabod lleferydd sy’n gallu cyfieithu’n uniongyrchol o’r Gymraeg i’r Saesneg, gan gyfuno adnabod lleferydd a chyfieithu peirianyddol mewn un cam. Yn ogystal, rydym yn ymchwilio i alluoedd deallusol eraill megis adnabod iaith, adnabod acen, ac adnabod cywair – galluoedd sy’n hanfodol ar gyfer creu systemau mwy soffistigedig a sensitif i gyd-destun.
Rydym hefyd yn ymchwilio i fodelau iaith mawr (LLMs) sy’n gallu deall a phrosesu cyfarwyddiadau llafar yn Gymraeg, gan agor drysau newydd ar gyfer rhyngwynebau naturiol a chynorthwywyr llais Cymraeg.
Os hoffech chi wybod mwy am ein gwaith, neu os oes gennych chi ddiddordeb mewn cydweithio â ni, byddem wrth ein bodd yn clywed gennych chi. Cysylltwch â ni i drafod sut y gallwn ni gydweithio i ddatblygu technolegau lleferydd Cymraeg ymhellach.
