Y Gymraeg, ei Diwylliant, a Deallusrwydd Artiffisial – Rhifyn 1

Gareth Watkins, Dewi Bryn Jones, Gruffudd Prys

Croeso, hybarch ddarllenydd, i’r rhifyn cyntaf mewn cyfres newydd o flogiau sy’n ceisio mynd ati i danlinellu pwysigrwydd diwylliant yng nghyd-destun technoleg, gan ganolbwyntio ar un o sêr disglair technoleg, sef Deallusrwydd Artiffisial, neu DA.

Mae DA wedi treiddio i mewn i’n bywydau pob dydd bellach.1 Cafodd ei drafod mewn sawl digwyddiad yn yr Eisteddfod eleni yn Wrecsam ac mae wedi ei ddefnyddio’n arbrofol gan un o’n Hip-Hopwyr blaenllaw, sef Tri Hŵr Doeth, sydd wedi defnyddio DA i ysgrifennu eu cân ‘Aneurin Iorwerth’. Mae DA i’w weld ymhobman yn y Gymru sydd ohoni, mae’n amlwg bod ein diwylliant wedi ymgorffori’r defnydd o DA.

Wali Tomos

 

Delwedd o’r cymeriad Wali Tomos, fel y’i portreadir gan Mei Jones, mewn llyfrgell. Wedi’i rhannu gan Llyfrgelloedd Gwynedd drwy Gasgliad y Werin Cymru (https://www.peoplescollection.wales/items/1984321) dan Drwydded Archif Greadigol (Creative Archive Licence).

Ac er bod nifer o sgil effeithiau DA, megis ei effaith andwyol ar yr amgylchedd, er enghraifft, yn destunau pryder, mae’r ymgorffori yn dda o beth. Mae’n dangos bod gennym gymuned iaith hyblyg sy’n gallu addasu at dechnolegau newydd yn hawdd, ac sy’n mynnu cael at y technolegau hynny trwy gyfrwng y Gymraeg. Technolegau a all fod yn fygythiad i ddyfodol yr iaith os nad ydyn nhw ar gael trwy gyfrwng y Gymraeg.

Rydyn ni fel cymuned wedi cael digon o bractis o ran addasu at dechnolegau newydd a’u perchnogi yn enw’r Gymraeg. Ystyriwch y wasg argraffu, neu’r radio, neu’r teledu. Yn achos DA doedd dim rhaid ymgyrchu er mwyn ennill fersiwn Cymraeg. Serch hyn mae digon o waith wedi mynd rhagddo y tu ôl i’r llen, fel petai. Nid ein bod ni eisiau ymffrostio, ond o ran adnoddau DA, rydyn ni yn Uned Technolegau Iaith Prifysgol Bangor wedi bod yn frwd yn creu ac yn gwerthuso ac yn ymchwilio ac yn deall. Rydyn ni hefyd wedi bod yn cyfathrebu a chydweithio gyda chwmnïau mawrion DA megis AWS, Open AI, NVIDIA a UK-LLM. Mae Llywodraeth Cymru, sydd wedi ariannu llawer o’n gwaith, wedi bod yn flaenllaw hefyd, gan adnabod pwysigrwydd technoleg i’r Gymraeg a gan ymrwymo i hyrwyddo datblygiad yn y maes, a hynny er mwyn wireddu Cymraeg 2050: Miliwn o Siaradwyr.

A dyna ni felly. Mae’r Gymraeg wedi maeddu DA.

Blog byr.

Wel na, nid cweit. Dwi eisiau cyfyngu’r sgwrs o hyn allan i Fodelau Iaith Mawr (neu LLMs). Mae LLMs yn fath penodol o fodel DA sy’n cael ei hyfforddi ar symiau enfawr o ddata testun i ddeall ac i gynhyrchu iaith ddynol. Mae LLMs ar gael ar gyfer nifer fawr o ieithoedd, ond yn ôl Smith [1]:

“While larger, general-purpose models can handle multiple languages, they can still miss the linguistic nuance, cultural context, and regional depth needed for truly inclusive applications.”

Er bod LLMs ar gael yn y Gymraeg, ac yn gallu darparu allbwn deche (sydd angen ei wirio bob tro, wrth gwrs, fel gydag allbwn LLMs ym mhob iaith), ac er bod diwylliant (a diwydiant!) Cymreig wedi plethu LLMs i mewn i’w gwead, efallai’r cwestiwn erbyn hyn yw, a ydi LLMs yn gynhwysol ac yn parchu’r diwylliant cyfoethog yna? Y diwylliant sydd wedi bod mor groesawgar iddo? Efallai na.

Claude a Wali
Sgrinlun o ymateb Claude i’r cwestiwn Pwy yw Wali Tomos?

Nid yw LLMS yn darparu cynnwys priodol a Chymreig bob tro. Nid yw i’w weld yn adnabod ein arwyr, deall ein hanes, nac adnabod cymeriadau ein llên, na hyd yn oed hanes awduron y llên yna. Nid bob tro o leiaf. Er enghraifft, nid oedd cynorthwyydd AI Claude yn gwybod pwy oedd Wali Tomos! Trosedd! Sgandal!

Pam mae hyn yn digwydd felly? Er mwyn darganfod yr ateb, mae angen arnom ddeall bach mwy o ran y dechnoleg sydd y tu ôl i LLMs, yr adnoddau y mae’r dechnoleg yn eu dibynnu arnynt, a sut mae mynd ati i gael gafael ar yr adnoddau hynny.

Mae angen llwyth o ddata er mwyn hyfforddi LLMs. Llwyth. Nid data mawr. Nid data enfawr. Ond data ANFERTHOL! Mae hyn yn ein dwyn at bwynt allweddol cyntaf y blog hwn:

Pwynt #1 – Yn nheyrnas yr LLM, Data yw’r Brenin!

Anodd o beth fyddai gorbwysleisio hyn. Yn wir, mae ymchwilydd o’r enw Kathy Reid [2] wedi amcangyfrif bod Open AI – y cwmni y tu ôl i Chat GPT – wedi hyfforddi GPT-5 ar 114 triliwn o docynnau.2 Mae’n bwysig nodi mai amcangyfrif yw’r ffigwr hwnnw, gan nad yw Open AI yn cyhoeddi’i ffigyrau bellach.

Ond o ba le mae’r cwmnïau LLMs yn casglu’r holl ddata? Esbonia Reid eu bod nhw yn cribo’r we er mwyn cael at y data hwn. Neu’r hynny o’r we sydd ar gael iddynt heb rwystr. Mae Open AI hefyd wedi trefnu mynediad at ddata sefydliadau megis Reddit neu Stack Overflow, sydd â thoreth o ddata, hynny yw pyst eu defnyddwyr lu.

A ble mae’r Gymraeg yn y data anferthol hwn? Ystyriwn Open AI eto. Fel y nodwyd uchod, erbyn hyn nid yw Open AI yn datgelu ei ffigyrau hyfforddi, ond penderfyniad gymharol newydd yw hwn. Wrth son am hen fersiwn, sef GPT-3, adrodda Prys a Jones [3]:

“Datgelwyd bod 93% o ddata hyfforddi GPT-3 yn ddata iaith Saesneg, ac mai dim ond 7% o’r data hyfforddi oedd mewn ieithoedd eraill. Roedd y data hyfforddi yn cynnwys 3,459,671 gair Cymraeg, sef 0.00177% o’r data hyfforddi cyfan.”

Ar yr olwg gyntaf, mae 0.00177% yn edrych yn fach iawn. Ac mewn gwirionedd, mae’n adlewyrchu problem ddyfnach: nid oes digon o gynnwys naturiol Cymraeg ar y we. Yn ôl W3Techs, Saesneg ydi iaith ychydig dros 49% o’r cynnwys sydd ar y we, a thua 0.0014% yn unig o’r cynnwys sydd ar gael trwy gyfrwng y Gymraeg. Mae’n amhosibl pennu pa ganran o’r cynnwys hwn sy’n Gymraeg naturiol, a gynhyrchwyd gan awduron, cyfieithwyr neu olygyddion Cymraeg eu hiaith, a pha ganran sy’n gyfieithiadau a wnaed gan beiriant.

Yn gymharol ddiweddar roedden ni wedi cynnal ymchwil ar y pwynt hwn, gan fwrw golwg ar gynnwys Cymraeg corpora a setiau data sydd wedi eu creu o gribo’r we. Edrychwyd ar sampl o gynnwys data Cymraeg dau adnodd mawr, sef corpws OSCAR3 a set ddata HPLT,4 ill ddau yn deillio o adnodd Common Crawl,5 sy’n gronfa o ddata wedi eu cribo o’r we. Dyma rhai o’n canfyddiadau o ran ansawdd y Gymraeg yn y fath adnoddau:

  • Gall data sydd wedi ei grafu o’r we gynnwys testun o ansawdd isel, cyfieithiadau peirianyddol, a chynnwys a gynhyrchir yn awtomatig.
  • Gall y testunau fod yn anghyflawn, yn dameidiog, neu feddu ar ddiffyg cyd-destun priodol
  • Gall y dogfennau gynnwys llawer o destunau templedi a rhyngwynebau’r gwefannau, fel testunau’r dewislenni neu hysbysebion, yn arbennig os na hidlwyd y rhain o’r data yn gwbl lwyddiannus

Roedd llawer o’r data yn annigonol o ran ansawdd a math, hynny yw. Sy’n ein harwain yn dwt at ein hail bwynt allweddol:

Pwynt #2 – Mae LLMs yn dibynnu nid yn unig ar faint y data, ond hefyd ar ei ansawdd a’i fath.

Problem, felly. Mae angen data anferthol i greu LLMs, ac mae angen i’r data hynny fod o ansawdd. Does gan y Gymraeg y cyfaint o ddata sydd ei angen. Ar ben hyn mae talpau o’r data sydd ar gael iddi yn anfoddhaol o ran ansawdd, neu ddim yn cynnwys trawstoriad digon eang o fathau priodol o ran ein diwylliant (megis, efallai, peth data sy’n sôn am Wali Tomos a’i anturiaethau yng nghlwb pêl-droed Bryncoch).

Nid yw’r broblem prinder hon yn unigryw i’r Gymraeg. Mewn gwirionedd, mae ymchwilwyr fel Fuzhao Xue [4] ac eraill yn rhybuddio y gallai pob iaith wynebu “sychder data” yn fuan:

“the growth rate of high-quality text data on the internet is much slower than the growth rate of data required by LLMs […] and in a pessimistic scenario, […] we may run out of new data between 2023 and 2027.”

Yr Argyfwng Tocynnau yw’r enw a rhoddir i’r broblem hyn gan Fuzhao Xue et al., ac mae’n taro ieithoedd llai hyd yn oed yn galetach, a hynny oherwydd prinder data iaith naturiol.

ac mae’n effeithio ieithoedd di-Saesneg hyd yn oed yn fwy, a hynny oherwydd prinder data iaith naturiol.

Felly ie, mae cynnwys Cymraeg ar-lein, ac mae wedi ymddangos mewn setiau hyfforddi LLM yn y gorffennol. Ond os ydyn ni am gael LLMs sy’n deall ac yn parchu diwylliant Cymru go iawn, nid yw 0.0014% yn ddigon – yn enwedig o ystyried materion ansawdd a math.

Felly er mwyn naill ai cael data iaith Gymraeg ar y raddfa sydd ei hangen neu gael at allbwn LLMs trwy gyfrwng y Gymraeg mae rhai yn troi at gyfieithu peirianyddol. Mae cyfieithu peirianyddol yn ffordd gyflym o gael adnodd cyfrwng Cymraeg heb fod yn rhy ddrud. Mae ansawdd cyfieithu peirianyddol wedi ei beirniadu yn hallt yn y gorffennol wrth gwrs, ond mae wedi gwella rywfaint yn ystod y blynyddoedd diwethaf. Ond nid ansawdd y cyfieithiadau yw’r broblem rydyn ni’n ceisio ei disgrifio fan hyn, er bod hynny yn broblem fawr ac mae angen eto deall ei impact yn yr oes DA newydd. Yn hytrach, cynnwys yr iaith wreiddiol yw’r daten boeth, cyn iddi gael ei chyfieithu hyd yn oed. Pam? Fel mae Rystrøm et al. [5] yn nodi, mae gan wahanol ddiwylliannau werthoedd gwahanol. Gall yr hyn sy’n bwysig i un diwylliant fod yn llai pwysig i ddiwylliant arall.

Yn anffodus, nid yw’r gallu i gyfieithu yn beirianyddol o un iaith i’r llall yn gwarantu aliniad amlddiwylliannol o reidrwydd. Mae aliniad amlddiwylliannol yn cyfeirio at allu manwl LLMs i weithredu’n gyson â gwybodaeth ddiwylliannol leol, cyd-destun cymdeithasol a gwerthoedd moesegol.
Gallu LLMs i barchu diwylliant, mewn geiriau eraill.

A dyma, mewn gwirionedd, sydd wrth wraidd y duedd amharchus bosib hon:

Pwynt #3 – Pan gaiff testun ei gyfieithu’n fecanyddol o iaith un diwylliant i iaith arall, mae gogwyddiadau’r6 diwylliant gwreiddiol yn aml yn parhau.

Mae hyn yn destun pryder. Gall gogwyddiadau o’r fath atgyfnerthu ystrydebau. Gall LLMs cam-gynrychioli ‘diwylliant’ Saesnig neu Americanaidd fel petai’n ddiwylliant Cymreig, heb fod ganddo wybodaeth wirioneddol am ddiwylliant Cymreig. Gallant ystumio neu drosysgrifo hunaniaethau diwylliannol lleol.

Er enghraifft, yn ddiweddar gofynnais ChatGPT-4 ‘Pam na ddylai Cymro berchen ar wn?’, a chael yr ymateb hwn:

“Mae perchen ar wn yng Nghymru a’r Deyrnas Unedig yn cael ei reoleiddio’n llym. Dim ond pobl sydd wedi cael trwydded briodol ac wedi mynd trwy gwirio cefndir sy’n gallu cadw arfau tanio. Mae hyn er mwyn diogelu’r cyhoedd a lleihau’r risg o ddamweiniau neu droseddau difrifol. Nid yw’r rheolau hyn yn gwrthwynebu hunaniaeth Gymreig; maen nhw’n sicrhau bod unrhyw ddefnydd o wn yn cael ei wneud yn gyfrifol a chyfreithlon, fel mewn chwaraeon neu hela gyda thrwydded.”

Rhesymol ddigon. Ond mae’n siŵr gen i y bydd y darllenydd craff yn sylwi nad yw’r testun ‘Nid yw’r rheolau hyn yn gwrthwynebu hunaniaeth Gymreig’ yn taro deuddeg. Mae naws y testun yn awgrymu bod rhai yn credu i’r gwrthwyneb, ond nid wir o beth yw hynny. O leiaf, nid yw mor wir yng Nghymru ag ydyw mewn gwledydd fel America, er enghraifft, lle mae gynnau’n rhan amlwg o ddiwylliant a chyfraith. Mae’n teimlo fel petai ChatGPT wedi gosod agweddau diwylliannol Americanaidd ar destun am Gymru a’r Cymry, gan wneud y dadansoddiad yn llai perthnasol i’n cyd-destun ni.

Y gwir yw nid yw’r LLM wedi ei hyfforddi gyda digon o ddata o ansawdd sy’n cynnwys y fath o destun sy’n ymwneud â diwylliant Cymraeg. Mae’n disgyn nôl ar beth mae’n gwybod gorau sef diwylliant America, ac yn cyfieithu hynny i’r Gymraeg. Wrth wneud nid yw’n hepgor y gogwyddiadau neu’r agweddau sydd ynghlwm â diwylliant America. Mae wedi cyfathrebu yn Gymraeg am ddiwylliant Americanaidd fel petai’n diwylliant Cymreig. A hynny yn hytrach na chyfathrebu yn Gymraeg am ddiwylliant Cymreig.

Gall y gogwyddiadau ddeillio o’r data hyfforddi, sydd bron yn gyfan gwbl yn uniaith Saesneg. Efallai y bydd y data hwnnw hyd yn oed yn cynnwys gwybodaeth am ddiwylliant Cymreig, ond trwy lens Seisnig neu Americanaidd. Os felly, er gwaethaf y gwelliannau diweddar ym maes cyfieithu peirianyddol, ni chaiff y ‘lens’ honno ei thynnu wrth gyfieithu’r testun. Ni fydd y cyfieithiadau’n adlewyrchu gwybodaeth am ddiwylliant Cymreig drwy bersbectif, neu ‘lens’ Cymreig.

Yn fwy na hynny, wrth adfer a chynhyrchu gwybodaeth o’r we, gall systemau flaenoriaethu ieithoedd dominyddol. Felly os bydd gwybodaeth gwrthgyferbyniol yn ymddangos yn Saesneg a Chymraeg, mae’n debyg y bydd y model yn ymddiried yn y ffynhonnell Saesneg — gan atgyfnerthu ymhellach y gogwyddiadau a’r anghydbwysedd diwylliannol presennol.
Mae Sharma et al. [6] yn rhybuddio:

“Such biases threaten the goal of using multilingual LLMs for democratized global information access. If unaddressed, they may reinforce cultural dominance and create an filter bubble, alienating speakers of non-dominant languages.”

Mae’n bosibl felly y gall systemau DA atgyfnerthu goruchafiaeth ddiwylliannol ddwywaith: unwaith drwy drosglwyddo gogwyddiadau ac ystrydebau sy’n bresennol yn nata hyfforddi’r LLM, ac eto drwy gyfieithu canfyddiadau a dynnwyd o’r we. Yn naturiol, gall y broblem hon waethygu os yw’r gogwyddiadau yn y data hyfforddi yn cael eu hatgyfnerthu gan gynnwys o’r we nad yw’n adlewyrchu safbwynt Cymreig. Wrth gwrs anodd yw mesur yr effaith go iawn gan nad oes meincnod i’w chymharu yn erbyn yn bodoli ar hyn o bryd.

Ydyn ni Cymry yn mynd i gael ein heithrio gan LLMs felly, chwedl Sharma et al.? Eitha posib. Ac mae hynny’n amlwg broblemus. Mae defnydd call o’r dechnoleg yn sicr yn gallu ein helpu i fod yn fwy effeithlon, ac mae’r ffaith ein bod ni’n gallu gwneud hynny trwy gyfrwng y Gymraeg yn wych. Beth yw’r ateb felly? Wel, pobl, rili. Cofiwch, offeryn yn unig yw LLM, neu DA yn fwy cyffredinol. Mae fyny at y defnyddwyr unigol sut mae defnyddio’r offer hynny yn gall. Mae fyny at y defnyddwyr unigol i ddefnyddio’r allbwn y mae’r LLM yn ei gynhyrchu yn gall. Mae angen i ddefnyddwyr ddeall cyfyngiadau’r dechnoleg, a gwirio’i hallbwn yn fanwl. Am nawr, ta beth. Hynny yw o leia nes bod y dechnoleg yn aeddfedu mwy ac yn deall ein diwylliant yn well.

Yn y cyfamser mae’n gyfrifoldeb ar ymchwilwyr a datblygwyr — gan gynnwys ni yn yr Uned Technolegau Iaith — i barhau i werthuso systemau AI, i ymgysylltu â’r cwmnïau technoleg mawr, ac i ddarparu adnoddau sy’n ein galluogi ni ac eraill i werthuso’r dechnoleg yn hawdd. Ond mwy am hynny ym mlog rhif 3 o’r gyfres hon!

Ond dyna ni am nawr. Diolch i bawb wnaeth ddarllen hyd y diwedd! Yn y blog nesa, edrychwn y tu hwnt i Gymru er mwyn dysgu am yr heriau mae ieithoedd llai eu hadnoddau rhyngwladol wedi eu profi gyda LLMs, cyn mynd ati i drafod yr hyn sy’n cael ei neud yn rhyngwladol i ymafael â’r heriau. Cofiwch ein dilyn ni ar y cyfryngau cymdeithasol er mwyn bod y cyntaf i gael gwybod bod yr ail rifyn wedi ei gyhoeddi.


1 Gweler y rhagymadrodd yn y gyfrol sydd ar gael i’w darllen fan hyn am mwy ar y pwynt hwn: https://research.bangor.ac.uk/en/publications/iaith-a-thechnoleg-yng-nghymru-cyfrol-ii

2 Mae tocyn yn uned gyfrifiadurol o iaith y mae’r model yn ei defnyddio i ddeall ac adeiladu testun. Gall tocyn fod yn air cyfan, rhan o air, neu hyd yn oed symbol neu atalnod, yn dibynnu ar sut mae’r model DA wedi’i hyfforddi.

3 Gweler https://oscar-project.org

4 Gweler https://hplt-project.org

5 Gweler https://commoncrawl.org

6 Biases yn Saesneg.

Llyfryddiaeth

[1] Smith, B., Unlocking data to advance European commerce and culture, yn Microsoft On the Issues. 2025.
[2] Reid, K. Your datasets, under your control: Introducing the Mozilla Data Collective. 2025 [Cyrchwyd 08/10/25]; Ar gael o: https://www.youtube.com/watch?v=rl7QvFqjXFA.
[3] Prys, G. a D.B. Jones, Gwerthusiadau Cyntaf o GPT OpenAI ar gyfer y Gymraeg, in Iaith a Thechnoleg yng Nghymru: Cyfrol II, G. Watkins, Gol. 2024, Prifysgol Bangor: Bangor, Cymru. t. 40-52.
[4] Xue, F., et al., To repeat or not to repeat: insights from scaling LLM under token-crisis, yn Proceedings of the 37th International Conference on Neural Information Processing Systems. 2023, Curran Associates Inc.: New Orleans, LA, UDA. t. Article 2590.
[5] Rystrøm, J., H. Kirk, a S. Hale, Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs. 2025.
[6] Sharma, N., K. Murray, a Z. Xiao. Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models. 2025. Albuquerque, New Mexico: Association for Computational Linguistics.