Q-Ddysgu ac Actor-Gritig o ran Rheoli Systemau Dŵr

Crynodeb:
Mae rheoli systemau dŵr yn dasg hanfodol a phwysig o ran diogelwch. Defnyddiwyd datblygiadau arloesol diweddar o safbwynt dysgu peirianyddol ar gyfer systemau dŵr [1], ond oherwydd natur ‘blwch du’ nifer o’r algorithmau hyn, mae enghreifftiau gwirioneddol o’r modd y’u rhoddwyd ar waith yn ymarferol yn brin. Mae’r papur hwn yn cymhwyso pensaernïaeth dysgu peirianyddol egluradwy Q-ddysgu i systemau dŵr, mewn ymgais i greu systemau sydd nid yn unig yn gwneud penderfyniadau da, ond sy’n cyfiawnhau’r penderfyniadau hynny mewn modd sy’n ddealladwy i arbenigwyr maes. Gweithredir rhwydwaith [2] actor-gritig hefyd i gymharu perfformiad yng nghyswllt y problemau hyn. Gweithredir nifer o amgylcheddau efelychiadol ar amryw lefelau o ran cymhlethdod i brofi’r modd y mae gweithredyddion yn perfformio yng nghyswllt fersiynau mwy a mwy realistig o’r broblem o ran rheoli tanciau dŵr. Defnyddir gwybodaeth gan arbenigwyr maes i sicrhau bod yr amgylcheddau [1] efelychiadol yn debyg i amgylcheddau gwirioneddol tanciau dŵr, ond gwneir rhai bras amcanion i wneud y broblem yn hydrin o safbwynt cyfrifiadol. Mae’r papur hwn yn dangos achosion lle gall Q-ddysgu fod yn ddull effeithiol i reoli systemau dŵr, ond mae o hefyd yn amlygu achosion lle byddai gweithredydd Q-ddysgu syml yn gwneud penderfyniadau gwael sy’n arwain at fethiant catastroffig. O ran lle mae sawl gweithredydd yn gallu perfformio’n dda ar yr un dasg, mae’r papur hwn yn eu meincnodi ac yn gwerthuso pa mor briodol y mae pob gweithredydd ar gyfer y dasg honno.