Hide/Show Apps

Kısmi Gözlemlenebilir Ardışık Karar Vermede Alt Hedef Tespiti

Kısmi gözlemlenebilirlik durumunda ardısık karar verme, algısal aynılıgın ve büyükboyutlulugun getirdigi sorunlar nedeniyle zor bir problem olarak bilinmektedir. Ögrenmealgoritmaları, ardısık karar verme problemine adaptif etmen bakıs açısıyla yaklasmaya çalısır,ve bazı yaklasıklastırma yöntemleri kullanarak söz konusu problemle basa çıkmayı dener.Takviye ögrenme (RL), özerk etmen modeline uyumlulugu, gerçeklestiriminin göreceli olarakkolay olması ve gerçek dünyadaki durumlara adaptasyonunun rahatlıgı gibi bilinen bazıözellikleri nedeniyle, güçlü bir çevrim-içi ögrenme yöntemi olarak kabul görür. Teorik olarakMarkov karar süreci (MDP) modelini temel alan RL yöntemlerinin, bazı varsayım vekısıtlamalar çerçevesinde kısmi gözlemlenebilir MDP (POMDP) versiyonları mevcuttur.Literatürde, MDP problemlerinin küçük alt problemlere bölünerek her bir problemin daha azeforla çözüldügü ve bu çözümlerin sonradan birlestirilip problemin bütünü için büyük çözümünüretildigi yöntemler vardır. Bu yöntemler arasında popüler olan bir yaklasım, problemi dogalolarak parçalara ayıran alt-hedeflerin tespitidir. Bu kapsamda MDP-RL yöntemleri içinyöntemler önerilmisse de kısmi gözlemlenebilir problemler için alt-hedef tespiti konusu halenolgunluga ulasmamıstır.Bu projenin amacı, POMDP-RL için alt-hedef tespiti alanında henüz hiçbir çalısmayapılmamıs olan, gizli durumlar içeren problemler için bellek tabanlı RL algoritmalarıkonusunda yeni yöntemler üretmektir. Bu çalısma, hal-i hazırda MDP-RL için mevcut olançevrim-içi alt-hedef tespit yöntemlerinin POMDP-RL modeline adaptasyonuna veya yenidentasarlanmasına odaklanmakta, böylece ögrenme performansının herhangi bir çevrim-dısımüdahaleye gerek kalmaksızın artırılmasını amaçlamaktadır.Öncelikle, gerek MDP-RL, gerekse POMDP-RL yöntemleri için mevcut alt-hedef tespityaklasımları -ögrenme çıktılarını kullanan yöntemlere agırlık verilerek- analiz edilmistir.Ardından, olgun bir POMDP-RL yöntem ailesi olan bellek tabanlı algoritmalara odaklanılarakyeni bir alt-hedef tespit yöntemi gelistirilmistir. Son olarak, literatürde yaygın kabul gören farklıproblemler üzerinde karsılastırmalı kosumlarla, önerilen yöntemlerin etkinliginin dogrulanmasısaglanmıstır.