Görsel Tanıma Problemlerinde Sınıf Dengesizliğini Ölçerek Ve Belirsizlik Kullanarak İyileştirme (Denge)

2023-4-01
Kalkan, Sinan
Oksuz, Kemal
Akbas, Emre
Sınıf dengesizliği (SD - ing. class imbalance), makine öğrenmesi yöntemlerinin genelleme performansını etkileyen önemli bir problemdir. SD, temelde veri kümesinde bazı sınıfların diğerlerine göre daha az örnek içermesi problemi olarak tanımlanabilir. Bu tanıma ve literatürde kabul görmüş genel kanıya göre, sınıflar arası bu dengesiz dağılım, makine öğrenmesi yöntemlerinin çok sayıda örnek içeren sınıflarda daha iyi performans gösterirken, az sayıda örnek içeren sınıflar için performansının kısıtlı kalmasına neden olmaktadır. SD problemlerine karşı son yıllarda pek çok yöntem geliştirilmiştir. Bu yöntemler genel olarak (i) fazla-örnekleme veya alt-örnekleme ile önyargıyı düzeltmeyi veya (ii) ?zor? örneklere daha çok önem atfetmeyi önermektedir. Bu yöntemlerin SD problemini hafiflettiği ve performansı iyileştirdiği bilinmektedir. DENGE projemiz, mevcut yöntemlerin aşağıdaki yönlerden iyileştirilmesine odaklanmıştır: Gözlem 1: Daha az örnek içermesi, bir sınıfın sınıflandırma performansının kötü olacağı anlamına gelmez: Durum: Yaygın olarak kullanılan fazla-örnekleme veya alt-örnekleme yöntemleri, sınıfların veri kümesindeki örnek sayısına göre kurgulanmaktadır. Ancak, daha az örnek içermesine rağmen kolay ayırt-edilebilen sınıfların daha az örnekle daha yüksek doğrulukla tanınabileceği bilinmektedir. Çözüm: Projemizde bir veri kümesindeki (sınıf bazındaki) dengesizliği ölçebilecek bir ölçü geliştirmeyi hedefledik. Bu ölçü, sınıfların içerdiği örnek sayısından ziyade, sınıfların dağılımındaki birim miktardaki bir dengesizlikten sınıflandırıcının performansının ne kadar etkilendiğini ölçmektedir. Böyle bir ölçü SD problemi hakkında daha derin bilgi sunmakta ve SD problemi için daha iyi çözümler geliştirilmesine katkı sağlamaktadır. Gözlem 2: Umut verici sonuçlar vermiş olsa da örneksel zorluk, dengesizliğin bir göstergesi değildir: Durum: Mevcut çözümlere (örn., Focal Loss, OHEM) baktığımızda, sınıflandırıcının örneklerde ne kadar zorlandığı bilgisine göre SD çözümünün şekillendiğini görmekteyiz. Halbuki, dengesizlik sınıf bazında veri yetersizliğine (sadece sayı azlığına değil) dayanan bir problemdir. Çözüm: Projemizde bilgisel belirsizlik (ing. epistemic uncertainty) kavramını kullanarak dengesizliği belirlemeyi ve çözüm geliştirmeyi hedefledik. Bilgisel belirsizlik, veri olmadığı için bir modelin kararındaki belirsizliğin (güvensizliğin) bir ölçüsü olarak tanımlanır: Veri uzayında örnek bulunmayan noktalarda bilgisel belirsizlik yüksek, diğer noktalarda ise düşüktür. Tanımı gereği, SD problemi için oldukça uygun bir kriter olarak görünmektedir ve körlemesine sınıf bazında örnek sayısına bakmak yerine veri azlığını daha iyi tespit edebilir: Eğer modelin bilgisel belirsizliği bir örnek için yüksek ise bu, modelin uzayın o örneğe karşılık gelen noktasında yeterince örnek görmediği ve o noktada ve o sınıfta dengesizlik olduğu çıkarımı yapılabilir. Bu bağlamda, bilgisel belirsizlik kullanılarak örneklerin sayısına bakmadan örneklerin uzayı ne kadar iyi kapsadığı ölçülebilir ve bunun üzerinden dengesizlik ilişkisi kurulabilir. Projemizde belirsizlik kullanarak bir dengesizlik ölçüsü tanımladık, bu ölçü ile mevcut çözümleri incelemeyi ve yeni çözümler geliştirdik. Özet olarak: DENGE projesi, örneksel zorluktan ziyade problemsel zorluk (Gözlem 1); örnek sayısı yerine örneklerin ne kadar uzayı kapsadığı bilgisi (Gözlem 2) üzerinden dengesizliği ölçmeyi ve çözmeyi araştırmıştır.
Citation Formats
S. Kalkan, K. Oksuz, and E. Akbas, “Görsel Tanıma Problemlerinde Sınıf Dengesizliğini Ölçerek Ve Belirsizlik Kullanarak İyileştirme (Denge),” 2023. Accessed: 00, 2025. [Online]. Available: https://search.trdizin.gov.tr/tr/yayin/detay/1222466/gorsel-tanima-problemlerinde-sinif-dengesizligini-olcerek-ve-belirsizlik-kullanarak-iyilestirme-denge.