Büyük veri çağında veri darboğazı Büyük veri çağında veri darboğazı

Büyük veri çağında veri darboğazı

Büyük veri çağında veri darboğazı

12/06/2020 12:22

ODTÜ Bilgisayar Mühendisliği Bölümü Dr. Ramazan Gökberk Cinbiş yazdı: “Büyük Veri Çağında Veri Darboğazı”
BU HABERİ
PAYLAŞ

HAVELSAN tarafından üç ayda bir yayımlanan “HAVELSAN Dergi”nin 5. sayısında, ODTÜ Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümünde Öğretim Üyesi olarak görev yapan Dr. Ramazan Gökberk Cinbiş’in bir makalesine yer veriliyor.

“HAVELSAN Dergi”nin 5. sayısına, mobil uygulamamızın dergi bölümünden ücretsiz olarak ulaşabilirsiniz.

Dergide yer alan “Büyük Veri Çağında Veri Darboğazı” başlıklı yazıyı, takipçilerimize sunuyoruz:

BÜYÜK VERİ ÇAĞINDA VERİ DARBOĞAZI

Derin öğrenme tabanlı makine öğrenmesi yaklaşımlarındaki ilerlemelerle birlikte, nesne tespiti, karmaşık oyunları oynama, diller arası çevrim gibi pek çok yapay zeka probleminde yakın geçmişe kıyasla çok daha başarılı modeller günümüzde elde edilmiştir. Temel yapay zeka problemlerindeki gelişmelere paralel olarak da otonom sistemlerin bel kemiğini oluşturan sahne algılama, hareket planlama ve aksiyon kararlaştırma gibi komponentlerin başarısında da önemli ilerlemeler sağlanmıştır.

Günümüzdeki yapay zeka uygulamalarının büyük çoğunluğu iki temel makine öğrenmesi paradigmasının üzerine kuruludur: gözetimli öğrenme ve pekiştirmeli öğrenme. Gözetimli öğrenme algoritmaları, hangi girdi için hangi çıktı elde edilmesi istendiğine dair çok sayıda örnek içerek büyük bir veri kümesindeki örneklerden yararlanır. Örneğin, bir görüntü sınıflandırma problemi için ilgilenilen her tip görüntü içeriği için örnek görüntüler toplanır. Bu örnekler konu uzmanlarınca etiketlenir ve daha sonra öğrenilen modelin bu etiketlerle genel olarak uyumlu çıktılar verecek şekilde oluşturulması sağlanır.

Pekiştirmeli öğrenmedeki yaygın yaklaşımlarda ise, bir simülasyon ortamında veya kontrollü deney ortamında yapılan denemelerin sonuçlarından yararlanılır. Simülasyon ortamında, modelin aldığı kararların sonucuna yönelik olumlu / olumsuz geri bildirimlerde bulunulur ve bu geri bildirimlere bağlı olarak model daha başarılı olacak şekilde güncellenir. Örneğin, eğer amaç insansız aracın belirli bir bölgede verilen belirlenen herhangi bir çıkış noktasından bir varış noktasına ulaşmayı öğrenmesi ise, aracın hedefine varış süresi ve varış başarısına bağlı olarak öğrenme sistemine geri bildirim verilebilir. Ayrıca, yüksek sayıda deney yapmaya uygun ortamlarda (örn. robotik kol) simülasyon yerine fiziksel sistemler de öğrenme ortamı olarak kullanılabilmektedir. Son olarak, bu iki temel yaklaşımın karışımı gibi yorumlanabilecek olan, uzman davranışlarını içeren kayıtlardan yararlan imitasyon öğrenmesi gibi diğer benzer öğrenme paradigmaları da bulunmaktadır.

Çoğu yapay zeka probleminde en başarılı sonuçları verdiği için tercih edilen bu yaklaşımların en önemli zayıflığı, büyük çaplı etiketli veriye bağımlılıklarıdır. Gözetimli öğrenme yaklaşımlarında bu durum açıkça görülmektedir: istenilen her bir sınıf için etiketli veri toplanması gerekmektedir. Bu örnekleri toplamak hem zaman alıcı ve hem de masraflı bir işlemdir. Özellikle nesne tespiti gibi detaylı etiketler gerektiren problemlerde gerekli veriyi toplamak büyük ve kapsamlı bir işleme dönüşmektedir. Bunun bir sonucu, yeni yapay zeka uygulamalarının geliştirilmesinde veri toplama sürecinin projelerin bütçe ve süreç planlamasında önemli bir yer tutuyor olmasıdır. Diğer bir sonucu ise, veri toplamanın zorluklarına bağlı olarak otonom sistemlerin ancak çok kısıtlı semantik kapsamlı olarak oluşturulabiliyor olmasıdır. Örneğin, günümüz robotik sistemleri için bir ortam sadece kısıtlı sayıda önceden belirlenmiş sınıflara ait nesneler ve o nesnelerin konumları olarak görünmektedir. Böyle bir sistemin, insanların zengin algısına ve sahne yorumlama yeteneklerine kıyasla çok primitif olduğu açıktır.

Çok benzer bir problem, pekiştirmeli öğrenme yaklaşımları için de geçerlidir. Her ne kadar pekiştirmeli öğrenme direkt olarak etiketli veriye direkt olarak dayanmıyor olsa da, simülasyon veya deney ortamı bu etiketli veriyi dolaylı olarak oluşturmaktadır. Yapılan milyonlarca denemenin her biri kendi içerisinde bir tür etiketli öğrenme örneği olarak yorumlanabilir. Burada da en önemli iki problem -eğer kullanılıyorsa- simulasyon ortamının gerçekçiliğinin sağlanması ve öğrenme senaryolarının oluşturulmasıdır. Simülasyon ortamının gerçek dünya fiziğinden farklarından ötürü ve gerçek dünyada milyonlarca deneme yapmanın mümkün olmayışından ötürü, eklemli robotik sistemlerin oluşturulması gibi çoğu problemde pekiştirmeli öğrenme yaklaşımlarının başarısı kısıtlı kalmaktadır. Benzer şekilde simülasyon ortamı yeterli gerçekçilik sağlasa bile kritik öneme sahip durumları içeren, ileride karşılaşılması durumunda otonom sistemin hata yapacağı senaryoların eğitim aşamasında oluşturulması büyük bir problem oluşturmaktadır. Örneğin, buzlu bir yolda yokuş aşağı inişe yönelik yeterince eğitim yapılmamış bir otonom aracın, gerçek dünyada böyle bir ortamdaki davranışı kritik hatalar içerebilir ve üzücü sonuçlar doğurabilir.

Bu kısıtların temelinde günümüz ana akım makine öğrenmesi yaklaşımlarının veri açısından -insan öğrenmesine kıyasla- verimsiz oluşu yatmaktadır. Örneğin, Google DeepMind’ın olağanüstü başarıyla çalışan AlphaZero’nun Go ve benzeri oyunlarda ulaştığı başarının temelinde onlarca milyon oyun pozisyonu üzerinde eğitim yapılmış olması yatmaktadır. Kabaca bir karşılaştırma yapacak olursak, bir insanın saatte 50, günde 500 oyun pozisyonu göreceğini düşünürsek, AlphaZero’nun eğitim örnekleri bir insan için yüzlerce yıllık tecrübeye denk gelmektedir. Buna kıyasla, meraklı bir insanın aylar mertebesinde çalışma ve çok daha az sayıda oyun deneyimi ile kendini iyi bir noktaya getirebildiği bilinmektedir. Benzer şekilde, insanın zengin dünya algısı özenle etiketlenmiş eğitim örneklerinden ziyade, ömür boyu görerek, duyarak, okuyarak edindiği direkt ve dolaylı bilgilerin üzerinde oluşmaktadır.

Eğitim verisi bağımlılığının, otonom sistemlerin daha esnek, daha geniş kapsamlı ve daha güvenilir hale getirilmesindeki en önemli dar boğazlardan biri olduğu düşünülmektedir. Makine öğrenmesi yöntemlerinin daha veri-verimli hale getirilmesi günümüzde makine öğrenmesi alanındaki akademik araştırmalarda giderek daha büyük bir yer kapsamaktadır. Bu konudaki çalışmalar özellikle belli başlı problem formülasyonları üzerine kurulmuştur. Bunlar arasında, önemli bir örnek, az örnekle öğrenme problemidir. Buradaki temel amaç, verilen çok az sayıda örnek üzerinden yeni bir görsel sınıfın veya görevin modelinin sentezlenmesidir. Diğer bir örnek, ansiklopedi ve benzeri kaynaklardaki dolaylı bilgilerden yararlanarak açıkça örneği verilmemiş sınıfları ve görevleri modellemeyi hedefleyen sıfır örnekle öğrenme problemidir. Hayat-boyu öğrenme ise hedef sınıf veya görevlerin ayrı ayrı öğrenilmesi yerine, birbiriyle görece zayıf bağlı konseptler veya görevler arasında bilginin biriktirilerek, eski bilgilerin unutulmadan öğrenilmesini hedeflemektedir. Ek olarak, kısmi gözetimli öğrenme, yarı etiketli veriden öğrenme, etiketsiz veriden öğrenme, öz-gözetimli, vb. pek çok ilgili diğer akademik araştırma problemi de günümüzde aktif olarak çalışılmaktadır.

Genel olarak baktığımızda, mevcut ana akım yaklaşımlarla otonom sistemlerdeki gelişmelerin devam etmesi beklenmektedir. Ancak, mevcut yaklaşımların ötesinde, daha insansı sistemlerin oluşturulmasında yeni nesil makine öğrenmesi paradigmalarının temel bir rol oynaması beklenmektedir.