Yapay Görme Nasıl Çalışır

Yapay Görme Nasıl Çalışır

Yapay görme Nasıl Çalışır?

Hem Sinirbilim hem de Makine Öğrenimi alanındaki en önemli açık sorulardan biri şudur: Beynimiz tam olarak nasıl çalışır ve biz kendi algoritmalarımızla buna nasıl yaklaşabiliriz? Gerçek şu ki, beyin hesaplamasıyla ilgili çok az sayıda çalışan ve kapsamlı teori var; bu nedenle Sinir Ağlarının "beynin çalışma şeklini taklit etmesi" gerektiği gerçeğine rağmen, kimse bunun gerçekten doğru olup olmadığından tam olarak emin değil.

Aynı paradoks yapay görme için de geçerlidir - beynin ve gözlerin görüntüleri nasıl işlediğine karar vermediğimiz için, üretimde kullanılan algoritmaların kendi iç zihinsel süreçlerimize ne kadar yaklaştığını söylemek zordur.

Belli bir düzeyde Yapay görme tamamen örüntü tanıma ile ilgilidir. Dolayısıyla bir bilgisayarı görsel verileri anlama konusunda eğitmenin bir yolu, ona etiketlenmiş binlerce, mümkünse milyonlarca görüntü beslemek ve ardından bunları bilgisayarın bu etiketlerle ilgili tüm öğelerdeki örüntüleri avlamasını sağlayan çeşitli yazılım tekniklerine veya algoritmalara tabi tutmaktır.

Örneğin, bir bilgisayara bir milyon kedi görüntüsü verirseniz (hepimiz onları severiz😄😹), bilgisayar bunların hepsini fotoğraftaki renkleri, şekilleri, şekiller arasındaki mesafeleri, nesnelerin birbirini nerede sınırladığını vb. analiz etmesine izin veren algoritmalara tabi tutacak ve böylece "kedi "nin ne anlama geldiğine dair bir profil belirleyecektir. İşini bitirdiğinde bilgisayar (teoride) kedi olanları bulmak için diğer etiketsiz görüntülerle beslendiğinde edindiği deneyimi kullanabilecektir.

Pofuduk kedi dostlarımızı bir an için bir kenara bırakalım ve daha teknik olalım🤔😹. Aşağıda Abraham Lincoln resmimizi saklayan gri tonlamalı görüntü tamponunun basit bir gösterimi yer almaktadır. Her pikselin parlaklığı, aralığı 0 (siyah) ile 255 (beyaz) arasında olan 8 bitlik tek bir sayı ile temsil edilir:

yapay-gorme

Görüntü verilerinin bu şekilde saklanması beklentilerinize ters düşebilir, çünkü veriler görüntülendiğinde kesinlikle iki boyutlu görünmektedir. Yine de durum böyledir, çünkü bilgisayar belleği basitçe adres alanlarının sürekli artan doğrusal bir listesinden oluşur.

yapay-gorme-1

Tekrar ilk resme dönelim ve renkli bir tane eklediğimizi hayal edelim. Şimdi işler daha karmaşık hale gelmeye başlıyor. Bilgisayarlar renkleri genellikle aynı 0-255 ölçeğinde kırmızı, yeşil ve mavi (RGB) olmak üzere 3 değerden oluşan bir dizi olarak okur. Şimdi, her piksel aslında bilgisayarın konumuna ek olarak saklayacağı 3 değere sahiptir. Başkan Lincoln'ü renklendirecek olsaydık, bu 12 x 16 x 3 değerine veya 576 sayıya yol açacaktı.

yapay-gorme-2

Bu, tek bir görüntü için çok fazla bellek ve bir algoritmanın üzerinde yinelemesi gereken çok fazla piksel demektir. Ancak bir modeli anlamlı bir doğrulukla eğitmek için, özellikle de Derin Öğrenme söz konusu olduğunda, genellikle on binlerce görüntüye ihtiyaç duyarsınız ve ne kadar çok olursa o kadar iyi olur.