Denetimli Öğrenmeden sonra, ML’in en çok kullanılan formu “Denetimsiz Öğrenme”dir.
Önceki konudan denetimli öğrenmeyi hatırlayacak olursak, her örnek, iyi huylu veya kötü huylu olmasına göre O veya X işaretiyle etiketlendirilmişti (sınıflandırılmıştı).
Ancak Denetimsiz Öğrenmede, hiç bir örnek verilen çıktı değerine göre etiketlenmez (sınıflandırılmaz).
Diyelim ki hastanın yaşını ve tümörünün boyutunun verisi sizde, ancak bu verilerin iyi huylu veya kötü huylu olduğu hakkında herhangi bir bilginiz yok. Yani veri setiniz bu sağdaki grafik gibi.
Algoritmaya herhangi bir değerin iyi huylu veya kötü huylu olduğunu soramadık. Çünkü veri setinde bu bilgiler verilmedi. Bu durumda yapabileceğimiz şey; veri setinde belirli bir modele, bir şekile uyan bir ilişki bulmaktır. Buna Denetimsiz Öğrenme denir.
Denetimsiz öğrenme diyoruz çünkü algoritmayı denetlemiyoruz, yönetmiyoruz. Giriş değerlerini ve çıkış değerlerini vermek yerine, sadece girişleri verdik ve kendi kendine bu giriş verileri arasındaki ilginç ilişkiyi bulmasını istiyoruz. Diğer bir deyişle, bu veri setindeki benzerlikleri veya farklılıkları bulmasını istiyoruz.
Başlıklar
Denetimsiz Öğrenme Algoritmaları
Kümeleme Algoritması
Elimizdeki veri setine bakarsak, Denetimsiz Öğrenme algoritması bu verileri iki farklı kümeye (gruba) ayırmaya karar verebilir.
Bu Denetimsiz Öğrenmenin “Kümeleme(Clustering) Algoritması” denen bir türüdür. Etiketlenmemiş verileri ilişkilerine göre kümelere ayıran bir yaklaşımdır ve bir çok uygulamada kullanılmaktadır. Örneğin, Google Haberler’de kümeleme algoritması kullanılıyor. Google Haberler; her gün yüz binlerce habere bakıyor ve birbirine benzer konuları içeren haberleri bir araya getiriyor. Mesela Google Haberler’den bir örneğe bakalım; “Dev Panda Japonya’nın En Eski Hayvanat Bahçesinde İkiz doğurdu”.
Fark ettiyseniz sonuçlarda birbirine benzer yazılar var. Sadece başlıklara bakarak bile kümeleme algoritmasının nasıl çalıştığıyla ilgili fikir sahibi olabilirsiniz. Dikkat ederseniz “panda” kelimesi bulunan 5 sonuçta da var. Ayrıca “İkiz” kelimesi ve “Hayvanat Bahçesi” kelimesi de bütün yazılarda var.
Yani burada kümeleme algoritmasının yaptığı işi şöyle özetleyebiliriz; o günün yüz binlerce haberi içerisinden benzer kelimeleri içeren yazıları alıyor ve gruplandırıyor. Kümeleme algoritmasıyla ilgili iginç olan şey ise; bu kelimelere göre makalelerin aynı grupta olduğunu kendisinin çözüyor olması. Yani, Google Haberler takımında algoritmaya “panda kelimesini içeren yazıları kümele” diyen birisi yok. Veya “ikiz”, “hayvanat bahçesi” kelimelerini içeren yazıları aynı kümeye koy demiyorlar. Haber gündemi her gün değişiyor. Her gün aşırı miktarda fazla haber olduğundan bir insanın her gün kelimelere göre haberleri kümelemesi mümkün değil. Bunun yerine algoritmanın kendi başına – denetim olmadan – günün haberlerini kümelesi lazım. Bu yüzden kümeleme algoritması, Denetimsiz Öğrenmenin bir türüdür.
Şimdi Denetimsiz Öğrenmenin kullanıldığı bir başka örneğe; DNA verisinin kümelenmesine bakalım.
Bu görsel DNA mikro dizi verisini gösteriyor. Küçük kutucuklardan oluşan kareli defter gibi gözüküyor. Her bir minik sütun bir insanın DNA aktivitesini temsil ediyor. Yani burada gördüğünüz bir sütun bir insanın DNA’sı, hemen yanındaki sütun ise bir başka insanın. Her bir satır ise belirli bir geni temsil ediyor. Örneğin belirli bir sıradaki gen göz rengine bağlı bir gen olabilir. Veya bir başka sıradaki gen bir insanın boyuyla ilgili olabilir. Hatta araştırmacılar bir insanın brokoli, lahana, kuşkonmaz gibi belirli bir sebzeyi sevmemesinin genetik bağlantısı olduğunu buldular. Yani bir dahaki sefere birisi size “salatanı niye bitirmedin?” derse bunun genetik olabileceğini söyleyebilirsiniz. ????
Buradaki renkler(kırmızı,yeşil, gri), bir insanın hangi gen türünün ne derece aktif olduğunu gösteriyor. Burada bir kümeleme algoritması çalıştırarak insanları farklı kategorilere ayırabiliriz veya farklı türlere. Mesela insanları aşağıdaki şekilde tip1, tip2 ve tip3 diye gruplayalım.
Bu bir Denetimsiz Öğrenme örneğidir, çünkü algoritmaya önceden bu insanların hangi tipe ait olduğunu söylemiyoruz. Yani “Tip1 insanlar şu özelliklere sahiptir, Tip2’ler şu özelliklere…” diye belirlemedik. Onun yerine “İşte sana bir miktar veri. Bu insanlar hangi tipe ait bilmiyoruz ama sen aralarında bir ilişki kurarsın” diyoruz. Doğru cevapları önceden vermediğimiz için, algoritma otomatik olarak insanları benzerlik veya farklılıklara göre tiplere ayırıyor. İşte bu Denetimsiz Öğrenmedir.
Şu anda aranızdan bazılarının hemen beynindeki radarların açılıp, fütüristik hayal gücünün aktive olduğunu tahmin ediyorum. Aklımızda deli sorular ????
Elimizde suçlulara ait DNA veritabanı olduğuna göre bunları kullanarak ileride suç işleme potansiyeli olan insanları önceden tahmin edebilir miyiz?
Ya da bir sonraki Hitler’i daha çocukken fark edebilir miyiz?
Bunlar her ne kadar Makine Öğrenmesi ile mümkün görünse de, Makine Öğrenmesini bu şekilde kullanmak için insan hakları, özgür irade, eğitimin kişinin karar verme yetisindeki etkisi, kültürel ve ekonomik etkenlerin insan davranışları üzerindeki etkisi, sosyolojik ve psikolojik etkenler gibi bir çok tartışmalı konu var.
Bunun yerine ebeveynlerinin DNA profilinden, sahip olacakları çocukların gen haritasından tespit edilebilecek potansiyel hastalıklarının önüne geçmek gibi daha pozitif destek alabilecek alanlarda kullanabilirsiniz.
Hemen burada bir parantez açıp yapay zekanın tahmin modelleri üzerine odaklanan Kitap, Film ve TV Dizisi önerilerinde bulunabilirim. Hazır merakınızı alevlendirmişken!
Tabii ilgisini çekmeyenler direkt teknik anlatıma devam etmek için aşağıda işaretlenmiş bu bölümü atlayabilirler.
En çok bilinenlerinden biri, Steven Spielberg imzalı 2002 yılı yapımı ve başrolünde yıllara meydan okuyan yıldız oyuncu Tom Cruise’un yer aldığı Azınlık Raporu(Minority Report) isimli film.(Filmin devamı niteliğinde 10 yıl sonrasını konu alan bir dizi de mevcut)
Tabii film eski bir öykü uyarlaması olduğu ve alıntılandığı öykü 1956 yılında yazılmış olduğu için, o zamanki hayal gücüyle yapay zekaya hayat veren bilgisayarlar yerine olağandışı medyum güçlerine sahip 3 insanın gelecek tahminlerine dayanıyordu.
Bu bağlamda sözü geçen öyküyü ve benzer bir çok romanı yazmış olan Philip K. Dick’ten de kısaca bahsetmek isterim. Zira 1928 doğumlu ödüllü yazarın gelecek öngörüleri ve bilim kurgu alanında çığır açan bir çok kitabı Hollywood’ta bir çok kült filme(Blade Runner 1982 – 2017, Total Recall 1990 – 2012, Minority Report) konu olmuştur.
Ayrıca 1963 Hugo ödülü sahibi Yüksek Şatodaki Adam(The Man in the High Castle) romanı da kitap formatında Türkçe olarak da ulaşabileceğiniz ya da TV Dizisi olarak Amazon Prime üzerinden izleyebileceğiniz eserlerinden.
Ancak tüm bu ödüllere ve tüm dünyada milyonlarca izleyiciye ulaşan efsane Hollywood filmlerine konu kitapların yazarı olsa da, hayatı boyunca para sıkıntısı çekerek 53 yaşında genç sayılabilecek bir zamanda kendisini kaybettiğimizi de ekleyelim. Kısa hayatına onca çığır açan eseri sığdırdığı için saygıyla anmak adına bir bilim kurgu hayranı olarak bunları yazma gereği hissettim. Konunun dışına çıktığımı değerlendirenler kusura bakmasınlar lütfen.
Direkt olarak yapay zeka üzerine kurgu yapılmış daha güncel bir dizi olarak da Disney +‘da yayınlanan 2009 Sınıfı(Class of ’09) göz atabileceğiniz ilginç bir diğer örnek.
Şimdi de üçüncü örneğimize bakalım; bir çok şirket müşterilerine ait devasa veri tabanlarına sahiptir. Bu veriyle müşterilere daha iyi hizmet vermek için onları farklı satın alma kategorilerinde gruplandırabilir miyiz?
Benzer şekilde insanları tercihlerine göre gruplandırma üzerine çalışan DeepLearning.AI takımı, üyelerini daha iyi tanımak için böyle bir çalışmayı gerçekleştirdi. “Neden farklı insanlar bu dersleri aldı, neden batch haftalık bültenine abone oldular veya AI etkinliklerine katıldılar?” gibi soruların cevaplarını aradılar.
Aşağıdaki grafik, DeepLearning.AI topluluğunun kümelenmelerini kabaca temsil ediyor. Bu verileri inceleyen ekip insanlar arasında ilişkili bir kaç farklı grup buldu. Bu gruplardan birinin amacı “yeteneklerini geliştirmek için bilgi arama”, ikinci grubun amacı “kariyerlerinde ilerleyebilmek, terfi etmek veya yeni bir iş bulmak”. Bir diğer grup ise sadece “AI çalışmalarından haberdar olmak, kendi iş alanlarını etkileyip etkilemediğine bakmak” isteyenlerden oluşuyor.
Gerçi yukarıdaki gibi tek başına hiç bir gruba girmeyen kişinin diğer 3 gruptan çok farklı bir amacı olduğu ve bu amacın ne olduğunun anlaşılamadığı ???? durumlarda söz konusu olabiliyor.
Denetimsiz Öğrenmenin bir türü olan Kümeleme algoritmasını özetleyecek olursak; etiketlenmemiş verileri alır ve onları benzerliklerine veya farklılıklarına göre kümelendirir(gruplandırır).
Şimdi Denetimsiz Öğrenmenin daha resmi bir tanımını verelim ve kümeleme dışındaki diğer Denetimsiz Öğrenme algoritmalarına bir göz atalım.
Denetimli Öğrenmede, veri(x girişleri) etiketleriyle(y’lerle) beraber geliyordu, denetimsiz öğrenmede ise, veri sadece giriş (x) değerleriyle -y etiketleri olmadan- geliyordu ve algoritma verinin içinden bir yapı, bir şekil çıkartmaya çalışıyordu. Şu ana denk, denetimsiz öğrenmenin bir türü olan kümeleme algoritmasını gördük. Bunun yaptığı da, benzer verileri kümelemekti. İlerleyen adımlarımızda, kümelemenin yanı sıra denetimsiz öğrenmenin diğer iki türünü de göreceğiz;
Anomali Tespiti
Bunlardan biri olan “Anomali(Anormallik) Tespiti”, olağandışı olayları tespit etmek için kullanılır. Finansal sistemlerde dolandırıcılık tespiti için oldukça önemlidir. Sıradışı olayları tespit eder. Mesela sıradışı parasal işlemler dolandırıcılıktan kaynaklanıyor olabilir. Örneğin yatırımını sürekli olarak bankadaki vadeli mevduat hesabında değerlendiren bir kişinin, vade getirisine bir kaç gün kala aniden vadesini bozarak tüm parasını çekmek istemesi, günümüzde sıklıkla karşılaştığımız telefon dolandırıcılığı kurbanlarından biri olmak üzere olduğunun bir göstergesi olabilir.
Boyut İndirgeme
Diğeri ise “Boyut İndirgeme”. Büyük bir veri setini alıp mümkün olan en az veri kaybıyla, sihirli bir şekilde daha küçük veri setine indirger. Örneğin internet trafiği verileri; kullanıcı etkileşimleri, web trafiği veya ağ trafiği gibi yüksek boyutlu verileri içerebilir. Boyut indirgeme, bu verilerdeki önemli desenleri ve yapıları belirlemek için kullanılabilir. Bu, kullanıcı segmentasyonu, saldırı tespiti veya trafiğin anlaşılması gibi amaçlar için kullanılabilir.
Bağlantıda Kalalım