Günümüzde dijital dünya ile iç içe geçen yaşam tarzımız ile herkes ardında bir dijital iz bırakır hale geldi; Tatil tercihlerimiz, fitness programımız, eğlenmek için izlediğimiz videolar gibi.

Her gün iletişimde bulunduğumuz uygulamalar ve internet bağlantılı cihazlar hakkımızda büyük miktarda veri kaydeder. İşte Büyük Veri(Big Data) olarak adlandırdığımız kavram budur.

Ernst&Young’a göre Büyük Veri; insanlar, araçlar ve makineler tarafından oluşturulan, dinamik, büyük ve farklı boyutlardaki veriyi ifade eder.

Tüketiciler, risk, kar, performans, verimlilik yönetimi ve hisse değeri gelişimi ile ilgili gerçek zamanlı iş istatistikleri ve tahminleri oluşturmak amacıyla büyük miktarda veri toplamak, depolamak ve analiz etmek için yeni ve ölçeklenebilir teknolojiler gerekmektedir.

Büyük verinin tek bir tanımı yoktur. Ama; farklı tanımlardan elde edilen hız, hacim, çeşitlilik, doğruluk ve değer gibi ortak olan öğeleri nettir. Buna ingilizce karşılıklarından ötürü 5V adı verilir; hız(Velocity), hacim(Volume), çeşitlilik(Variety), doğruluk(Veracity) ve değer(Value)

Hız(Velocity) ile verilerin birikme hızı ifade edilmektedir. Veriler, hiç durmayan bir süreçte, sürekli ve hızlı bir şekilde oluşmaktadırlar. Yakın ya da gerçek zamanlı veri akışından gelen bilgiyi, yerel ya da bulut tabanlı teknolojiler çok hızlı şekilde işleyebilir.

Hacim(Volume), verilerin ölçeği ya da depolanan veri miktarındaki artıştır. Bu hacim depolama sürücüleri, veri kaynaklarındaki artış, yüksek çözünürlüklü sensörler ve ölçeklenebilir altyapı ile artmaktadır.

Çeşitlilik(Variety) verilerin farklılıklarını ifade etmektedir. Yapılandırılmış veriler ilişkisel veritabanlarında sütunlar ve satırlar şeklinde düzgün olarak yerleştirilirken, yapılandırılmamış veriler(tweetler, blog yazıları, resimler, videolar) önceden planlanmış bir şekilde düzenlenemez. Çeşitlilik ayrıca verilerin insanlar, makineler, işlemler gibi farklı kaynaklardan gelmesinden de kaynaklanmaktadır. Kaynaklar; mobil teknolojiler, sosyal medya, giyilebilir teknolojiler, coğrafi teknolojiler, video ve pek çok benzer farklı kaynaklardır.

Doğruluk(Veracity) verilerin kaynağı ve kalitesi ile ilgilidir. Gerçeklere ve doğruluğa uygunluğudur. Nitelikleri; Tutarlılık(Consistency), Bütünlük(Completeness), Sağlamlık(Integrity) ve Belirsizlik(Ambiguity)tir.

Sürücüler, maliyet ve izlenebilirlik ihtiyaçlarını içerir.

Tartışmanın alevlendiği nokta, dijital çağdaki mevcut büyük miktardaki verinin doğruluğu ve güvenilirliği hakkındadır. Elde edilen bilgi doğru mu yoksa yanlış mı? Gerçek mi yoksa yalan mı?

Değer(Value) elde edilen bilgi ile üretilen faydadır. Verileri bir değere dönüştürme ihtiyacımız vardır. Değer yalnızca karlılığı ifade etmez. Müşteri, çalışan ya da kişisel  memnuniyeti, tıbbi ya da sosyal faydaları da ifade edebilir.

İnsanların Büyük Veri’yi anlayabilmek için zaman harcamaları ve yatırım yapmalarının başlıca nedeni, ondan bir değer üretmektir.

Şimdi bu kavramların gerçek dünyadaki yansımalarını örnekleyerek anlamaya çalışalım.

Hız: Geçen her dakikada çok sayıda kişi aynı anda toplam süresi saatleri, hatta günleri ve ayları bulacak miktarda veriyi YouTube’a yüklemeye devam etmektedirler. Siz şu anda bu satırları okurken geçen 1 dakikada 100.000 YouTube kullanıcısının yüklediği 100.000 dakikalık video verisi izlemeye sunuldu. Bu da neredeyse geceli gündüzlü 70 günlük izleme süresine denk gelir. Ve bu her dakikada bu şekilde artmaya devam etmektedir. 1 gün 24 saat ve 1440 dakikaya eşit olduğuna göre, her gün 100.800 günlük yeni veri oluşuyor demektir. Bu da YouTube’da sadece 100.000 kişinin 1 günde  oluşturduğu veriyi izleyebilmeniz için 276 yıldan fazla yaşamanız gerektiğini gösterir.

Hacim: Dünya nüfusu şimdilik 7 milyar kişi civarındadır. Bu rakamın da büyük çoğunluğu cep telefonu, bilgisayar, giyilebilir teknolojiler gibi dijital cihazları kullanmaktadır. Bu cihazların tümü veri üretir, yakalar ve depolarlar. Bu da her gün yaklaşık 2.5 kentilyon(2.500.000.000.000.000.000) byte veri üretildiği anlamına geliyor. Bu da günde 10 milyon Blu-Ray DVD’de depolanabilecek seviyede büyük bir veri hacmidir.

Çeşitlilik: İlk aklımıza gelen bir kaç farklı veri türünü düşünelim; metin, resim, video, ses gibi… Tabii bilimsel verileri de ele aldığımızda bunlardan çok çok farklılıkta pek çok tür daha mevcuttur.

Doğruluk: Verilerin %80’i yapılandırılmamış olarak kabul edilmektedir. Bu verilerden güvenilir ve doğru bilgiler üretebilmenin yollarını geliştirmeliyiz. Bu veriler kategorize edilmeli, analiz edilmeli ve anlamlandırılarak görselleştirilmelidir.

Veri Bilimi alanında çalışan kişiler günümüzde bu Büyük Veri’den bilgi üretme üzerinde çalışıyorlar. Yukarıdaki gerçek hayattan alınan örneklerde de gördüğünüz gibi toplanan verilerin boyutu geleneksel veri analiz araçlarınınkullanılmasının mümkün olmadığı büyüklüktedir.

Ancak, dağıtılmış bilgi işlem gücünden yararlanan alternatif sistemler bu sorunun üstesinden gelebilirler. Apache Spark, Hadoop ve bunlardan oluşan ekosistemler; verileri ayıklamak, yüklemek, işlemek ve analiz etmek için yöntemler sunar.

Veri biliminin olasılık, istatistik, doğrusal cebir ve programlama gibi bileşenlerinin çoğu on yıllardır kullanılıyor, ancak şimdi bunları birleştirmek ve yeni teknikler ile öğrenme algoritmaları bulmak için hesaplama yeteneklerine sahibiz.

Hadoop Nedir?

Hadoop; sıradan sunucuları bir küme oluşturacak şekilde birleştirerek kaynaklarını ortak kullanarak büyük verileri işleyebilecek uygulamaların çalıştırılmasını sağlayan açık kaynaklı bir kütüphanedir. Hadoop Dağıtık Dosya Sistemi (HDFS-Hadoop Distributed File System) olarak adlandırılan ve sıradan sunucuların diskleri bir araya getirerek büyük, tek bir sanal disk oluşturan bir dosya sistemine sahiptir. Çok büyük boyuttaki bir çok dosya bu dosya sisteminde depolanabilir. Bu dosyalar bloklar halinde birden fazla ve farklı sunucu üzerine yedeklenir ve veri kaybı önlenir. Ayrıca HDFS çok büyük boyutlu dosyalar üzerinde okuma işlemi imkanı sağlar. Hadoop, MapReduce özelliği sayesinde büyük dosyalardaki verileri işleyebilmek amacıyla filtreleme için Map fonksiyonunu ve bu verilerden sonuç elde edilmesini sağlayan Reduce fonksiyonunu kullanarak  büyük veri üzerinde çalıştırılabilir programlar oluşturur.

Büyük Verinin Dijital Dönüşüme Etkisi

Veriden anlamlı souçlar elde ederek iş alanına uygulamak firmaların yeni yöntemler geliştirerek dijital dönüşüme uğramalarının temel kaynağıdır. Elde edilen bilgi arttıkça ve rekabet avantajını lehine çevirmeye olan etkisi görüldükçe, firmaların dönüşüp yeni yaklaşımlar geliştirmesine neden olmuştur. Örneğin Netflix, hayatına posta ile DVD kiralayan bir firma olarak başlamıştı. Bugün, en büyük medya kuruluşlarından biri haline geldi. NBA basketbol liginin önemli takımlarından biri olan Houston Rockets kuşbakışı kamera sisytemleri ile elde edilen verileri analiz ederek en verimli oyunları nasıl kazanabildikleri bilgisine ulaştı. Lufthansa müşteri verilerini analiz ederek hizmetlerini geliştirdi. Yani Büyük Veri, günümüzde şirketlerin iş tanımını yeniden yaparak kimliklerini bulmalkarını sağlayan bir yapıtaşıdır.

Büyük Veri sadece tek bir şirketi değil, bir iş dalını komple değiştiren bir dijital dönüşüm yaratır. 2018 yılında NBA ligi basketbol takımı Houston Rocket Büyük Veri ile oyun taktiklerini daha ileri bir seviyeye taşıdı. NBA’de bunu hedefleyen 4 takımdan biriydi. Oyunları takip eden kamera sistemleri yerleştirdiler. Maçlardaki sayı elde etme miktarını artırmak için hangi fırsatlara sahip olduklarını incelediler ve bu bilgi 2017-2018 sezonunda tüm diğer takımlardan daha fazla 3 sayılık atış ile maç kazanmalarına neden oldu. Bu bilgi basketbol takımlarının oyun oynama şekillerini, taktiklerini ve hatta oyuncu kabiliyetlerini değiştirmeye neden oldu.

Dijital dönüşüm mevcut süreçleri dijital formda çoğaltmak değildir. İşletmenin çalışma şekli üzerinde değişiklik meydana getirebilecek, süreçlerini ve operasyonlarını geliştirebilecek değişimler yapmasını sağlayacak bir devrimdir. Bunun için veri bilimini iş akışlarına entegre edebilecek yaklaşımlara sahip olmak gereklidir.

Veri Madenciliği – Data Mining

Veri madenciliği, büyük ölçekte veriyi bir madenden değerli bir madeni çıkartıyormuş gibi işleyerek anlamlı bilgiye ulaşabilmek için gerekli çalışmaya denir.

Bu işlemin çeşitli adımları vardır;

Hedeflerin Belirlenmesi: Veri madenciliğinin ilk adımı sonuçta elde edilmek istenen hedefin belirlenmesidir. Bu adımda, cevaplanması gereken sorularınızı oluşturmalısınız. Bununla birlikte fayda-maliyet analizi yaparak, ulaşalacak sonucun katlanılacak maliyete değer olduğunu belirlemelisiniz. Ayrıca, veri madenciliğinden elde edilecek olan sonuçların, beklenen doğruluk ve kullanışlılık düzeyini önceden belirlemelisiniz. Sonuçlardan beklenen doğruluk seviyesi de maliyetleri etkileyen bir faktördür. Veri madenciliğinden elde edilecek yüksek doğruluk seviyeleri daha pahalıya mal olur ve bunun tersi de geçerlidir. İstenen doğruluk seviyesi için maliyet-fayda dengesini kurmak hedeflere ulaşmak için önemlidir.

Verilerin Seçilmesi: Veri madenciliği uygulamasının sonuçlarında istenilen hedeflere ulaşmak, büyük ölçüde kullanılan verilerin kalitesine bağlıdır. Bazı durumlarda veriler işlenmeye hazır halde bulunurlar. Örneğin bir e-ticaret sitesi için ya da perakende satışlar için müşteri satın alma alışkanlıkları ve demografik verileri zaten mevcuttur. Ancak çoğu durumda veriler, veri madenciliği için bu seviyede hazır olmayabilirler. Bu durumda, veri kaynaklarını belirlemeli ve hatta anketler dahil yeni veri toplama girişimleri planlamalısınız. Verinin türü, boyutu ve toplanma sıklığı, veri madenciliği uygulamasının maliyeti ile doğrudan ilişkilidir. Bu nedenle; sorulara makul maliyetlerle cevap verebilecek, ihtiyaç duyulan doğru türde verilerin belirlenmesi çok önemlidir.

Verileri Önişleme: Veri madenciliğinin önemli bir adımıdır. Çoğu zaman ham veriler dağınıktır ve hatalı veya ilgisiz veriler içerir. Ek olarak, ilgili verilerle çalışırken bile bazen bilgi eksiktir. Ön işleme aşamasında, verilerin alakasız özelliklerini belirler ve bu tür özellikleri değerlendirmeden çıkarırsınız. Aynı zamanda, veri setinin hatalı yönlerinin belirlenmesi ve işaretlenmesi gerekir. Örneğin; insan hatası, bilginin yanlışlıkla birleştirilmesine veya sütunlar arasında yanlış ayrıştırılmasına neden olabilir.

Bütünlüğün sağlanması için de veriler kontrollere tabi tutulmalıdır.

Son olarak, eksik veriler için bir çözüm geliştirmelisiniz. Ama önce verilerin rastgele mi yoksa sistematik olarak mı eksik olduğunu belirlemelisiniz. Veriler rastgele şekilde eksik olsaydı, basit bir çözüm seti yeterli olurdu. Bununla birlikte, veriler sistematik bir şekilde eksik olduğunda, eksik verilerin sonuçlar üzerindeki etkisini belirlemelisiniz.

Örneğin, büyük bir veri kümesindeki belirli bir alt kümede yer alan kişiler gelirlerini açıklamamış olabilir. Girdi olarak kişinin gelirine dayanan bulgular, gelirini belirtmeyen kişilerin ulaşılacak ayrıntılarını dışarıda bırakacaktır. Bu, analizde hatalı kararlara yol açacaktır. Bu nedenle, eksik verileri içeren gözlemlerin veya değişkenlerin tüm analizin veya analizin bir kısmının dışında bırakılıp bırakılmayacağına önceden karar vermelisiniz.

Verileri Dönüştürme: Bir sonraki adım, verilerin depolanması gereken uygun formatı belirlemektir. Veri madenciliğinde önemli bir husus, hedefe ulaşmak için gereken özelliklerin sayısını azaltmaktır. Bu, verilerin dönüştürülmesini gerektirebilir. Temel Bileşen Analizi gibi veri azaltma algoritmaları bilgilerde önemli bir kayıp olmadan özniteliklerin sayısını azaltabilir. Ek olarak, incelenen olguyu açıklamaya yardımcı olmak için değişkenlerin dönüştürülmesi gerekebilir. Örneğin, bir kişinin geliri veri setine ücret geliri olarak kaydedilebilir; kiralık mülkler gibi diğer kaynaklardan elde edilen gelir; hükümetten destek ödemeleri ve benzerleri. Tüm kaynaklardan elde edilen gelirin toplanması, bireysel gelir için temsili bir gösterge geliştirecektir.

Genellikle değişkenleri bir türden diğerine dönüştürmeniz gerekir. Gelir için sürekli değişkeni, veri tabanındaki her bir kaydın düşük, orta ve yüksek gelirli kişi olarak tanımlandığı kategorik bir değişkene dönüştürmek akıllıca olabilir. Bu, temelde doğrusal olmayan durumların yakalanmasına yardımcı olabilir.

Verileri Depolama: Dönüştürülen veriler, veri madenciliği için elverişli bir formatta saklanmalıdır. Veriler, araştırmacıya sınırsız bir yetkiyle anında okuma / yazma ayrıcalıkları veren bir formatta saklanmalıdır. Veri madenciliği sırasında, orijinal veritabanına geri yazılan yeni değişkenler oluşturulur, bu nedenle veri depolama şeması, veritabanından verimli bir şekilde okuma ve veritabanına yazmayı kolaylaştırmalıdır. Verileri güvende tutan ve ayrıca veri madenciliği algoritmasının farklı sunuculara veya depolama ortamlarına dağılmış veri parçalarını gereksiz yere aramasını önleyen sunucularda veya depolama ortamında veri depolamak da önemlidir. Veri güvenliği ve mahremiyeti, verilerin depolanması için birincil önemde olmalıdır.

Veriden Anlamlı Bilgi Çıkarımı: Veriler uygun şekilde işlendikten, dönüştürüldükten ve depolandıktan sonra, veri madenciliğine tabi tutulur. Bu adım, parametrik ve parametrik olmayan yöntemler ve makine öğrenimi algoritmaları dahil olmak üzere veri analizi yöntemlerini kapsar. Veri madenciliği için iyi bir başlangıç ​​noktası veri görselleştirmedir. Veri madenciliği yazılımının gelişmiş grafikleme yetenekleri ile verilerin çok boyutlu görünümleri, veri setinde gizli olan eğilimlerin anlamlandırılmasında çok yardımcı olur.

Sonuçların Değerlendirilmesi: Veri madenciliği sonucunda işlenen verilerden anlamlı bilgi elde edildikten sonra, sonuçların resmi bir değerlendirilmesi yapılır. Bu değerlendirme, algoritmaların verileri yeniden üretmede ne kadar etkili ve verimli olduğunu görmek için modellerin gözlemlenen veriler üzerindeki tahmin yeteneklerinin test edilmesini de içerebilir. Bu, örneklem içi tahmin olarak bilinir.

Ek olarak, sonuçlar geri bildirim için paylaşılır ve daha sonra süreci iyileştirmek için veri madenciliğinin sonraki yinelemelerine dahil edilir.

Veri madenciliği ve sonuçların değerlendirilmesi, alınan geri bildirimler ışığında üretilen sonuçların kalitesini iyileştirmek amacıyla, analistlerin daha iyi ve geliştirilmiş algoritmalar kullanması için yinelemeli bir süreç haline gelir.