Teknik bilgiyi endüstri uygulamalarına dönüştürmek ve iş dünyasının problemlerine çözümler geliştirmek için öncelikle çözüme yönelik veri bilimi metodolojileri geliştirmek gerekir. Burada bu yaklaşıma göz atacağız. Böylece zaman içinde kendi veri bilimi stratejilerinizi ve metodolojinizi geliştirmeye başladığınızı fark edeceksiniz.
Başlıklar
Veri bilimi, kapsamlı veri setlerinden değerli bilgiler elde etmek için istatistiksel analizi, teknolojik uzmanlığı ve alan bilgisini birleştiren etkili bir alandır. Bununla birlikte, bilgi işlem gücünde son zamanlardaki artışa ve verilere daha kolay erişim sağlamamıza rağmen, iş dünyasının kendine has sorulan sorularını genellikle anlamıyoruz veya eldeki sorunu çözmek için verilerin doğru şekilde nasıl uygulanacağını bilmiyoruz.
Ancak veri bilimi metodolojileri kullanmak bu sorunların çözülmesine yardımcı olur.
Peki, metodoloji nedir?
Metodoloji, belirli bir çalışma alanında kullanılan bir yöntem sistemidir. Metodoloji, araştırmacıların bilimsel süreç boyunca vermesi gereken kararlar için bir kılavuzdur.
Veri bilimi bağlamında ise;
Veri bilimi metodolojileri, veri bilimcilerine rehberlik eden, karmaşık sorunları çözen ve veriye dayalı kararlar veren yapılandırılmış bir yaklaşımdır.
Veri bilimi metodolojileri ayrıca; veri toplama formlarını, ölçüm stratejileri geliştirmeyi, farklı araştırma hedefleri ve durumlarına göre veri analizi yöntemlerinin karşılaştırılmasını da içerir. Bir metodoloji kullanmak, bilimsel araştırmayı verimli bir şekilde yürütmek için gereken pratik rehberliği sağlar.
Genellikle metodolojiyi atlamak ve doğrudan çözümlere geçmek için bir cazibe vardır. Ancak, direkt çözümlere atlamak, sorunları çözmek için en iyi yaklaşımı bulup uygulamayı engeller.
Veri Bilimi Metodolojileri
Burada izleyeceğimiz yöntem ve veri bilimi metodolojileri, IBM’den Kıdemli Veri Bilimci(Senior Data Scientist) John Rollins tarafından özetlenen bir metodolojidir. Bu bölümde Rollins’in mesleki deneyimi ve başarılı veri bilimi sonuçları için bir metodolojiyi izlemenin önemine ilişkin fikirlerinden faydalanacağız.
Genel olarak, veri bilimi metodolojileri aşağıdaki 10 aşamadan oluşur;
- İş anlayışı ve sorunu anlamak,
- Analitik yaklaşım,
- Veri gereksinimleri,
- Veri toplama,
- Veri ile ilgili anlayışı geliştirmek,
- Veri hazırlama,
- Modelleme,
- Değerlendirme,
- Yayınlama,
- Geri bildirim.
Soru sormak, veri biliminde başarının temel taşıdır. Sorular, veri bilimi metodolojisinin her aşamasını yönlendirir. Veri bilimi metodolojileri, aşağıdaki 10 temel soruyu yanıtlamayı amaçlamaktadır.
İlk iki soru, sorunu tanımlamanıza ve hangi yaklaşımı kullanacağınızı belirlemenize yardımcı olur.
- Çözmeye çalıştığınız sorun nedir?
- Sorunu çözebilmek için verileri nasıl kullanabilirsiniz?
Veriler etrafında organize olmanıza yardımcı olması için sonraki dört soruyu kullanabilirsiniz;
- Sorunu çözebilmek için hangi verilere ihtiyacınız var?
- Veri kaynağı nereden geliyor ve verileri nasıl alacaksınız?
- Topladığınız veriler çözülmesi gereken sorunu temsil ediyor mu?
- Verileri işlemek ve onlarla çalışmak için hangi ek çalışmaların yapılması gerekiyor?
Ardından, yaklaşımınızı ve devam eden analiz için nihai tasarımınızı doğrulamak için şu son dört soruyu kullanabilirsiniz;
- Veri görselleştirmelerini uyguladığınızda, iş ile ilgili sorunu ele alan yanıtlar görüyor musunuz?
- Veri modeli iş ile ilgili sorunu yanıtlıyor mu yoksa verileri düzenlemeniz mi gerekiyor?
- Modeli uygulamaya koyabilir misiniz?
- İş ile ilgili sorunu yanıtlamak için verilerden ve paydaştan yapıcı geri bildirim alabilir misiniz?
İş Anlayışı ve Sorunu Anlamak
Gelin birlikte iş hayatında bize çok da uzak olmayan bir örnek senaryoya göz atalım;
Patronunuz tarafından bir toplantıya çağrıldınız. Sizi; kesinlikle yerine getirilmesi gereken çok önemli ama son teslim tarihi çok kısa olan bir görevden haberdar etti. Görevin tüm yönleri ile dikkate alındığından emin olmak için ikiniz de detaylara değindiniz ve toplantı her ikinizin de işlerin yolunda olduğundan emin olarak sona erdi.
Ancak o öğleden sonra, çeşitli konuları incelemek için biraz zaman harcadıktan sonra, görevi gerçekten başarmak için birkaç ek soru sormanız gerektiğini fark ediyorsunuz. Ne yazık ki patron yarın sabaha kadar müsait olamayacak. Şimdi, zaten kısa olan teslim tarihi sizi bunaltırken bir gün daha kaybetmiş olmanın sonucu olarak bir huzursuzluk hissetmeye başlıyorsunuz.
Bu durumda ne yaparsınız? Elinizdeki mevcut bilgi ve iş anlayış ile ilerleme riskini alır mısınız, yoksa durup açıklama mı ararsınız?
Veri bilimi metodolojileri, “iş anlayışı” olarak adlandırılabilecek şeyi elde etmek amacıyla açıklama aramak için zaman harcamakla başlar. Bu anlayışa sahip olmak metodolojinin başında yer alır, çünkü çözülecek problemin etrafında netlik elde etmek, temel soruyu cevaplamak için hangi verilerin kullanılacağını belirlemenize olanak tanır.
Rollins, net bir şekilde tanımlanmış bir soruya sahip olmanın hayati önem taşıdığını, çünkü nihayetinde sorunun ele alınması için ihtiyaç duyulacak analitik yaklaşımı yönlendirdiğini öne sürüyor.
Çoğu zaman, insanların soru olarak düşündükleri şeyi yanıtlamak için çok çaba harcanır ve bu soruyu ele almak için kullanılan yöntemler sağlam olsa da, asıl sorunu çözmeye yardımcı olmazlar. Açıkça tanımlanmış bir soru oluşturmak, soruyu soran kişinin AMACINI anlamakla başlar.
Örneğin, bir işletme sahibi “Bir faaliyeti gerçekleştirmenin maliyetini nasıl azaltabiliriz?” diye sorarsa, anlamamız gereken amaç; faaliyetin verimliliğini artırmak mı? Yoksa, işletmenin karlılığını artırmak mı?
Amaç netleştirildiğinde, bulmacanın bir sonraki parçası, amacı destekleyen objeleri bulmaktır. Hedefleri parçalayarak, önceliklerin belirlenebileceği ve sorunun nasıl çözüleceğine ilişkin düzenleme ve planlamaya yol açabilecek şekilde yapılandırılmış tartışmalar gerçekleştirilebilir. Soruna bağlı olarak, gereksinimlerin belirlenmesine ve soruların açıklığa kavuşturulmasına yardımcı olmak için farklı paydaşların tartışmaya dahil edilmesi gerekecektir.
Şimdi, “İş Anlayışı” uygulamasıyla ilgili vaka çalışmasına bakalım. Vaka incelemesinde sorulan soru şudur: Sınırlı sağlık bütçesinin, kaliteli bir sağlık hizmeti sağlamak amacıyla kullanımını en üst düzeye çıkarmak için en iyi şekilde nasıl tahsis edebiliriz?
Bu soru, bir Amerikan sağlık sigortası şirketi için öncelikli konulardan biri haline geldi. Yeniden yatışlar için devlet finansmanı azalırken, bu sigorta şirketi, maliyet farkını telafi etmek için müşterilerinin ücretlerini potansiyel olarak artırma riskiyle karşı karşıyadır.
Yeniden yatışlar, bir hastanın belirli bir süre içinde aynı sağlık sorunu nedeniyle tekrar hastaneye yatırılmasını ifade eder. Özellikle sağlık sigortası programları için önemli bir konudur çünkü tekrar yatışlar sağlık hizmeti maliyetlerini artırabilir ve hastaların iyileşme sürecini etkileyebilir.
Bu nedenle yeniden yatış oranları, hastaneler ve sağlık sistemleri tarafından izlenir ve azaltılmaya çalışılır. Yani sağlık sistemi için hedef bir hastayı tek seferde tedavi edip maliyetini tek seferlik tutmaya çalışmaktır.
Sigorta fiyatlarını yükseltmenin olumsuz bir hareket olacağını bilen bu sigorta şirketi, bölgesindeki sağlık yetkilileriyle görüştü ve veri biliminin eldeki soruya nasıl uygulanabileceğini görmek için veri bilimcilerin yardımını istedi.
Veri toplamaya başlamadan önce, amaç ve hedeflerin tanımlanması gerekiyordu.
Amaç; fiyatları artırmadan sigorta kapsamında sunulan sağlık hizmetini devam ettirebilmek.
Hedef; Süreci gözden geçirerek verimi düşüren, maliyetleri artıran sebepleri bulmak
Amaçları ve hedefleri belirlemek için zaman ayırdıktan sonra ekip, üzerinde çalışmak için alan olarak “hasta yeniden kabullerine” öncelik verdi. Yapılan incelemede; rehabilitasyon tedavisini tamamlayan bireylerin yaklaşık %30’unun bir yıl içinde yeniden rehabilitasyon merkezine kabul edildiği; ve %50’sinin beş yıl içinde yeniden kabul edildiği tespit edildi.
Bazı kayıtları inceledikten sonra, geri kabul listesinin başında Konjestif Kalp Yetmezliği (Congestive Heart Failure) olan hastaların olduğu ortaya çıktı. Bunun neden olduğunu belirlemek için bu senaryoyu gözden geçirmek amacıyla bir karar ağacı modelinin uygulanabileceği belirlendi.
Veri bilimcileri, analitik ekibine ilk projelerini formüle etme ve gerçekleştirme konusunda rehberlik edecek iş anlayışını kazanmak ve işleri başlatmak için yerinde bir atölye çalışması önerdi. Proje boyunca kilit iş sponsorlarının(örnek için sigorta şirketi) katılımı kritikti. Çünkü sponsor;
- Genel yönü belirledi,
- İlgili kaldı ve rehberlik sağladı.
- İhtiyaç olduğunda gerekli desteği sağladı.
Son olarak, inşa edilecek model ne olursa olsun dört iş gereksinimi belirlendi;
- Konjestif Kalp Yetmezliği(CHF) olan hastalar için yeniden kabul sonuçlarını(Y/N) tahmin etmek.
- Tüm hastalar için yeniden kabul riskini tahmin etmek.
- Tüm hastalar için öngörülen sonuca yol açan olayların kombinasyonunu anlamak.
- Yeni hastaların yeniden kabul risklerini tahmin etmek için anlaşılması kolay bir süreç uygulamak.
Soruyu Anlamak
Veri Bilimi metodolojileri açıklama arama ve iş anlayışına ulaşmaya çalışma çabasıyla başlar.
Uygulama:
Çalıştığınız şirketin e-ticaret işindeki hedefi, gelir ve kârlılığı en üst düzeye çıkarmak için fiyatlandırma stratejisini optimize etmektir. Şirket, veri biliminden yararlanarak, fiyatlandırma ve promosyon stratejileri konusunda bilinçli kararlar almak için geçmiş satış verilerindeki kalıpları, fiyatlandırma değişikliklerini ve müşteri davranışlarını belirlemeyi amaçlamaktadır. Aşağıdaki sorulardan hangilerinin şirketin iş hedefiyle ilgili olduğunu belirleyin;
- Geçmişte hangi ürünler en yüksek satış hacmine ulaştı? (+)
- Pazarlama bölümünde kaç personel çalışıyor? (-)
- Belirli bir promosyon dönemi boyunca müşterilerin satın alma davranışı nasıl değişti? (+)
- Müşterilerin demografik verileri fiyat hassasiyetini nasıl etkiliyor? (+)
- Müşterilerin tercih ettiği ödeme yöntemi nedir? (-)
- e-Ticaret sitemiz için geçmiş trafik verileri nedir? (-)
- Şirketin organizasyon yapısı nasıldır? (-)
- Ürün yorumları ve reytingleri müşterilerin satın alma kararını nasıl etkiliyor? (+)
- Farklı ürünler için kar marjı nedir? (+)
- Şirket ofis malzemelerine ne kadar harcadı? (-)
Analitik Yaklaşım
Ele alınacak problem tanımlandıktan sonra, iş gereksinimleri bağlamında problem için uygun analitik yaklaşım seçilir. Bu, veri bilimi metodolojisinin ikinci aşamasıdır. Doğru analitik yaklaşımı seçmek, sorulan soruya bağlıdır.
Yaklaşım; en uygun yolu seçebilmek için soruyu soran kişiden açıklama talep etmeyi içerir. Sorunun güçlü bir şekilde anlaşılması sağlandıktan sonra, analitik yaklaşım seçilebilir. Bu, soruyu en etkili şekilde ele almak için ne tür kalıplara ihtiyaç duyulacağını belirlemek anlamına gelir.
Soru, eylem olasılıklarını belirlemekse, o zaman tahmine dayalı(Predictive/Forecasting) bir model kullanılabilir.
Soru ilişkileri göstermek ise, açıklayıcı(Descriptive) bir yaklaşım gerekebilir. Bu, olaylara ve tercihlere dayalı olarak benzer faaliyet kümelerine bakacak olan bir şey olacaktır.
İstatistiksel Analiz(Statistical Analysis/Diagnostic), sayım gerektiren problemler için geçerlidir.
Örneğin, soru evet/hayır yanıtı gerektiriyorsa, yanıtı tahmin etmeye yönelik bir sınıflandırma (Classification) yaklaşımı uygun olacaktır.
Makine Öğrenimi, bilgisayarlara açıkça programlanmadan öğrenme yeteneği veren bir çalışma alanıdır. Makine Öğrenimi, aksi takdirde erişilemeyecek veya tanımlanamayacak verilerdeki ilişkileri ve eğilimleri belirlemek için kullanılabilir.
Sorunun insan davranışını öğrenmek olduğu durumda, Kümelenme İlişkisi(Clustering Association) yaklaşımlarını kullanmak uygun bir yanıt olacaktır.
Şimdi, Analitik Yaklaşımın uygulanmasıyla ilgili bir vaka incelemesine bakalım. Vaka çalışması için, yukarıda bahsettiğimiz her hastanın yeniden kabul sonucuna yol açan koşulların kombinasyonunu belirlemek amacıyla bir karar ağacı sınıflandırma modeli kullanıldı.
Bu yaklaşımda, bir yaprağa giden her yol boyunca düğümlerin her birindeki değişkenlerin incelenmesi, ilgili bir eşik değerine yol açar.
Bu, karar ağacı sınıflandırıcısının hem tahmin edilen sonucu hem de her grupta baskın sonucun evet veya hayır oranına dayalı olarak bu sonucun olasılığını sağladığı anlamına gelir.
Bu bilgilerden, analistler her hasta için yeniden kabul riskini veya evet olasılığını elde edebilirler. Baskın sonuç evet ise, risk sadece yapraktaki evet hastalarının oranıdır. Hayır ise, risk 1 eksi yaprakta hasta olmaması oranıdır.
Bir karar ağacı sınıflandırma modelini, veri bilimi alanından olmayan kişilerin de anlaması ve uygulaması, yeni hastaları yeniden kabul risklerine göre puanlaması kolaydır.
Klinik tedavi uzmanları, hangi koşulların bir hastanın yüksek riskli olarak puanlanmasına neden olduğunu kolayca görebilir ve hastanede kalma süresi boyunca çeşitli noktalarda birden fazla model oluşturulabilir ve uygulanabilir. Bu, hastanın riskinin dinamik bir görünümünü ve uygulanan çeşitli tedavilerle nasıl geliştiğini gösterir.
Bu nedenlerle, Konjestif Kalp Yetmezliği(CHF) yeniden kabul modelini oluşturmak için karar ağacı sınıflandırma yaklaşımı seçilmiştir.
Uygun Yaklaşımı Belirlemek
Veri Bilimi metodolojisinin ikinci aşaması, iş gereksinimleri kapsamında analitik yaklaşımın seçimini içerir.
Uygulama:
Bir taşımacılık şirketi, maliyetleri en aza indirmek ve teslimat verimliliğini artırmak için teslimat rotalarını ve programlarını optimize etmeyi amaçlamaktadır. Şirket, geçmiş teslimat verilerine ve trafik ve hava koşulları gibi dış faktörlere dayalı olarak en uygun rotaları ve teslimat zaman pencerelerini belirlemek için veri bilimini kullanmak istiyor.
Bu iş hedefine ulaşmak için veri bilimcileri tarafından çeşitli sorular hedeflenmektedir. Hangi soru kalıbının hangi analitik yaklaşıma uygun olduğunu belirleyiniz.
- Geçmiş trafik modelleri ve beklenen hava koşulları dikkate alındığında her bir güzergah için beklenen teslimat süresi nedir? (Tahmin Modeli)
- Tahminlerde bulunmak için geçmiş verileri açıkça kullanmadan, bozulabilir ürünler için en uygun teslimat rotalarını nasıl belirleyebilir ve zamanında teslimatları nasıl sağlayabiliriz? (Tahmin Modeli)
- Yoğun ve yoğun olmayan saatlerde en sık kullanılan rotalar ve bunların teslimat sürelerindeki değişimler nelerdir? (Açıklayıcı Model)
- Beklenen sipariş hacmine göre belirli bir gün için gereken en uygun teslimat aracı sayısını nasıl tahmin edebiliriz? (Tahmin Modeli)
- Rotaları proaktif olarak ayarlamak için trafik olaylarının veya yol kapanmalarının teslimat süreleri üzerindeki potansiyel etkisini nasıl öngörebiliriz? (Tahmin Modeli)
- Geçmiş verilere dayalı olarak açıkça tahminlerde bulunmadan, verimli teslimat rotası planlaması için farklı gruplar oluşturmak üzere müşteri konumlarını nasıl kümeleyebiliriz? (Sınıflandırma Modeli)
- İş yükünü dengelemek ve teslimat gecikmelerini en aza indirmek için teslimat programlarının sınıflandırılabileceği çeşitli zaman dilimleri nelerdir? (Sınıflandırma Modeli)
- Farklı araç tipleri için ortalama teslimat süreleri hakkında ne gibi bilgiler elde edilebilir ve bu süreler teslimat rotasının karmaşıklığına göre nasıl değişmektedir? (Açıklayıcı Model)
- Teslimat rotası planlamasını optimize etmek için teslimat bölgelerini müşteri yoğunluğuna ve sipariş sıklığına göre nasıl gruplayabiliriz? (Sınıflandırma Modeli)
- Geçmiş sipariş verilerine dayanarak hafta boyunca en yoğun teslimat günlerini ve zaman aralıklarını vurgulayan geçmiş veriler nelerdir?(Açıklayıcı Model)
- Teslimat rotalarını ortalama teslimat süresi ve sipariş hacmine göre nasıl farklı kategorilere ayırabiliriz? (Sınıflandırma Modeli)
- Farklı teslimat rotaları için ortalama teslimat maliyetleri nedir ve günün farklı saatlerinde nasıl değişir? (Açıklayıcı Model)
Veri Gereksinimleri
Amacınız makarna yapmaksa, ancak doğru malzemelere sahip değilseniz, lezzetli yemek planınız tehlikeye girer. Veri bilimi metodolojisinin bu bölümünü verilerle yemek pişirme görevi olarak düşünün. Yemek yapımında her adım çok önemlidir. Bu nedenle, çözülmesi gereken sorun deyim yerindeyse tarifdir ve veri yemek için gerekli malzemelerdir. Bu durumda veri bilimcisinin şunları belirlemesi gerekir:
- Yemek için hangi malzemelerin gerekli olduğu,
- Bunların hangi kaynaktan ve nasıl bulunacağı,
- Tarifin ve malzemelerin nasıl kullanılacağının anlaşılması,
- İstenen sonuca ulaşmak için malzemelerin(verilerin) nasıl hazırlanacağı.
Eldeki sorunun anlaşılması üzerine, seçilen ve ardından inşa edilen analitik yaklaşımı kullanan Veri Bilimcisi artık başlamaya hazırdır.
Şimdi veri bilimi metodolojilerindeki veri gereksinimlerine ilişkin bazı örneklere bakalım.
Metodolojinin veri toplama ve veri hazırlama aşamalarına geçmeden önce, karar ağacı sınıflandırması için veri gereksinimlerini tanımlamak hayati önem taşır. Bu, ilk veri toplama için gerekli veri içeriğinin, formatlarının ve kaynaklarının belirlenmesini içerir.
Şimdi, “Veri Gereksinimleri” uygulamasıyla ilgili vaka çalışmasına bakalım. Vaka çalışmasında ilk görev, seçilen karar ağacı sınıflandırma yaklaşımı için veri gereksinimlerini tanımlamaktır. Örneğin, sağlık sigortası sağlayıcısının üye veritabanından uygun bir hasta grubu seçmek gibi. Klinik öyküleri tam derlemek için, gruba dahil edilmek üzere üç kriter belirlendi.
İlk olarak, bir hastanın, sigorta hizmeti sağlayıcısının hizmet alanı içinde yatan hasta olarak kabul edilmesi gerekiyordu, böylece gerekli bilgilere erişebileceklerdi.
İkinci olarak, bir yıl boyunca birincil tanısı konjestif kalp yetmezliği teşhisi konulan hastalara odaklandılar.
Üçüncü olarak, tam tıbbi geçmişinin derlenebilmesi için bir hastanın konjestif kalp yetmezliği nedeniyle ilk başvurusundan önce en az altı ay boyunca süregelen kaydı olmalıdır.
Bununla birlikte başka önemli tıbbi durumları da olduğu teşhis edilen konjestif kalp yetmezliği hastaları, bu diğer önemli hastalık koşulları ortalamadan daha yüksek yeniden kabul oranlarına neden olacağı ve dolayısıyla sonuçları çarpıtabileceği için gruptan çıkartıldılar.
Daha sonra karar ağacı sınıflandırması için ihtiyaç duyulan verilerin içeriği, formatı ve sunumları tanımlanmıştır. Bu modelleme tekniği, modeldeki değişkenleri temsil eden sütunlarla birlikte hasta başına bir kayıt gerektirir.
Yeniden kabul sonucunu modellemek için, hastanın klinik geçmişinin tüm yönlerini kapsayan verilerin olması gerekiyordu. Bu içerik, hastaneye yatış sırasında veya hasta/doktor ziyaretleri sırasında sağlanan kabulleri; birincil, ikincil ve üçüncül tanıları, prosedürleri, reçeteleri ve diğer hizmetleri içerecektir.
Böylece, belirli bir hasta, ilgili tüm özelliklerini temsil eden binlerce kayda sahip olabilir. Hasta başına bir kayda ulaşmak için, veri bilimciler işlem kayıtlarını hasta düzeyinde topladılar ve bu bilgiyi temsil edecek bir dizi yeni değişken yarattılar. Bu, Veri Hazırlama aşaması için yapılan bir işti. İlerleyen aşamaları da düşünmek ve öngörmek önemlidir.
Veri Toplama
İlk veri toplama işlemi gerçekleştirildikten sonra, verilerin aranan bilgiye sahip olup olmadıklarını belirlemek için veri bilimcisi tarafından bir değerlendirme yapılır. Yemek yapmak için malzeme satın alırken olduğu gibi, bazı malzemeler mevsim dışı olabilir ve elde edilmesi daha zor olabilir veya başlangıçta düşünülenden daha pahalı olabilir.
Bu aşamada veri gereksinimleri revize edilir ve işlemin toplanandan daha fazla veya daha az veri gerektirip gerektirmediğine karar verilir. Veri bileşenleri toplandıktan sonra, veri bilimcisi veri toplama aşamasında neyle çalışacağını daha iyi anlamış olacaktır.
Tanımlayıcı istatistikler ve görselleştirme gibi teknikler; içeriği, kaliteyi ve verilerle ilgili ilk öngörüleri değerlendirmek için veri kümesine uygulanabilir. Verilerdeki boşluklar belirlenecek ve ya doldurmak ya da ikame yapmak için bir plan yapılması gerekecektir. Artık yemeği yapacağımız malzemeler şu anda kesme tahtası üzerinde duruyor.
Şimdi de Veri Bilimi Metodolojisinin Veri Toplama aşamasına göz atalım. Bu aşama, veri gereksinimleri aşamasının devamı olarak gerçekleştirilir. Veri toplamak, kaynağı bilmenizi veya ihtiyaç duyulan veri öğelerini nerede bulacağınızı bilmenizi gerektirir.
Vaka çalışmamız bağlamında şunları içerebilir:
- Hastaların demografik, klinik ve kapsam bilgileri,
- Sigorta Sağlayıcı bilgileri,
- Talep kayıtları,
- Konjestif kalp yetmezliği hastalarının tüm tanılarıyla ilgili farmasötik ve diğer bilgiler.
Bu vaka çalışması için belirli ilaç bilgilerine de ihtiyaç vardır, ancak bu veri kaynağı henüz diğer veri kaynaklarıyla entegre değil. Bu bizi önemli bir noktaya getiriyor: Elverişsiz verilerle ilgili kararları ertelemek ve daha sonraki bir aşamada elde etmeye çalışmak sorun değildir.
Örneğin bu işlem, tahmine dayalı modellemeden bazı ara sonuçlar alındıktan sonra bile yapılabilir. Bu sonuçlar iyi bir model elde etmede ilaç bilgisinin önemli olabileceğini gösteriyorsa, o zaman onu elde etmeye çalışmak için zaman harcanmış olacaktır. Yine de, bu ilaç bilgisi olmadan da oldukça iyi bir model oluşturulabilir.
Veri tabanı Yöneticileri(DBA)’lar ve Yazılımcılar(Developer) genellikle çeşitli kaynaklardan veri çıkarmak için birlikte çalışır ve ardından bunları birleştirir. Bu, gereksiz verilerin kaldırılmasına izin vererek, onu metodolojinin bir sonraki aşaması olan veri anlama için kullanılabilir hale getirir.
Bu aşamada, gerekirse, veri bilimcileri ve analitik ekip üyeleri, veri toplamanın daha kolay ve daha hızlı olması için veri tabanındaki belirli süreçlerin otomatikleştirilmesi de dahil olmak üzere verilerini daha iyi yönetmenin çeşitli yollarını tartışabilirler.
Veri Gereksinimleri ve Veri Toplama
Veri bir malzemedir ve doğru malzemelerin sağlandığından emin olmak gerekir. Veri Bilimi Metodolojisinin bu aşaması analiz için gerekli verileri tanımlamanın, kaynak bulmanın, anlamanın ve hazırlamanın kritikliğini vurgular.
Uygulama:
Buradaki uygulamamızda belirli bir tarifin veya yemeğin ait olduğu mutfağı belirleme sürecini otomatikleştirmek istiyoruz ve tarifin veya yemeğin bileşenlerini kullanarak potansiyel olarak bunun mümkün olabileceğini belirledik. Bir model oluşturabilmek için, farklı mutfaklar ve tariflerle ilgili kapsamlı verilere ihtiyacımız var.
İşte bu yaptığımız iş olan gerekli veri ihtiyacının belirlenmesi, veri bilimi metodolojisinin Veri Gereksinimleri aşamasında yaptığımız işlemdir.
Veri Toplama aşamasında ise, veri bilimciler mevcut veri kaynaklarını belirler ve toplar. Bunlar, sorun alanıyla ilgili yapılandırılmış, yapılandırılmamış ve hatta yarı yapılandırılmış veriler şeklinde olabilir.
Bu uygulama için Yong-Yeol Ahn adlı bir araştırmacı, üç farklı web sitesinden on binlerce yemek tarifini (mutfaklar ve malzemeler) topladı.
Yong-Yeol Ahn ve araştırması hakkında daha fazla bilgi için “Lezzet Ağı ve Yiyecek Eşleştirme İlkeleri” konulu makalesini okuyabilirsiniz.
Bu sayede bizim iş anlayışı aşamasında tanımlanan hedefe ulaşmak için ihtiyaç duyduğumuz veriler hazır olduğu için, herhangi bir veri toplama işlemi gerçekleştirmemize gerek kalmayacak.
Aşağıdaki kod ile bu veriyi çalışma klasörümüz içine indiriyoruz;
from pyodide.http import pyfetch async def download(url, filename): response = await pyfetch(url) if response.status == 200: with open(filename, "wb") as f: f.write(await response.bytes()) path = "https://obenseven.com.tr/recipes.csv" #you will need to download the dataset; if you are running locally, please comment out the following await download(path, "recipes.csv")
Aşağıdaki kod ise veriyi okumaya, yani kullanmaya hazır hale getiriyor;
import pandas as pd # download library to read data into dataframe pd.set_option('display.max_columns', None) recipes = pd.read_csv("recipes.csv")
Verilerin başarıyla indirilip, kullanılmak üzere hazır olduğunu teyit etmek için ilk bir kaç veri satırını görüntüleyelim;
recipes.head()
Kodun çıktısı;
Elimizde ne kadar veri olduğunu görelim;
recipes.shape
Kodun çıktısı;
(57691, 384)
Veri setimiz 57.691 tariften oluşmaktadır. Her satır bir tarifi temsil eder ve her tarif için, ilgili mutfağın yanı sıra tarifte badem ile başlayıp kabak ile biten 384 malzemenin bulunup bulunmadığı belgelenir.
Böylece veri toplama aşaması tamamlanmış oluyor. Aslında buradaki örnekte biz işi kolaylaştırıp hazır toplanmış bir veri setini indirip üzerinde çalıştık. Ama burada asıl iş verilen 3 web sitesindeki verileri Web Scraping teknikleri ile Python kullanarak toplamaktır. Ancak bu farklı bir dersin konusu.
Veri bilimciler verileri daha iyi anlamak ve tanımak için genellikle tanımlayıcı istatistikler ve görselleştirme teknikleri kullanır. Veri bilimciler, esasen, verileri şu amaçlarla keşfederler:
- İçeriğini anlamak,
- Kalitesini değerlendirmek,
- İlginç ön bilgileri keşfetmek,
- Verilerdeki boşlukları doldurmak için ek veri gerekip gerekmediğini belirlemek.
Terimler Sözlüğü:
Her ne kadar daha iyi anlaşılabilmesi için kavram adlarını Türkçe kullanmayı tercih etsem de, hazırladığım dokümanlarda geçen kavramların İngilizce karşılıklarını bilmeniz de önem taşımaktadır. Zira faydalanacağınız çoğu kaynakta ya da ekipler içinde birlikte çalışacağınız kişiler ile konuşurken yüksek ihtimal İngilizce terimleri ile karşılaşacaksınız. Bu nedenle aşağıda olduğu gibi konu sonlarında yer alan terim sözlüklerine de göz atmanızı tavsiye ederim.
Analitik Yaklaşım: Belirli bir veri bilimi sorusunu veya sorununu ele almak için uygun yöntemi veya yolu seçme süreci.
Analitik: İçgörüleri, kalıpları ve eğilimleri ortaya çıkarmak için istatistiksel, matematiksel ve hesaplama tekniklerini kullanarak verilerin sistematik analizi.
İş Anlayışı: Veri bilimi metodolojisinin ilk aşaması, belirli bir görevin veya sorunun amaçlarının, hedeflerinin ve gereksinimlerinin açıklığa kavuşturulmasını ve anlaşılmasını içerir.
Kümeleme İlişkilendirme: İnsan davranışları hakkında bilgi edinmek ve verilerdeki kalıpları ve ilişkileri belirlemek için kullanılan bir yaklaşım.
Kohort: Ortak bir özelliği veya deneyimi paylaşan bir grup birey bir birim olarak incelenir veya analiz edilir.
Kohort çalışması: Belirli bir özelliğe veya maruziyete sahip bir grup bireyin, sonuçların görülme sıklığını veya maruziyetler ile sonuçlar arasındaki ilişkiyi belirlemek için zaman içinde takip edildiği gözlemsel bir çalışma.
Konjestif Kalp Yetmezliği (CHF): Kalbin vücudun ihtiyaçlarını karşılamak için yeterince kan pompalayamadığı, sıvı birikimine ve nefes darlığı ve yorgunluk gibi semptomlara neden olan kronik bir durum.
CRISP-DM: Veri Madenciliği için Sektörler Arası Standart Süreç, altı aşamayı kapsayan veri madenciliği ve analitik projeleri için yaygın olarak kullanılan bir metodolojidir: iş anlayışı, veri anlayışı, veri hazırlama, modelleme, değerlendirme ve dağıtım.
Veri analizi: Yararlı bilgileri keşfetmek, sonuçlar çıkarmak ve karar vermeyi desteklemek için verileri inceleme, temizleme, dönüştürme ve modelleme süreci.
Veri temizleme: Kalitesini ve güvenilirliğini artırmak için bir veri setindeki hataları, tutarsızlıkları veya yanlışlıkları belirleme ve düzeltme ya da kaldırma süreci
Veri bilimi: Yapılandırılmış ve yapılandırılmamış verilerden bilgi ve içgörü elde etmek için bilimsel yöntemleri, süreçleri, algoritmaları ve sistemleri birleştiren disiplinler arası bir alan.
Veri bilimi metodolojisi: Veri analizi ve veriye dayalı içgörüler kullanarak iş sorunlarını çözmeye yönelik yapılandırılmış bir yaklaşım.
Veri bilimci: Verileri analiz etmek, içgörüler elde etmek ve karmaşık iş sorunlarına modeller veya çözümler geliştirmek için bilimsel yöntemler, algoritmalar ve araçlar kullanan profesyonel.
Veri bilimciler İş sorunlarını çözmek için becerilerini uygulayan veri bilimi ve analitik uzmanlığına sahip profesyoneller.
Veriye Dayalı İçgörüler: Karar verme sürecini bilgilendirmek için verilerin analiz edilmesi ve yorumlanmasından elde edilen içgörüler
Karar ağacı: Tahminlerde bulunmak veya örnekleri sınıflandırmak için kararların ağaç benzeri bir yapısını ve bunların olası sonuçlarını kullanan denetimli bir makine öğrenimi algoritması.
Karar Ağacı Sınıflandırma Modeli: Verileri koşullara ve eşiklere göre sınıflandırmak için ağaç benzeri bir yapı kullanan bir model, öngörülen sonuçları ve ilişkili olasılıkları sağlar.
Karar Ağacı Sınıflandırıcısı: Belirli koşullara ve eşiklere dayalı olarak sonuçları belirlemek için bir karar ağacı kullanan bir sınıflandırma modeli.
Karar Ağacı Modeli: Senaryoları gözden geçirmek ve hasta yeniden kabullerinin nedenleri gibi verilerdeki ilişkileri tanımlamak için kullanılan bir model
Açıklayıcı/Tanımlayıcı yaklaşım: Olaylara ve tercihlere dayalı olarak ilişkileri göstermek ve benzer faaliyet kümelerini tanımlamak için kullanılan bir yaklaşım
Açıklayıcı/Tanımlayıcı modelleme: Tahmin veya çıkarım yapmadan, genellikle istatistiksel analiz ve görselleştirme yoluyla verileri tanımlamaya ve özetlemeye odaklanan modelleme tekniği
Alan bilgisi: Kavramlar, ilkeler ve ilgili veriler de dahil olmak üzere belirli bir konu veya alan hakkında uzmanlık ve anlayış
Hedefler ve amaçlar: Görevin veya sorunun genel amacını destekleyen, aranan sonuçlar ve özel hedefler.
Yineleme: Bir sürecin tek bir döngüsü veya tekrarı, genellikle geri bildirim veya yeni bilgilere dayalı olarak bir çözümün rafine edilmesini veya değiştirilmesini içerir.
Yinelemeli süreç: Bir çözümü veya analizi iyileştirmek ve geliştirmek için bir dizi adımın veya eylemin tekrarlanmasını içeren bir süreç. Her iterasyon bir öncekinin üzerine inşa edilir.
Yaprak: Verilerin belirli sonuçlara göre kategorize edildiği bir karar ağacının son düğümleri.
Makine Öğrenimi: Bilgisayarların açıkça programlanmadan verilerden öğrenmesini, gizli ilişkileri ve eğilimleri tanımlamasını sağlayan bir çalışma alanı.
Ortalama: Bir sayı kümesinin ortalama değeri, tüm değerlerin toplanması ve toplam değer sayısına bölünmesiyle hesaplanır.
Medyan: Artan veya azalan sırada düzenlendiğinde, bir sayı kümesindeki orta değer, verileri iki eşit yarıya böler.
Model (Kavramsal model): Davranışını anlamak, analiz etmek veya tahmin etmek için kullanılan gerçek dünyadaki bir sistemin veya olgunun basitleştirilmiş bir temsili veya soyutlaması.
Model oluşturma: Veri analizine dayalı olarak içgörü kazanmak ve bilinçli kararlar almak için öngörücü modeller geliştirme süreci.
İkili karşılaştırma (korelasyon): Bir korelasyon katsayısı hesaplayarak iki değişken arasındaki doğrusal ilişkinin gücünü ve yönünü ölçen istatistiksel bir teknik.
Örüntü: Verilerdeki yinelenen veya dikkat çeken bir düzenleme veya sıra, içgörü sağlayabilir veya tahmin veya sınıflandırma için kullanılabilir.
Tahmine dayalı model: Geçmiş verilere dayalı olarak bir eylemin veya sonucun olasılıklarını belirlemek için kullanılan model.
Tahmin ediciler: Bir modeldeki sonuç değişkenini veya hedef değişkeni tahmin etmek veya açıklamak için kullanılan değişkenler veya özellikler.
Önceliklendirme: Hedeflerin ve görevlerin önemlerine ve genel hedef üzerindeki etkilerine göre düzenlenmesi süreci.
Problem çözme: İstenen sonuçlara ulaşmak için zorlukları ele alma ve çözümler bulma süreci.
Paydaşlar: Çözüm sahipleri, pazarlama, uygulama geliştiricileri ve BT yönetimi gibi veri bilimi modelinin sonucuna ve pratik uygulamasına ilgi duyan bireyler veya gruplar.
Standart sapma: Bir değerler kümesinin ortalamasından olan dağılımının veya değişkenliğinin bir ölçüsüdür; verilerin yayılımı veya dağılımı hakkında bilgi sağlar.
İstatistiksel analiz: Standart sapmalar, evet/hayır cevapları veya sınıflandırma görevleri gibi sayım gerektiren problemlere uygulanır.
İstatistik: Verilerdeki örüntüleri, ilişkileri ve değişkenliği anlamak için verilerin toplanması, analizi, yorumlanması, sunulması ve düzenlenmesi.
Yapılandırılmış veri (veri modeli): Önceden tanımlanmış bir şema veya modele göre düzenlenen ve biçimlendirilen ve genellikle veritabanlarında veya elektronik tablolarda saklanan veriler.
Metin analizi veri madenciliği: Doğal dil işleme, metin madenciliği ve duygu analizi gibi teknikler aracılığıyla yapılandırılmamış metinsel verilerden yararlı bilgi veya bilgilerin çıkarılması süreci.
Eşik değeri: Bir karar ağacında verileri gruplara veya kategorilere ayırmak için kullanılan belirli değer.
Analitik ekibi: Veri analizi ve modelleme yapmaktan sorumlu, veri bilimcileri ve analistleri de içeren bir grup profesyonel.
Veri toplama: Demografik, klinik, kapsam ve farmasötik bilgiler dahil olmak üzere çeşitli kaynaklardan veri toplama süreci.
Veri entegrasyonu: Fazlalıkları gidermek ve daha ileri analizler için hazırlamak üzere birden fazla kaynaktan gelen verilerin birleştirilmesi.
Veri Hazırlama: Verilerin modelleme tekniğinin gerekliliklerini karşılayacak şekilde düzenlenmesi ve biçimlendirilmesi süreci.
Veri Gereksinimleri: Analiz için gerekli veri unsurlarının, formatlarının ve kaynaklarının belirlenmesi ve tanımlanması.
Veri Anlama: Veri bilimcilerin, veritabanındaki belirli süreçleri otomatikleştirmek de dahil olmak üzere verileri etkili bir şekilde yönetmenin çeşitli yollarını tartıştığı bir aşama.
DBA’lar (Veri Tabanı Yöneticileri): Veri tabanlarını yönetmek ve veri çıkarmaktan sorumlu olan profesyoneller.
Karar ağacı sınıflandırması: Verileri belirli koşullara ve değişkenlere göre sınıflandırmak için ağaç benzeri bir yapı kullanan bir modelleme tekniği.
Demografik bilgiler: Yaş, cinsiyet ve konum gibi hasta özellikleri hakkında bilgiler.
Tanımlayıcı istatistikler: Verileri analiz etmek ve özetlemek için kullanılan, ilk içgörüleri sağlayan ve verilerdeki boşlukları belirleyen teknikler.
Ara sonuçlar: Tahmine dayalı modellemeden elde edilen kısmi sonuçlar, ek verilerin elde edilmesine ilişkin kararları etkileyebilir.
Hasta kohortu: Bir çalışma veya modelde analiz için seçilen belirli kriterlere sahip bir grup hasta.
Tahmine dayalı modelleme: Geçmiş verilere dayanarak gelecekteki sonuçları tahmin etmek için modellerin oluşturulması.
Eğitim seti: Bir makine öğrenimi modelini eğitmek veya uydurmak için kullanılan veri alt kümesi; girdi verileri ve bunlara karşılık gelen bilinen veya etiketli çıktı değerlerinden oluşur.
Kullanılamayan veriler: Veri öğelerine şu anda erişilememekte veya veri kaynaklarına entegre edilememektedir.
Tek Değişkenli Modelleme: Bir seferde tek bir değişkene veya özelliğe odaklanan, özelliklerini ve diğer değişkenlerle ilişkisini bağımsız olarak değerlendiren analiz.
Yapılandırılmamış veriler: Önceden tanımlanmış bir yapıya veya formata sahip olmayan veriler, tipik olarak metin görüntüleri, ses veya video, anlam veya içgörü çıkarmak için özel teknikler gerektirir.
Görselleştirme: İçeriği ve kalitesi hakkında içgörü kazanmak için verileri görsel olarak temsil etme süreci.
Bağlantıda Kalalım