Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6)

Bu başlık altında daha önceki başlıkta incelediğimiz Veri Bilimi Metodolojileri’nin ilk 4 aşamasından sonra gelen 2 aşamaya daha göz atacağız. Bunlar;

Veriyi Anlama
Veriyi Hazırlama

1- Veriyi Anlama

Veri anlama, veri setinin oluşturulmasıyla ilgili tüm faaliyetleri kapsar. Temel olarak, veri bilimi metodolojileri içinde yer alan veri anlama bölümü, “Topladığınız veriler çözülmesi gereken sorunu temsil ediyor mu?” sorusuna cevap verir. Bu aşamayı daha önce incelediğimiz vaka çalışmasına uygulayalım.

Konjestif Kalp Yetmezliği (Congestive Heart Failure) başvurularıyla ilgili verileri anlamak için modelde değişken olacak veri sütunlarında tanımlayıcı istatistiklerin hesaplanması gerekir. Bunlar ilk olarak; Hurst, Tek Değişken Analizi(Univariate Analysis) gibi istatistikler ile ortalama, medyan, minimum, maksimum ve standart sapma gibi her bir değişkene ilişkin istatistikleri içerir.

İkinci olarak, belirli değişkenlerin ne kadar yakından ilişkili olduğunu ve varsa hangilerinin çok yüksek düzeyde ilişkili olduğunu görmek için ikili korelasyonlar(Pairwise Correlations) kullanılır. Ki bu sayede, bu değişkenlerin hangilerinin esasen gereksiz olacağını tespit etmemizi sağlayarak, modelleme için yalnızca hangisinin alakalı olduğunu ve kullanılacağını tespit etmemizi sağlar.

Üçüncü olarak, dağılımlarını anlamak için değişkenlerin histogramları incelenir Histogramlar, değerlerin veya bir değişkenin dağılımını ve değişkeni modelde daha kullanışlı hale getirmek için ne tür bir veri hazırlığının gerekli olabileceğini anlamanın iyi bir yoludur. Örneğin, çok farklı değerleri olan bir kategorik değişkenin bir model içinde bilgi verebiliyor olması için histogram, bu değerlerin nasıl birleştirileceğine karar verilmesine yardımcı olur.

Bu istatistikler veri kalitesini değerlendirmek için kullanılır.

Elde edilen bu bilgiler ile gerekirse belirli değerler yeniden kodlanabilir veya hatta belki kaldırılabilir, tıpkı belirli bir değişken eksik veriye sahip olduğunda yaptığımız gibi.

Bu durumda şu soru akıllara geliyor; “eksik veri” ne ifade ediyor? Bazen eksik bir değer “hayır” veya “0” (sıfır) anlamına gelebilir veya diğer zamanlarda sadece “bilmiyoruz” anlamına da gelebilir. Veya, bir değişken geçersiz veya yanıltıcı değerler içeriyorsa, örneğin “yaş” olarak adlandırılan ve anlamlı olması için 0 ila 100 aralığında olması beklenirken 999 içeren sayısal bir değişken için burada karşımıza çıkan “999” değeri “eksik veri” anlamına gelir. Ancak biz düzeltmedikçe geçerli bir değer olarak kabul edilir.

Başlangıçta, Konjestif Kalp Yetmezliği(CHF) olarak kabul edilen ilk teşhis sonrası, verileri anlama aşamasında, ilk teşhisin klinik deneyime dayalı olarak beklenen tüm konjestif kalp yetmezliği başvurularını kapsamadığını ortaya çıkardı. Bu, veri toplama aşamasına geri dönmek, ikincil ve üçüncül teşhisleri eklemek ve tanıyı konjestif kalp yetmezliği olarak kabül etmek için daha kapsamlı bir tanım oluşturmak anlamına geliyor. Bazen, veri toplama aşamasına geri dönmemiz ve anlayışımızı geliştirmek için daha fazla bilgi toplamamız gerekebilir. Bu, metodolojideki etkileşimli süreçlerin sadece bir örneğidir.

Kişi; problem ve verilerle ne kadar çok çalışırsa o kadar çok öğrenir, dolayısıyla model içinde yapılabilecek daha fazla iyileştirme keşfeder ve sonuçta probleme daha iyi bir çözüm üretir. Genel olarak, “veriyi anlama” veri bilimi sürecinde önemli bir adımdır, çünkü topladığımız verilerin güvenilir ve analizimiz için uygun olduğundan emin olmamıza yardımcı olur.

2- Veri Hazırlama

Veri hazırlama bir anlamda kusurlu olan ürünlerin elenmesi gibi düşünülebilir. Veri toplama ve veri anlama ile birlikte veri hazırlama, bir veri bilimi projesinin en çok zaman alan aşamalarıdır.
Genel proje süresinin tipik olarak %70-90’ını alır. Veritabanındaki bazı veri toplama ve hazırlama süreçlerinin otomatikleştirilmesi bu süreyi %50’ye kadar düşürebilir. Bu zaman tasarrufu, veri bilimcilerinin model oluşturmaya odaklanması için daha fazla zaman bulması anlamına gelir.

Daha önce örneğini verdiğimiz pişirme metaforumuzla devam edecek olursak, soğanı daha ince dilimlemenin, soğanı bütün olarak tencereye attığımızda olacağından daha kolay bir şekilde lezzetinin sosa yayılmasını sağlayacağını biliyoruz. Benzer şekilde, veri hazırlama aşamasında verilerin dönüştürülmesi, verilerin çalışılması daha kolay olabilecek bir duruma getirilmesi sürecidir. Spesifik olarak, metodolojinin veri hazırlama aşamasında, verilerle etkili bir şekilde çalışabilmek ve her şeyin doğru biçimlendirildiğinden emin olmak için eksik veya geçersiz değerleri ele alarak, yinelenen verileri kaldıracak şekilde veri hazırlanmalıdır.

Özellik mühendisliği(Feature Engineering) de veri hazırlamanın bir parçasıdır. Makine öğrenimi algoritmalarının çalışmasını sağlayan özellikler oluşturmak için verilerin ilgili olduğu alan bilgisini kullanma sürecidir. Özellik(Feature) olarak ifade edilen kavram, sorunu çözerken yardımcı olabilecek bir karakteristiktir. Verilerdeki özellikler, tahmine dayalı modeller için önemlidir ve elde etmek istediğiniz sonuçları etkileyecektir. Özellik mühendisliği(Feature Engineering), verileri analiz etmek için makine öğrenimi araçları kullanılacağı zaman kritik öneme sahiptir.

Metinle çalışırken, verileri kodlayarak manipüle edebilmek için metin analizi adımları gereklidir. Veri bilimcisi, sorunu ele almak için veri kümelerinde ne aradıklarını bilmelidir. Metin analizi, uygun gruplamaların ayarlandığından ve programlamanın içinde saklı olanı gözden kaçırmadığından emin olmak için çok önemlidir. Veri hazırlama aşaması, sorunun ele alınmasında sonraki adımlar için gerekli ortamı hazırlar. Bu aşamanın yapılması biraz zaman alabilir, ancak doğru yapılırsa sonuçlar projeyi destekleyecektir. Eğer bu adım atlanırsa, çıktı doğru olmayacaktır ve bu durum sizi işin başlangıcına geri döndürebilir. Bu alanda zaman ayırmanız ve veri hazırlamayı hızlandırmak amacıyla ortak adımları otomatikleştirmek için mevcut araçları kullanmanız çok önemlidir. Sonuçta, güzel bir yemeği mahvetmek için tek bir kötü malzeme yeterlidir.

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6) 1

Şimdi, “Veri Hazırlama” aşamasıyla ilgili bir vaka çalışmasına bakalım. Daha önce örnek olarak verdiğimiz Konjestif Kalp Yetmezliği hastalığı için veri hazırlama aşamasında önemli olan ilk adım, Konjestif Kalp Yetmezliğini tanımlamaktır. Bu ilk başta kulağa kolay geliyor ama aaslında onu tam olarak tanımlamak kolay değildir.

İlk olarak, belirli türlerde sıvı birikimi Konjestif Kalp Yetmezliği’ne işaret ettiğinden, teşhisle ilgili grup kodlarının tanımlanması gerekiyor. Ayrıca Konjestif Kalp Yetmezliği’nin, kalp yetmezliği türlerinden sadece biri olduğunu bilmemiz gerekiyor. Konjestif kalp yetmezliğini teşhis etmek istiyorsak, doğru kodları almak için klinik rehberliğe ihtiyaç vardır.

Bir sonraki adım, aynı durum için yeniden kabul kriterlerinin tanımlanmasını içeriyor. Belirli bir Konjestif Kalp Yetmezliği başvurusunun, ilk kabul veya yeniden yatış olarak adlandırılan bir olay olup olmadığını belirlemek amacıyla değerlendirilmesi gereken olayların zamanlaması belirlenmelidir. Klinik uzmanlığa dayalı olarak, ilk yatıştan ve ilk kez taburcu olduktan sonra Konjestif Kalp Yetmezliği hastaları için ilgili yeniden kabul tarihi olarak 30 günlük bir süre belirlendi. Ardından, yapılan işlemler biçimindeki kayıtlar toplanır. Bu veriler doğal olarak her hasta için birden çok kayıt içerir. Bunlar; işlem kayıtları, doktor, laboratuvar, hastane ve klinik hizmetler için tesis taleplerini içeriyor. Ayrıca, tüm teşhisleri, prosedürleri, reçeteleri ve yatan ve ayakta tedavi gören hastalarla ilgili diğer bilgileri açıklayan kayıtlar da dahil edilmelidir. Belirli bir hasta, klinik geçmişine bağlı olarak bu kayıtlardan yüzlerce hatta binlercesine sahip olabilir.

Ardından, modelleme için kullanılacak karar ağacı sınıflandırma yöntemi için gerekli olduğu gibi, tüm işlem kayıtları hasta düzeyinde toplanarak her hasta için tek bir kayıt elde edilir. Toplama sürecinin bir parçası olarak, işlemlerdeki bilgileri temsil eden birçok yeni sütun oluşturulur. Örneğin; teşhisler, prosedürler, reçeteler vb. ile doktorlara, kliniklere ve hastanelere yapılan sıklık ve en son ziyaretler gibi. Diyabet, hipertansiyon ve diğer birçok hastalık ve Konjestif Kalp Yetmezliği için yeniden kabul riskini etkileyebilecek kronik durumlar gibi Konjestif Kalp Yetmezliği ile birlikte görülen diğer hastalıklar da göz önünde bulundurulur.

Veri hazırlama konusundaki tartışmalar sırasında, henüz hesaba katılmamış eşlik eden diğer hastalıklar gibi herhangi bir önemli veri öğesinin gözden kaçırılıp atılmadığını görmek için Konjestif Kalp Yetmezliği üzerine bir literatür taraması da yapılmalıdır. Bu inceleme, koşullar ve prosedürler için birkaç gösterge daha eklemek amacıyla veri toplama aşamasına geri dönmeyi gerektirebilir.

İşlem verilerinin hasta düzeyinde toplanması, bu verilerin yaş, cinsiyet, sigorta türü vb. gibi demografik bilgileri de dahil olmak üzere diğer hasta verileriyle birleştirilmesi anlamına geliyor. Sonuç, klinik geçmişindeki hastayla ilgili nitelikleri temsil eden birçok sütunla birlikte, hasta başına tek bir kayıt içeren bir tablonun oluşturulmasıdır. Bu sütunlar, tahmine dayalı modellemede değişkenler olarak kullanılacaktır. Yani modelin oluşturulmasında nihai olarak kullanılan değişkenlerin bir listesidir. Bağımlı değişken veya hedef, Konjestif Kalp Yetmezliği nedeniyle hastaneden taburcu olduktan sonraki 30 gün içinde, sonucun evet veya hayır olduğu Konjestif Kalp Yetmezliği başvurusunun hastaneye yeniden kabulüdür. Veri hazırlama aşaması, bu vaka çalışması için tüm kriterleri karşılayan 2.343 hastadan oluşan bir kohortla sonuçlandı. Kohort daha sonra sırasıyla modeli oluşturmak ve doğrulamak için eğitim ve test setlerine bölündü.

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6) 2

Kohort: 2.343 hasta
Eğitim Seti / Test Seti: %70 / %30 (Rastgele seçildi)
Eğitim Seti: 1.640 hasta
Test Seti: 703 hasta

Uygulama:

Önceki konuda yer alan, belirli bir tarifin ya da yemeğin ait olduğu mutfağı belirleme sürecini otomatikleştirmek için geliştirdiğimiz uygulamayı kullanacağız. İş anlayışı aşamasında karşılaştığımız soruyu, yani *belirli bir tarifin mutfağını belirleme sürecini otomatikleştirebilir miyiz?” sorusunu yanıtlamak için ihtiyaç duyduğumuz veriler Yong-Yeol Ahn adlı bir araştırmacı tarafından, üç farklı web sitesinden on binlerce yemek tarifini (mutfaklar ve malzemeler) alarak oluşturulmuştu. Veriyi aldığımız web siteleri şunlardı;

allrecipes.com

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6) 3

epicurious.com

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6) 4

menupan.com

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6) 5

İlgili çalışmanın detaylarını merak ediyorsanız Profesör Yong-Yeol Ahn’ın web sitesindeki dokümana burayı tıklayarak ulaşabilirsiniz.

İlk olarak Veriyi Anlama aşamasında yapacaklarımıza bir göz atalım.

Kodlama aşamasına geçelim ve gerekli kütüphaneleri kodumuza dahil ederek başlayalım;

import pandas as pd # verileri panda kütüphanesi ile okuyacağız
pd.set_option('display.max_columns', None)
import numpy as np # numpy kütüphanesini de dahil edelim
import re # metinlerle çalışmak için regular expression kütüphanesini de ekleyelim

CSV formatındaki verileri Panda ile okuyalım;

tarifler = pd.read_csv("https://www.obenseven.com.tr/recipes.csv")

print("Veri başarılı bir şekilde okundu!")

Başarıyla okunduğu mesajını aldık ama yine bir kontrol edelim. Verinin ilk bir kaç satırını görelim;

tarifler.head()

Kodun çıktısı;

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6) 6

Elimizde ne kadar veri olduğunu görelim;

tarifler.shape

Kodun çıktısı;

(57691, 384)

Veri setimiz 57.691 tariften oluşmaktadır. Her satır bir tarifi temsil eder ve her tarif için, ilgili mutfağın yanı sıra tarifte badem ile başlayıp kabak ile biten 384 malzemenin bulunup bulunmadığı belgelenir.

Basitçe bir sushi tarifinde şu malzemelerin olduğunu biliyoruz;
– Pirinç
– Soya sosu
– Wasabi
– Balık ve sebzeler

Bunların veri setimiz içinde olup olmadığını kontrol edelim;

ingredients = list(tarifler.columns.values)

print([match.group(0) for ingredient in ingredients for match in [(re.compile(".*(rice).*")).search(ingredient)] if match])
print([match.group(0) for ingredient in ingredients for match in [(re.compile(".*(wasabi).*")).search(ingredient)] if match])
print([match.group(0) for ingredient in ingredients for match in [(re.compile(".*(soy).*")).search(ingredient)] if match])

Kodun çıktısı;

['brown_rice', 'licorice', 'rice']
['wasabi']
['soy_sauce', 'soybean', 'soybean_oil']

Gördüğünüz gibi malzemelerimiz mevcut;
– Pirinç rice olarak yer alıyor
– Wasabi ise wasabi olarak yer alıyor
– Soya sosu ise soy_sauce olarak yer alıyor

Öyleyse bir tarif eğer bu 3 malzemeyi de içeriyorsa o tarife büyük ihtimalle “Japon mutfağına ait bir tarifdir.” diyebiliriz.

Şimdi ise Veri Hazırlama aşamasında yapacağımız işlemlere göz atalım.

Bu bölümde veriyi Veri Bilimi Metodolojileri’nin bir sonraki aşaması olan Modelleme aşamasına hazırlayacağız. Bu aşama veriyi daha detaylı olarak keşfetmeyi ve makine öğrenmesi algoritmaları için doğru formatta olduğundan emin olmayı içerir. Daha önceki konuda Analitik Yaklaşım aşamasında makine öğrenmesi algoritmamızı Karar Ağacı(Decision Tree) olarak belirlemiştik.

İlk olarak verinin temizlenmeye ihtiyacı olup olmadığına bakalım;

tarifler["country"].value_counts()

Kodun çıktısı;

country
American        40150
Mexico           1754
Italian          1715
Italy            1461
Asian            1176
                ...  
Indonesia          12
Belgium            11
East-African       11
Israel              9
Bangladesh          4
Name: count, Length: 69, dtype: int64

Yukarıda sadece bir bölümünü verdiğimiz tablonun tamamını incelediğinizde şu çıkarımları yapabilirsiniz;
– Mutfak sütunu Ülke olarak etiketlenmiş, bu doğru değil.
– Mutfak adları tutarlı değil çünkü hepsi büyük harfle başlamıyor.
– Vietnam ve Vietnamca gibi bazı mutfaklar ülke adının varyasyonu olarak çoğaltılmıştır.
– Bazı mutfakların çok az tarifi vardır.

Şimdi bu hataları düzeltelim.

Öncelikle ülke(country) olarak verilmiş olan sütun adını cuisine(ülke mutfağı) olarak değiştirelim;

column_names = tarifler.columns.values
column_names[0] = "cuisine"
tarifler.columns = column_names

tarifler

Kodun çıktısı;

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6) 7

Tüm mutfak isimlerini küçük harf yapalım;

tarifler["cuisine"] = tarifler["cuisine"].str.lower()

Mutfak isimlerini daha anlamlı hale getirelim;

tarifler.loc[tarifler["cuisine"] == "austria", "cuisine"] = "austrian"
tarifler.loc[tarifler["cuisine"] == "belgium", "cuisine"] = "belgian"
tarifler.loc[tarifler["cuisine"] == "china", "cuisine"] = "chinese"
tarifler.loc[tarifler["cuisine"] == "canada", "cuisine"] = "canadian"
tarifler.loc[tarifler["cuisine"] == "netherlands", "cuisine"] = "dutch"
tarifler.loc[tarifler["cuisine"] == "france", "cuisine"] = "french"
tarifler.loc[tarifler["cuisine"] == "germany", "cuisine"] = "german"
tarifler.loc[tarifler["cuisine"] == "india", "cuisine"] = "indian"
tarifler.loc[tarifler["cuisine"] == "indonesia", "cuisine"] = "indonesian"
tarifler.loc[tarifler["cuisine"] == "iran", "cuisine"] = "iranian"
tarifler.loc[tarifler["cuisine"] == "italy", "cuisine"] = "italian"
tarifler.loc[tarifler["cuisine"] == "japan", "cuisine"] = "japanese"
tarifler.loc[tarifler["cuisine"] == "israel", "cuisine"] = "israeli"
tarifler.loc[tarifler["cuisine"] == "korea", "cuisine"] = "korean"
tarifler.loc[tarifler["cuisine"] == "lebanon", "cuisine"] = "lebanese"
tarifler.loc[tarifler["cuisine"] == "malaysia", "cuisine"] = "malaysian"
tarifler.loc[tarifler["cuisine"] == "mexico", "cuisine"] = "mexican"
tarifler.loc[tarifler["cuisine"] == "pakistan", "cuisine"] = "pakistani"
tarifler.loc[tarifler["cuisine"] == "philippines", "cuisine"] = "philippine"
tarifler.loc[tarifler["cuisine"] == "scandinavia", "cuisine"] = "scandinavian"
tarifler.loc[tarifler["cuisine"] == "spain", "cuisine"] = "spanish_portuguese"
tarifler.loc[tarifler["cuisine"] == "portugal", "cuisine"] = "spanish_portuguese"
tarifler.loc[tarifler["cuisine"] == "switzerland", "cuisine"] = "swiss"
tarifler.loc[tarifler["cuisine"] == "thailand", "cuisine"] = "thai"
tarifler.loc[tarifler["cuisine"] == "turkey", "cuisine"] = "turkish"
tarifler.loc[tarifler["cuisine"] == "vietnam", "cuisine"] = "vietnamese"
tarifler.loc[tarifler["cuisine"] == "uk-and-ireland", "cuisine"] = "uk-and-irish"
tarifler.loc[tarifler["cuisine"] == "irish", "cuisine"] = "uk-and-irish"

tarifler

Kodun çıktısı;

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6) 8

50 tariften az tarife sahip olan mutfakları çıkartalım;

# Verilerini tutacağımız mutfakları listeleyelim
tarif_sayisi = tarifler["cuisine"].value_counts()
tarif_indisleri = tarif_sayisi > 50

secilen_mutfaklar = list(np.array(tarif_sayisi.index.values)[np.array(tarif_indisleri)])

onceki_veri = tarifler.shape[0] # orjinal verideki satır sayısı
print("Orjinal verideki satır sayısı: {}.".format(onceki_veri))

tarifler = tarifler.loc[tarifler['cuisine'].isin(secilen_mutfaklar)]

sonraki_veri = tarifler.shape[0] # seçilen mutfaklara ait verideki satır sayısı
print("Tarif sayısı 50'den çok olan mutfakların sayısı: {}.".format(sonraki_veri))

print("{} kayıt silindi!".format(onceki_veri - sonraki_veri))

Kodun çıktısı;

Orjinal verideki satır sayısı: 57691.
Tarif sayısı 50'den çok olan mutfakların sayısı: 57394.
297 kayıt silindi!

Verilerde yer alan Yes(Malzeme bu mutfakta var anlamında) ifadesini “1” ile ve No(Malzeme bu mutfakta yok anlamında) ifadesini “0” ile değiştirelim;

tarifler = tarifler.replace(to_replace="Yes", value=1)
tarifler = tarifler.replace(to_replace="No", value=0)

Şimdi verileri daha iyi anlamamıza ve ne tür bilgiler edinebileceğimizi anlamamıza yardımcı olacak bazı ek analizlere göz atalım.

Örneğin, tarif içinde pirinç(rice), soya sosu(soy), wasabi ve yosun(seaweed) bulunan tarifler hangi mutfaklara ait bulalım;

bunlar_hangi_mutfakta = tarifler.loc[
    (tarifler["rice"] == 1) &
    (tarifler["soy_sauce"] == 1) &
    (tarifler["wasabi"] == 1) &
    (tarifler["seaweed"] == 1)
]

bunlar_hangi_mutfakta

Kodun çıktısı;

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6) 9

Yukarıdaki kodun çıktısına bakarak tarifinde pirinç, soya sosu, wasabi ve yosun bulunan yemeklerin Japon mutfağına ait olduğunu söyleyebilir miyiz?

Tabii ki hayır, çünkü sonuçlara göre asya ve doğu asya mutfaklarında da bu malzemeler kullanılıyor.

Tüm tarifler içinde hangi malzeme kaç kez kullanılmıştır?

# Tüm sütunların toplamı
mlz = tarifler.iloc[:, 1:].sum(axis=0)
print(mlz)

Kodun çıktısı;

almond        2306
angelica         1
anise          223
anise_seed      87
apple         2420
              ... 
wood            33
yam             85
yeast         3385
yogurt        1033
zucchini      1102
Length: 383, dtype: int64

Biraz daha biçimlendirelim;

# sütunları panda serisi olarak tanımlayalım
malzeme = pd.Series(ing.index.values, index = np.arange(len(ing)))
sayim = pd.Series(list(ing), index = np.arange(len(ing)))

# veri setini oluşturalım
mlz_df = pd.DataFrame(dict(malzeme = malzeme, sayim = sayim))
mlz_df = mlz_df[["ingredient", "count"]]
print(mlz_df.to_string())

                  ingredient  count
0                     almond   2306
1                   angelica      1
2                      anise    223
3                 anise_seed     87
4                      apple   2420
5               apple_brandy     37
6                    apricot    620
7                   armagnac     11
8                  artemisia     13
9                  artichoke    391
10                 asparagus    460
11                   avocado    660
12                     bacon   2169
13              baked_potato      9
14                      balm      3
15                    banana    989
16                    barley    266
17             bartlett_pear     23
18                     basil   3842
19                       bay   1463
20                      bean   1992
21                     beech      1
22                      beef   4902
23                beef_broth    845
...
379                      yam     85
380                    yeast   3385
381                   yogurt   1033
382                 zucchini   1102

Artık dilersek bu veri setini istediğimiz şekilde sıralayabiliriz. Örneğin tüm tarifler içinde en çok kullanılan malzemelerin neler olduğunu merak ediyorsak;

mlz_df.sort_values(["count"], ascending=False, inplace=True)
mlz_df.reset_index(inplace=True, drop=True)

print(mlz_df)

Kodun çıktısı;

          ingredient  count
0                egg  21022
1              wheat  20775
2             butter  20715
3              onion  18078
4             garlic  17351
..               ...    ...
378   strawberry_jam      1
379  sturgeon_caviar      1
380      kaffir_lime      1
381            beech      1
382           durian      0

[383 rows x 2 columns]

Tabii burada elde ettiğimiz sonuçlar bir miktar yanlılığa sahiptir. Çünkü yukarıdaki tablolardan hatırlayacağınız gibi tarifler arasında 40.000’in üzerinde Amerikan mutfağına ait tarif mevcut. Bu da cevap aradığımız soruların Amerikan mutfağından aşırı miktarda etkilenen cevaplar olduğunu gösterir. Bu yüzden daha objektif bir sonuç için ülke mutfağına göre bu sonucu üretebiliriz. Diğer bir deyişle şu soruların cevabını arayabiliriz; “Çinliler hangi malzemeleri daha çok kullanıyor?” ya da “Kanadalılar için “

mutfaklar = tarifler.groupby("cuisine").mean()
mutfaklar.head()

Kodun çıktısı;

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6) 10

Yukarıda bir veriseti oluşturduk ve satırlar malzemelerin ait oldukları mutfakları, sütunlar ise o mutfakta kullanılan malzemeleri listeliyor. Bu tablodaki veriler ise hangi malzemenin ilgili olduğu mutfakta diğer malzemelere göre hangi oranda kullanıldığını gösteriyor.

Örneğin; afrika mutfağında badem %15,65 oranında kullanılırken, amerika mutfağında %0,4 oranında kullanılıyormuş. Kanadalıların yemeklerinde ise diğer malzemelere göre %38,11 oranında tereyağı kullanılıyormuş. Önemli bir oran. Demek ki Kanadalılar tereyağını çok seviyorlar ve Kanadalılara tereyağı satabilirsiniz!

Hadi şimdi ülke mutfaklarına göre en çok kullanılan 4 malzemeyi görelim;

num_ingredients = 4 # çıktıya yazdırılacak malzeme sayısını belirleyelim

# her mutfağa göre en çok kullanılan malzemeleri yazdıracak fonksiyon
def print_top_ingredients(row):
    print(row.name.upper())
    row_sorted = row.sort_values(ascending=False)*100
    top_ingredients = list(row_sorted.index.values)[0:num_ingredients]
    row_sorted = list(row_sorted)[0:num_ingredients]

    for ind, ingredient in enumerate(top_ingredients):
        print("%s (%d%%)" % (ingredient, row_sorted[ind]), end=' ')
    print("\n")

# fonksiyonu veri setimiz üzerinde çalıştıralım
create_cuisines_profiles = mutfaklar.apply(print_top_ingredients, axis=1)

Kodun çıktısı;

AFRICAN
onion (53%) olive_oil (52%) garlic (49%) cumin (42%) 

AMERICAN
butter (41%) egg (40%) wheat (39%) onion (29%) 

ASIAN
soy_sauce (49%) ginger (48%) garlic (47%) rice (41%) 

CAJUN_CREOLE
onion (69%) cayenne (56%) garlic (48%) butter (36%) 

CANADIAN
wheat (39%) butter (38%) egg (35%) onion (34%) 

CARIBBEAN
onion (51%) garlic (50%) vegetable_oil (31%) black_pepper (31%) 

CENTRAL_SOUTHAMERICAN
garlic (56%) onion (54%) cayenne (51%) tomato (41%) 

CHINESE
soy_sauce (68%) ginger (53%) garlic (52%) scallion (48%) 

EAST_ASIAN
...

WESTERN
egg (51%) wheat (46%) butter (46%) black_pepper (36%)

Bu noktada artık verimizden anlamlı bilgiler elde edebilecek seviyede veriyi anlamlandırabildiğimizi ve veriyi düzenleyerek sonraki Modelleme aşamasına hazırlayabildiğimizi söyleyebiliriz.

Terimler Sözlüğü:

Her ne kadar daha iyi anlaşılabilmesi için kavram adlarını Türkçe kullanmayı tercih etsem de, hazırladığım dokümanlarda geçen kavramların İngilizce karşılıklarını bilmeniz de önem taşımaktadır. Zira faydalanacağınız çoğu kaynakta ya da ekipler içinde birlikte çalışacağınız kişiler ile konuşurken yüksek ihtimal İngilizce terimleri ile karşılaşacaksınız. Bu nedenle aşağıda olduğu gibi konu sonlarında yer alan terim sözlüklerine de göz atmanızı tavsiye ederim.

Terim	Anlamı
Otomasyon(Automation)	Veri toplama ve hazırlama süreçlerini kolaylaştırmak için tekrar eden işlemleri otomatikleştiren araç ve tekniklerin kullanılması.
Veri koleksiyonu(Data Collection)	Çeşitli kaynaklardan veri toplama ve bir araya getirme aşaması.
Veri Derleme(Data Compilation)	Kapsamlı bir veri seti oluşturmak için verilerin düzenlenmesi ve yapılandırılması süreci.
Veri Biçimlendirme(Data Formatting)	Tekdüzelik ve analiz kolaylığı sağlamak için verilerin standartlaştırılması süreci.
Veri Manipülasyonu(Data Manipulation)	Verilerin kullanılabilir bir formata dönüştürülmesi süreci.
Veri Hazırlama(Data Preparation)	Özellik mühendisliği ve metin analizi de dahil olmak üzere verilerin temizlendiği, dönüştürüldüğü ve daha ileri analizler için biçimlendirildiği aşama. Etkili analiz ve modellemeyi kolaylaştırmak için verilerin dönüştürüldüğü ve düzenlendiği aşama.
Veri Kalitesi(Data Quality)	Veri bütünlüğü ve tamlığının değerlendirilmesi; eksik, geçersiz veya yanıltıcı değerlerin ele alınması.
Veri Kalite Değerlendirmesi(Data Quality Assessment)	Veri bütünlüğü, doğruluğu ve tamlığının değerlendirilmesi.
Veri Seti(Data Set)	Analiz ve modelleme için kullanılan bir veri koleksiyonu.
Veriyi Anlama (Data Understanding)	Veri bilimi metodolojisindeki bu aşama, verilerin çözülecek sorunu temsil ettiğinden emin olmak için toplanan verilerin keşfedilmesi ve analiz edilmesine odaklanmıştır.
Tanımlayıcı İstatistikler(Descriptive Statistics)	Veri bilimcilerin değişkenlerin dağılımını tanımlamak ve anlamak için kullandıkları ortalama, medyan, minimum, maksimum ve standart sapma gibi özet istatistikler.
Özellik(Feature)	Problemin çözülmesine yardımcı olan veri içindeki bir özellik veya nitelik.
Özellik Mühendisliği(Feature Engineering)	Makine öğrenimi algoritmalarının performansını artırmak için alan bilgisine dayalı yeni özellikler veya değişkenler oluşturma süreci.
Özellik Seçimi(Feature Extraction)	Veri setinden ilgili özelliklerin veya niteliklerin belirlenmesi ve seçilmesi.
İnteraktif İşlemler(Interactive Processes)	Veri analizinden elde edilen içgörü ve geri bildirimlere dayalı olarak metodolojinin yinelemeli ve sürekli olarak iyileştirilmesi.
Kayıp Değerler(Missing Values)	Veri kümesinde bulunmayan veya bilinmeyen, veri hazırlama sırasında dikkatli bir şekilde ele alınması gereken değerler.
Model Kalibrasyonu(Model Calibration)	Doğruluğu ve ilk tasarımla uyumu artırmak için model parametrelerinin ayarlanması.
İkili Korelasyon(Pairwise Correlations)	Farklı değişkenler arasındaki ilişkileri ve korelasyonları belirlemeye yönelik bir analiz.
Metin Analizi(Text Analysis)	Metinsel verileri analiz etme ve manipüle etme, anlamlı bilgi ve kalıpları çıkarma adımları.
Metin Analizi Gruplandırma(Text Analysis Groupings)	Analiz için metinsel verilerden anlamlı gruplamalar ve kategoriler oluşturma.
Görselleştirme Teknikleri(Visualization Techniques)	Veri bilimcilerin, veri kalıplarının, ilişkilerinin ve içgörülerinin erişilebilirliğini ve anlaşılmasını artıran görsel temsiller veya grafikler oluşturmak için kullandıkları yöntemler ve araçlar.

Beğenilenler

3- Linux’ta Veri Akışını Yönlendirmek

CRISP-DM Veri Bilimi Metodolojisi

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 7-8)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 1-4)

Bugünlerde

3- Linux’ta Veri Akışını Yönlendirmek

CRISP-DM Veri Bilimi Metodolojisi

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 7-8)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 1-4)

Bunları Okudunuz mu?

3- Linux’ta Veri Akışını Yönlendirmek

CRISP-DM Veri Bilimi Metodolojisi

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 7-8)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 1-4)

Bağlantıda Kalalım

Kimdir ?

Kategoriler

Trend Yazılar

3- Linux’ta Veri Akışını Yönlendirmek

CRISP-DM Veri Bilimi Metodolojisi

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Son Eklenenler

Popüler Olanlar

3- Linux’ta Veri Akışını Yönlendirmek

CRISP-DM Veri Bilimi Metodolojisi

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 7-8)

1- Linux Komut Satırı

2- Bazı Linux Terminal Kullanım İpuçları

1- Nasıl Javascript Öğrenebilirim

2- Sizi vazgeçiren çeldiricilerle nasıl başa çıkabilirsiniz?

Haberdar Ol

Beğenilenler

3- Linux’ta Veri Akışını Yönlendirmek

CRISP-DM Veri Bilimi Metodolojisi

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 7-8)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 1-4)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6)

1- Veriyi Anlama

2- Veri Hazırlama

Terimler Sözlüğü:

Oben Seven

İlgili Yazılar

Derin Öğrenme ve Makine Öğrenmesi(Deep Learning & Machine Learning)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 7-8)

IBM Watson ve DAX ile Paylaşılan Veri Setleri

Makine Öğrenimi(Machine Learning) Modelleri

Veri Bilimi Araçları

Bugünlerde

3- Linux’ta Veri Akışını Yönlendirmek

CRISP-DM Veri Bilimi Metodolojisi

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 7-8)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 1-4)

Bunları Okudunuz mu?

3- Linux’ta Veri Akışını Yönlendirmek

CRISP-DM Veri Bilimi Metodolojisi

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 7-8)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 5-6)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 1-4)

Bağlantıda Kalalım

3- Linux’ta Veri Akışını Yönlendirmek

CRISP-DM Veri Bilimi Metodolojisi

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Son Eklenenler

Popüler Olanlar

3- Linux’ta Veri Akışını Yönlendirmek

CRISP-DM Veri Bilimi Metodolojisi

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 9-10)

Problemden Çözüme Veri Bilimi Metodolojileri(Aşama 7-8)

1- Linux Komut Satırı

2- Bazı Linux Terminal Kullanım İpuçları

1- Nasıl Javascript Öğrenebilirim

2- Sizi vazgeçiren çeldiricilerle nasıl başa çıkabilirsiniz?