İstatistiksel Öğrenme II – Modelin Netliğini Değerlendirme

15statistik ne yazık ki kesin kuralları olan bir disiplin değil. Herhangi bir metot bir veri setinde çok iyi sonuçlar üretebilirken başka bir veri seti üzerinde çok kötü sonuçlar üretebilir. Bu yüzden belirli bir veri seti üzerinde en iyi performansı veren metodu bulabilmek çok önemli bir konu. Pratikte istatistiksel öğrenmenin en çetrefilli olayı da tam olarak budur: doğru yaklaşımı ve metodu belirlemek. Bu yazıda, belirli bir veri seti için en iyi sonucu üreten istatistiksel öğrenme prosedürünü seçmemizde bize yol gösterecek birkaç önemli konsepti inceleyeceğiz.

Uyum Kalitesinin Ölçümü 

Bir istatistiksel öğrenme metodunun belirli bir veri seti üzerindeki performansını değerlendirmek için metodun ürettiği tahminlerin gerçek sonuçlarla ne kadar örtüştüğünü ölçümlememize yarayacak yöntemlere ihtiyacımız var. Yani, belirli bir gözlem için tahmin edilen cevap(reponse) değerin o gözlemin gerçek cevap(reponse) değerine ne kadar yakın olduğunu sayısallaştırmamız gerekiyor. Regresyon için, en yaygın olarak kullanılan ölçüm Ortalama Karesel Hata (Mean Squared Error-MSE)‘dır ve şu şekilde ifade edilir:

MSE

Burada 6(xi) 6‘in i numaralı gözlem için ürettiği tahmini gösteriyor. Tahmin edilen değerler gerçek değerlere ne kadar yakınsa MSE o kadar küçük olur; gerçek değerlerden ne kadar uzaklaşırsa MSE o kadar büyük olur. Yukarıda MSE, modeli uydurmak(model fitting) için kullanılan training veri seti kullanılarak hesaplanır ve training MSE olarak ifade edilmelidir. Fakat genellikle, metodumuzun training veri seti üzerinde ne kadar iyi sonuçlar ürettiğiyle ilgilenmeyiz. Bilakis training veri seti dışındaki verilerde(test) modelin ne kadar kesin sonuçlar ürettiğiyle ilgileniriz. Peki neden durum böyle?

Düşünün ki geçmişteki stok getirilerini kullanarak gelecekteki stok getirilerini tahminlemeye yaracak bir algoritma yaratmaya çalışıyoruz. Metodu geçtiğimiz 6 ay içindeki stok getirilerini kullanarak eğitiyoruz(train). Ancak metodumuzun geçtiğimiz haftaki stok getirilerini ne kadar iyi tahminlediğiyle ilgilenmeyiz pek. Daha ziyade gelecek hafta veya aydaki stok getirilerini ne kadar iyi tahmin edebileceğiyle ilgileniriz. Veya düşünün ki elimizde birçok hastanın klinik ölçüm verileriyle (kilo, kan basıncı, boy, yaş, aile geçmişi, vb.) diyabet olup olmadığına dair veriler olsun. Bu hastaların verilerini bir hastanın klinik verilerini kullanıp diyabet olup olmadığını tahminlemeye yarayacak bir istatistiksel öğrenme metodunu eğitmek(train) için kullanabiliriz. Pratikte, bu metodu belirli bir hastanın klinik verilerinden yola çıkarak diyabete yakalanma riskini tahmin etmede kullanabiliriz. Bu metodun, metodu eğitmek için kullandığımız hastaların diyabet olup olmadığını ne kadar iyi tahmin ettiğiyle ilgilenmeyiz çünkü zaten bu hastaların gerçekten diyabet olup olmadığını biliyoruz. Daha matematiksel ifade etmek gerekirse, düşünün ki istatistiksel öğrenme metodumuzu training veri setine uydurduk(fit) ve bir 6 tahmini ürettik. Bu 6‘i kullanarak 6(x1), 6(x2),…..,6(xn)‘i hesapladık. Eğer bunlar gerçek y1, y2,…..,yn değerlerine yaklaşık olarak eşitse MSE değeri o kadar küçük olacaktır. Fakat gerçekten 6(xi)~yi olup olmadığıyla ilgilenmeyiz. Daha önce görmediğimiz bir veri üzerinde(x0) modelimizin ne kadar gerçeğe yakın tahmin yaptığıyla ilgileniriz: 6(x0)~y0. Peki test MSE değerini minimum yapacak metodu nasıl bulacağız? Bazı durumlarda test veri seti hazır olarak verilmiş olabilir. O zaman modelimizi training veri setini kullanarak uydururuz(fit) ve sonrasında test veri seti üzerinde çalıştırarak sonuçlarına bakıp MSE’i hesaplarız; mininum test MSE değerini üreten metodu seçeriz. Fakat eğer test veri seti yoksa ne yapacağız? Bu durumda, training MSE değerini minimize edecek istatistiksel metodu seçmeyi düşünebiliriz. Genellikle training MSE ile test MSE yakından alakalı olduğu düşünüldüğü için oldukça mantıklı bir yöntem gibi gözüküyor olabilir. Ne yazikki bu stratejiyle ilgili temel bir problem var: minimum training MSE değerini üreten metodun minimum test MSE değerini üreteceğine dair hiçbir garanti yok. Açık olmak gerekirse çoğu istatistiksel öğrenme metodu özellikle training MSE değerini minimize edecek katsayılar(coefficients) üretecek şekilde optimize edilmiş ve tasarlanmıştır. Bu metotların düşük trainin MSE değerleri üretmesi gayet normal, ancak sıklıkla test veri seti üzerine uygulandıklarında daha büyük test MSE değerleri üretirler.

Örnek 1

Örnek 1

Yukarıdaki grafiği inceleyerek bu durumu açıklayalım. Sol taraftaki grafikte siyah ile çizilmiş eğri bizim gerçek 7 fonksiyonumuzu gösteriyor. Turuncu çizgi ile mavi ve yeşil eğriler ise bizim gerçek 7 fonksiyonu için tahminlerimizi göstersin ve bunların esnekliği(flexibility) sırasıyla artıyor olsun; yani mavi turuncudan, yeşil de maviden daha esnek olsun. Turuncu çizgi “linear regression” metodu ile elde edilen tahmindir; yani esnekliği görece azdır. Mavi ve yeşil eğriler ise ilerideki konularda ayrıntılı ele alacağımız “smoothing splines” metodu kullanılarak elde edilen tahminlerdir ve bu eğriler farklı düzleme seviyeleri (level of smoothing) kullanılarak üretilmişlerdir. Grafiğe dikkatli baktığımızda göreceğimiz üzere esneklik seviyesi arttıkça eğri gözlemlenen veriye daha çok uyum sağlar (fit). Yeşil eğri en esnek olan eğridir ve gözlemlenen veriye en çok uyumu sağlamıştır. Fakat, bu eğrinin gerçek 7 eğrisine çok da benzemediğini görüyoruz; çünkü gereğinden fazla kıvrımlı. Smoothing spline fit metodunun esneklik seviyesini değiştirerek aynı veriye bir çok farklı eğri uydurabiliriz.

Sağ taraftaki grafikte gri eğri ortalama training MSE değerini esnekliğin  bir fonksiyonu olarak göstermekte. Burada esneklik kavramı istatistiki jargonda serbestlik derecesi(degree of freedom) olarak adlandırılır. Turuncu, mavi ve yeşil kareler sol taraftaki ilgili eğrinin MSE değerlerini belirtmekte. Daha kısıtlayıcı ve dolayısıyla daha düz(smooth) eğriler daha kıvrımlı olanlara nazaran daha az serbestlik derecesine (degree of freedom) sahiptir. Training MSE değeri esneklik arttıkça monoton olarak azalır. Bu örnekte gerçek 7 doğrusal değil, ve bu yüzden turuncu çizgi gerçek 7‘i yeterince iyi tahminleyecek esnekliğe sahip değil. Yeşil eğri en düşük training MSE değerine sahip çünkü içlerinden en esnek olanı o. Bu örnekte gerçek 7 fonksiyonunu biliyoruz ve böylece test MSE değerlerini çeşitli esneklik seviyeleri için hesaplayabiliyoruz. (Elbette pratikte gerçek 7 fonksiyonu genellikle bilinmez; dolayısıyla bu örnekte yapacağımız hesaplamayı yapmak mümkün olmaz). Test MSE değeri sağ tarafta kırmızı eğri ile gösterilmekte. Esneklik seviyesi arttıkça training MSE değerine paralel olarak test MSE değeri en başta azalmakta, belli bir noktada test MSE değeri minimum olmakta ve o noktadan sonra test MSE değeri tekrar artmakta. Bu nedenle, turuncu ve yeşil eğriler yüksek test MSE değerine sahip. Mavi eğri test MSE değerini minimize etmekte ve sol taraftaki görselde de görülebileceği üzere zaten görsel olarak gerçek 7‘i en iyi tahmin eden de bu. Yatay kesikli çizgi azaltılamayan hatayı (irreducible error) Var(e) gösteriyor ve bu da bütün metotların ulaşabileceği minimum test MSE değeri anlamına geliyor. Dolayısıyla, mavi eğri ile gösterilen smoothing spline tahmini optimuma yakın bir tahmin.

Yukarıdaki görselin sağ tarafındaki grafikte görebileceğiniz üzere istatistiksel öğrenme metodunun esnekliği arttıkça training MSE değerinde monoton bir azalma gözlemlerken test MSE değerinde U şekli gözlemliyoruz. Bu durum, eldeki veriden ve kullanılan istatistiksel metottan bağımsız olarak istatistiksel öğrenmenin temel bir özelliğidir. Model esnekliği arttıkça, training MSE hep azalır ancak test MSE hep azalmayabilir. Bir metot düşük training MSE değeri üretirken yüksek test MSE değeri üretiyorsa, bu durum elimizdeki veriye “aşırı uydurma” veya tam adıyla “overfitting” yapıyoruz demektir. Bunun sebebi elimizdeki istatistiksel öğrenme prosedürünün training veri setindeki örüntüyü (pattern) çok yakından takip etmesidir ve bu örüntülerden bazıları gerçek 7 fonksiyonunun özelliğinden kaynaklanmayıp tamamıyla şans eseri oluşan örüntülerdir. Training verisine “aşırı uydurma” yaptığımızda, test MSE değeri çok büyük olacaktır çünkü training verisinde bulduğumuzu sandığımız örüntüler(rastgele hatalardan kaynaklanan) test verisinde bulunmayacaktır. Şunu da not etmek gerekiyor ki aşırı uydurma yapalım ya da yapmayalım, neredeyse her zaman training MSE değerinin test MSE değerinden düşük olmasını bekleriz çünkü çoğu istatistiksel öğrenme metodu direkt ya da dolaylı olarak training MSE değerini minimize etmek için tasarlanmıştır. 

 1

Örnek 2

Yukarıdaki grafik gerçek 7‘in yaklaşık olarak doğrusal olduğu başka bir örneği gösteriyor. Gene esneklik arttıkça, training MSE değerinin monoton olarak azaldığını, test MSE değerinin ise U şekli çizdiğini görüyoruz. Fakat, gerçek 7 fonksiyonu doğrusala yakın bir fonksiyon olduğundan, test MSE artmadan önce çok az bir miktarda azalıyor; dolayısıyla turuncu least square fit yüksek miktarda esnek olan yeşil eğriden daha iyi tahminleme yapıyor.

Aşağıdaki figür ise gerçek 7 fonksiyonunun doğrusal olmadığı bir örneği gösteriyor. Training ve test MSE eğrileri aynı davranışı(yani training azalırken test MSE değeri U şekli çiziyor) gösteriyor fakat bu sefer test MSE değeri artmaya başlamadan önce her iki eğride de hızlı bir düşüş gözlemleniyor.

2

Örnek 3

Pratikte genellikle sadece training MSE değerini hesaplayabiliriz; test MSE değerini hesaplamak çok daha zordur çünkü genellikle test verisi elimizde yoktur. Yukarıdaki üç örnekten görebileceğiniz üzere, minimum test MSE değerini üreten modelin esneklik seviyesi veri setinden veri setine ciddi derecede farklılık gösterebiliyor. Bu minimum test MSE noktasını hesaplamak için bir çok yöntem var. Bunlardan en yaygını cross-validation. İleriki yazılarda ayrıntılı olarak inceleyeceğimiz için şimdilik burada duralım.

Taraflılık-Varyans Dengesi (Bias-Variance Trade-off)

Test MSE değerinde gözlemlediğimiz U şekli istatistiksel öğrenme metotlarının birbirleriyle rekabet içinde olan iki özelliğinden kaynaklanıyor. Matematiksel kanıtlamayı burada yapmaya kalkarsak yazının amacını çok aşmış oluruz, fakat beklenen(expected) test MSE değerinin her zaman üç temel miktarın toplamına eşit olduğunu söyleyelim:

3

Burada  4 beklenen(expected) test MSE değerini gösteriyor ve bu da bir sürü farklı training veri seti kullanılarak hesaplanan 6‘erin test setleri üzerindeki MSE değerlerinin ortalamasına tekabül ediyor.

Bu denklem bize şunu diyor aslında: beklenen test hatasını minimize etmek için, aynı anda hem düşük varyansa hem de düşük taraflılığa(bias) erişebilen bir istatistiksel öğrenme metodu seçmemiz gerekiyor. Dikkat edilmesi gereken konu şu ki varyans yapısı gereği her zaman sıfıra eşit ya da pozitiftir ve karesi alınmış taraflılık(bias) da hiçbir zaman negatif olamaz. Bu yüzden, beklenen test MSE değeri asla 5‘nin yani azaltılamaz hatanın (irreducible error) altına inemez.

Bir istatistiksel öğrenme metodunun taraflılığı ve varyansı derken tam olarak neden bahsediyoruz? Varyans 6‘in farklı training veri setleri kullanılarak hesaplandığında ne kadar değiştiği ile ilgilidir. Training veri seti istatistiksel öğrenme metodunu uydurmak(fit) için kullanıldığından, farklı training veri setleri farklı 6‘ler üretecektir. Fakat ideal olarak gerçek 7 için olan tahminimizin farklı training veri seti kullandığımızda çok fazla değişmemesi gerekir. Eğer bir metot yüksek varyansa sahipse o zaman training veri setindeki küçük değişiklikler bile tahminimiz olan 6‘te büyük değişikliklere sebep olur. Genel olarak, daha esnek istatistiksel metotlar daha yüksek varyanslara sahiptir. Örnek 1‘deki yeşil ve turuncu eğrileri gözlemleyin. Esnek yeşil eğri gözlemleri çok yakından takip ediyor. Bu eğri yüksek bir varyansa sahip çünkü gözlemlerden herhangi birini değiştirdiğimizde hesapladığımız 6 fonksiyonu ciddi derecede değişir. Diğer yandan, turuncu “least squares” çizgisi ise göreceli olarak daha az esnektir ve dolayısıyla daha düşük varyansa sahiptir çünkü herhangi bir gözlemi değiştirdiğimizde bu değişiklik fonksiyonumuzda çok çok ufak bir değişikliğe neden olacaktır.

Taraflılık(bias) ise gerçek hayattaki bir problemi yaklaşık olarak olarak modellediğimizde modelimizin sebep olduğu hatadır. Bu hata seçtiğimiz model basitleştikçe artış gösterir. Örneğin, linear regression Y ve X1,X2, . . . , Xp arasında doğrusal bir ilişki olduğunu var sayar. Gerçek hayatta karşılaştığımız herhangi bir problemin böylesine basit bir doğrusal ilişkiye sahip olması çok az rastlanılan bir durumdur. Dolayısıyla linear regression 7‘i tahminlemede şüphesiz bir biçimde bir miktar taraflılığa sebep olacaktır. Örnek 3‘te gerçek 7 doğrusal değildir, bu yüzden ne kadar training verisine sahip olursak olalım linear regression kullanarak net bir tahmin yapmamız mümkün değil. Diğer bir deyişle linear regression bu örnekte yüksek taraflılığa sebep oluyor. Fakat Örnek 2‘de gerçek 7 doğrusala çok yakın ve dolayısıyla elimizde yeterince veri olduğunda linear regression kullanarak net bir tahmin elde etmemiz mümkün. Genel olarak, daha esnek metotlar daha az taraflılığa sebep olur.

Genel bir kural olarak, daha esnek metotlar kullandığımızda varyans artarken taraflılık azalacaktır. Test MSE değerinin artmasını ya da azalmasını belirleyen etmen bu iki miktarın göreceli değişimidir. Esnekliği artırdığımızda taraflılık en başlarda varyansın artış hızından daha hızlı bir şekilde düşecektir. Sonuç olarak beklenen test MSE değeri de düşecektir. Ancak, belirli bir noktadan sonra esnekliği artırmak taraflılık üzerinde çok düşük miktarda etki gösterecektir ve varyansı ciddi derecede artırmaya başlayacaktır. Bu olduğunda test MSE değeri artış gösterir. Bu olay yukarıdaki 3 örneğin sağ tarafındaki grafiklerde gösteriliyor.

8

Yukarıdaki görseldeki üç grafik 1.,2. ve 3. örneklerimiz için beklenen test MSE değeri denklemimiz için sonuçlarını gösteriyor. Mavi eğri çeşitli esneklik seviyeleri için karesel taraflılığı (squared-bias), turuncu eğri de varyansı gösteriyor. Kesikli yatay çizgi ise azaltılamaz hatayı5, gösteriyor. Kırmızı eğri ise bu üç miktarın toplamını yani beklenen test MSE değerini gösteriyor. Her üç örnekte de metodun esnekliği arttıkça varyans artıyor ve taraflılık azalıyor. Fakat, minimum test MSE değerine karşılık gelen esneklik seviyesi her örnek için ciddi derecede farklılık gösteriyor çünkü karesel taraflılık ve varyans hepsinde farklı hızlarlarla değişiklik gösteriyor. Soldaki grafikte en başlarda taraflılık varyansın değişim hızına kıyasla çok hızlı bir şekilde azalıyor ve dolayısıyla test MSE değerinde düşüşe sebep oluyor. Fakat ortadaki grafikte gerçek 7 doğrusala yakın olduğundan esneklik arttıkça taraflılıkta çok az bir azalmaya neden oluyor ve test MSE değeri çok az miktarda azalıyor ve sonrasında varyans arttığı için hızla artmaya başlıyor. Ve sağ taraftaki grafikte ise esneklik arttıkça taraflılıkta çok ciddi bir azalma oluyor çüknü gerçek 7 bu örnekte doğrusal olmaktan çok uzak. Ayrıca esneklik arttıkça varyansta da çok az bir artış gözlemleniyor. Sonuç olarak, test MSE değeri çok ciddi miktarda azalıyor ve belirli bir noktadan sonra çok az artış gösteriyor.

Bu durum taraflılık-varyans dengesi (bias-variance trade-off) olarak adlandırılıyor. Bir istatistiksel öğrenme metodunun düşük test MSE değeri üretebilmesi için hem düşük varyansa hem de düşük karesel taraflılığa sahip olması gerekiyor. Bu denge olarak ifade ediliyor çünkü son derece düşük taraflılığı olup son derece yüksek varyansa sahip bir metot veya tam tersini elde etmek kolay. Buradaki zorlayıcı nokta hem varyansı hem de karesel taraflılığı düşük olan bir metot bulmak.

Gerçek hayatta gerçek 7‘i genellikle bilmeyiz. Bu yüzden bir istatistiksel öğrenme metodunun test MSE değerini, taraflılığını ve varyansını hesaplamak çoğu zaman mümkün değildir. Yine de taraflılık-varyansa dengesini göz önünde bulundurmamız gerekiyor. Bunları nasıl hesaplayacağımıza dair metotları sonraki yazılarda ele alacağız.

Sınıflandırma (Classification) Olayı

Şimdiye kadar model netliğini tartışırken hep regresyona odaklandık. Fakat karşılaştığımız konseptlerin çoğu, mesela taraflılık-varyans dengesi, sınıflandırma metotları için de geçerli. Buradaki tek değişiklik tahmin etmeye çalıştığımız değişkenin artık sayısal bir değişken olmaması. Diyelim ki elimizdeki veri şöyle olsun: {(x1, y1), . . . , (xn, yn)} ve gerçek 7‘i hesaplamaya çalışalım. Burada y değişkeni kalitatiftir. Tahminimizin, 6, netliğini ölçmedeki en yaygın yaklaşım training hata oranıdır (training error rate) ve bu da tahmin ettiğimiz 6‘i training veri setine uyguladığımızda elde ettiğimiz hatalı tahminlerin tüm tahminlere oranıdır.

Capture

Üzerinde şapka olan y i.’ci gözlem için tahminimizi temsil ediyor. I fonksiyonu ise içindeki ifade doğru ise 1 değil ise 0 üretiyor. Dolayısıyla yukarıdaki fonksiyon bize yanlış sınıflandırılan gözlemlerin yüzdesini veriyor.

Burada da gene tahminimizin training veri seti üzerinde ne kadar iyi sonuçlar ürettiğinden ziyade test veri seti üzerinde ne kadar iyi sonuçlar ürettiğiyle ilgileniriz. İyi bir sınıflandırıcı(classifier) test MSE değeri minimum yapandır.

Bayes Sınıflandırıcısı (Bayes Classifier)

Test MSE değeri her bir gözlemi tahmin değişkenlerine bakarak en yüksek olasılıktaki sınıfa atayarak minimize edilir. Diğer bir deyişle x0 tahminleyici değişken vektörüne (yani X1,X2,…,Xp) sahip bir test gözlemini öyle bir j sınıfına atamalıyız ki

Pr(Y = j|X = x0)

değeri maksimum olsun. Bu ifade bir koşullu olasılık (conditional probability)‘dır ve şu şekilde ifade edilir: x0 verildiğinde Y’nin j’ye eşit olma olasılığı. Bu son derece basit sınıflandırıcı Bayes Sınıflandırıcısı(Bayes Classifier) olarak adlandırılır. Yalnızca iki sınıftan(sınıf1, sınıf2) oluşan problemlerde Bayes Sınıflandırıcısı bir gözlemi Pr(Y = 1|X = x0) > 0.5 ise birinci sınıfa değilse ikinci sınıfa atar.

9

Yukarıdaki grafik X1 ve X2 tahminleyici değişkenlerinden oluşan iki boyutlu bir uzaydaki bir örneği gösteriyor. Turuncu ve mavi halkalar iki farklı sınıfa ait olan training veri seti gözlemlerini gösteriyor. X1 ve X2‘nin her bir değeri için, cevap (response) değişkeninin turuncu veya mavi olma olasılığı farklılık gösteriyor. Bu örnek yapay olarak yaratıldığından verinin nasıl oluşturulduğunu biliyoruz ve X1 ve X2’nin her bir değeri için koşullu olasılık değerlerini hesaplayabiliyoruz. Turuncu alan Pr(Y = orange| X) > 0.5 olduğu alanı, mavi alan ise bu değerin 0.5’ten küçük olduğu alanı gösteriyor. Kesikli mor çizgi ise olasılığın tam olarak 0.5 olduğu yerleri gösteriyor. Bu çizgi Bayes Karar Sınırı (Bayes decision boundary) olarak adlandırılıyor. Bayes Sınıflandırıcısının tahminleri bu sınır tarafından belirleniyor: eğer bir gözlem bu çizginin turuncu tarafına düşerse turuncu sınıfa, mavi tarafında düşerse mavi sınıfa atanıyor.

Bayes Sınıflandırıcısı mümkün olabilecek en düşük test hata oranını üretiyor ve bu da Bayes hata oranı (Bayes error rate) olarak adlandırılıyor. Bu örnekte Bayes hata oranı 0.1304. Sıfırdan büyük çünkü sınıflar birbirleriyle bazı noktalarda çakışıyor. Bayes hata oranı regresyon ortamındaki azaltılamaz hataya denk geliyor. 

K-Nearest Neighbors

Teoride her zaman Bayes sınıflandırıcısını kullanmak isteriz. Ancak gerçek veriler için Y’nin X değerlerine bağlı koşullu olasılık dağılımını bilmeyiz; bu nedenle Bayes sınıflandırıcısını kullanmak imkansızdır. Bu yüzden, Bayes sınıflandırıcısı ulaşılamaz bir altın standarttır ve diğer metotlar bununla kıyaslanarak değerlendirilir. Y‘nin X‘e bağlı koşullu olasılık dağılımını hesaplamaya yönelik birçok yaklaşım var. Bunlardan biri de En Yakın K Komşu Sınıflandırıcısı(K-Nearest Neighbors or KNN)‘dır. Elimizde training ve test veri setleri olsun. Test verisetindeki bir gözlemin hangi sınıfa ait olacağını hesaplamak için KNN algoritması ilk olarak bu test gözlemine training veri setindeki  en yakın K gözlemi  (N0) bulur. Sonrasında bu en yakın K gözlemin sınıf dağılımını hesaplar.

10

Hesapladıktan sonra KNN sınıflandırıcısı Bayes kuralını uygular ve test gözlemini (x0) en yüksek olasılık değerine sahip sınıfa atar. 

11

Yukarıdaki görselle birlikte KNN metodunu açıklamaya çalışalım. Sol tarafta 6 mavi ve 6 turuncu gözlemden oluşan küçük bir training veri seti gösteriliyor. Amacımız x ile gösterilen gözlem için sınıf tahminlemek. Diyelim ki K değerini 3 olarak seçtik. KNN ilk olarak bu gözleme en yakın 3 gözlemi bulacaktır. En yakın üç gözlemden ikisi mavi biri ise turuncu sınıfa ait gözüküyor ve bu gözlem için tahminimiz 2/3 olasılıkla mavi sınıf 1/3 olasılıkla turuncu sınıf olarak hesaplanıyor. Dolayısıyla KNN bu gözlem için mavi sınıf tahminliyor. Sağ tarafta ise KNN metodunu K=3 ile mümkün olan bütün X1 ve X2 değerleri için uyguladık ve KNN karar sınırını (KNN decision boundary) belirledik.

Çok basit bir yöntem olmasına rağmen KNN şaşırtıcı bir şekilde çoğu zaman optimal Bayes Sınıflandırıcısına yakın sınıflandırıcı üretiyor.

Aşağıdaki figür KNN‘in K=10 ile 100 adet gözleme uygulandığında elde edilen karar sınırını gösteriyor. Gerçek dağılım KNN sınıflandırıcısı tarafından bilinmemesine rağmen, KNN karar sınırı Bayes karar sınırına çok yakın. Test  hata oranı KNN ile 0.1363. Bu oran Bayes hata oranı olan 0.1304’e son derece yakın!

K’nin seçimi KNN sınıflandırıcısı üzerinde son derece önemli etkilere sahip. Aşağıdaki görselde K = 1 ve K = 100 iken elde edilen KNN karar sınırını görebilirsiniz. K=1 iken karar sınırı son derece esnek ve Bayes karar sınırında olmayan bazı örüntüler bulmuş. Bu düşük taraflılığa fakat son derece yüksek varyansa sahip bir sınıflandırıcıya denk geliyor. K arttıkça, metot daha az esnek olmaya başlıyor ve doğrusala yakın karar sınırları üretmeye başlıyor. Bu düşük  varyanslı fakat yüksek taraflılıklı sınıflandırıcıya denk geliyor. 

12

Tıpkı regresyonda olduğu gibi, sınıflandırmada da training ve test hata oranları arasında güçlü bir ilişki yok.  K=1 olduğunda KNN training hata oranı 0 oluyor fakat test hata oranı oldukça fazla olabilir. Genel olarak, daha esnek sınıflandırma metotları kullandığımızda training hata oranı azalacaktır ancak test hata oranı azalmayabilir. Aşağıdaki figürde KNN test ve training hataları 1/K‘nin bir fonksiyonu olarak gösteriliyor.  1/K arttıkça yani K azaldıkça, metot daha çok esnekleşiyor. Regresyonda olduğu gibi, tranining hata oranı esneklik arttıkça hep azalıyor. Fakat test hata oranı gene U şeklini gösteriyor: en başta azalıyor(K=10 iken minimum oluyor) fakat belirli bir esneklik noktasından sonra tekrar artmaya başlıyor ve veriye aşırı uydurma (overfitting) gerçekleşiyor.

14

Hem regresyonda hem de sınıflandırmada, esneklik seviyesini doğru seçmek herhangi bir istatistiksel öğrenme metodunun başarısı için kritik derecede önemli. Taraflılık-varyans dengesi, ve bunun sonucunda oluşan U şeklinde test hata oranı bu seçimi zor bir işe dönüştürüyor. Test hata oranını hesaplamak ve optimum esneklik seviyesini seçmek için oluşturulan metotları ileriki yazılarda ayrıntılı olarak ele alacağız.

Veri Madenciliği 2 – Kısa Bir İstatistik Tekrarı

Veri madenciliğine daha fazla girmeden önce istatistik bilgilerimizi tazelememiz gerekiyor. Burada bütün istatistik konularını anlatmam tabii ki imkansız; ancak bazı temel kavramların üzerinden geçmeye çalışacağım.

Herbert George Wells, İngiliz yazar, 1940 yılında şöyle demiş:
“Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write”

Günümüzde bu cümlenin ne kadar geçerli ve doğru olduğuna şahit oluyoruz. E hadi başlayalım o zaman!

Kısa Bir İstatistik Tekrarı

Bir değişken herhangi bir aralıkta veya sonsuzlukta birden fazla değer alabilen miktara verilen isimdir. Örneğin nüfus bir değişkendir çünkü ne sabittir ne de değişmezdir; değeri zamanla değişebilir. İşsizlik oranı bir değişkendir çünkü %0 ile %100 arasında herhangi bir değer alabilir.

Rassal değişken (random variable) her incelendiğinde değişen bilinmez bir değer olarak düşünülebilir. Rassal bir değişken ya ayrık (discrete) ya da sürekli (continuous) olabilir. Bir değişkenin olası değerleri zıplamalar ya da keskin aralar içeriyorsa bu değişken ayrık bir değişkendir. Örneğin, nüfus ayrık bir değişkendir; çünkü değeri her zaman tam sayı olarak ölçülür: 1, 2, 3… Fakat bir değişkenin olası değerleri zıplamalar ya da keskin aralar içermiyorsa bu değişken sürekli bir değişkendir. Örneğin, işsizlik sürekli bir değişkendir; çünkü tam birimlerle ölçülmesi gerekmez: %1.77, %8.99, gibi.

Betimleyici istatistikler (descriptive statistics) bir veri koleksiyonunun özelliklerini nicel (quantitative) terimlerle açıklamak için kullanılır. Betimleyici istatistikler bir veri setini nicel olarak özetlemeyi hedefler. Bazı istatistiki özetler betimleyici analizlerde özellikle yaygındırlar: frekans dağılımı (frequency distribution), merkezi eğilim (central tendency), saçılım (dispersion), birliktelik (association), vb.

Her veri seti belirli değerlerin ne kadar sıklıkta görüldüğüne göre açıklanabilir. İstatistikte, frekans dağılımı bir veya birden fazla değişkenin aldığı değerlerin sıklıklarının tablolaştırılarak sunulmasıdır.

Örneğin aşağıdaki tablo diyelim ki bir şirketin aylara göre hisse başına TL fiyatını göstersin.

SeeThru1408x640

Tek değişkenli frekans dağılımları (univariate frequency distributions) genellikle her bir değerin ne kadar sıklıkla bulunduğunu gösterir. Bir frekans dağılımı isteğe göre gruplanabilir ya da gruplanmayabilir. Küçük veri setleri için gruplanmamış frekans dağılımları daha uygunken büyük veri setleri için gruplanmış frekans dağılımları daha uygundur.

2

3

Merkezi Eğilim (central tendency)

Merkezi eğilim, istatistikte nicel (sayısal) bir verinin “merkezi bir değer” etrafında toplanma yatkınlığını ölçme işlemidir. Bir merkezi eğilim ölçümü bu merkezi değeri tanımlayan birçok yoldan biridir. Merkezi eğilim ölçümünü veren üç önemli betimleyici istatistik vardır:

  • Ortalama (mean)
  • Orta değer (median)
  • Tepe değer (mod)

Ortalama (mean)

Aritmetik ortalama en sık kullanılan ortalama tipidir ve genellikle basitçe “ortalama” olarak ifade edilir. Matematik ve istatistikte aritmetik ortalama (veya basitçe ortalama (mean) ) bir veri setindeki bütün elemanların toplamının eleman sayısına bölümüyle elde edilir. Eğer veri seti bir istatistiki popülasyonsa, ortalama popülasyon ortalaması (population mean) olarak adlandırılır. Eğer veri seti bir örnek (sample) ise, oralama örneklem ortalaması (sample mean) olarak adlandırılır. Eğer bir dizi veriyi

X = (x1, x2, …, xn)

şeklinde ifade edecek olursak örneklem ortalaması x̄ olarak gösterilir. Bir Yunan alfabesi harfi olan μ ise komple popülasyonun ortalamasını gösterir.

Orta Değer (median)

İstatistikte, bir örneklemin ya da popülasyonun daha büyük değerlere sahip yarısını daha küçük değerlere sahip öbür yarısından ayırmak için kullanılan sayısal bir değerdir. Sınırlı bir numaralar serisinin orta değeri, serinin küçükten büyüye sıralandıktan sonra tam ortasındaki değerin alınmasıyla bulunabilir. Eğer bu seri çift sayıda değer içeriyorsa o zaman orta kısımda bir değer bulunmayacaktır. Bu durumda ortadaki iki değerin ortalaması orta değer olarak alınır. Örneğin yukarıdaki hisse fiyatlarını artan şekilde sıralayacak olursak:

67.05, 66.89, 67.45, 67.45, 68.39, 68.39, 70.10

orta değer 67.45 olacaktır.

Çekreklikler Q1 ve Q3 (Quartiles)

Çeyreklikleri bulmak için veri setini küçükten büyüğe sıralarız ve veri setinin orta değerini (buna global orta değer diyelim) bu sıra üzerinde yerleştiririz. Birinci çeyrek (first quartile – Q1), global orta değerin solunda kalan (yani ondan küçük olan) değerlerin orta değeridir. Üçüncü çeyrek ise, global orta değerin sağında kalan (yani ondan büyük olan) değerlerin orta değeridir.

Tepe Değer (mod)

İstatistikte tepe değer bir veri listesinde en çok gözlemlenen değerdir. Tepe değer tek bir değer olmak zorunda değilidir; aynı sıklığa sahip birden fazla değer olabilir. Gene hisse fiyatlarımızı artan şekilde sıralarsak,

67.05, 66.89, 67.45, 67.45, 68.39, 68.39, 70.10

en çok gözlemlenen iki tepe değer vardır: 67.45 ve 68.39. Bu yüzden bu veri setinin tepe değeri tek değil iki tanedir. Bu veri setine çift tepe değerli (bimodal) denir. Bir popülasyon ya da örneğin bir, iki, veya ikiden fazla tepe değeri olabilir.

İstatistiki Saçılım (Statistical Dispersion)

İstatistikte istatistiki saçılım (ayrıca istatistiki değişkenlik, veya çeşitlilik) olasılık dağılımındaki yada değişkenlikteki dağınıklık (yayılım) olarak adlandırılır. Özellikle, bir saçılımlık ölçümü veri setindeki değerlerin ne kadar dağınık olduğunu ölçümlemede kullanılır. Yaygın olarak kullanılan istatistiki saçılım ölçümü şunlardır:

  • Varyans (variance)
  • Standart Sapma (standard deviation)

Saçılımlık merkezi yatkınlıkla birlikte dağılımın en çok kullanılan özellikleridir.

Varyans (variance)

İstatistikte varyans, rassal bir değişkenin veya dağılımın her bir değerinin ortalama değerden farkının karesinin ortalaması olarak ifade edilir. Bu yüzden varyans verinin ortalama değerden ne kadar saptığının bir ölçüsüdür.

Eğer rassal bir değişken olan X’in beklenen değeri (expected value = mean) E[X]=μ ise, X’in varyansı:

4

formulü ile ifade edilir.

Varyansın özellikleri

  • Varyans her zaman pozitif bir değerdir; çünkü farkların kareleri ya sıfırdır ya da sıfırdan büyüktür.
  • Sabit bir değerin varyansı sıfırdır, ve bir veri setindeki bir değişkenin varyansı eğer bütün elemanlar aynı değere sahip ise sıfırdır.
    Var(a) = 0
  • Bir veri setindeki her bir veri sabit bir sayı (a) kadar artırılır veya azaltılırsa veri setinin varyansı değişmez.
    Var(X + a) = Var(X)
  • Bir veri setindeki her bir veri sabit bir kat sayıyla çarpılırsa veri setinin varyansı eski varyansının, kat sayının karesiyle çarpımına eşittir.
    5

Örneklem Varyansı (Sample Variabnce)

Eğer bir X rassal değişkeninin n tane değerine sahipsek, örneklem varyansı popülasyon varyansını ölçümlemek için kullanılabilir.

X = (x1, x2, x3, …, xn)

Örneklem varyansı şu şekilde hesaplanır:

6

Formüldeki paydada olan (n-1) değeri varyans hesaplamasında “serbestlik derecesi” (degree of freedom) olarak adlandırılır.

Yukarıdaki örnek verimizin örneklem varyansı (sample variance) şu şekilde hesaplanır:

7

Standart Sapma (Standard Deviation)

İstatistikte, rassal bir değişkenin veya dağılımın standart sapması o değişkenin varyansının kareköküne eşittir.

8

Yani, standart sapma σ (sigma) (X − μ)2 değerlerinin ortalamasının kareköküdür.

 Gene örneğimize dönecek olursak standart sapmamız:

9

 olarak hesaplanır.

Ortalama Mutlak Sapma (Mean Absolute Deviation)

Bir X değişkeninin değerlerinin ortalama değerden ortalama olarak ne kadar saptıkları şu şekilde ölçülür:

10

Bu değer her zaman sıfırdır. Pozitif ve negatif sapmalar birbirlerini götürürler ve toplam her zaman sıfır olur. Bu yüzden saçılımı (dispersion) ölçmeye bir yararı yoktur.

Ortalama Mutlak Sapma ise şu şekilde hesaplanır:

11

Farkların mutlak değeri her zaman pozitif olacağından bu değer her zaman sıfır olmak zorunda değildir.

Mutlak değer almaya alternatif olarak farkların karesi de alınabilir ve bu yöntemle elde edilen sapmaya “kareli ortalama sapması” (mean squared deviation – MSD) denir:

12

Farkların karesini aldığımız için tekrar aynı ölçü birimine dönmek için bir de karekökünü aldığımızda bu sapmaya da “kareli ortalamaların kökü sapması” (root mean squared deviation – RMSD) denir:

13

İstatistiksel nedenlerden ötürü, RMSD yerine onun çok hafifçe değiştirilmiş versiyonu olan standart sapma (Sx) ölçümlerde çok daha fazla kullanılır.

14

15

Birliktelik (association)

İki değişkenli istatistik (bivariate statistics) iki değişkenin, birinin diğerine sebep olduğunu ima etmeksizin, birbirleriyle nasıl ilişkili olduklarını incelemek için kullanılabilir.

Çok değişkenli istatistik (multivariate statistics) ikiden fazla değişkenin, birinin diğerlerine sebep olduğunu ima etmeksiniz, birbirleriyle nasıl bir ilişki içerisinde olduğunu incelemek için kullanılabilir.

İki değişkenli ve çok değişkenli istatistiklerin ölçülmesinde iki yaygın ölçümleme vardır:

  • Kovaryans (covariance)
  • Korelasyon Katsayısı (correlation coefficient)

İki değişkenli istatistik 

Aşağıdaki şekilde (a) güçlü ve pozitif korelasyon, (b) sıfır korelasyon, (c) a’ya göre daha az güçlü pozitif korelasyon, (d) güçlü ve negatif korelasyon, ve (e) d’ye göre daha az güçlü negative korelasyona örnektir.

16

İki rassal değişken olan X ve Y için;  17   ve 18 olmak üzere kovaryans:

19

olarak hesaplanır.

Cov (X, Y) negatif, sıfır veya pozitif olabilir. Sıfır kovaryana sahip iki değişken ilişkisiz (uncorrelated) veya bağımsız (independent) olarak ifade edilir.

Eğer X ve Y birbirinden bağımsızsa o zaman kovaryansları daima sıfırdır; ancak her kovaryansı sıfır olan değişkenler birinden daima bağımsız olmak zorunda değildirler.

Eğer X ve Y gerçek değerli rassal değişkenler ise ve a ve b sayısaları sabit (rassal olmayan) birer sayıysa o zaman aşağıdaki formüller kovaryans formülünden türetilebilir:

20

Gene aynı şekilde eğer X ve Y gerçek değerli rassal değişkenler ise ve a ve b sayısaları sabit (rassal olmayan) birer sayıysa o zaman aşağıdaki formüller varyans ve kovaryans formüllerinden türetilebilir:

21

İlişkisiz rassal değişkenlerin toplamlarının varyansı, ayrı ayrı varyanslarının toplamına eşittir:

22

Çünkü, eğer X ve Y ilişkisizse kovaryansları 0’dır.

Örneklem Kovaryansı

Kovaryans iki değişken olan X ve Y’nin değerlerinin birbirleriyle ne kadar yakın bir ilişkide değiştiklerinin bir ölçüsüdür. Popülasyon kovaryansı örneklem kovaryansı ile tahmin edilebilir. Örneklem kovaryansı şu şekilde hesaplanır:

23

Korelasyon Katsayısı (correlation coefficient)

Kovaryansın dezavantajı büyüklüğünün (magnitude) kolayca yorumlanamamasıdır; çünkü kovaryans X ve Y değişkenlerinin ölçü birimlerine bağlıdır. Ortalama değerden sapmaları standardize ederek bu dezavantajı gideren ve bu yüzden daha sık kullanılan ölçüm korelasyon katsayısı olarak adlandırılır.

24

Korelasyon katsayısı simetriktir, yani:

25

Örneklem korelasyon katsayısı şu şekilde hesaplanır:

26

Korelasyon katsasının değeri -1 ile +1 arasında (-1 ve +1 de dahil) bir değerdir.

  • rx,y= 0 ise X ve Y ilişkisizdir (uncorrelated)
  • rx,y= 1 ise X ve Y doğru yönde tamamen ilişkilidir. Biri artarken diğeri de kesinlikle artar veya biri azalırken diğeri de kesinlikle azalır.
  • rx,y= -1 ise X ve Y ters yönde tamamen ilişkilidir. Biri artarken diğeri kesinlikle azalır.

 

Parametre ve İstatistik

Bir parametre (parameter) popülasyonu betimleyen bir sayıdır. Bir parametre sabit bir sayıdır, ama pratikte bu değeri bilmeyiz.

İstatistik (statistic) ise bir örneklemi betimleyen bir sayıdır. Bir istatistiğin değeri örneklemden elde edilir; fakat aynı popülasyonun farklı örneklemleri için farklı değerler elde edilebilir.

İstatistiği (statistic) sıklıkla bilinmeyen bir parametreyi hesaplamak için kullanırız.

Örnek

Ülke çapında rastgele seçilen 2500 yetişkine aşağıdaki ifadeye katılıp katılmadığı soruluyor:

“Yeni kıyafetler almayı seviyorum, fakat alışveriş yapmak çoğunlukla moral bozucu ve çok zaman alıcı”

Diyelim ki bu yetişkinlerden 1650’si bu ifadeye katılıyor.

Örneklemin bu ifadeye katılan insanlarının oranı (proporsiyonu):

27

28= .66 bir istatistiktir (statistic). Buna eş gelen parametre (P) ise bütün ülke nüfusundaki bu ifadeye katılan insanların proporsiyonudur. P parametresinin değerini bilmiyoruz, bu yüzden 28  istatistiğinden bu parametreyi hesaplamaya çalışıyoruz.

Bu araştırmayı yapan şirketin tekrarlan 2500 insandan oluşan rastgele bir örnekleme yaptığını düşünelim. Bu yeni örneklem farklı insanlardan oluşmuş olacak. Neredeyse kesin bir olasılıkla bu örneklemdeki ifadeye katılan insanların sayısı 1650 olmayacak. Yani 28 ’nin değeri örneklemden örnekleme değişecek.

Rastgele seçimin ilk avantajı yanlılığı(bias) elimine etmesidir. İkinci avantajı ise eğer aynı popülasyondan aynı boyutta birçok örneklem oluşturursak, örneklemler arasındaki varyasyon tahmin edilebilir bir örüntü oluşturacaktır. Bütün istatisksel çıkarımlar tek bir fikir üzerinde toplanır: bir prosedürün ne kadar güvenilir olduğunu görmek için, onu çok kere tekrarlarsak ne olacağını sormak.

Örneklem Dağılımı

Diyelim ki ülke çapındaki tüm yetişkinlerin %60’ı yukarıdaki alışverişle ilgili olan ifadeye katılıyor. Yani P = 0.6 (parametre).

Bu popülasyondan, 100 kişiden oluşan basit rastgele örnekleme (simple random sampling) yaptığımızı düşünelim. Ve bu örneklemdeki ifadeye katılan insanların oranını (28, istatistik) popülasyonun bu parametresini hesaplamada kullanalım.

28’nin dağılımı ne olur?

Bu soruyu cevaplandırmak için, bu popülasyondan her seferinde farklı 100 kişi seçerek bir sürü örneklem oluşturmamız gerekir.

Her bir örneklem için örneklem istatistiği 28 ’yi hesaplamamız ve bu değerlerden oluşan bir histogram yapmamız gerekir.

Oluşan dağılımın şeklini, merkezini, yayılımını, aykırı gözlemlerini ve diğer sapmalarını gözlemleyelim.

Çok sayıda basit rastgele örneklemin sonuçları düzenli bir örüntüye sahiptir.

Mesela aynı popülasyondan 100 kişiden oluşan 1000 örnekleme yaptığımızı düşünelim. Bu örneklemlerinin oranlarının dağılımı aşağıdaki gibi olacaktır:

29

Bir istatistiğin örneklem dağılımı (sampling distribution) aynı popülasyondan aynı boyuttaki bütün olası örneklemlerden elde edilen istatistiklerin dağılımıdır.

Normal Dağılım (Normal Distribution)

Normal olarak adlandırılan eğriler simetriktir, tepe noktalıdır ve çan şeklindedir. Normal eğriler normal dağılımları açıklarlar.

30

Belirli bir normal dağılım için Kesin yoğunluk eğrisi (exact density curve) ortalaması ve standart sapması verilerek açıklanabilir. Ortalama değer (mean) simetrik bir eğrinin tam ortasındaki değerdir ve bu değer aynı zamanda orta değerdir (median). Standart sapma ise normal eğrinin ne kadar yayıldığını gösterir.

31

Standart Normal Dağılım (standard normal distribution) ortalaması 0 olan ve standart sapması 1 olan bir normal dağılım çeşididir.

Eğer bir değişken olan X in ortalaması m ve standart sapması s is ve normal dağılıma sahipse, standardize edilmiş olan

32

değişkeni standart normal dağılıma sahiptir.

Standart Normal Tablo ise z değerine karşılık gelen eğri altındaki alanı verir.

3

Bir örnekle açıklayalım.

Stok endeklerinin yıllık getiri oranı (annual rate of return) yaklaşık olarak normal bir dağılıma sahiptir. 1954’ten beri Standard & Poor’s 500 stok endeksi yıllık ortalama %15 getiri oranına sahip ve standart sapması da %16.5. Bu normal dağılımı uzun bir zaman boyunca yıllık getiri oranlarının dağılımı olarak alalım. Eğer endekslerin getiri oranı sıfırın altında ise market düşüşte demektir. Buna göre marketin düşüşte olduğu yılların oranını bulabilir miyiz?

Problemi şu şekilde ifade edebiliriz:

Yıllık getiri oranını x olarak ifade edelim. X değişkeni ortalaması 12 ve standart sapması 16.5 olan normal bir dağılıma sahip olacaktır. Bizden istenen x değişkeninin 0’dan düşük olduğu yılların tüm yıllara oranı: x < 0

Normalleştirme:

X değişkenini standart normal z skoruna dönüştürmek için normalleştirmeyi bulmak istediğimiz değerden (0’dan) ortalama değeri (12) çıkartıp sonucu standart sapmaya bölerek (16.5) yaparız:

n

Aşağıdaki şekilde bu değerler için normal dağılımı ve bu z skoru için istenilen alanı görebilirsiniz:

b

Z Tablosundan -0.73 değerine bakacak olursak değerin 0.2327 olduğunu görürüz. Yani bu demek oluyor ki bu z değerinin solunda kalan (yani bu değerden küçük olan) değerlerin toplam dağılım içindeki oranı 0.2327. Yani marketin düşüşte olduğu zamanların oranı %23.27’dir.

Peki yıllık getiri oranlarının %12 ile %50 arasında olduğu yılların oranı nedir?

c

Dağılımın şeklini çizelim:

e

Z’nin 0 ile 2.3 değerleri için grafiğin altında kalan alan (mavi bölge), z’nin 2.3’ten küçük olduğu alanlardan z’nin 0’dan küçük olduğu alanin çıkartırlmasıyla bulunabilir.

0.9893 – 0.50 = 0.4893

Şimdiye kadar, örneklem tahminlerini (estimator) popülasyon tahminlerini (estimator) belirlemek için kullandık:

f

Bu tahminleyiciler bazı özelliklere sahip.

İkisi de eğilimsiz (ön yargısız, unbiased) tahminleyicidir. Eğilimsiz bir tahminleyicinin ortalama değeri tahminlemeye çalıştığı parametreye eşittir.

Diyelim ki bir parametreyi hesaplamaya çalışıyoruz ve bunun için bir güven aralığı (confidence interval) oluşturmaya çalışıyoruz. Bu parametreyi örneklem verisinden tahminleyebileceğimizi varsayalım. Bu bilgiyi kullanarak bir güvenlik aralığı oluşturabiliriz.

Bir örnekle açıklayalım.

Amerikan ekonomisinde “community bank” olarak adlandırılan bankalar var. Bu bankalar 1 milyar dolardan az bir varlığa sahiptir. Bu bankalardan Amerika’da yaklaşık olarak 7500 adet bulunmakta. Birçok endüstri çalışmasında bu bankalar 1 milyar dolardan fazla varlığa sahip olan bankalardan ayrı olarak Kabul edilir. Bir milyar dolardan daha fazla varlığa sahip olan bankalar “large institutions” olarak adlandırılır. Amerikan Bankalar Birliği Konseyi yıllık bir “community bank” anketi yapmakta. En son çalışmada örneklem olarak kullanılan 110 bankanın ortalama varlığı  = 220 milyon dolar olarak hesaplanıyor. Amerika’daki bütün “community bank”ların ortalama varlığı, m, için ne söyleyebiliriz?

Örneklem ortalaması olan 555, popülasyon ortalaması olan 5555 (mü diye okunur)’yü tahminlemede kullanılabilir.

Büyük sayılar yasası diyor ki örneklemin boyutu arttıkça örneklem ortalaması popülasyonun ortalamasına yaklaşır.

Bu yüzden, örneklem boyutu olan 110 bütün “community bank”ların ortalamasını tahminlemek için mantıklı gözüküyor. Ama bu tahminleme ne kadar güvenilir?

Değişkenliğini belirtmeksizin yapılan bir tahminleme çok değerli olmayacaktır. Bir tahminlemenin değişkenliği örneklem dağılımlarına bakılarak cevaplanır.

Merkezi Limit Teorem’ine (Central Limit Theorem) göre:

Eğer ülkedeki bütün “community bank”ların varlık ortalaması 5555 ve standart sapması 10 ise, boyutu 110 olan çok sayıda örneklemenin ortalama değeri şu dağılıma sahip olacaktır:

g

Bu yüzden, merkezi limit teoremine göre, tekrarlanan 110 elemanlı örneklemlerin ortalama değerleri yaklaşık olarak normaldir, merkezi bilinmeyen popülasyon ortalaması olan m’dür, standart sapması da

 h

milyon dolardır.

Kaynaklar:

http://faculty.elgin.edu/dkernler/statistics/ch03/

https://onlinecourses.science.psu.edu/stat100/

Şimdilik Hoşça Kal Growth Hacking! Merhaba Veri Madenciliği!

Growth Hacking Konusunu Şimdilik Sonlandırıyoruz

Growth Hacking konusu hakkında birçok yazı paylaşmıştım sizinle. Artık Growth Hacking konusunu sonlandırıyoruz. Ama şimdilik. Bu konuyla ilgili son 7gelişmeler, trendler ve uygulamalarla ilgili yazıları paylaşmaya devam edeceğim. Yani yazılarda anlatılmak isteneni kavradıysanız Growth Hacking’in bir sonunun olmadığını ve her zaman yeni şeylerin keşfedildiğini anlamışsınızdır. Dolayısıyla bu konu ile ilgili paylaşımların sonunun gelmesi hiçbir şekilde mümkün değil.

Ancak ana odağı artık başka bir konuya kaydırıyorum: Veri Madenciliği. Son zamanlarda çok popülerleşmeye başlayan bir kavram aslında. “Bu da nedir?” diye merak mı ediyorsunuz? O zaman sizi aşağıya doğru alalım.

Giriş

5Bilgi Endüstrisinde (Information Industry) çok büyük miktarlarda veri bulunuyor.  Anlamlı ve kullanışlı bir bilgiye (information) dönüştürülmediği müddetçe bu verinin hiçbir anlamı yok. Böylesine büyük bir veriyi analiz etmek ve anlamlı bilgiler çıkarmak artık bir zorunluluk haline geldi.

Bilgi çıkarma işlemi yapmamız gereken tek işlem değil, bu süreç aynı zamanda Veri Temizleme (Data Cleaning), Veri Entegrasyonu (Data Integration), Veri Dönüştürme (Data Transformation), Veri Madenciliği (Data Mining), Örüntü Değerlendirme (Pattern Evaluation) ve Veri Sunumu (Data Presentation) gibi işlemleri de içermekte. Bu işlemlerin hepsi yapıldıktan sonra, elde ettiğimiz bilgileri artık Sahtekarlık Tespiti (Fraud Detection), Pazar Analizi (Market Analysis), Üretim Kontrolü (Production Control) vb. birçok alanda kullanabiliriz.

Veri Madenciliği Nedir ?

Veri madenciliği basitçe tanımlayacak olursak büyük veri setlerinden anlamlı ve kullanışlı bilgiler çıkarma(elde etme) sürecidir. Yani aslında kelim3e anlamı gibi, veriyi çok büyük bir maden olarak düşünürsek bu madeni kazıyarak içindeki değerli maddeleri bulmaya çalışıyoruz. Bulduğumuz bilgileri şu alanlarda kullanabiliriz:

  • Pazar Analizi
  • Pazarlama stratejilerinin verimliliği
  • Belirli bir pazarlama stratejisi için büyük bir müşteri veri tabanından hangi müşterilerin hedef olarak seçileceğinin belirlenmesi
  • Müşteri yaşam döngüsünü yönetme ve müşteriyi elde tutma
  • Sahtekarlık Tespiti
  • Üretim Kontrolü

“Söyle bana, neler olabilir” Rolü

Veri madenciliğinin ilk rolü veriye “söyle bana, neler olabilir” dediğiniz tahminleme rolüdür. Veri ambarınızda (data warehouse) 6kilitli bir şekilde duran gizli bilgileri açığa çıkarıyoruz.

“Bana ilginç bir şey söyle” Rolü

Tahminlemeye ek olarak, veri madenciliği daha önceden bilmediğiniz ilginç bilgileri elde etmek için de kullanılır. Örneğin, iki ürünün satışı arasında olağan dışı bir ilişkinin olması ve bu ilişkinin bu iki ürünü yerleştirme biçiminize göre nasıl değiştiğini fark etmek.

Neden Veri Madenciliğine İhtiyaç Duyuluyor ?

Bilgi Teknolojilerindeki gelişmelerden kaynaklanan bir veri bolluğuna sahibiz. Büyük Veri veya daha sevdiğim bir tabiriyle İri Veri (Big Data) kavramının2 ortaya çıktığı yer de burası aslında. Artık veri çok yüksek hızlarda, çok yüksek hacimlerde ve çok çeşitli şekillerde (resim, müzik, yazı, vs.) geldiğinden bu verilerden anlamlı bir bilgi çıkartmak gerekiyor.

Bu çıkartılan bilgiler karar almada büyük bir rol oynamakta ve rekabet avantajı sağlamakta.

Pazar Analizi ve Yönetim

  • Müşteri Profilleme: Kimler hangi tür ürünleri alıyor.1
  • Müşteri Gereksinimlerini Tespit Etme: Müşteriye göre ürün belirleme. Hangi faktörler müşterileri çekiyor?
  • Çapraz Pazar Analizi: Farklı ürün satışları arasındaki Birliktelik (Association) ve İlişki (Correlation)
  • Hedef Pazarlama: Müşterileri ortak karakteristiklere göre kümeleme.
  • Müşteri Satın Alma Örüntüsünü Belirleme: Müşterilerin satın alma biçimlerini belirleme.

Kurumsal Analiz ve Risk Yönetimi

  • Finansal Planlama ve Varlık Değerlendirmesi: Nakit akışı analizi ve tahminleme.
  • Kaynak Planlama: Özetleme, kaynakları karşılaştırma ve harcamaları asgari düzeye indirme.
  • Rekabet: Rakipleri gözetleme ve pazar trendlerini belirleme

Sahtekarlık Tespiti

Kredi kart servisleri ve telekomünikasyon sektöründe sahtekarlıkları tespit etmek.

Neler Göreceğiz ?

Veri madenciliği alanı istatistik, yapay zeka, veri tabanı ve veri ambarı konularıyla bağlantılı olduğu için bu alanlarla ilgili konuları ele alacağız ve inceleyeceğiz. Dalışa hazır mısınız?