Veri Madenciliği 2 – Kısa Bir İstatistik Tekrarı

Veri madenciliğine daha fazla girmeden önce istatistik bilgilerimizi tazelememiz gerekiyor. Burada bütün istatistik konularını anlatmam tabii ki imkansız; ancak bazı temel kavramların üzerinden geçmeye çalışacağım.

Herbert George Wells, İngiliz yazar, 1940 yılında şöyle demiş:
“Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write”

Günümüzde bu cümlenin ne kadar geçerli ve doğru olduğuna şahit oluyoruz. E hadi başlayalım o zaman!

Kısa Bir İstatistik Tekrarı

Bir değişken herhangi bir aralıkta veya sonsuzlukta birden fazla değer alabilen miktara verilen isimdir. Örneğin nüfus bir değişkendir çünkü ne sabittir ne de değişmezdir; değeri zamanla değişebilir. İşsizlik oranı bir değişkendir çünkü %0 ile %100 arasında herhangi bir değer alabilir.

Rassal değişken (random variable) her incelendiğinde değişen bilinmez bir değer olarak düşünülebilir. Rassal bir değişken ya ayrık (discrete) ya da sürekli (continuous) olabilir. Bir değişkenin olası değerleri zıplamalar ya da keskin aralar içeriyorsa bu değişken ayrık bir değişkendir. Örneğin, nüfus ayrık bir değişkendir; çünkü değeri her zaman tam sayı olarak ölçülür: 1, 2, 3… Fakat bir değişkenin olası değerleri zıplamalar ya da keskin aralar içermiyorsa bu değişken sürekli bir değişkendir. Örneğin, işsizlik sürekli bir değişkendir; çünkü tam birimlerle ölçülmesi gerekmez: %1.77, %8.99, gibi.

Betimleyici istatistikler (descriptive statistics) bir veri koleksiyonunun özelliklerini nicel (quantitative) terimlerle açıklamak için kullanılır. Betimleyici istatistikler bir veri setini nicel olarak özetlemeyi hedefler. Bazı istatistiki özetler betimleyici analizlerde özellikle yaygındırlar: frekans dağılımı (frequency distribution), merkezi eğilim (central tendency), saçılım (dispersion), birliktelik (association), vb.

Her veri seti belirli değerlerin ne kadar sıklıkta görüldüğüne göre açıklanabilir. İstatistikte, frekans dağılımı bir veya birden fazla değişkenin aldığı değerlerin sıklıklarının tablolaştırılarak sunulmasıdır.

Örneğin aşağıdaki tablo diyelim ki bir şirketin aylara göre hisse başına TL fiyatını göstersin.

SeeThru1408x640

Tek değişkenli frekans dağılımları (univariate frequency distributions) genellikle her bir değerin ne kadar sıklıkla bulunduğunu gösterir. Bir frekans dağılımı isteğe göre gruplanabilir ya da gruplanmayabilir. Küçük veri setleri için gruplanmamış frekans dağılımları daha uygunken büyük veri setleri için gruplanmış frekans dağılımları daha uygundur.

2

3

Merkezi Eğilim (central tendency)

Merkezi eğilim, istatistikte nicel (sayısal) bir verinin “merkezi bir değer” etrafında toplanma yatkınlığını ölçme işlemidir. Bir merkezi eğilim ölçümü bu merkezi değeri tanımlayan birçok yoldan biridir. Merkezi eğilim ölçümünü veren üç önemli betimleyici istatistik vardır:

  • Ortalama (mean)
  • Orta değer (median)
  • Tepe değer (mod)

Ortalama (mean)

Aritmetik ortalama en sık kullanılan ortalama tipidir ve genellikle basitçe “ortalama” olarak ifade edilir. Matematik ve istatistikte aritmetik ortalama (veya basitçe ortalama (mean) ) bir veri setindeki bütün elemanların toplamının eleman sayısına bölümüyle elde edilir. Eğer veri seti bir istatistiki popülasyonsa, ortalama popülasyon ortalaması (population mean) olarak adlandırılır. Eğer veri seti bir örnek (sample) ise, oralama örneklem ortalaması (sample mean) olarak adlandırılır. Eğer bir dizi veriyi

X = (x1, x2, …, xn)

şeklinde ifade edecek olursak örneklem ortalaması x̄ olarak gösterilir. Bir Yunan alfabesi harfi olan μ ise komple popülasyonun ortalamasını gösterir.

Orta Değer (median)

İstatistikte, bir örneklemin ya da popülasyonun daha büyük değerlere sahip yarısını daha küçük değerlere sahip öbür yarısından ayırmak için kullanılan sayısal bir değerdir. Sınırlı bir numaralar serisinin orta değeri, serinin küçükten büyüye sıralandıktan sonra tam ortasındaki değerin alınmasıyla bulunabilir. Eğer bu seri çift sayıda değer içeriyorsa o zaman orta kısımda bir değer bulunmayacaktır. Bu durumda ortadaki iki değerin ortalaması orta değer olarak alınır. Örneğin yukarıdaki hisse fiyatlarını artan şekilde sıralayacak olursak:

67.05, 66.89, 67.45, 67.45, 68.39, 68.39, 70.10

orta değer 67.45 olacaktır.

Çekreklikler Q1 ve Q3 (Quartiles)

Çeyreklikleri bulmak için veri setini küçükten büyüğe sıralarız ve veri setinin orta değerini (buna global orta değer diyelim) bu sıra üzerinde yerleştiririz. Birinci çeyrek (first quartile – Q1), global orta değerin solunda kalan (yani ondan küçük olan) değerlerin orta değeridir. Üçüncü çeyrek ise, global orta değerin sağında kalan (yani ondan büyük olan) değerlerin orta değeridir.

Tepe Değer (mod)

İstatistikte tepe değer bir veri listesinde en çok gözlemlenen değerdir. Tepe değer tek bir değer olmak zorunda değilidir; aynı sıklığa sahip birden fazla değer olabilir. Gene hisse fiyatlarımızı artan şekilde sıralarsak,

67.05, 66.89, 67.45, 67.45, 68.39, 68.39, 70.10

en çok gözlemlenen iki tepe değer vardır: 67.45 ve 68.39. Bu yüzden bu veri setinin tepe değeri tek değil iki tanedir. Bu veri setine çift tepe değerli (bimodal) denir. Bir popülasyon ya da örneğin bir, iki, veya ikiden fazla tepe değeri olabilir.

İstatistiki Saçılım (Statistical Dispersion)

İstatistikte istatistiki saçılım (ayrıca istatistiki değişkenlik, veya çeşitlilik) olasılık dağılımındaki yada değişkenlikteki dağınıklık (yayılım) olarak adlandırılır. Özellikle, bir saçılımlık ölçümü veri setindeki değerlerin ne kadar dağınık olduğunu ölçümlemede kullanılır. Yaygın olarak kullanılan istatistiki saçılım ölçümü şunlardır:

  • Varyans (variance)
  • Standart Sapma (standard deviation)

Saçılımlık merkezi yatkınlıkla birlikte dağılımın en çok kullanılan özellikleridir.

Varyans (variance)

İstatistikte varyans, rassal bir değişkenin veya dağılımın her bir değerinin ortalama değerden farkının karesinin ortalaması olarak ifade edilir. Bu yüzden varyans verinin ortalama değerden ne kadar saptığının bir ölçüsüdür.

Eğer rassal bir değişken olan X’in beklenen değeri (expected value = mean) E[X]=μ ise, X’in varyansı:

4

formulü ile ifade edilir.

Varyansın özellikleri

  • Varyans her zaman pozitif bir değerdir; çünkü farkların kareleri ya sıfırdır ya da sıfırdan büyüktür.
  • Sabit bir değerin varyansı sıfırdır, ve bir veri setindeki bir değişkenin varyansı eğer bütün elemanlar aynı değere sahip ise sıfırdır.
    Var(a) = 0
  • Bir veri setindeki her bir veri sabit bir sayı (a) kadar artırılır veya azaltılırsa veri setinin varyansı değişmez.
    Var(X + a) = Var(X)
  • Bir veri setindeki her bir veri sabit bir kat sayıyla çarpılırsa veri setinin varyansı eski varyansının, kat sayının karesiyle çarpımına eşittir.
    5

Örneklem Varyansı (Sample Variabnce)

Eğer bir X rassal değişkeninin n tane değerine sahipsek, örneklem varyansı popülasyon varyansını ölçümlemek için kullanılabilir.

X = (x1, x2, x3, …, xn)

Örneklem varyansı şu şekilde hesaplanır:

6

Formüldeki paydada olan (n-1) değeri varyans hesaplamasında “serbestlik derecesi” (degree of freedom) olarak adlandırılır.

Yukarıdaki örnek verimizin örneklem varyansı (sample variance) şu şekilde hesaplanır:

7

Standart Sapma (Standard Deviation)

İstatistikte, rassal bir değişkenin veya dağılımın standart sapması o değişkenin varyansının kareköküne eşittir.

8

Yani, standart sapma σ (sigma) (X − μ)2 değerlerinin ortalamasının kareköküdür.

 Gene örneğimize dönecek olursak standart sapmamız:

9

 olarak hesaplanır.

Ortalama Mutlak Sapma (Mean Absolute Deviation)

Bir X değişkeninin değerlerinin ortalama değerden ortalama olarak ne kadar saptıkları şu şekilde ölçülür:

10

Bu değer her zaman sıfırdır. Pozitif ve negatif sapmalar birbirlerini götürürler ve toplam her zaman sıfır olur. Bu yüzden saçılımı (dispersion) ölçmeye bir yararı yoktur.

Ortalama Mutlak Sapma ise şu şekilde hesaplanır:

11

Farkların mutlak değeri her zaman pozitif olacağından bu değer her zaman sıfır olmak zorunda değildir.

Mutlak değer almaya alternatif olarak farkların karesi de alınabilir ve bu yöntemle elde edilen sapmaya “kareli ortalama sapması” (mean squared deviation – MSD) denir:

12

Farkların karesini aldığımız için tekrar aynı ölçü birimine dönmek için bir de karekökünü aldığımızda bu sapmaya da “kareli ortalamaların kökü sapması” (root mean squared deviation – RMSD) denir:

13

İstatistiksel nedenlerden ötürü, RMSD yerine onun çok hafifçe değiştirilmiş versiyonu olan standart sapma (Sx) ölçümlerde çok daha fazla kullanılır.

14

15

Birliktelik (association)

İki değişkenli istatistik (bivariate statistics) iki değişkenin, birinin diğerine sebep olduğunu ima etmeksizin, birbirleriyle nasıl ilişkili olduklarını incelemek için kullanılabilir.

Çok değişkenli istatistik (multivariate statistics) ikiden fazla değişkenin, birinin diğerlerine sebep olduğunu ima etmeksiniz, birbirleriyle nasıl bir ilişki içerisinde olduğunu incelemek için kullanılabilir.

İki değişkenli ve çok değişkenli istatistiklerin ölçülmesinde iki yaygın ölçümleme vardır:

  • Kovaryans (covariance)
  • Korelasyon Katsayısı (correlation coefficient)

İki değişkenli istatistik 

Aşağıdaki şekilde (a) güçlü ve pozitif korelasyon, (b) sıfır korelasyon, (c) a’ya göre daha az güçlü pozitif korelasyon, (d) güçlü ve negatif korelasyon, ve (e) d’ye göre daha az güçlü negative korelasyona örnektir.

16

İki rassal değişken olan X ve Y için;  17   ve 18 olmak üzere kovaryans:

19

olarak hesaplanır.

Cov (X, Y) negatif, sıfır veya pozitif olabilir. Sıfır kovaryana sahip iki değişken ilişkisiz (uncorrelated) veya bağımsız (independent) olarak ifade edilir.

Eğer X ve Y birbirinden bağımsızsa o zaman kovaryansları daima sıfırdır; ancak her kovaryansı sıfır olan değişkenler birinden daima bağımsız olmak zorunda değildirler.

Eğer X ve Y gerçek değerli rassal değişkenler ise ve a ve b sayısaları sabit (rassal olmayan) birer sayıysa o zaman aşağıdaki formüller kovaryans formülünden türetilebilir:

20

Gene aynı şekilde eğer X ve Y gerçek değerli rassal değişkenler ise ve a ve b sayısaları sabit (rassal olmayan) birer sayıysa o zaman aşağıdaki formüller varyans ve kovaryans formüllerinden türetilebilir:

21

İlişkisiz rassal değişkenlerin toplamlarının varyansı, ayrı ayrı varyanslarının toplamına eşittir:

22

Çünkü, eğer X ve Y ilişkisizse kovaryansları 0’dır.

Örneklem Kovaryansı

Kovaryans iki değişken olan X ve Y’nin değerlerinin birbirleriyle ne kadar yakın bir ilişkide değiştiklerinin bir ölçüsüdür. Popülasyon kovaryansı örneklem kovaryansı ile tahmin edilebilir. Örneklem kovaryansı şu şekilde hesaplanır:

23

Korelasyon Katsayısı (correlation coefficient)

Kovaryansın dezavantajı büyüklüğünün (magnitude) kolayca yorumlanamamasıdır; çünkü kovaryans X ve Y değişkenlerinin ölçü birimlerine bağlıdır. Ortalama değerden sapmaları standardize ederek bu dezavantajı gideren ve bu yüzden daha sık kullanılan ölçüm korelasyon katsayısı olarak adlandırılır.

24

Korelasyon katsayısı simetriktir, yani:

25

Örneklem korelasyon katsayısı şu şekilde hesaplanır:

26

Korelasyon katsasının değeri -1 ile +1 arasında (-1 ve +1 de dahil) bir değerdir.

  • rx,y= 0 ise X ve Y ilişkisizdir (uncorrelated)
  • rx,y= 1 ise X ve Y doğru yönde tamamen ilişkilidir. Biri artarken diğeri de kesinlikle artar veya biri azalırken diğeri de kesinlikle azalır.
  • rx,y= -1 ise X ve Y ters yönde tamamen ilişkilidir. Biri artarken diğeri kesinlikle azalır.

 

Parametre ve İstatistik

Bir parametre (parameter) popülasyonu betimleyen bir sayıdır. Bir parametre sabit bir sayıdır, ama pratikte bu değeri bilmeyiz.

İstatistik (statistic) ise bir örneklemi betimleyen bir sayıdır. Bir istatistiğin değeri örneklemden elde edilir; fakat aynı popülasyonun farklı örneklemleri için farklı değerler elde edilebilir.

İstatistiği (statistic) sıklıkla bilinmeyen bir parametreyi hesaplamak için kullanırız.

Örnek

Ülke çapında rastgele seçilen 2500 yetişkine aşağıdaki ifadeye katılıp katılmadığı soruluyor:

“Yeni kıyafetler almayı seviyorum, fakat alışveriş yapmak çoğunlukla moral bozucu ve çok zaman alıcı”

Diyelim ki bu yetişkinlerden 1650’si bu ifadeye katılıyor.

Örneklemin bu ifadeye katılan insanlarının oranı (proporsiyonu):

27

28= .66 bir istatistiktir (statistic). Buna eş gelen parametre (P) ise bütün ülke nüfusundaki bu ifadeye katılan insanların proporsiyonudur. P parametresinin değerini bilmiyoruz, bu yüzden 28  istatistiğinden bu parametreyi hesaplamaya çalışıyoruz.

Bu araştırmayı yapan şirketin tekrarlan 2500 insandan oluşan rastgele bir örnekleme yaptığını düşünelim. Bu yeni örneklem farklı insanlardan oluşmuş olacak. Neredeyse kesin bir olasılıkla bu örneklemdeki ifadeye katılan insanların sayısı 1650 olmayacak. Yani 28 ’nin değeri örneklemden örnekleme değişecek.

Rastgele seçimin ilk avantajı yanlılığı(bias) elimine etmesidir. İkinci avantajı ise eğer aynı popülasyondan aynı boyutta birçok örneklem oluşturursak, örneklemler arasındaki varyasyon tahmin edilebilir bir örüntü oluşturacaktır. Bütün istatisksel çıkarımlar tek bir fikir üzerinde toplanır: bir prosedürün ne kadar güvenilir olduğunu görmek için, onu çok kere tekrarlarsak ne olacağını sormak.

Örneklem Dağılımı

Diyelim ki ülke çapındaki tüm yetişkinlerin %60’ı yukarıdaki alışverişle ilgili olan ifadeye katılıyor. Yani P = 0.6 (parametre).

Bu popülasyondan, 100 kişiden oluşan basit rastgele örnekleme (simple random sampling) yaptığımızı düşünelim. Ve bu örneklemdeki ifadeye katılan insanların oranını (28, istatistik) popülasyonun bu parametresini hesaplamada kullanalım.

28’nin dağılımı ne olur?

Bu soruyu cevaplandırmak için, bu popülasyondan her seferinde farklı 100 kişi seçerek bir sürü örneklem oluşturmamız gerekir.

Her bir örneklem için örneklem istatistiği 28 ’yi hesaplamamız ve bu değerlerden oluşan bir histogram yapmamız gerekir.

Oluşan dağılımın şeklini, merkezini, yayılımını, aykırı gözlemlerini ve diğer sapmalarını gözlemleyelim.

Çok sayıda basit rastgele örneklemin sonuçları düzenli bir örüntüye sahiptir.

Mesela aynı popülasyondan 100 kişiden oluşan 1000 örnekleme yaptığımızı düşünelim. Bu örneklemlerinin oranlarının dağılımı aşağıdaki gibi olacaktır:

29

Bir istatistiğin örneklem dağılımı (sampling distribution) aynı popülasyondan aynı boyuttaki bütün olası örneklemlerden elde edilen istatistiklerin dağılımıdır.

Normal Dağılım (Normal Distribution)

Normal olarak adlandırılan eğriler simetriktir, tepe noktalıdır ve çan şeklindedir. Normal eğriler normal dağılımları açıklarlar.

30

Belirli bir normal dağılım için Kesin yoğunluk eğrisi (exact density curve) ortalaması ve standart sapması verilerek açıklanabilir. Ortalama değer (mean) simetrik bir eğrinin tam ortasındaki değerdir ve bu değer aynı zamanda orta değerdir (median). Standart sapma ise normal eğrinin ne kadar yayıldığını gösterir.

31

Standart Normal Dağılım (standard normal distribution) ortalaması 0 olan ve standart sapması 1 olan bir normal dağılım çeşididir.

Eğer bir değişken olan X in ortalaması m ve standart sapması s is ve normal dağılıma sahipse, standardize edilmiş olan

32

değişkeni standart normal dağılıma sahiptir.

Standart Normal Tablo ise z değerine karşılık gelen eğri altındaki alanı verir.

3

Bir örnekle açıklayalım.

Stok endeklerinin yıllık getiri oranı (annual rate of return) yaklaşık olarak normal bir dağılıma sahiptir. 1954’ten beri Standard & Poor’s 500 stok endeksi yıllık ortalama %15 getiri oranına sahip ve standart sapması da %16.5. Bu normal dağılımı uzun bir zaman boyunca yıllık getiri oranlarının dağılımı olarak alalım. Eğer endekslerin getiri oranı sıfırın altında ise market düşüşte demektir. Buna göre marketin düşüşte olduğu yılların oranını bulabilir miyiz?

Problemi şu şekilde ifade edebiliriz:

Yıllık getiri oranını x olarak ifade edelim. X değişkeni ortalaması 12 ve standart sapması 16.5 olan normal bir dağılıma sahip olacaktır. Bizden istenen x değişkeninin 0’dan düşük olduğu yılların tüm yıllara oranı: x < 0

Normalleştirme:

X değişkenini standart normal z skoruna dönüştürmek için normalleştirmeyi bulmak istediğimiz değerden (0’dan) ortalama değeri (12) çıkartıp sonucu standart sapmaya bölerek (16.5) yaparız:

n

Aşağıdaki şekilde bu değerler için normal dağılımı ve bu z skoru için istenilen alanı görebilirsiniz:

b

Z Tablosundan -0.73 değerine bakacak olursak değerin 0.2327 olduğunu görürüz. Yani bu demek oluyor ki bu z değerinin solunda kalan (yani bu değerden küçük olan) değerlerin toplam dağılım içindeki oranı 0.2327. Yani marketin düşüşte olduğu zamanların oranı %23.27’dir.

Peki yıllık getiri oranlarının %12 ile %50 arasında olduğu yılların oranı nedir?

c

Dağılımın şeklini çizelim:

e

Z’nin 0 ile 2.3 değerleri için grafiğin altında kalan alan (mavi bölge), z’nin 2.3’ten küçük olduğu alanlardan z’nin 0’dan küçük olduğu alanin çıkartırlmasıyla bulunabilir.

0.9893 – 0.50 = 0.4893

Şimdiye kadar, örneklem tahminlerini (estimator) popülasyon tahminlerini (estimator) belirlemek için kullandık:

f

Bu tahminleyiciler bazı özelliklere sahip.

İkisi de eğilimsiz (ön yargısız, unbiased) tahminleyicidir. Eğilimsiz bir tahminleyicinin ortalama değeri tahminlemeye çalıştığı parametreye eşittir.

Diyelim ki bir parametreyi hesaplamaya çalışıyoruz ve bunun için bir güven aralığı (confidence interval) oluşturmaya çalışıyoruz. Bu parametreyi örneklem verisinden tahminleyebileceğimizi varsayalım. Bu bilgiyi kullanarak bir güvenlik aralığı oluşturabiliriz.

Bir örnekle açıklayalım.

Amerikan ekonomisinde “community bank” olarak adlandırılan bankalar var. Bu bankalar 1 milyar dolardan az bir varlığa sahiptir. Bu bankalardan Amerika’da yaklaşık olarak 7500 adet bulunmakta. Birçok endüstri çalışmasında bu bankalar 1 milyar dolardan fazla varlığa sahip olan bankalardan ayrı olarak Kabul edilir. Bir milyar dolardan daha fazla varlığa sahip olan bankalar “large institutions” olarak adlandırılır. Amerikan Bankalar Birliği Konseyi yıllık bir “community bank” anketi yapmakta. En son çalışmada örneklem olarak kullanılan 110 bankanın ortalama varlığı  = 220 milyon dolar olarak hesaplanıyor. Amerika’daki bütün “community bank”ların ortalama varlığı, m, için ne söyleyebiliriz?

Örneklem ortalaması olan 555, popülasyon ortalaması olan 5555 (mü diye okunur)’yü tahminlemede kullanılabilir.

Büyük sayılar yasası diyor ki örneklemin boyutu arttıkça örneklem ortalaması popülasyonun ortalamasına yaklaşır.

Bu yüzden, örneklem boyutu olan 110 bütün “community bank”ların ortalamasını tahminlemek için mantıklı gözüküyor. Ama bu tahminleme ne kadar güvenilir?

Değişkenliğini belirtmeksizin yapılan bir tahminleme çok değerli olmayacaktır. Bir tahminlemenin değişkenliği örneklem dağılımlarına bakılarak cevaplanır.

Merkezi Limit Teorem’ine (Central Limit Theorem) göre:

Eğer ülkedeki bütün “community bank”ların varlık ortalaması 5555 ve standart sapması 10 ise, boyutu 110 olan çok sayıda örneklemenin ortalama değeri şu dağılıma sahip olacaktır:

g

Bu yüzden, merkezi limit teoremine göre, tekrarlanan 110 elemanlı örneklemlerin ortalama değerleri yaklaşık olarak normaldir, merkezi bilinmeyen popülasyon ortalaması olan m’dür, standart sapması da

 h

milyon dolardır.

Kaynaklar:

http://faculty.elgin.edu/dkernler/statistics/ch03/

https://onlinecourses.science.psu.edu/stat100/

1 Response

  1. Erkan

    Çok iyi anlatılmış. Daha anlaşılır olamazdı. Elinize sağlık. Vakit olursa devamını bekleriz. Çok teşekkürler mert bey.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s