Olasılık Teorisi – Ayrık Olasılık Dağılımları

Olasılık teorisi serisinde olasılık bakış açısıyla bir çok simülasyon ve deney gerçekleştireceğiz. Genel fikri aslında şu: yapacağımız her bir deney ve/veya simülasyonda o deneyin ve/veya simülasyonun sonucunu temsil edecek rassal değişkenler yer alacak. Bu rassal değişkenlerin alabileceği olası değerlerin hepsine örneklem uzayı(sample space) diyeceğiz. İlk olarak sonlu miktarda sonucu olabilecek deneyleri inceleyerek başlayacağız.

Rassal Değişkenler ve Örneklem Uzayı

Diyelim ki bir deney yapıyoruz ve bu deneyin sonucu şansa bağlı olarak değişiyor. Deneyin sonucu X  ile gösteriyor olalım. bir rassal değişkendir ve alabileceği her türlü değere bu deneyin örneklem uzayı(sample space) denir. Eğer bu uzay sonlu veya sayılabilir sonsuz elemandan oluşuyorsa ayrık(discrete) olarak adlandırılır.

Bir zar atıldığında örneklem uzayımız şu şekildedir:

Ω = {1, 2, 3, 4, 5, 6}

Zar hileli bir zar olmadığı müddetçe bu uzaydaki her bir elamanın olasılığı eşittir ve 1/(örneklem uzayı boyutu) kadardır ve 1/6’dır.

Dağılım Fonksiyonu

Diyelim ki bir deneyin sonucunu gösteren rassal bir değişken olsun ve bu deneyin sonlu sayıda sonucu olsun. Bu deneyin tüm sonuçlarını içeren örneklem uzayını da(sample space) Ω işareti ile gösterelim.  O halde için dağılım fonksiyonunu şu şekilde tanımlayabiliriz:

w ∈ Ω (örneklem uzayındaki her bir eleman(w) için, m(w) >= 0 ve
∑ m(w) = 1

olan bir m fonksiyonu. Yani bu öyle bir fonksiyon olmalı ki örneklem uzayındaki her bir elemanın olasılığı sıfır veya sıfırdan büyük olmalı ve her elemanın olasılığının toplamı 1’e eşit olmalı. Bu örneklem uzayındaki herhangi bir alt küme için olasılık değeri ise şu şekilde hesaplanabilir:

P(E) = ∑ m(w), w ∈ E.

Yani E alt kümesinin tüm elemanlarının örneklem uzayındaki olasılıklarının toplamı. Kafanız karıştı mı? Hemen bir örnekle olaya açıklık getirelim.

British_two_pence_coin_2015_obverseİki kere yazı tura attığınızı düşünün. Bu deneyin sonucunu X ile gösterelim. Deneydeki amacımıza göre deneyin örneklem uzayı farklılık gösterir. Örneğin birinci ve ikinci atıştaki sonuçları sırayla kaybettiğimizi düşünelim. Bu durumda Ω = {YY, YT, TY, TT} olacaktır. Eğer amacımız deneyde yazı gelme sayısını gözlemlemek ise bu durumda Ω = {0, 1, 2} olacaktır.

Diyelim ki bizim amacımız birincisini gerçekleştirmek. Örneklem uzayındaki bütün olası sonuçların olasılığının eşit olduğunu var sayarsak dağılım fonksiyonumuzu, yani m()‘yi, şu şekilde tanımlarız:

m(YY) = m(YT) = m(TY) = m(TT) = 1 / 4 = 0.25

Amacımız en az bir kez yazı gelme olasılığını hesaplamaksa bunu şu şekilde hesaplarız:

P(E) = m(YY) + m(YT) + m(TY) = 0.25 + 0.25 + 0.25 = 0.75

Eğer amacımız ilk atışta yazı gelme olasılığını hesaplamaksa bu sefer şu şekilde hesaplarız:

P(E) = m(YY) + m(YT) = 0.25 + 0.25 = 0.5dice

Başka bir örnek olarak da bir zar atışını düşünelim. Bu durumda Ω = {1, 2, 3, 4, 5, 6} olur. Eğer zar hilesiz bir zar ise bu durumda dağılım fonksiyonu şu şekilde tanımlanır:

m(i) = 1 / 6,  i = 1, ……, 6.

Eğer amacımız çift bir rakamın gelme olasılığını bulmak ise şu şekilde hesaplayabiliriz:

P(E) = m(2) + m(4) + m(6) = 1/6 + 1/6 + 1/6 = 3/6 = 1/2

Gene başka bir örnekte ise aynı işi kapmaya çalışan A, B, ve C adında 3 adayımız olsun ve bunlardan yalnızca biri işe alınacak olsun. Bu durumda Ω = {A, B, C) olur; yani bu 3 adaydan yalnızca biri işi kapabilir. Diyelim ki A ve B’nin işi kapma olasılığı birbirine eşit; fakat C’nin kapma olasılığı diğerlerininkinin yarısı kadar. O zaman:

m(A) = m(B) = 2*m(C)

m(A) + m(B) + m(C) = 1 olması gerektiğinden:

m(A) + m(B) + 2*m(C) = 1‘dir.

Bu denklemi çözdüğümüzde olasılıkların şu şekilde olduğunu görürüz:

m(A) = 2/5, m(B) = 2/5, m(C) = 1/5

Eğer amacımız A veya C’nin işi kapma olasılığını hesaplamaksa bunu şu şekilde hesaplarız:

P(E) = m(A) + m(C) = 2/5 + 1/5 = 3/5

Aşağıdaki şemadan temel küme özelliklerini hatırlayabiliriz:

set

Tekdüze Dağılım (Uniform Distribution)

Bir n boyutlu örneklem uzayındaki tekdüze dağılım şu şekilde tanımlanır:

Örneklem uzayındaki her w için: m(w) = 1/n

Burada fark etmemiz gereken önemli bir şey gerçekleştirdiğimiz deneyin mutlak tek bir örneklem uzayının olmaması. Örneğin iki kere yazı tura atma olayında örneklem uzayımız dört elemandan oluşuyordu ve bu elemanların her biri eşit olasılığa sahipti(tekdüze dağılım). Eğer ilgilendiğimiz olay en az bir kere yazı gelme olasılıklarıysa o zaman örneklem uzayımız üç elemandan oluşur Ω = {0, 1, 2}. Burada 0 hiç yazı gelmemesini; 1 bir kere yazı gelmesini; 2 ise iki kere yazı gelmesini belirtiyor. Bu durumda YY, YT, TY, TT sonuçlarından hiç yazı gelmemesi deneyin TT ile; bir keze yazı gelmesi YT veya TY ile; iki kez yazı gelmesi ise YY ile gerçekleşebilir. Dolayısıyla bu olayların olasılıkları şu şekildedir:

m(0) = 1/4,   m(1) = 1/2,   m(2) = 1/4 

Olasılıkların Belirlenmesi

Pratikte olasılık dağılımlarının belirlenmesindeki yöntemleri incelememiz gerekir. Bu yöntemlerden biri simetri (symmetry). Yazı tura deneyinde yazı ve tura tarafı arasında yazı veya tura gelme olasılığını değiştirecek fiziksel bir fark bulunmamakta. Benzer şekilde hileli olmayan bir zarda zarın her yüzü birbiri ile özdeştir ve simetriden dolayı zarın her yüzüne eşit olasılık değerini atarız. Genellikle simetri olan yerlerde tekdüze dağılım vardır. Fakat dikkatli olmamız gerekiyor: Bir sonucun olasılığının diğer bir sonucun olasılığından farklı olduğunu iddia edebileceğimiz bir sebebimiz yoksa her zaman bu olaylara eşit olasılık atayamayız. Örneğin, yeni doğan bir bebeğin cinsiyetini düşünelim. Yeni doğan bebeklerden erkek bebeklerin oranı 0.513. Bu yüzden yeni doğan bir bebeğin erkek olma olasılığına 0.513, kız olma olasılığına 0.487 değerini atamalıyız. Bu aslında istatistiksel gözlemleri kullanarak olasılıkları belirleyebileceğimiz durumlara örnektir. Ancak bu olasılıklar çalışmadan çalışmaya, ülkeden ülkeye, ve ırktan ırka değişebilir. Hatta genetik mühendislikle bu olasılıkları ciddi biçimde değiştirmek bile mümkün olabilir.

Odds

Bir deney eğer benzer şartlar altında çok sayıda kez tekrarlanabiliyorsa o zaman istatistiksel hesaplamalarla olasılığı bulmak güzeldir. Ancak diyelim ki yeni başlayan bir futbol sezonunda Fenerbahçe‘nin Galatasaray‘ı yenmesine bir olasılık atamak istiyoruz. Bu durumda söz konusu sezona ait veri henüz elinizde yok. Fakat ne tür bir bahis yapmak istediğinize bağlı olarak kendi kişisel olasılık değerlerinizi atayabilirsiniz. Örneğin 2:1 odds Fenerbahçe’nin kazanmasına 1 TL bahse giriyorsunuz. O zaman Fenerbahçe’nin kaybetmesi durumunda 2 TL vermeye razısınız. Bu demek oluyor ki Fenerbahçe’nin kazanmasına verdiğiniz olasılık 2/3.

Şimdi odds ile bu olasılık değeri arasındaki ilişkiye daha dikkatlice bakalım. Diyelim ki E bir olayına 1:r odds ile bahse giriyorsunuz. Bu demek oluyor ki E olayının olması olmamasından r kere daha fazladır. O zaman bu durumda E olayının olma olasılığı r / (r+1) olmalıdır çünkü

P(E) = r * P(˜E)  ve  P(E) + P(˜E) = 1

olmalı. Genel olarak odd’lar E olayının lehine r:s ise:

odd

Eğer E olayının olma olasılığı P(E) = p ise, r/s’nin oranı p cinsinden şu şekilde ifade edilir:

r/s = p / (1-p)

Sonsuz Örneklem Uzayları (Infinite Sample Spaces)

Eğer bir örneklem uzayı sonsuz sayıda elemana sahipse bu uzayın dağılım fonksiyonunun tanımı uzaydaki elemanların sayılabilir olup olmadığına bağlıdır. Bir örneklem uzayının elemanları sayılabilir ise, örneğin pozitif tam sayılarla sıralanabiliyorsa, bu örnemklem uzayı sayılabilir sonsuz (countably infinite)  uzaydır; eğer elemanları sayılamıyorsa o zaman sayılamayan sonsuz (uncountably infinite) uzaydır. Sonsuz örneklem uzayları daha sonraki yazılarda ele alacağımız yeni bir konsepti gerektirir ancak sayılabilir sonsuz uzayları şu anki bilgilerimizde açıklayabiliriz. Eğer

Ω = {w1, w2, w3, …}

örneklem uzayı sayılabilir sonsuz uzaysa o zaman dağılım fonksiyonu her bir olaya 0 veya 0’dan büyük bir olasılık verecek ve bu olasılıkların toplamı bire eşit olacaktır. Ancak bu sefer bu toplamlar yakınsayan bir sonsuz toplam olmalı. Sonlu uzaylarda yapıp bu tarz uzaylarda yapamadığımız tek şey tekdüze bir dağılım fonksiyonu tanımlamak.

Örneğin yazı gelene kadar yazı tura attığımızı düşünelim. İlk kez yazı gelme sayısını w ile gösterelim. Bu durumda deneyimizin olası sonuçları şu şekildedir:

Ω = {1, 2, 3, . . .}

Bozuk para her seferinde tura da gelebilir ancak bu olasılığa izin vermiyoruz. Nedenini birazdan göreceksiniz. İlk atışta yazı gelme olasılığı 0.5’tir. İlk atışta tura gelip ikinci atışta yazı gelme olasılığı 0.25’tir. İlk iki atışta tura gelip üçüncü atışta yazı gelme olasılığı 1/8’dir. Bu bize her bir atış sayısı için(n) bir kere yazı gelme olasılıklarını şu şekilde ifade edebileceğimizi gösteriyor:

m(n) = 1 / 2^n

Bunun bir dağılım fonksiyonu olduğunu görmemiz için şu şart sağlamamız gerekiyor:

inf

Bu toplamın 1’e eşit olacağını geometrik serilerinin (geometric series) toplam formülüyle gösterecek olursak:

inf2

Bu formül r -1 ve 1 arasındaysa geçerlidir. r yerine 1/2 koyacak olursak o zaman bu toplamın 1’e eşit olacağını yani eninde sonunda en az bir kere yazı geleceğini görebilirsiniz. Her atışta tura gelme olasılığına 0 değeri atanması gerektiğinden örneklem uzayımıza 0 sonucunu eklemedik.

Şimdi örneklerle bütün bu kavramları açıklayalım.baa0a0055d67f6ec40a5aa2c1f28846a

Bir iskambil destesinden rastgele bir kart çekersek bunun birli olma
olayına odds’unuz ne olur? Toplam 52 adet kart olduğuna göre ve bunlardan 4 tanesinin birli olduğuna göre odd’u birli olma olasılığı’nın birli olmama olasılığına oranı olarak tanımlarız:

(4/52) / (48/52) = 4 / 48 = 1 / 12

Bu demek oluyor ki her 12 kartta bir, bir adet birli olmasını bekleriz. Peki iki tane bozuk para attığımızda ikisinin de yazı gelme olayına odds’unuz ne olur? Gene aynı mantıkla ikisinin yazı gelme olasılığının ikisinin yazı gelmeme olasılığına oranı olarak buluruz:

(1/4) / (3/4) = 1/3

yani her 3 başarısız atıştan sonra  ikisinin de bir kere yazı gelmesini bekleriz.

Diyelim ki bir at yarışında X adlı atın kazanma odds’u  2:3, Y adlı atın kazanma odds’u da 1:2. X ya da Y’nin kazanma olayına ne odds verilmelidir?

X’in kazanma olasılığı / X’in kazanamama olasılığı = 2/3
Y’nin kazanma olasılığı / Y’nin kazanamama olasılığı = 1/2

2*X + 3*X = 1 ==> 5*X = 1 ==> X = 0.2 ==> 2/5 kazanma, 3/5 kaybetme

1*Y + 2*Y = 1 ==> 3*Y = 1 —> Y = 1/3 —> 1/3 kazama, 2/3 kaybetme

İkisinden birinin kazanma olasılığı = 2/5 + 1/3 = 11/15. Bu durumda bu olayın odds’u:

(11/15) / (4/15) = 11/4. Yani bu olayın 11 kere gerçekleşmesine karşı 4 kere gerçekleşmemesini bekleriz.

Olasılık Teorisi: Ayrık Olasılık Simülasyonu

Olasılık (Probability)

Bu yazıya sonlu sayıda sonucu olan deneylerdeki şans faktörünü işleyerek başlayacağım. Örneğin bir zar attığımızda sonuç kümemiz sonlu sayıdadır ve şu şekildedir: 1, 2, 3, 4, 5 ve 6. Aynı şekilde yazı tura attığımızda sonuç sonludur: yazı veya tura.

Örneğin bir zarı dört defa atarak gelen sayıların toplamını matematiksel olarak ifade etmeye çalışalım:

X1 + X2 + X3 + X4

Burada X‘lerin her biri birer rassal değişkendir (random variable). Bunlar belirli bir deneyin sonucunu ifade eder. Tıpkı matematikteki diğer değişkenler gibi bu değişkenler de adından anlaşılacağı üzere farklı değerler alabilirler.

Örneğin bir zar attığımızı düşünelim ve sonucu X rassal değişkeniyle gösterelim. Bu deneyin olabilecek altı sonucunun her birine bir olasılık değeri atayabiliriz:

m(w1) + m(w2) + · · · + m(w6) = 1

Burada m(), her bir w için atanan olasılık değerini ifade ediyor ve bu olasılıkların toplamı 1’e eşit olmak zorunda. m()’ X rassal değişkeninin dağılım fonksiyonu (distribution function) olarak adlandırılır. Zar atma örneğinde her bir sonuca eşit olasılık değerini veririz: 1/6. Bu şekilde olasılık ataması yaptığımızda attığımız bir zarın 4’ü aşmama olasılığını şu şekilde ifade edebiliriz:

1

Diyelim ki Y bozuk paranın gelen yüzünü temsil eden bir rassal değişken olsun. Bu durumda Y‘nin alabileceği iki değer vardır: Y(yazı) ve T(tura). Bozuk paranın adilliğinden şüphelenmemizi gerektirecek bir durum olmadığı müddetçe bu iki sonuca eşit olasılıklar olan 1/2‘yi atayabiliriz.

Yukarıdaki hem zar hem de bozuk para örneğinde her bir olası sonuca eşit olasılık değerleri atadık. Fakat genellikle bu tarz eşit olasılık ataması yapacağımız çok az durum vardır. Örneğin bir ilacın kullanıldığı zamanların %30’unda efektif olduğu tespit edilmişse bu ilacın bir sonraki kullanımında efektif olma olasılığına 0.3, efektif olmama olasılığında ise 0.7 değerini atayabiliriz. Bu örnek olasılığın sıklık konseptine (frequency concept of probability)  bir örnek. Yani, bir olayın A ile sonuçlanma olasılığı p ise, bu deneyi çok kere tekrarladığımızda A ile sonuçlanan olayların tüm olaylara oranının yaklaşık olarak p’ye eşit olduğunu görürüz. Bu fikirleri doğrulamak için bu tarz problemlere deneysel olarak yaklaşmamız gerekiyor. Örneğin bozuk para deneyini binlerce kez tekrarladığımızda yazıların oranının 1/2’ye yaklaştığını görebiliriz. Ama neyseki bizi gerçek hayatta böylesine bir deney yapmaktan kurtaracak bir çözüm var: bilgisayar simülasyonu.

Simülasyon

Bu yazının devamında göreceğimiz simülasyonlarda sonucu şansa bağlı olan deneylerin özellikle çok sayıda tekrar edilmesi sonucu neler olacağını göreceğiz. Bilgisayarlar çok kısa bir zamanda milyonlarca kez deneyi tekrar edebildiklerinden bu iş için onları kullanmak gayet mantıklı.

Rassal Sayı (Random Number)

Bir zar atma deneyini bilgisayar dilinde nasıl ifade edebiliriz? Çok basit: rastgele sayı üreteciyle (random number generator). Bir bilgisayara 0 ve 1 arasında rastgele bir sayı ürettirebilir veya 1’den 6’ya kadar olan tam sayılardan bir tanesini rastgele seçmesini söyleyebiliriz.

Simülasyon – 1

n kere bozuk para deneyini gerçekleştiren ve her 100. adımda yazıların oranını hesaplayan bir program yazalım. Bunun için ilk olarak aşağıdaki fonksiyon yazılabilir.

tossCoin <- function(q){
 return(sum(sample(c(0,1), q, replace = TRUE)))
 }

Bu fonksiyon 0 ve 1’den oluşan kümeden parametre olarak gönderilen q sayısı kadar rastgele eleman seçer. Burada 0 ve 1 çekme olasılıkları eşittir ve 0.5’tir. Şimdi de n kez q boyutlu deney gerçekleştirip ortalamalarını veren bir fonksiyon yazalım:

simulateToss <- function(n, q){
 plt <- c()
 plts <- c()
 for(i in 1:n){
 plt <- c(plt, tossCoin(q))
 plts <- c(plts, mean(plt))
 }
 return(plts)
}

Şimdi bu fonksiyonları istediğimiz kadar çağırarak sonuçlarını grafiğe dökelim. İlk olarak 100 kez para atma deneyini 10000 kez tekrarlayalım. Yani toplamda 10000*100=1.000.000 kez para atma işlemini gerçekleştirelim ve 100 ve katlarındaki yazı oranlarını grafikleştirelim:

1

Yukarıdaki grafikte görüldüğü üzere deney sayısı 0’dan 10000’e doğru gittikçe yazı oranları 0.5’e yaklaşıyor.

Simülasyon – 2

Elimizde üç adet zar olsun. Bu zarları aynı anda atıp gelen rakamları topladığımızda sonucun 9 olabileceği kombinasyon sayısıyla 10 olabileceği kombinasyon sayısı birbirine eşittir. Ancak bu tarz oyunları sıklıkla oynayan kumarbazlar toplamın 9 olmasına 10 olmasından biraz daha az rastladıklarını söylüyorlar. Sizce bu doğru olabilir mi? Hemen bir simülasyon yapalım.

Aşağıdaki kodla 1’den 6’ya kadar olan rakamlar kümesinden çekileni bir daha çekebilme şartıyla 3 eleman seçip toplamını döndürüyoruz. Yani 3 zarı aynı anda atıp gelen rakamları topluyoruz.

calculateSum <- function(x){
 return(sum(sample(1:6, 3, replace=TRUE)))
}

Şimdi bunu 100.000 kez gerçekleştirip neler olacağına bakalım:

results <- sapply(1:100000, calculateSum)
> sum(results==9)/length(results)
[1] 0.11652
> sum(results==10)/length(results)
[1] 0.12364
> hist(results, breaks = 50)

Rplot01.jpeg

Burada ilginç yapıyı gözlemleyebildiniz mi? Bu üç zarın toplamının normal dağılıma (normal distribution) çok benzer bir dağılım sergilediğini görüyoruz. Çok benzer dedim çünkü normal dağılım daha sonraki yazılarda ele alacağım sürekli değişkenlere (continuous variable) özgü bir dağılım türüdür. Üç zarın toplamının sonucu minimum 3 ve maksimum 18 olabilir. Kırmızıyla gösterilen 11’in sıklığı, mavi ile gösterilen 10’un ve yeşil ile gösterilen de 9’un sıklığı. Dağılımdan görebileceğiniz üzere 9’un sıklığı 10’un sıklığından biraz daha az. Hemen yukarıdaki koddan görebileceğimiz üzere 100.000’lik denemede 10 gelme olasılığı 0.12364 iken 9 gelme olasılığı 0.11652. Yani aslında kumarbazlar haklıymış!

Simülasyon – 3

Diyelim ki DeMoivre’yle çok yakın bir dostsunuz ve iddiaya girdiniz. 3 tane zarı aynı anda attığında toplamlarının en az bir kere 18 olması için ortalama en az 150 kere atış yapmanız gerektiğini söylüyor. Sizce bu doğru mu?

Aşağıdaki kodu inceleyin:

calculateDieSums <- function(x){
 return(sum(sample(1:6, 3, replace=TRUE)))
}
n = 0
cutoff = 0
while(abs(n-0.5)>0.01){
 alls = 0
 cutoff <- cutoff + 30
 for(i in 1:10000){
 total = 0
 result <- sapply(1:cutoff, calculateDieSums)
 if(sum(result==18)>0)
 total <- total + 1 
 alls <- alls + total
 }
 n <- alls / 10000
print(paste(n,"-",cutoff))
}

Bu kod 3 zar atma olayını cutoff değeri kadar gerçekleştiriyor. Sonuçların içinden en az bir tane 18 varsa ilgili değişkeni bir artırıyor ve bunları toplamda 10.000 kez tekrarlıyor. Sonuçlar şu şekilde:

[1] "0.1307 - 30"
[1] "0.2464 - 60"
[1] "0.3453 - 90"
[1] "0.4204 - 120"
[1] "0.501 - 150"

Program cutoff değeri 150 olduğunda duruyor. Bu demek oluyor ki 150 atış civarlarında zarlarının toplamlarının en az bir kere 18 olması olasılığı 0.501, yani neredeyse yarı yarıya. Yani arkadaşınız haklı! En az bir kere 18 gelme ihtimali 150 ve daha büyük denemeler için yüksek.

Simülasyon – 4

Hepimiz ruleti duymuşuzdur. Rulet oyununda çarkta 38 tane bölüm bulunur: 0, 00, 1, 2, 3, …. ,36. Bunlarda 0 ve 00’ın rengi yeşil, geri kalan 36’sının da yarısı kırmızı yarısı siyah. Diyelim ki kırmızı renkler için bahse girdiniz. Çarkı çevirip topu attığınızda top eğer kırmızı renkli sayılardan birinde durursa 1 TL kazanacaksınız; eğer kırmızı renkte durmazsa 1 TL kaybedeceksiniz. Bu, oyunu oynama yöntemlerinden biri. Bir diğeriyse belirli bir sayıya bahis yapmak. Diyelim ki 17 sayısına bahis yaptınız. Eğer top 17 numarada durursa 1 TL ve buna ek olarak 35TL kazanacaksınız. Eğer 17’de durmazsa 1 TL kaybedeceksiniz. Sizce hangisi daha az riskli?

İki oyun türünü de 500’er kez tekrarlayacak bir simülasyon yazıp kazançlara bakalım.

sets <- c(0, 0, rep(1,times = 18), rep(2, times=18))
betForRed <- function(x){
 balance <- 0
 for(i in 1:500){
 res <- sample(sets,1)
 if(res == 1)
 balance <- balance + 1
 else
 balance <- balance - 1
 }
 return(balance)
}
betFor17 <- function(x){
 balance <- 0
 for(i in 1:500){
 res <- sample(1:38,1)
 if(res == 17)
 balance <- balance + 36
 else
 balance <- balance - 1
 }
 return(balance)
}
a <- sapply(1:1000,betFor17)
b <- sapply(1:1000,betForRed)
sum(a>0)
sum(b>0)

bal

Yukarıdaki grafikte her bir oyun türü için 500’er kez oynamayı 1000 kez tekrar ediyor. Yeşil noktalar 17’ye bahsi, mavi noktalar ise kırmızılara bahsin sonuçlarını gösteriyor. Buradan çıkaracağımız sonuç şu: her bir oyunu 500’er kez oynadığımızda 17’ye bahis yaptığımızda kazancımız kırmızılara bahis yaptığımızdakinden çok daha fazla değişkenlik gösterir ve buna paralel olarak kazancı ya da kaybı daha fazla olabilir. Kırmızılara bahis yaptığımızda kazancımız ya da kaybımız daha az değişkenlik gösteriyor ancak negatif bakiyeyle oyunu bitirmemiz pozitif bir bakiyeyle bitirmemizden daha yüksek bir olasılığa sahip! Seçim sizin.

Simülasyon – 5

Psikoloji dünyasında aşağıdaki soruya her 5 kişiden 4’ünün yanlış cevap verdiği gözlemlenmiş:

Bir köy düşünelim ve bu köyde sadece iki tane hastane olsun. Büyük olan hastanede günde yaklaşık 45 bebek doğarken küçük olan hastanede günde yaklaşık 15 bebek doğuyor olsun. Erkek bebeklerin genel proporsiyonu %50 olsa da bu hastanelerdeki herhangi bir günde doğan bebeklerin erkek oranı %50’den az ya da fazla olabilir. Bir yılın sonunda bir günde doğan bebeklerin %60’dan fazlasının erkek olduğu gün sayısı hangi hastanede daha fazladır ? Büyük olan da mı? Yoksa küçük olan mı acaba?

Bunu anlamanın en iyi yolu simülasyon gerçekleştirmek. Cinsiyetlerin eşit olasılıkta olduğunu var sayarak aşağıdaki gibi bir kod yazabiliriz:

calculateMaleBabyPercent <- function(x,n){
 return(sum(sample(c(0,1), size = n, replace = TRUE))/n)
}
small <- 0
big <- 0
for(i in 1:1000){
 smallHospital <- sapply(1:365, calculateMaleBabyPercent, 15)
 bigHospital <- sapply(1:365, calculateMaleBabyPercent, 45)

 small <- small + sum(smallHospital>0.6)/length(smallHospital)*365
 big <- big + sum(bigHospital>0.6)/length(bigHospital)*365
}
small/1000
[1] 55.284
big/1000
24.706

Yukarıdaki kod söz konusu olayı 1000 kez tekrarlar. Sonuçta küçük hastanede ilgili gün sayısı yaklaşık 55 iken büyük hastanede 25. Peki bunun sebebi ne olabilir? Cevap aslında çok basit: örneklem boyutu arttıkça gözlemlenen olasılık değerleri gerçek olasılık değerlerine yaklaşır ve buna paralel olarak da değişkenlik (standard error) azalır. Yani 45’lik bir örneklemde erkek bebeklerin oranı 15’lik bir örneklemdeki erkek bebeklerinin oranından daha az değişkendir. Eğer en baştan böyle düşündüyseniz, tebrikler!