Uvod u vjerojatnost i statistiku

Fotografiju Darius Soodmand na Unsplash
"Teorija vjerojatnosti trebala bi biti bačena pod autobus" - ekspert za umjetničku inteligenciju, Carlos E. Perez.

Započnimo s proučavanjem Teorije vjerojatnosti, a zatim uđemo u statistiku.

Vjerojatnost i statistika stalno se koriste u računalnim znanostima. Strojno učenje? To je vjerojatnost. Znanost podataka? To je statistika.

Vjerojatnost visoke razine

Vjerojatnost pruža način sumiranja neizvjesnosti koja proizlazi iz naše lijenosti i neznanja. Drugim riječima, vjerojatnost otkriva vjerojatnost da će se nešto dogoditi.

Diskretna vjerojatnost

Diskretna vjerojatnost je formalizacija teorije vjerojatnosti koja opisuje vjerojatnost korištenja u računalima iz diskretne matematike.

Kada rješavamo probleme s diskretnom vjerojatnošću, započinjemo s prostorom vjerojatnosti. Prostor vjerojatnosti je uparivanje (S, P) gdje je:

  1. S je uzorak prostora svih elementarnih događaja X ∈ S. Članovi S nazivaju se ishodima eksperimenta.
  2. P je raspodjela vjerojatnosti, to jest dodjeljivanje realnog broja P (x) svakom elementarnom događaju X ∈ S tako da je vjerojatnost između 0 i 1 i ∑P (x) = 1

U točki 2, P (x) se čita kao "vjerojatnost X". Vjerojatnost mora uvijek biti između 0 i 1, ili se često predstavlja kao 0% i 100%.

Primjer

Zamislite da prebacite novčić. Prostor vjerojatnosti je (S, P).
Ishod S je ** S = {H, T} **, gdje S mogu biti Glave ili Repovi.
Stoga je vjerojatnost
P (H) = P (T) = 1/2
Vjerojatnost za glave jednaka je vjerojatnosti za repove koja je jednaka polovici. Drugim riječima, ako bacate novčić, postoji čak i vjerojatnost da će postati naglavačke ili prema gore.

Raspodjela vjerojatnosti smatra se ujednačenom ako je svaki ishod podjednako vjerojatan.

Uvod u rješavanje problema vjerojatnosti

Mnogi mnogi ljudi, uključujući sveučilišne profesore i doktorante, ne mogu riješiti probleme vjerojatnosti. Kao što je kasnije raspravljeno u ovom članku, problem Monty Hall je poznati problem i dobar primjer za to.

Pretpostavimo da ste na izložbi igara, a izabrali ste tri vrata: Iza jednog vrata je automobil; iza ostalih, koze. Odabereš vrata, recimo №1, i domaćin, koji zna što je iza vrata, otvori još jedna vrata, recimo №3, u kojima ima jarac. Zatim vam kaže: „Želite li odabrati vrata broj 2?“ Je li u vašu korist prebacivanje izbora?

Ovo je pitanje poslato Voe Savantu koji je u to vrijeme imao najviši IQ na svijetu. Voe Savant je odgovorio da postoji 2/3 šanse za pobjedu automobila ako se prebacite i 1/3 ako ne promijenite auto.

Tisuće ljudi svađalo se oko problema Monty Hall, a mnogi sveučilišni profesori matematike rekli su da je matematička nepismenost rasprostranjena u Americi jer je predloženo rješenje problema Monty Hall-a pogrešno.

Ovaj se problem pojavio sljedećeg tjedna na svim satima matematike i tisuće čitatelja, mnogi koji su doktorat iz matematike napisali kako bi objasnili da Savant nije u pravu. Čak je i Paul Erdős, jedan od najpoznatijih svjetskih matematičara, rekao da Savant nije u pravu.

Nažalost za njih, Savant je bio u pravu. Ovo je jednostavan problem vjerojatnosti koji se može, ukoliko se formalno definira, objasniti. Mnogi su matematičari koristili svoju intuiciju za rješavanje ovog problema, a ne slijede korake u rješavanju problema vjerojatnosti koji će biti izloženi u nastavku.

Nekoliko koraka morate poduzeti prije nego što riješite problem vjerojatnosti kako biste dokazali da u potpunosti razumijete problem.

Uzorak prostora

Prostor uzorka je skup koji sadrži sve moguće ishode.

Dakle, s obzirom na novčić, uzorak je prostora {glave, repovi}, jer novčić može sletjeti samo na glave ili repove.

Ishod

Ishod se sastoji od svih informacija eksperimenta nakon eksperimenta. Kad bacate novčić i on stane na glave, ishod je {heads}.

Prostor vjerojatnosti

Prostor vjerojatnosti je uzorak prostora, ali svaki mogući ishod na njega se primjenjuje. Kada je novčić okrenut, prostor vjerojatnosti je {(glave, 0,5), (repovi, 0,5)}.

Ukupna vjerojatnost svih vjerojatnosti u prostoru vjerojatnosti mora biti jednaka 1. Nijedna pojedinačna vjerojatnost ne može biti manja od 0 ili veća od 1.

Mnogi učenici s visokim uspjehom kažu mi da pokušavaju što više vizualizirati s čime se bave.

Primjer

Pretpostavimo da smo izbacili kockice sa 6 stranica i želimo utvrditi vjerojatnost da ćemo dobiti 4.

  1. Prebrojite broj mogućih događaja. Na kockice ima 6 strana. Dakle, postoji 6 mogućih događaja
  2. Odlučite koji događaj ispitujete zbog vjerojatnosti. Problem javlja nam da pokušavamo smotati četvorku.
  3. Prebrojite broj šansi da se od mogućih događaja mogu pojaviti glave. Postoji samo jedna strana matrice koja ima 4 točkice, tako da postoji samo 1 šansa da se odveže četiri od ukupno 6 šansi.
  4. Napišite broj šansi da se glave mogu pojaviti u broju dijelova u dijelu. (1/6)

Iako je to jednostavan problem za rješavanje, on ilustrira važne korake koje treba poduzeti pri rješavanju težih problema vjerojatnosti.

Događaji

Događaji se u teoriji vjerojatnosti često previđaju i o njima se puno ne govori, pa sam preuzeo na sebe to da objasnim što je događaj i zašto su važni u ovom odjeljku.

Događaj je skup vjerojatnih rezultata eksperimenta. U Bayesovoj vjerojatnosti događaj je definiran kao opis sljedećeg mogućeg prostora stanja koristeći znanje iz trenutnog stanja.

Događaj se često označava znakom 'e'. Kao što je vjerojatnost da je P (e) nekog događaja. Događaji su vjerovatno važniji od većine ljudi koji ih čine.

Događaj može biti rezultat bacanja kockica kao što je "5" ili dobivanja "Repa" kada bacate novčić.

Događaji mogu biti:

  1. Neovisni - Na svaki događaj ne utječu prethodni ili budući događaji.
  2. Ovisan - na događaj utječu drugi događaji
  3. Uzajamno isključivi - događaji se ne mogu dogoditi u isto vrijeme

Zašto su događaji važni?

Pa, događaji nam omogućuju vjerovatno nevjerojatne stvari. Uzmimo za primjer problem Monty Hall-a. Pokušajte pitanje u nastavku:

Jedno od vrata sadrži fantastičan sportski automobil, a druga 2 vrata sadrže koze. Izaberite bilo koja vrata koja želite, nastavite!

U redu, recimo da ste izabrali # 1, domaćin emisije otvorit će vrata koja sadrže jarac, pa recimo da otvorimo vrata broj 3, a ona sadrži jarac. Dakle, znate da su vrata 1 vaš izbor, vrata 3 su koza, a vrata 2 netaknuta. Napomena: Nije važno koja ste vrata odabrali, ono što je važno jeste da odaberete vrata i domaćin domaćih igara otvori vrata sa jarcem u njima.

Tada se igra prikazuje: "Jeste li sigurni da su vrata broj 1 ispravna? Želite li se prebaciti? "

Što radiš?

Pa, vjerojatnost kaže da bismo trebali odabrati vrata broj 2, kao što biste i vi promijenili. Zašto? Pa, vrata broj 2 imaju 2/3 šanse ili 77% šanse da sadrže automobil, a vrata broj 1 (vaš originalni odabir) imaju 33% šanse da sadrže automobil.

Whaaaaattt ??

Ovo je poznati problem vjerojatnosti nazvan problem Monty Hall i prikazuje kako događaji mogu utjecati na vjerojatnosti. Za objašnjenje ovog, pogledajte ovaj videozapis Numberphile u nastavku:

Vjerojatnost komplementa događaja

Nadoknada događaja su svi ostali ishodi događaja.

Na primjer, ako je događaj Tails, to je glava. Ako je događaj {ponedjeljak, utorak}, nadopuna je {srijeda, četvrtak, petak, subota, nedjelja}.

Ako znate vjerojatnost p (x), kompliment možete pronaći radeći 1 - P (x). Budući da su sve vjerojatnosti jednake 100%, to možemo izraziti kao 1.

Zašto je komplement koristan?

Ponekad je lakše razraditi komplement prvo prije stvarne vjerojatnosti. Na primjer:

Izračunajte vjerojatnost da su dvije ocjene različite kada su bačena dva rezultata

Različita ocjena je poput dobivanja rezultata 2 i 3 ili 1 i 6. Skup svih mogućih različitih rezultata prilično je velik, ali komplement svih mogućih različitih rezultata (rezultati su isti) prilično je nizak. U stvari, to je:

{(1, 1), (2, 2), (3,3), (4,4), (5,5), (6,6)}

Ukupan broj različitih kombinacija je 6 * 6 što je 36, tako da je vjerojatnost dobivanja rezultata jednaka 6/36 ili 1/6. Sada možemo oduzeti 1/6 od 1 (misliti na 1 kao univerzalni skup) koji označava 5/6.

Zajednica dva događaja (načelo isključenja)

Ovo zahtijeva da znate malo o teoriji skupova, pa kliknite ovdje kako biste saznali više.

Ako se dva događaja međusobno isključuju (ne mogu se dogoditi u isto vrijeme), vjerojatnost da će se dogoditi istovremeno je 0.

Ako dva događaja nisu međusobno isključiva, tada je vjerojatnost sjedinjenja dva događaja vjerojatnost oba događaja koja se dodaju.

Razlog zbog kojeg uklanjamo sjecište A i B je taj što P (A) + P (B) sadrži sve što je u A ili B, ali zbog načina na koji sindikat funkcionira, doći će do raskrižja koje će napraviti 2 A i B 2 B-a, stoga moramo ukloniti sjecište da bismo dobili vjerojatnost svakog događaja.

Drugim riječima, A sadrži elemente koji su u B, a B sadrži elemente koji su u A. Dodavanjem:

Savez tri odvojena događaja

Pretpostavimo da bih 3 puta bacio korektne kockice.
S je niz nizova događaja u dužini tri takav da {1..6) ³}
P (x) = 1/6 * 6 * 6 = 1/216 za sve x ∈ S
Kolika je vjerojatnost da ćemo ispaliti barem jedan 6?
Dakle, jer bacamo kockice 3 puta, neka je E1 vjerojatnost da će kolut kockice biti 6, E2 = P (6), E3 = P (6)
Željeli bismo vježbati
P (E1∪E2∪E3)

Zapamtite, zajednica vjerojatnosti je P (A) + P (B) - sjecište A i B. Želimo sjedinjenje A, b i C koje uključuje i sjecište u sredini. Oduzimamo sjecišta A B, A C, B C i dodamo sjecište svih 3 da bismo dobili srednji dio.

Dakle, ovo je samo:

Možda ste primijetili da je raskrižje 6/216. To može izgledati zbunjujuće jer nismo ručno definirali skup za to. Ne brinite: Formula za sjecište je:

Primjer Pitanje

S obzirom na 4 kovanice, kolika je vjerojatnost da će se barem 3 pojaviti repova?

Događaj da se na repovima pojavljuju najmanje 3 novčića spoj je pet odvojenih događaja, da svi novčići dolaze do repova (1 odvojeni događaj) i da 4 određene kovanice (4 odvojena događaja) dolaze do glave. Možda zvuči zbunjujuće, pa ću vam to vizualno objasniti. Slobodno preskočite sljedeći odlomak ako niste zbunjeni.

Nepovezani događaj znači da se događaji ne mogu istovremeno dogoditi. Prvi odvojeni događaj je "što ako svi novčići naiđu na repove?" To je da 5 novčića {T, T, T, T, T}. Ostala 4 događaja su što ako jedan određeni novčić digne glave? Dakle, prvi odvojeni događaj je {H, T, T, T}, drugi je {T, H, T, T} itd. Budući da su nam potrebne najmanje 3 kovanice za repove, {H, H, T, T} nije valjano.

Ujedinjenje 5 razdvojenih događaja vjerojatnost je da se svaki događaj zbroji.

Prvo, otkrijmo vjerojatnost da je svaka vjerojatnost unutar ovog prostora moguća. Prostor problema je {H, T} preko 4 različita kovanica. Svaki novac ima 1/2 šanse da bude glava ili repovi, a postoje 4 kovanice, tako da je 1/2 * 1/2 * 1/2 * 1/2 1/16 šanse za bilo kakav mogući ishod u državnom prostoru.

Stoga je vjerojatnost događaja P (1/16)

Znajte da znamo koliko je vjerovatno da ćete dobiti bilo koju kombinaciju {H, T} preko 4 kovanice, a mi ćemo to iskoristiti kako bismo utvrdili koliko je vjerovatno da ćete dobiti 5 međusobno povezanih događaja. Budući da je svaki događaj odvojen, jedan događaj ne utječe na drugi, pa je to samo slučaj 1/16 * 5 (za 5 događaja koji nisu povezani), što rezultira sa 5/16.

Prema tome, vjerojatnost da će najmanje 3 novčića doći do repova je 5/16.

Uvjetna vjerojatnost

Uvjetna vjerojatnost je tamo gdje se događaj može dogoditi samo ako se dogodio drugi događaj. Počnimo s lakim problemom:

Ivanovi omiljeni programski jezici su Haskell i x86 Assembley. Neka A predstavlja događaj koji prisili klasu da nauči Haskell, a B predstavlja događaj koji prisiljava razred da nauči x86 Assembley.
Nasumično odabranog dana Ivana je sam preuzeo Sotona, tako da je vjerojatnost P (A) 0,6, a vjerojatnost P (B) 0,4, a uvjetna vjerojatnost da podučava Haskell, s obzirom na to da je predavao x86 Assembley taj dan je P (A | B) = 0,7.
Na temelju podataka, što je P (B | A), uvjet koji John podučava x86 Assembley s obzirom da je učio Haskell, zaokružen na najbližu stotinu?

Vjerojatnost P (A i B) = P (A | B) * P (B) pročitana "|" kao što je dano, kao u "A | B" čita se kao "dana B". Može se napisati i kao P (B | A) * P (A).

Razlog da je P (A | B) * P (B) je zato što je dana vjerojatnost "S obzirom na vjerojatnost da se B dogodi, A dogodi", a vjerojatnost B je P (B). (A | B) je različita vjerojatnost da se P (B) i P (A i B) mogu dogoditi samo ako se dogodi P (B) koji tada dopušta da se dogodi P (B | A).

Tako možemo to pretvoriti u matematičku formulu:

P (A i B) = P (A | B) * P (B) = 0,7 * 0,5 = 0,35
Rješavajući ga
P (B | A) * P (A)
P (A) = 0,5
Tako
0,6 * P (B | A)
Sada ne znamo što je P (B | A), ali želimo to saznati. Znamo da P (B | A) mora biti dio P (A i B), jer je P (A i B) vjerojatnost da se oba ova događaja događaju tako ...
P (A i B) = 0,35
0,35 = P (B | A) * 0,5
Jednostavnom algebarskom manipulacijom
0,35 / 0,5 = P (B | A)
P (B | A) = 0,7

Za vizualno objašnjenje uvjetne vjerojatnosti pogledajte ovaj video Khan Academy

Bayesov Therom

Bayesov terom omogućava nam utvrđivanje vjerojatnosti događaja s obzirom na prethodna saznanja o događajima. Više je promatranje nego arom, jer ispravno djeluje cijelo vrijeme. Bayesov terom kreira Thomas Bayes, koji je to opažanje zabilježio u bilježnici. Nikad ga nije objavio, pa nije bio zamišljen za svoje čuveno terom za vrijeme svog života.

Bayesov Therom s https://betterexplained.com/articles/colorized-math-equations/

Vjerojatnost A datog B je vjerojatnost B dana A (napomena: ovdje je obrnuto) puta s vjerojatnošću A podijeljeno s vjerojatnošću B.

To, naravno, zvuči zbunjujuće, pa vam može pomoći vidjeti primjer.

Pretpostavimo da se na ulicama nađe novi niz meksičkog heroina od crnog katrana i policija želi utvrditi je li netko korisnik ili ne.
Lijek je osjetljiv na 99%, to jest udio ljudi koji su ispravno identificirani kao oni koji uzimaju drogu.
Lijek je specifičan za 99%, odnosno onaj udio ljudi koji su ispravno identificirani kao da ne uzimaju drogu.
Napomena: postojala je 1% lažna pozitivna stopa za korisnike i za one koji nisu korisnici.
Pretpostavimo da 0,5% ljudi u Johnu Mooresu uzima drogu. Kolika je vjerojatnost da je nasumično odabrani student John Moores s pozitivnim testom korisnik?

Jednom kada dobijete sve podatke, to je jednostavno slučaj zamjene vrijednosti i obrade.

Ispod je video koji objašnjava Bayesov Therom intuitivno s primjerima iz stvarnog svijeta, zajedno s poviješću koja stoji iza njega, kao i filozofijom Bayesova Teroma:

Ako želite vidjeti kako se Bayes Therom koristi u strojnom učenju - provjerite!

Slučajne varijable

Nasumična varijabla je funkcija, nije slučajna ili varijabla.

Nasumična varijabla ne mora izravno specificirati prostor uzorka S već dodijeliti vjerojatnost da varijabla (X) ima određenu vrijednost. Za razliku od prethodne vjerojatnosti gdje smo trebali definirati prostor uzorka, nas zanima samo vjerojatnost.

Slučajne varijable često se pišu kao P (f = r), gdje je f naziv događaja, a r je vjerojatnost.

Vjerojatno mora biti između 0 i 1, kao i sve vrijednosti vjerojatnosti.

Pišemo NE (koristeći bilo koju oznaku koju želite) (F = r) za slučaj da je F svaka varijabla osim R.

Primjer za to

P (Die = 1) = 1/6
Vjerojatnost da će ova matrica uzeti vrijednost 1 je 1/6
NE P (Die = 1) je događaj koji je matrica
(Die = 2) ILI (Die = 3) ILI (Die = 4) ILI (Die = 5) Ili (Die = 6)

Komplement P (f = r); notacija koja se koristi za predstavljanje slučajnih varijabli je 1 - P (f = r), pri čemu je 1 100% ili samo 1.

Ponekad koristimo simbole (riječi) umjesto brojeva da bismo predstavili slučajne varijable. Ovo je stvarno korisno. Recimo da vrijeme može biti 1 od 4 države, sunčano, kiša, oblačno, snijeg. Dakle, umjesto dodjeljivanja vremena = 1 mogli bismo napisati Vrijeme = sunčano.

Ponekad je dugotrajno zapisati sve vjerojatnosti poput P (Vrijeme = sunčano) = 0,7 ili P (Vrijeme = kiša) = 0,3. Ako su vrijednosti fiksirane redom, mogli bismo napisati P (Vrijeme) = (0.7, 0.3)

Koristimo podebljano lice P da označimo da je rezultat vektor brojeva koji predstavljaju pojedinačne vrijednosti Vremena. Primjer za to je: P (Vrijeme) = (0,7, 0,3).

Zajedničke distribucije vjerojatnosti

Zajednička distribucija vjerojatnosti omogućuje vam da imate više slučajnih varijabli, obično 50 ili 100, ali naši će primjeri sadržavati manji broj.

Moguća zajednička distribucija vjerojatnosti P (vrijeme, šupljina) za slučajne varijable Vrijeme i šupljina dana je u sljedećoj tablici:

Ovo je zajednička distribucija vjerojatnosti za zubne šupljine i vremenske prilike. Šupljina je bula vrijednost, ona je ili 0 ili 1 i postoje 4 mogućnosti za vrijeme. Ako želimo stvoriti zajedničku raspodjelu vjerojatnosti P (Vrijeme, Šupljina) napravili bismo gornju tablicu.

Vjerojatnost za vrijeme = sunčano, a šupljina = 1 je 0,144. Vjerojatnost zajedničke raspodjele iznosi 1.

Potpuna zajednička raspodjela vjerojatnosti

Nazivamo ga potpunom zajedničkom raspodjelom vjerojatnosti ako je uključeno sve što je relevantno u domeni. Za razliku od gornjeg primjera, šupljine i vremenske prilike nisu na istoj domeni.

Pretpostavimo slučajne varijable Zubobolja, šupljina, ulov u potpunosti opisuju posjet stomatologu

Zatim se sljedeća tablica daje zajednička raspodjela vjerojatnosti:

Odavde

marginalizacija

Granične vjerojatnosti nasumičnih varijabli može se računaliti zbrajanjem varijabli. Na primjer, u gornjem primjeru, ako želite zbrojiti vjerojatnost P (šupljina = 1), zbrojit ćete sve vjerojatnosti tamo gdje je šupljina jednaka 1.

Conditonal / Posterior Vjerojatnost

Možemo izračunati uvjetnu / posljednju vjerojatnost pune zajedničke raspodjele na isti način kao što to činimo normalno.

Imajte na umu da (F, G) označava F (i sjecište) G.

Očekivana vrijednost

Očekivana vrijednost je upravo onakva kakva zvuči, kakvu vrijednost očekujete? To možete koristiti za izračun prosječne ocjene kockica za kockice na 6 valjaka ili bilo čega što se stvarno odnosi na vjerojatnost tamo gdje ima svojstvo vrijednosti.

S obzirom na ishode = (1, 2) i vjerojatnosti = (1/8, 1/4) očekivane vrijednosti, E [x] je E [x] = 1 (1/8) + 2 (1/4) = 0.625.

Pretpostavimo da brojimo bicikle i imamo 4 bicikla. Svakom biciklu dodijeljujemo kod tako:

Za svaki bicikl dajemo mu broj. Za svako kodiranje možemo primijetiti 2 bita. Ili 0 ili 1. Za očekivanu vrijednost ne treba nam samo vrijednost za varijablu već i vjerojatnost. Svaki bicikl ima jednaku vjerojatnost. Dakle, svaki bicikl ima 25% šanse da se pojavi.

Računajući očekivanu vrijednost, vjerojatnost množimo s 2 bita, što nam daje:

Što ako vjerojatnost nije bila jednaka?

Ono što trebamo učiniti jest pomnožiti broj bita na vjerojatnost

Entropija

Entropija je mjera nesigurnosti pridružena slučajnoj varijabli. Definiran je kao očekivani broj bita potrebnih za priopćavanje vrijednosti varijable.

Entropija pokušava dati broj koliko je nešto neizvjesno.

statistika

Statistika nije teorija vjerojatnosti. Statistika je stvarna primjena ideja koje dolaze iz teorije vjerojatnosti. Mogu se pozivati:

  1. Psefolohija - Analiza obrazaca glasa
  2. Analiza podataka - Znanost podataka
  3. Kontrola kvalitete

Uzorak prostora

Uzorak prostora je skup podataka kao jedan konačni skup koji izgleda poput:

Gdje je S prostor uzorka.

Raspodjela vjerojatnosti

Recimo da želimo odabrati nasumičnu osobu iz skupa svih ljudi koji čitaju novine Sunca. Vjerojatnost odabira pojedine osobe je:

Raspodjela vjerojatnosti je uzorak prostora gdje svaki predmet ima dodijeljenu vrijednost vjerojatnosti između 0 i 1 koja predstavlja koliko je vjerojatno da će biti izabran.

Ukupno, ako je s element S, to jest, ako je element s dio skupa (grupe) prostora uzorka, S, tada:

Ako dodate vjerojatnost svakog elementa u uzorku, on se mora zbrojiti na 1.

Kad želimo uzorkovati ovaj skup podataka, mogli bismo jednostavno proći kroz svaku pojedinu osobu u skupu podataka kako bismo dobili dobar osjećaj općenitosti ovog uzorka. Međutim, ako je u ovom skupu podataka bilo 7 milijardi ljudi, to bi moglo potrajati jako dugo.

Sada možemo uzorkovati dva načina.

Možemo nasumično birati ljude iz skupa podataka i koristiti ih kao svoj uzorak ili možemo odabrati određeni podskup podataka koji će se koristiti.

Jedinstveni skup podataka je onaj na kojem će svi biti podjednako odabrani. Pristrani uzorak nije ujednačen, ljudi su ručno odabrani.

Nepristrani skupovi podataka izgledaju "pošteno", dok nepristrani izgledaju "nepošteno". Nepristranim uzorkom ne možemo popraviti ishod. Ne možemo podatke promijeniti u svoju korist.

Ponekad nas ne zanima „pravednost“, a ponekad nepristrani uzorci mogu dovesti do neočekivanih rezultata.

Slučajne varijable

Sjećate se ranije kad smo rekli da su nasumične varijable funkcije? Pa, ako primijenite slučajnu varijablu na prostor uzorka, populacija poput:

Dobivate pristrani skup podataka iz tog uzorka. To je pristrano jer ne nasumično biramo ljude u setu; primjenjujemo filtar - pravilo na skup kako bismo dobili podskup populacije.

Profesor Paul Dunne rekao je to o slučajnim varijablama:

Pojam distribucije vjerojatnosti. Ovo je opis vjerojatnosti odabira člana populacije (tj. Skupa). Na primjer, ako uzmemo u obzir da jedno umrlo stanovništvo broji 6 članova: {1,2,3,4,5,6} Mogli bismo imati raspodjelu vjerojatnosti koja odgovara poštenom umiranju tako da svaki ima vjerojatnost 1/6 postojanja izabrao. Ako je riječ o pristranom umrijetu, tada, na primjer, raspodjela vjerojatnosti može biti P [6] = 5/6 P [1] = 0 i P [2] = P [3] = P [4] = P [5] = 1/24
 Pri tome je zbroj pojedinačnih ishoda 1.
Na slučajnu varijablu najbolje se misli najprije zaboravljajući na vjerojatnosti i razmišljajući o proizvoljnoj funkciji iz populacije, na primjer na realne brojeve. U primjeru die mogli bismo odabrati f (x) = x² sada, za razliku od funkcije raspodjele vjerojatnosti, odabrana funkcija nema ograničenja: pripadnici populacije ne moraju imati vrijednosti između 0 i 1, zbroj vrijednosti funkcije ne moraju zbrojiti do 1. Gdje ide "slučajna varijabla" kada je funkcija kombinirana s raspodjelom vjerojatnosti. Sada se raspodjela ne tretira samo kao odabir MEMBER populacije, već kao odabir VALUE funkcije u nasumičnom stilu, to jest umjesto vraćanja odabranog člana (npr. Rezultat bacanja matrice), vrijednost funkcije za tog člana je izvijestio (npr. kvadrat broja bačenog).

Srednja prosječna vrijednost s nasumičnim varijablama

S obzirom na populaciju, S, čiji su članovi uzorkovani prema raspodjeli, D. Srednja (očekivana) vrijednost slučajne varijable r (s) pod D označava se kao

To je jednostavno podatak da je očekivana vrijednost "ponderirana" suma (koja je preuzeta od svih članova, s, ukupnog stanovništva, S) od:

vjerojatnost da D odabere s pomnoženo s vrijednosti funkcije vraćene s r za s, tj. r (s). U nepristranim distribucijama

Nepristrane distribucije

U nepristranim distribucijama očekivana vrijednost je ukupan zbroj svih slučajnih varijabli podijeljenih s veličinom populacije:

Ovo je samo vaša tipična srednja vrijednost, ona koju učite u školi. Moj učitelj me naučio cool pjesmu kako bih se sjećao razlike između prosjeka, raspona, medijana itd.

Hey diddle diddle medijan je sredina koju dodamo i podijelimo za srednju vrijednost. Način je onaj koji najviše vidite, a raspon je razlika između!

Pretpostavimo da je S skup rezultata koji se mogu pojaviti kotrljanjem matrice 6000 puta.

Tada biste za „fer“ umrtvili očekivanje da ćete vidjeti svaki ishod 1000 puta.

Pretpostavimo da imamo igru ​​u kojoj igrači dijele £ 1, a ako umre na jednom od {1, 2, 3}, igrač nakon toga dobije £ 2, u protivnom gube svoj ulog. U fer igri igrač može očekivati ​​da će pobijediti 3/6 = 1/2 = polovinu vremena.

Ispitivanje povjerenja

Recimo da je hipoteza ishoda eksperimenta X, a stvarni ishod je Y.

Ishod Y je toliko daleko od predviđanja da je hipoteza lažna. To se naziva značenjem.

Nulta hipoteza kaže da će ishod biti X.

Značaj predstavlja da je vjerojatnost da je promatrani ishod "u skladu" s predviđenim ishodom.

Hipoteza se može „odbaciti“ s promatranim ishodima s tri rastuće razine povjerenja:

  1. Vjerojatnost koju X drži s Y je najviše 0,05 (značajno)
  2. Vjerojatnost koju X drži s obzirom da je Y rezultirala je najviše 0,01 (vrlo značajna)
  3. Vjerojatnost koju X drži s obzirom na to da je Y rezultirao je 0,001 (vrlo značajna)

Ovdje se mogu pojaviti dvije vrste pogrešaka:

Pogreška tipa 1 - Prava hipoteza je odbijena Pogreška tipa 2 - Prihvaćena je lažna hipoteza

Mjerenje značaja

Ishod događaja će se "približiti i približiti" očekivanoj vrijednosti može se izraziti formulom koja se zove odstupanje. Podsjetimo da je slučaj slučajne varijable u uzorku prostora:

Varijanta je samo:

"Koliko je odabrani član udaljen od očekivane varijable"

Zar to ne izgleda grozno? Pa, kad bismo stavili prvu formulu u to bi izgledalo:

Zar to ne izgleda kao najstrašnija formula ikad?

r (s) dio je slučajna varijabla, podskupina populacije. Dio je očekivana vrijednost slučajnog člana.

Varijanca uvijek daje negativnu vrijednost.

Standardno odstupanje je upravo ova formula, ukorijenjena u kvadrat.

Zapravo se češće piše kao:

Samo sam želio vidjeti kako formula može postati zamagljena.

Standardno odstupanje je samo:

"Koliko je daleko najveća (ili najmanja) točka podataka od prosjeka".

Q test

S obzirom na predviđeni ishod X, eksperimenta i stvarni ishod, Y. Ako znamo standardno odstupanje za okruženje u kojem je eksperiment postavljen, tada možemo izračunati vrijednost:

Ako je q> 0,01, X ima vjerojatnost u najboljem slučaju 0,05 ako je q> 2,33, tada X drži vjerojatnost u najboljem slučaju 0,01 Ako je q> 3,09, X ima vjerojatnost u najboljem slučaju 0,001

Ako vam se svidio ovaj članak, povežite se sa mnom!

LinkedIn | Twitter | Bilten