Kriza replikacije, zlouporaba p-vrijednosti i kako ih izbjeći kao znanstvenika podataka

Replikacija i reproduktivnost su sada jedan od kamena temeljca znanstvenog napretka. Oni su potrebni iz područja ekonomije, sporta, politike, sociologije, psihologije, pa čak i medicine. Replikacija se vrši kako bi se potvrdio bilo koji zaključak bilo koje studije i objavila ponovljiva analiza. To je ključna i ključna komponenta koju treba koristiti od medicinskih časopisa do umjetne inteligencije. One ne samo da potvrđuju studije, nego i smanjuju rizik od loših odluka i neuspjeha skupih istraživanja / studija. Njegova pomoć tijekom časopisa publikacija i organizacijske odluke za podataka znanstvenik i vođe.

No, s nedavnim razvojem događaja od početka ovog desetljeća znanstvena je zajednica primijetila da u većini objavljenih studija postoji metodološki nedostatak. Lažni nalazi primarni su razlog i kriza u današnjoj znanstvenoj zajednici. Američka biotehnološka tvrtka AMGEN preuzela je 50 najboljih studija o raku objavljenih u vrhunskim časopisima i uspjela je ponoviti samo 11% rezultata. Ovo je jedan od najboljih primjera. A svi ti događaji ukazuju na sličnu krizu u objavljenim studijama i kovanja izraza “Kriza replikacije”. Prije nego što počnemo duboko zaroniti u krizu replikacije, dopustite mi da nešto pojasnim između replikacije i reprodukcije. Dopustite mi da citiram iz Plessarina rada, gdje ACM definira oba ova ključna termina kao:

Replicabilnost (različiti tim, ista eksperimentalna postavka): Mjerenje se može postići s točno određenom točnošću od strane drugog tima koristeći isti mjerni postupak, isti mjerni sustav, pod istim radnim uvjetima, na istom ili na drugom mjestu u više pokusa. Za računalne eksperimente, to znači da neovisna skupina može dobiti isti rezultat koristeći autorove vlastite artefakte.
Reproducibility (Različiti tim, različita eksperimentalna postavka): Mjerenje se može postići s točno određenom točnošću od strane drugog tima, drugačijeg mjernog sustava, na različitom mjestu u višestrukim ispitivanjima. Za računalne eksperimente to znači da nezavisna skupina može dobiti isti rezultat koristeći artefakte koje razvijaju potpuno neovisno.

Ali ako bolje pogledate, ponovljivost je samo još jedan skup eksperimentalnih postavki. Način generiranja i prikupljanja podataka je različit, ali u skladu s istim skupom rezultata koji su izvorno objavljeni. No, zbog tragova i proceduralnih pogrešaka u početnim istraživanjima, dopustili su da krvare ovu krizu ponovljivosti u ponovljivost. Stoga se gotovo svugdje redovito razmjenjuju kriza replikacije i kriza reproducibilnosti. Wikipedija definira krizu replikacije kao:

"Kriza replikacije (ili kriza ponavljanja ili kriza reproducibilnosti) je stalna (2019.) metodološka kriza koja prvenstveno utječe na dijelove društvenih i životnih znanosti u kojima su znanstvenici otkrili da je rezultate mnogih znanstvenih studija teško ili nemoguće ponoviti ili reproducirati naknadne istrage, bilo od strane neovisnih istraživača ili od samih izvornih istraživača. ”
xkcd zna!

Kao Data Scientist treba biti svjestan razloga krize replikacije koja potencijalno može uništiti vaše modele i studije. Definitivno postoji rizik i mogućnost pogreške u svakoj studiji koju obavlja znanstvenik. Ne treba se bojati priznavanja pogrešaka i identificiranja onoga što je pošlo po zlu u njihovoj objavi. Ovih dana, dok radite i financiraju ih veliki brandovi / imena, postoji veliki broj beskrupuloznih istraživača. Oni su više zabrinuti pažnjom / sjajnim naslovima nego dobrom znanošću. Znanstvenik koji se bavi podacima može upasti u ovaj prostor ako je pristran prema određenom skupu rezultata, što bi moglo biti prvi naslov među njegovim vršnjacima. Svatko od njih bi ga trebao zadržati u svom umu da im ni jedna analiza neće pomoći da pronađu jedinstvenu istinu. Za zaključak su potrebne višestruke iteracije i / ili obnovljivost.

Identificirajte svoje rezultate

Kako znamo da li je studija izvedena osrednje ili slabije? Znanstvenici koji se bave podacima trebaju se pobrinuti za nekoliko važnih rezultata dok se umnožava / reproducira. Slijede ključni razlozi zbog kojih replicirane / reproducirane studije mogu pogriješiti za znanstvenika s podacima:

  • Tijekom replikacije studije ne uspijevaju pronaći učinak koji je bio naveden u ranijoj studiji.
  • Otkriveno je novo istraživanje koje nije spomenuto u ranijim studijama.
  • Dokazi koji podupiru učinak bili su slabiji od onih koje su tvrdili istraživači.
  • Precjenjivanje izvedbe modela zbog slučajnosti podataka
  • Pronašao je manji učinak od onog u izvornoj studiji, a razlika je bila materijalna.
  • Našli su veći učinak od onog u izvornoj studiji, a razlika je bila materijalna.

Provjerite kvalitetu studija

Repliciranje rezultata i pronalaženje problema u studijama ne bi trebali biti naš prvi korak. Moramo biti oprezni dok dizajniramo naše eksperimentalne studije. Možete prepoznati niske ili osrednje studije uz neke važne provjere. To vam može reći kakva je kvaliteta studija i odgovornost autora. Postoje brojne provjere koje sam pregledao i svodio sam se na nekoliko važnih:

  • Kada podatkovni znanstvenici ne znaju kako su došli do te točke u analizi i / ili ne dijele svoju studijsku metodu dokumenta.
  • Oni ne nabrajaju sve podatke koje su pokrili i / ili točke koje su isključili
  • Nemojte na koji model su trčali da bi pronašli statističke dokaze.
  • Pogreške u programiranju ili izvješćivanju.
  • Slabo osmišljeni eksperimenti, koji uključuju curenje podataka.
  • p-vrijednosti nisu dobro shvaćene.

Vidjeli smo kako Replikacija / Reprodukcija dopušta uklanjanje lažnih značajnih događaja. I potresli smo točke koje nam zapravo mogu pomoći da odbacimo loše studije i identificiramo loše ili osrednje studije. Ali što ako počnemo vlastitu studiju, gradimo modele i budemo sigurni da činimo najbolje što možemo. Goodman i ostali u svom radu, Što znači istraživanje ponovljivosti znači ?, pokrenuo je dijalog za "Novi leksikon za reproduktivnost istraživanja". Smatrao sam da je fascinantno jer njihova metodologija čini autora odgovornim za njihove postupke i također pruža neke od spomenutih nekoliko razlika koje utječu na pristup reproduktivnosti u različitim znanstvenim domenama, kao što je stupanj determinizma, omjer signala i mjerenja-pogreška, svrhe na koje nalazi bit će postavljeni, blizina podudarnosti između hipoteza i eksperimentalnog dizajna ili podataka, posljedica pogrešnih zaključaka itd. Spomenuli su nekoliko važnih aspekata održavanja vašeg rada Reproducible. Postoje 3 glavne kategorije i 1 mala kategorija reproducibilnosti o kojima moramo voditi računa tijekom rada na bilo kojem eksperimentu:

  1. Metode reproducibilnosti imaju za cilj obuhvatiti izvorno značenje reproducibilnosti, tj. Sposobnost da se, što je moguće više, provedu eksperimentalne i računalne procedure, s istim podacima i alatima, da se dobiju isti rezultati. Znanstvenici moraju biti oprezni pri projektiranju toka podataka ili cjevovoda za operacije. I zadržite izvor i metodologiju dobro dokumentirane.
  2. Reproduktivnost rezultata odnosi se na ono što je prethodno opisano kao "replikacija", tj. Dobivanje istih rezultata iz provedbe neovisne studije čije su procedure jednako usklađene s originalnim eksperimentom.
  3. Robusnost i generalizacija [manje]: Robusnost se odnosi na stabilnost eksperimentalnih zaključaka na varijacije u osnovnim pretpostavkama ili eksperimentalnim postupcima. To je donekle povezano s konceptom generalisabilnosti (također poznatim kao prenosivost), koji se odnosi na postojanost učinka u postavkama različitima od i izvan eksperimentalnog okvira. Na primjer, moje osnovne vrijednosti za omjer razmjene valuta mogle bi se mijenjati tijekom dva odvojena razdoblja, ali bi trebalo savršeno raditi za generalizirane modele iz kvantitativne ekonomije.
  4. Inferencijska reproducibilnost, koja se često ne prepoznaje kao poseban koncept, je stvaranje tvrdnji o znanju slične snage iz replikacije ili ponovne analize istraživanja. To nije identično reproducibilnosti rezultata, jer svi istraživači neće izvući iste zaključke iz istih rezultata, ili mogu napraviti različite analitičke izbore koji dovode do različitih zaključaka iz istih podataka.

Kriza replikacije izaziva mnogo istraživanja, radnih sati, investicija i odluka koje su se dogodile u posljednjih nekoliko godina. Replikacija je izbjegnuta jer se njezina skupe vrijednosti i vrijednosti ne podučavaju u akademskim krugovima. No, trebali bismo također razgovarati o važnosti replikacije u znanstvenoj zajednici i zašto ona može izgraditi povjerenje i držati autore / znanstvenike odgovornijima. Ključne točke koje treba imati na umu kako bi se izbjegla kriza replikacije bila bi:

  • Iako je skupa, trebamo često izvoditi replikaciju.
  • Trebamo objaviti više NULL rezultata, koji ne podupiru hipoteze tako da se hakiranje može izbjeći.
  • Tijekom objavljivanja podataka moramo dijeliti podatke s javnošću kako bi se podaci mogli proučavati i predložiti ispravke.
  • ASA, American Statistical Association predložio ispravnu uporabu p-vrijednosti, koje ću pokriti u dijelu-II.

Do tada, prepuštam vam sve znanstvenike za podatke da budete odgovorni i temeljiti s podacima. I budite nepristrani prema rezultatima.