Vraag:
Zijn grote datasets ongeschikt voor het testen van hypothesen?
Carlos Accioly
2010-09-09 23:21:30 UTC
view on stackexchange narkive permalink

In een recent artikel van Amstat News verklaarden de auteurs (Mark van der Laan en Sherri Rose): "We weten dat voor steekproefgroottes die groot genoeg zijn, elke studie - inclusief degenen waarin de nulhypothese van geen effect waar is - zal een statistisch significant effect aangeven. ".

Nou, dat wist ik in ieder geval niet. Is dit waar? Betekent dit dat het testen van hypothesen waardeloos is voor grote gegevenssets?

+1: deze vraag legt meestal een aantal interessante standpunten bloot.
Meer discussie over grote datasets verschijnt op http://stats.stackexchange.com/q/7815/919. (De focus ligt daar op regressiemodellering.)
[gerelateerde thread] (http://stats.stackexchange.com/questions/162143/is-this-really-how-p-values-work-can-a-million-research-papers-per-year-be-base)?
Als een grote steekproef je doet denken dat het testen van hypothesen de verkeerde tool was, dan beantwoordde het testen van hypothesen ook niet de juiste vraag bij kleinere steekproeven - dat het fout was, werd gewoon meer * voor de hand liggend * bij grote steekproeven, maar dezelfde overwegingenzijn relevant.Als een significant resultaat bij een zeer kleine effectgrootte je doet zeggen "nou, dat is niet wat ik wilde, ik wilde dat het me vertelde of het belangrijk was", dan was het testen van hypothesen gewoon het verkeerde instrument om mee te beginnen.Er zijn geschiktere tools (bijv. Betrouwbaarheidsintervallen, gelijkwaardigheidstests, enz.) Voor dat soort problemen.
Zestien antwoorden:
#1
+102
John
2010-09-09 23:59:37 UTC
view on stackexchange narkive permalink

Het is niet waar. Als de nulhypothese waar is, zal deze niet vaker worden verworpen bij grote steekproeven dan bij kleine. Er is een foutief afwijzingspercentage dat gewoonlijk wordt ingesteld op 0,05 (alfa), maar dit is onafhankelijk van de steekproefomvang. Daarom is de bewering letterlijk genomen onjuist. Desalniettemin is het mogelijk dat in sommige situaties (zelfs hele velden) alle nullen onwaar zijn en daarom worden ze allemaal geweigerd als N hoog genoeg is. Maar is dit een slechte zaak?

Wat waar is, is dat triviaal kleine effecten "significant" blijken te zijn bij zeer grote steekproeven. Dat wil niet zeggen dat u niet zulke grote steekproeven zou moeten hebben. Het betekent dat de manier waarop u uw bevinding interpreteert afhankelijk is van de effectgrootte en gevoeligheid van de test. Als je een zeer kleine effectgrootte en een zeer gevoelige test hebt, moet je erkennen dat de statistisch significante bevinding misschien niet zinvol of nuttig is.

Aangezien sommige mensen niet geloven dat een test van de nulhypothese, wanneer de nulwaarde waar is, altijd een foutpercentage heeft dat gelijk is aan het afkappunt dat is geselecteerd voor elke steekproefomvang, hier is een eenvoudige simulatie in R die het punt bewijst. Maak N zo groot als je wilt en het aantal Type I-fouten blijft constant.

  # aantal proefpersonen in elke conditien <- 100 # aantal replicaties van het onderzoek om de Type I-fout ratensamp <- 10000ps <- replicate (nsamp, {#population mean = 0, sd = 1 voor beide samples, daarom geen echt effect y1 <- rnorm (n, 0, 1) y2 <- rnorm (n, 0, 1) tt <- t.test (y1, y2, var.equal = TRUE) tt $ p.value}) som (ps < .05) / nsamp # ~ .05 ongeacht hoe groot n is. Merk in het bijzonder op dat het niet altijd een toenemende waarde is om effecten te vinden als n erg groot is.  
+1: inderdaad, alle drie de antwoorden hier zijn logisch consistent met elkaar.
Eindelijk heb ik een ontmaskering gevonden van iets dat een (niet-statistiek) professor me lang geleden vertelde.
De artikelverklaring is correct, John's antwoord dat ik wil verschillen, loopt uiteen.P-waarden zijn duidelijk afhankelijk van de steekproefomvang.Hoe groter de steekproefomvang, hoe kleiner de standaardfout, hoe groter de t-waarde, hoe kleiner de P-waarde.Dat is de eenvoudige rekenkunde van het testen van hypothesen.John erkent precies dat (en spreekt zichzelf tegen) in het begin van zijn tweede alinea.Vervolgens gaat hij verder met Effectgrootte die onafhankelijk is van de steekproefomvang.En verwart het laatste met het testen van standaardhypothesen gericht op statistische significantie.
@Sympa, nr.Alleen omdat SE omlaag gaat als N omhoog gaat, wil nog niet zeggen dat je altijd een effect zult vinden met een grote N (zie simulatie).Houd er rekening mee dat naarmate de SE daalt, de kwaliteit van de schatting van het effect toeneemt.Als er geen populatie-effect is, is de kans veel groter dat het dicht bij 0 ligt en geen verschil laat zien.In feite is de verdeling van p-waarden vlak, ongeacht de steekproefomvang, wanneer de nulwaarde waar is (schrijf daarvoor uw eigen simulatie).Er is geen tegenstrijdigheid in het antwoord.
@John, die een simulatie combineert met een groot aantal proeven met een hypothesetestoefening, kan de resultaten vertroebelen.Uw simulatiekader is anders dan empirische hypothesetestoefeningen (klinische onderzoeken, enz.).Onder verwijzing naar het artikel "We weten dat voor steekproefomvang die groot genoeg is, elke studie - ook die waarin de nulhypothese van geen effect waar is - een statistisch significant effect zal aangeven."En ik blijf bij de auteurs, aangezien hun bevindingen gemakkelijk kunnen worden aangetoond met de relevante statistische methode (zoals ik hierboven heb aangegeven).
Dan heb je het mis.U kunt overwegen om ook de andere antwoorden hier te lezen.Aangezien je de relatie tussen de simulatie en het testen van hypothesen niet kunt volgen, kan ik alleen maar wijzen op je primaire bewering dat als de standaardfout afneemt, t omhoog gaat en p omlaag gaat.Dit is alleen waar als het effect constant blijft.Maar het effect is een willekeurige steekproef en als het werkelijke effect 0 is, zal het waargenomen effect naarmate N toeneemt, meestal afnemen.Daarom, hoewel, als N toeneemt SE daalt, het de t-waarden niet zal verhogen, omdat de teller in de t-waarde ook lager zal zijn.
@John Alles wat je zei lijkt me zo duidelijk dat ik nog steeds niet begrijp waar de mantra 'alles wordt significant' vandaan komt.Ik mis waarschijnlijk iets ... het zou leuk zijn om meer opmerkingen te lezen van gebruikers die het hier niet mee eens zijn
@Dambo Ik weet niet in alle gevallen waar het vandaan komt en het volledige antwoord zou te lang zijn voor een opmerking.Maar het korte antwoord kan zijn dat in velden waar de meeste manipulaties enig effect genereren, hoe triviaal ook, zeer grote N's elk effect met een zeer hoge snelheid significant zullen maken.Maar dat is alleen omdat het echte effect nooit precies 0 was, maar het was klein en niet typisch significant bij kleine Ns.(Ik hoop dat dit een ernstig probleem aan het licht brengt met significantietests voor u, zowel voor niet-significante als significante bevindingen.)
Is dit niet allemaal een kwestie van type I-fout versus type II-fout (of macht)?U stelt terecht dat als iemand de foutkans van type I ($ \ alpha $) op 0,05 repareert, het uiteraard 0,05 zal zijn, ongeacht of de steekproef groot is of niet.Maar voor een gegeven type I-foutkans is 0,05, bijv. Het vermogen, of de kans dat u het effect zult detecteren wanneer het er is, groter voor grote steekproeven.
Dit antwoord is echt goed, maar technisch gezien kunnen getallen die worden geretourneerd door `rnorm (n, 0, 1)` geen normale verdeling hebben!Dit komt doordat de normale distributie een continue distributie is, waarvan de kans op het produceren van een rationaal getal 0 is. Aangezien het echter onmogelijk is om een willekeurig irrationeel getal op uw computer op te slaan, retourneert 'rnorm' alleen rationale getallen.Dit impliceert het feit dat, gegeven een (waanzinnig) grote `n`, alle tests uiteindelijk zullen worden afgewezen.Wat ik aan je antwoord probeer toe te voegen, is dat voorbeelden uit de echte wereld verschillen van theoretische.
Het feit dat rnorm geen irrationeel getal kan produceren, is in het voorbeeld niet relevant.Zelfs als het niet precies normaal is vanaf een gemiddelde van 0 en sd van 1, is het hetzelfde, niet normaal voor beide monsters.Het Type I-foutpercentage is misschien iets lager dan 0,05, maar het zou constant moeten blijven, ongeacht N. En het is niet waar voor alle simulaties, aangezien ik een discrete had kunnen kiezen waar dit geen probleem is.(Als je echt een esoterische kwestie wilde aankaarten, dan had je pseudo-willekeurigheid moeten aanpakken.)
#2
+33
whuber
2010-09-10 00:42:27 UTC
view on stackexchange narkive permalink

Ik ben het eens met de antwoorden die zijn verschenen, maar zou eraan willen toevoegen dat de vraag misschien kan worden omgeleid. Of een hypothese moet worden getest of niet, is een onderzoeksvraag die, althans in het algemeen, onafhankelijk zou moeten zijn van de hoeveelheid gegevens die men heeft. Als u een hypothese echt moet testen, doe dat dan en wees niet bang voor uw vermogen om kleine effecten te detecteren. Maar vraag eerst of dat deel uitmaakt van uw onderzoeksdoelstellingen.

Nu voor een aantal vragen:

  • Sommige nulhypothesen zijn absoluut waar door constructie. Als je bijvoorbeeld een pseudowillekeurige nummergenerator test voor equidistributie, en die PRG is echt gelijk verdeeld (wat een wiskundige stelling zou zijn), dan geldt de nul. Waarschijnlijk kunnen de meesten van jullie interessantere voorbeelden uit de echte wereld bedenken die voortkomen uit randomisatie in experimenten waarbij de behandeling echt geen effect heeft. (Ik zou de hele literatuur over esp als voorbeeld willen geven. ;-)

  • In een situatie waarin een "simpele" null wordt getest tegen een "samengesteld" alternatief, zoals in klassieke t-tests of z-tests is meestal een steekproefgrootte nodig die evenredig is met $ 1 / \ epsilon ^ 2 $ om een ​​effectgrootte van $ \ epsilon $ te detecteren. Hier is in elke studie een praktische bovengrens aan verbonden, wat impliceert dat er een praktische ondergrens is voor een detecteerbare effectgrootte. Dus in theorie hebben der Laan en Rose gelijk, maar we moeten voorzichtig zijn bij het toepassen van hun conclusie.

Is dit niet allemaal een kwestie van type I-fout versus type II-fout (of macht)?Als iemand de foutkans van type I ($ \ alpha $) op 0,05 repareert, dan is het uiteraard (behalve in het discrete geval) 0,05, ongeacht of de steekproef groot is of niet.Maar voor een gegeven type I-foutkans is 0,05, bijv. Het vermogen, of de kans dat u het effect zult detecteren wanneer het er is, groter voor grote steekproeven.
@fcop Uw opmerkingen, hoewel correct, lijken gericht te zijn op andere antwoorden.Ze missen het punt van deze, namelijk de suggestie dat niet alle statistische analyses hypothesetests hoeven te zijn.Type I- en II-fouten hebben alleen betekenis bij het uitvoeren van formele hypothesetests.
het OP verwijst naar een verklaring: `` We weten dat voor steekproefomvang die groot genoeg is, elke studie - ook die waarin de nulhypothese van geen effect waar is - een statistisch significant effect zal verklaren. '' Dus als je b.v.$ H_0: \ mu = 1 $ versus $ H_1: \ mu \ ne 1 $ dan is in grote steekproeven het vermogen zo hoog dat je zelfs kleine afwijkingen van 1 'detecteert'. Dus ik denk dat hun bewering niet juist is, maar dat vermogenin grote steekproeven kunt u zeer kleine verschillen detecteren.
@fcop Bedankt voor het uitleggen.Ik ben het eens met uw redenering: als de nulwaarde waar is, zullen zelfs grote studies door constructie een significant effect vinden met een kans die hoogstens gelijk is aan de grootte van hun test - dat wil zeggen dat ze waarschijnlijk geen significant effect zullen vinden.
#3
+23
Sympa
2010-09-17 09:11:53 UTC
view on stackexchange narkive permalink

Hypothesetesten die traditioneel gericht waren op p-waarden om statistische significantie af te leiden wanneer alfa kleiner is dan 0,05, hebben een grote zwakte. En dat is dat met een steekproef die groot genoeg is, elk experiment uiteindelijk de nulhypothese kan verwerpen en triviaal kleine verschillen kan detecteren die statistisch significant blijken te zijn.

Dit is de reden waarom farmaceutische bedrijven klinische onderzoeken zo structureren verkrijg FDA-goedkeuring met zeer grote monsters. De grote steekproef zal de standaardfout terugbrengen tot bijna nul. Dit zal op zijn beurt de t-stat kunstmatig verhogen en de p-waarde evenredig verlagen tot bijna 0%.

Ik begrijp dat binnen wetenschappelijke gemeenschappen die niet worden aangetast door economische prikkels en gerelateerde belangenconflicten, hypothesetesten steeds meer p-waardemetingen naar effectgrootte-metingen gaan. Dit komt doordat de eenheid van statistische afstand of differentiatie in Effect Size-analyse de standaarddeviatie is in plaats van de standaardfout. En de standaarddeviatie is volledig onafhankelijk van de steekproefomvang. De standaardfout is daarentegen volledig afhankelijk van de steekproefomvang.

Dus iedereen die sceptisch is over het testen van hypotheses die statistisch significante resultaten bereikt op basis van grote steekproeven en p-waarde gerelateerde methodologieën, heeft gelijk als hij sceptisch is. Ze moeten de analyse opnieuw uitvoeren met dezelfde gegevens, maar in plaats daarvan met statistische tests van Effect Size. En kijk vervolgens of de effectgrootte als materieel wordt beschouwd of niet. Door dit te doen, zou je kunnen zien dat een aantal verschillen die statistisch significant zijn, verband houden met de effectgrootte die niet van belang zijn. Dat is wat onderzoekers van klinische proeven soms bedoelen wanneer een resultaat statistisch significant is, maar niet "klinisch significant". Ze bedoelen daarmee dat één behandeling misschien beter is dan placebo, maar het verschil is zo marginaal dat het binnen een klinische context geen verschil zou maken voor de patiënt.

De grote steekproef van een persoon is de kleine steekproef van een ander. :)
Heb je toen niet de verkeerde vraag gesteld? Misschien moet het FDA-goedkeuringsproces een grotere winst ten opzichte van placebo specificeren (misschien gerelateerd aan de kosten van het medicijn, inclusief de bijwerkingen) in plaats van alleen statistische significantie te vereisen? Omdat er heel goed een echt verschil kan zijn, zij het erg klein, en dat verschil bleek statistisch significant te zijn, hoe klein het ook is.
De FDA vereist niet "alleen statistische significantie".Dat zou absurd zijn.Iedereen in de branche begrijpt wat "klinisch significant" betekent.De FDA weegt het statistische bewijs van * werkzaamheid * van het geneesmiddel, gemeten aan de hand van klinische eindpunten, zoals remissie, af tegen gezondheids- en veiligheidsproblemen.Lees de FDA-richtlijnen voordat u ongegronde beweringen doet.
#4
+16
Brett
2010-09-10 08:51:13 UTC
view on stackexchange narkive permalink

Een (frequentistische) hypothesetest, precies, richt zich op de vraag naar de waarschijnlijkheid van de geobserveerde gegevens of iets extremers zou waarschijnlijk zijn, ervan uitgaande dat de nulhypothese waar is. Deze interpretatie staat los van de steekproefomvang. Die interpretatie is geldig, ongeacht of de steekproef grootte 5 of 1.000.000 heeft.

Een belangrijk voorbehoud is dat de test alleen relevant is voor steekproeffouten. Eventuele meetfouten, bemonsteringsproblemen, dekking, gegevensinvoerfouten, enz. Vallen buiten het bereik van bemonsteringsfouten. Naarmate de steekproefomvang toeneemt, worden niet-steekproeffouten meer invloed, aangezien kleine afwijkingen aanzienlijke afwijkingen van het willekeurige steekproefmodel kunnen opleveren. Als gevolg hiervan worden significantietests minder nuttig.

Dit is geenszins een aanklacht tegen significantietests. We moeten echter voorzichtig zijn met onze toeschrijvingen. Een resultaat kan statistisch significant zijn. We moeten echter voorzichtig zijn met hoe we toeschrijvingen maken als de steekproefomvang groot is. Is dat verschil te wijten aan ons veronderstelde genereringsproces ten opzichte van een steekproeffout of is het het resultaat van een aantal mogelijke niet-steekproeffouten die de teststatistiek kunnen beïnvloeden (waar de statistiek geen rekening mee houdt)?

Een andere overweging bij grote steekproeven is de praktische betekenis van een resultaat. Een significante test zou een verschil kunnen suggereren (zelfs als we een niet-steekproeffout kunnen uitsluiten) dat in praktische zin triviaal is. Zelfs als dat resultaat onwaarschijnlijk is gezien het steekproefmodel, is het dan significant in de context van het probleem? Gegeven een voldoende grote steekproef, kan een verschil van enkele dollars voldoende zijn om een ​​resultaat te produceren dat statistisch significant is bij het vergelijken van het inkomen tussen twee groepen. Is dit belangrijk in een zinvolle zin? Statistische significantie is geen vervanging voor een goed oordeel en kennis van het onderwerp.

Even terzijde, de null is niet waar of onwaar. Het is een model. Het is een aanname. We gaan ervan uit dat de nulwaarde waar is en beoordelen onze steekproef in termen van die aanname. Als onze steekproef gezien deze veronderstelling onwaarschijnlijk is, stellen we meer vertrouwen in ons alternatief. De vraag stellen of een nul in de praktijk ooit waar is, is een misverstand over de logica van significantietesten.

Dit ondersteunt een argument voor toegenomen modelcomplexiteit naarmate de steekproefomvang groter wordt - in het grote steekproefgeval is de steekproeffout niet langer de dominante bron van onzekerheid. Dit is natuurlijk alleen "logisch" in een Bayesiaans raamwerk, dat naast steekproeffouten ook andere bronnen van onzekerheid toelaat.
#5
+13
Keith Winstein
2010-09-17 20:26:45 UTC
view on stackexchange narkive permalink

Een eenvoudig punt dat niet direct in een ander antwoord wordt genoemd, is dat het gewoon niet waar is dat "alle nulhypothesen onjuist zijn".

De eenvoudige hypothese dat een fysieke munt een kopkans heeft die exact gelijk is aan 0,5, oké , dat is niet waar.

Maar de samengestelde hypothese dat een fysieke munt een kopkans heeft die groter is dan 0,499 en kleiner dan 0,501 kan waar zijn. Als dat het geval is, zal geen enkele hypothesetest - ongeacht hoeveel coinflips erin gaan - deze hypothese kunnen verwerpen met een waarschijnlijkheid groter dan $ \ alpha $ (de tests zijn gebonden aan false positives).

De medische industrie toetst om deze reden voortdurend "non-inferioriteits" -hypothesen - bijv een nieuw kankermedicijn moet aantonen dat de kans op progressievrije overleving van de patiënt niet minder dan 3 procentpunten lager is dan die van een bestaand medicijn, op een bepaald betrouwbaarheidsniveau (de $ \ alpha $, meestal 0,05).

#6
+9
user603
2010-09-09 23:55:04 UTC
view on stackexchange narkive permalink

In zekere zin zijn [alle] vele nulhypothesen [altijd] onjuist (de groep mensen die in huizen met oneven nummers woont, verdient nooit precies hetzelfde gemiddeld als de groep mensen die in huizen woont met een even aantal).

In het frequentistische raamwerk is de vraag die wordt gesteld of het verschil in inkomen tussen de twee groepen groter is dan $ T _ {\ alpha} n ^ {- 0,5} $ (waarbij $ T _ {\ alpha } $ is het $ \ alpha $ kwantiel van de verdeling van de teststatistiek onder de nul). Het is duidelijk dat voor $ n $ grenzeloos groeien, deze band steeds gemakkelijker te doorbreken wordt.

Dit is geen gebrek aan statistische tests. Simpelweg een gevolg van het feit dat we zonder verdere informatie (een prior) hebben dat een groot aantal kleine inconsistenties met de nul als bewijs tegen de nul moet worden beschouwd. Hoe triviaal deze inconsistenties ook blijken te zijn.

In grote studies wordt het dan interessant om de kwestie opnieuw te formuleren als een bayesiaanse test, dwz je afvragen (bijvoorbeeld), wat is $ \ hat {P} (| \ bar {\ mu} _1- \ bar {\ mu} _2 | ^ 2> \ eta | \ eta, X) $.

Dat is raar ... intuïtief lijkt dit in tegenspraak met de wet van grote getallen.
Carlos:> kun je specifieker zijn?
De LLN stelt in feite dat hoe groter uw steekproef is, hoe beter deze de "echte" kansverdeling weergeeft. In uw voorbeeld geldt: hoe meer huisnummers ik bekijk, hoe dichter bij de 50% het aantal oneven genummerde huizen zal zijn. Het klinkt dus raar dat het gemakkelijker voor je wordt om door de band te breken, aangezien deze krimpt in verhouding tot de vierkantswortel van $ n $. (Ben ik hier logisch?)
@Carlos - maar convergentie betekent niet gelijkheid; dit is alleen gegarandeerd voor een onbereikbare limiet van oneindigheid. Er is dus geen tegenspraak ;-)
Het even / oneven huisnummervoorbeeld zou heel echt kunnen zijn.Vaak delen alle huizen aan dezelfde kant van de straat pariteit.De ene kant zou dicht bij het strand kunnen zijn ...
#7
+5
gappy
2010-09-17 10:49:35 UTC
view on stackexchange narkive permalink

Het korte antwoord is "nee". Onderzoek naar het testen van hypothesen in het asymptotische regime van oneindige waarnemingen en meerdere hypothesen is de afgelopen 15-20 jaar zeer, zeer actief geweest vanwege microarray-gegevens en financiële datatoepassingen. Het lange antwoord staat op de cursuspagina van Stat 329, "Grootschalige gelijktijdige inferentie", die in 2010 werd gegeven door Brad Efron. Een volledig hoofdstuk is gewijd aan het testen van hypothesen op grote schaal.

Ik geloof dat het boek van Efron zich concentreert op een groot aantal variabelen (en de resulterende meerdere testproblemen die zich voordoen), niet op de steekproefomvang.
#8
+5
Zen
2016-05-27 01:00:53 UTC
view on stackexchange narkive permalink

"Betekent dit dat het testen van hypothesen waardeloos is voor grote gegevenssets?"

Nee, dat betekent dat niet. De algemene boodschap is dat beslissingen die worden genomen na het uitvoeren van een hypothesetest altijd rekening moet houden met de geschatte effectgrootte en niet alleen met de p-waarde. Vooral bij experimenten met zeer grote steekproeven wordt deze noodzaak om rekening te houden met de effectgrootte dramatisch. Over het algemeen vinden gebruikers dit natuurlijk niet prettig omdat de procedure minder "automatisch" wordt.

Beschouw dit simulatievoorbeeld eens. Stel dat je een willekeurige steekproef hebt van 1 miljoen waarnemingen uit een standaard normale verdeling,

  n <- 10 ^ 6x <- rnorm (n)  

en nog een willekeurige steekproef van 1 miljoen waarnemingen van een normale verdeling met een gemiddelde gelijk aan $ 0,01 $ en een variantie gelijk aan één.

  y <- rnorm (n, mean = 0.01)  

Als we de gemiddelden van de twee populaties vergelijken met een t-test op het canonieke $ 95 \% $ betrouwbaarheidsniveau, krijgen we een kleine p-waarde van ongeveer $ 2,5 \ maal 10 ^ {- 14} $.

  t.test (x, y) Welch Two Sample t-testdata: x en yt = -7.6218, df = 1999984, p-waarde = 2.503e-14 alternatieve hypothese: echt verschil in gemiddelden is niet gelijk tot 095 procent betrouwbaarheidsinterval: -0,013554059 -0,008009031 voorbeeldschattingen: gemiddelde van x gemiddelde van y 0,0008947038 0,0116762485  

Het is correct om te zeggen dat de t-test heeft 'gedetecteerd' dat de gemiddelden van de twee populaties zijn verschillend. Maar kijk eens naar het zeer korte betrouwbaarheidsinterval van $ 95 \% $ voor het verschil tussen de twee populatiegemiddelden: $ [- 0,013, -0,008] $.

Is een verschil tussen de twee populatiegemiddelden hiervan orde van grootte die relevant is voor het specifieke probleem dat we bestuderen of niet?

Ik ben het met alles in je antwoord eens, behalve die eerste zin, die ik zou veranderen in "Ja, dat betekent meestal dat", omdat bij grote samples van een miljoen of zo de effectgroottes ZO klein zijn.
Is dit niet allemaal een kwestie van type I-fout versus type II-fout (of macht)?Als iemand de foutkans van type I ($ \ alpha $) op 0,05 repareert, dan is het uiteraard (behalve in het discrete geval) 0,05, ongeacht of de steekproef groot is of niet.Maar voor een gegeven type I-foutkans is 0,05, bijv. Het vermogen, of de kans dat u het effect zult detecteren wanneer het er is, groter voor grote steekproeven.
#9
+4
Joris Meys
2010-09-10 15:03:14 UTC
view on stackexchange narkive permalink

Hypothesetests voor grote gegevens moeten rekening houden met het gewenste niveau van verschil, in plaats van of er een verschil is of niet. Je bent niet geïnteresseerd in de H0 dat de schatting precies 0 is. Een algemene benadering zou zijn om te testen of het verschil tussen de nulhypothese en de waargenomen waarde groter is dan een bepaalde afkapwaarde.

Een eenvoudig voorbeeld met de T-test: u kunt de volgende aannames doen voor grote steekproefgroottes, op voorwaarde dat u gelijke steekproefgrootten en standaarddeviaties heeft in beide groepen, en $ \ bar {X_1}> \ bar { X_2} $: $$ T = \ frac {\ bar {X1} - \ bar {X2} - \ delta} {\ sqrt {\ frac {S ^ 2} {n}}} + \ frac {\ delta} { \ sqrt {\ frac {S ^ 2} {n}}} \ approx N (\ frac {\ delta} {\ sqrt {\ frac {S ^ 2} {n}}}, 1) $$ vandaar $$ T = \ frac {\ bar {X1} - \ bar {X2}} {\ sqrt {\ frac {S ^ 2} {n}}} \ circa N (\ frac {\ delta} {\ sqrt {\ frac {S ^ 2} {n}}}, 1) $$

als uw nulhypothese $ H_0: \ bar {X1} - \ bar {X2} = \ delta $ impliceert:

$$ \ frac {\ bar {X1} - \ bar {X2} - \ delta} {\ sqrt {\ frac {S ^ 2} {n}}} \ ongeveer N (0,1) $$

Dit kunt u gemakkelijk gebruiken om te testen op een significant en relevant verschil. In R kun je gebruik maken van de niet-concentraliteitsparameter van de T-distributies om dit resultaat ook voor kleinere steekproefgroottes te generaliseren. Houd er rekening mee dat dit een eenzijdige test is, het alternatief $ H_A $ is $ \ bar {X1} - \ bar {X2}> \ delta $.

  mod.test <- functie (x1, x2, dif, ...) {gem. X1 <- gemiddelde (x1) gem. X2 <- gemiddelde (x2) sd.x1 <- sd (x1) sd.x2 <- sd (x2 ) sd.comb <- sqrt ((sd.x1 ^ 2 + sd.x2 ^ 2) / 2) n <- lengte (x1) t.val <- (abs (avg.x1-avg.x2)) * sqrt (n) /sd.comb ncp <- (dif * sqrt (n) /sd.comb) p.val <- pt (t.val, n-1, ncp = ncp, lower.tail = FALSE) return (p .val)} n <- 5000test1 <- replicate (100, t.test (rnorm (n), rnorm (n, 0.05)) $ p.value) tabel (test1<0.05) test2 <- replicate (100, t. test (rnorm (n), rnorm (n, 0,5)) $ p.value) tabel (test2<0.05) test3 <- repliceren (100,
mod.test (rnorm (n), rnorm (n, 0,05), dif = 0,3)) tabel (test3<0.05) test4 <- repliceren (100, mod.test (rnorm (n), rnorm (n, 0,5), dif = 0.3)) table (test4<0.05)  

Welke geeft:

  >-tabel (test1<0.05) FALSE TRUE 24 76 >-tabel (test2<0 .05) TRUE 100 >-tabel (test3<0.05) FALSE 100 >-tabel (test4<0.05) TRUE 100  
staat er geen typefout voor kopiëren en plakken in de eerste vergelijking?
Zie ik het niet?
#10
+3
probabilityislogic
2011-06-15 19:16:06 UTC
view on stackexchange narkive permalink

Ik denk dat het een probleem is van de meeste significantietests met een algemene ongedefinieerde klasse van impliciete alternatieven voor de nul, die we nooit weten. Vaak bevatten deze klassen een soort "zeker ding" -hypothese, waarin de gegevens perfect passen (dwz een hypothese in de vorm $ H_ {ST}: d_ {1} = 1,23, d_ {2} = 1,11, \ dots $ waar $ d_ {i} $ het ie datapunt is). De waarde van de log-likelihood is zo'n voorbeeld van een significantietest die deze eigenschap heeft.

Maar men is meestal niet geïnteresseerd in deze zekere hypothese. Als je nadenkt over wat je eigenlijk met de hypothesetest wilt doen, zul je al snel beseffen dat je de nulhypothese alleen moet verwerpen als je iets beters hebt om deze door te vervangen. Zelfs als je null de gegevens niet uitlegt, heeft het geen zin om deze weg te gooien, tenzij je een vervanger hebt. Zou u nu altijd de nul vervangen door de "zeker ding" -hypothese? Waarschijnlijk niet, omdat je deze "zeker ding" -hypothese niet kunt gebruiken om buiten je dataset te generaliseren. Het is niet veel meer dan het afdrukken van uw gegevens.

Wat u dus moet doen, is de hypothese specificeren die u daadwerkelijk zou willen volgen als ze waar zouden zijn. Voer vervolgens de juiste test uit om die alternatieven met elkaar te vergelijken - en niet met een of andere irrelevante klasse van hypotheses waarvan u weet dat deze onjuist of onbruikbaar is.

Neem het simpele geval van het testen van het normale gemiddelde. Nu is het echte verschil misschien klein, maar door een standpunt in te nemen dat vergelijkbaar is met dat in het antwoord van @ keith, testen we het gemiddelde eenvoudigweg op verschillende discrete waarden die voor ons van belang zijn. We kunnen bijvoorbeeld $ H_ {0}: \ mu = 0 $ vs $ H_ {1}: \ mu \ in \ {\ pm 1, \ pm 2, \ pm 3, \ pm 4, \ pm 5 hebben , \ pm 6 \} $. Het probleem gaat dan over op het kijken op welk niveau we deze tests willen doen. Dit houdt verband met het idee van effectgrootte: op welk niveau van korreligheid zou een invloed hebben op uw besluitvorming? Dit kan stappen van $ 0,5 $ of $ 100 $ of iets anders vereisen, afhankelijk van de betekenis van de test en van de parameters. Als u bijvoorbeeld het gemiddelde vermogen van twee groepen vergelijkt, zou het iemand dan iets kunnen schelen als er een verschil van twee dollar was, zelfs als het 10.000 standaardfouten verwijderd was van nul? Ik weet dat ik dat niet zou doen.

De conclusie is in feite dat u uw hypotheseruimte moet specificeren - de hypothese waarin u werkelijk geïnteresseerd bent. Het lijkt erop dat dit met big data een heel belangrijk ding wordt voor doen, simpelweg omdat uw gegevens zo veel oplossend vermogen hebben. Het lijkt er ook op dat het belangrijk is om een ​​hypothese te vergelijken - punt met punt, verbinding met verbinding - om goed gedragen resultaten te krijgen.

#11
+3
Horst Grünbusch
2013-08-01 16:58:41 UTC
view on stackexchange narkive permalink

Nee. Het is waar dat alle bruikbare punthypothesetests consistent zijn en dus een significant resultaat zullen opleveren als alleen de steekproefomvang groot genoeg is en er een irrelevant effect bestaat. Om dit nadeel van het testen van statistische hypotheses (al genoemd door het antwoord van Gaetan Lion hierboven) te ondervangen, zijn er relevantietests. Deze zijn vergelijkbaar met equivalentietests, maar komen nog minder vaak voor. Voor een relevantietoets wordt de grootte van een minimaal relevant effect vooraf gespecificeerd. Een relevantietest kan gebaseerd zijn op een betrouwbaarheidsinterval voor het effect: als het betrouwbaarheidsinterval en de relevantie-regio onsamenhangend zijn, kunt u de nul verwerpen.

Van der Laan en Rose gaan er echter in hun verklaring van uit dat zelfs echte nulhypothesen in studies worden getest. Als een nulhypothese waar is, is de kans om te verwerpen niet groter dan alfa, vooral in het geval van grote steekproeven en zelfs verkeerd gespecificeerd. Ik kan alleen zien dat de steekproefverdeling systematisch verschilt van de populatieverdeling,

#12
+3
Lucas Fortini
2016-10-04 05:11:19 UTC
view on stackexchange narkive permalink

Het artikel dat u noemt, heeft een geldig punt, voor zover het standaard frequentistische tests betreft. Daarom is het testen op een bepaalde effectgrootte erg belangrijk. Ter illustratie, hier is een anova tussen 3 groepen, waarbij groep B iets anders is dan groep A en C. probeer dit in r:

  treat_diff = 0.001 #grootte van behandeling differencens = c (10, 100, 1000, 10000, 100000, 1000000) #waarden voor steekproefomvang per beschouwde groepreps = 10 #aantal testherhalingen voor elke overwogen steekproef p_mat = data.frame (n = factor (), p = dubbel ()) #create empty dataframe voor outputsfor (n in ns) {#for elke steekproefomvang voor (i in c (1: reps)) {#repeat anova test 'reps' time treatA = data.frame (treatment = "A", val = rnorm ( n)) treatB = data.frame (treatment = "B", val = rnorm (n) + treat_diff) #dit is de groep waarvan de middelen enigszins verschillen van de andere groepen treatC = data.frame (treatment = "C" , val = rnorm (n)) all_treatment = rbind (treatA, treatB, treatC) treatment_aov = aov (val ~ behandeling, data = all_treatment) aov_summary = samenvatting (treatment_aov) p = aov_summary [[1]] [["Pr (>F ) "]] [1] temp_df = data.frame (n = n, p = p) p_mat = rbind (p_mat, temp_df)}} libr ary (ggplot2) p <- ggplot (p_mat, aes (factor (n), p)) p + geom_boxplot ()  

Zoals verwacht, met een groter aantal monsters per test, de statistische significantie van de test neemt toe: enter image description here

#13
+2
Andre Holzner
2010-09-09 23:42:49 UTC
view on stackexchange narkive permalink

Ik denk dat ze bedoelen dat men vaak een aanname doet over de waarschijnlijkheidsdichtheid van de nulhypothese die een 'simpele' vorm heeft maar niet overeenkomt met de werkelijke kansdichtheid.

Met kleine datasets heb je misschien niet genoeg gevoeligheid om dit effect te zien, maar met een voldoende grote dataset verwerp je de nulhypothese en concludeer je dat er een nieuw effect is in plaats van te concluderen dat je aanname over de nulhypothese is verkeerd.

Ik weet niet of Mark en Shern uw mening in gedachten hadden, maar alleen om uw punt opnieuw te formuleren: als het model voor de gegevens onder de nul 'fout' is, dan zult u de nulhypothese verwerpen voor gegevens die groot genoeg zijn.
#14
+1
user83346
2017-08-05 16:39:47 UTC
view on stackexchange narkive permalink

Is dit niet allemaal een kwestie van type I-fout versus type II-fout (of macht)?Als men de foutkans van type I ($ \ alpha $) op 0,05 vaststelt, dan is het uiteraard (behalve in het discrete geval) 0,05, of de steekproef nu groot is of niet.

Maar voor een gegeven type I foutkans, 0,05 bijv. de kracht, of de kans dat je het effect zult detecteren wanneer het er is (dus de kans om $ H_0 $ (= detecteer het effect) te verwerpen wanneer $ H_1 $waar is (= wanneer het effect er is)), is groter voor grote steekproeven.

Kracht neemt toe met de steekproefomvang (alle andere dingen gelijk).

Maar de bewering: "We weten dat voor steekproefgroottes die groot genoeg zijn, elke studie - ook die waarin de nulhypothese van geen effect waar is - een statistisch significant effect zal aangeven."is onjuist.

#15
  0
UserBI
2020-03-24 17:22:08 UTC
view on stackexchange narkive permalink

"We weten dat voor steekproefgroottes die groot genoeg zijn, elke studie - ook die waarin de nulhypothese van geen effect waar is - een statistisch significant effect zal aangeven".

Nou, in zekere zin zijn alle (de meeste) nulhypothesen onjuist.De parameter in kwestie moet gelijk zijn aan de hypothetische waarde tot een oneindig aantal decimalen, wat een absolute zeldzaamheid is.Het is dus zeer waarschijnlijk dat de test een statistisch significant effect zal aangeven naarmate de steekproefomvang toeneemt.

#16
-3
Joao Holz
2019-11-29 19:12:01 UTC
view on stackexchange narkive permalink

Dit is een criticus van Bayesiaanse gevolgtrekkingen, een andere manier om statistiek te bekijken (anders dan de frequentisten die iedereen leert in andere cursussen dan statistiek, leren we beide).

"De kritiek is dat je alles kunt bewijzen met een grote steekproef omdat het je een p-waarde geeft."

Daarom kijken we in VEEL andere statistieken, aic, f, rmse, anova ..... Geen van mijn professoren antwoordde me over hoe je dit ding moet leiden door gewoon "een steekproef te maken, zodat je dataset klein zal zijn en dit zal niet gebeuren" Maar daar ben ik niet blij mee, maar ik gebruik deze manier: /



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...