Vraag:
Waarom is meervoudige vergelijking een probleem?
AgCl
2010-08-09 23:03:54 UTC
view on stackexchange narkive permalink

Ik vind het moeilijk te begrijpen wat er werkelijk aan de hand is met meerdere vergelijkingen . Met een simpele analogie wordt gezegd dat iemand die veel beslissingen zal nemen, veel fouten zal maken. Er wordt dus een zeer conservatieve voorzorgsmaatregel toegepast, zoals de Bonferroni-correctie, om de kans dat deze persoon überhaupt een fout maakt, zo klein mogelijk te maken.

Maar waarom kan het ons schelen of de persoon überhaupt een fout heeft gemaakt tussen alle beslissingen die hij / zij heeft genomen, in plaats van het percentage van de verkeerde beslissingen?

Laat me proberen uit te leggen wat mij in de war brengt met een andere analogie. Stel dat er twee rechters zijn, de ene is 60 jaar oud en de andere is 20 jaar oud. Dan vertelt Bonferroni-correctie degene die 20 jaar oud is om zo conservatief mogelijk te zijn bij het beslissen voor executie, omdat hij nog vele jaren als rechter zal werken, veel meer beslissingen zal nemen, dus hij moet voorzichtig zijn. Maar degene van 60 jaar zal mogelijk binnenkort met pensioen gaan, zal minder beslissingen nemen, zodat hij onzorgvuldiger kan zijn in vergelijking met de ander. Maar eigenlijk moeten beide rechters even voorzichtig of conservatief zijn, ongeacht het totale aantal beslissingen dat ze zullen nemen. Ik denk dat deze analogie zich min of meer vertaalt naar de echte problemen waarbij Bonferroni-correctie wordt toegepast, wat ik contra-intuïtief vind.

niet echt een antwoord op uw vraag, maar bent u wel eens False Discovery Rates (FDR) tegengekomen? "Beyond Bonferroni" door Narum: http://www.springerlink.com/content/c5047h0084528056/
Vijf antwoorden:
#1
+40
John
2010-08-09 23:55:56 UTC
view on stackexchange narkive permalink

Je hebt iets gezegd dat een klassiek tegenargument is voor Bonferroni-correcties. Moet ik mijn alfacriterium niet aanpassen op basis van elke test die ik ooit zal maken? Dit soort ad absurdum implicaties is waarom sommige mensen helemaal niet in Bonferroni-stijlcorrecties geloven. Soms is het soort gegevens waarmee men in zijn carrière te maken heeft, zodanig dat dit geen probleem is. Voor rechters die één of heel weinig beslissingen nemen over elk nieuw bewijsstuk, is dit een zeer geldig argument. Maar hoe zit het met de rechter met 20 beklaagden en die zijn oordeel baseert op één grote set gegevens (bijv. Oorlogstribunalen)?

Je negeert de kicks in het blikgedeelte van het argument. Over het algemeen zijn wetenschappers op zoek naar iets - een p-waarde lager dan alfa. Elke poging om er een te vinden, is weer een schop tegen het blik. Je zult er uiteindelijk een vinden als je er genoeg foto's van maakt. Daarom zouden ze daarvoor gestraft moeten worden.

De manier waarop je deze twee argumenten harmoniseert, is door te beseffen dat ze allebei waar zijn. De eenvoudigste oplossing is om het testen van verschillen binnen een enkele dataset te beschouwen als een kick-off van het probleem, maar het uitbreiden van de correctie daarbuiten zou een gladde helling zijn.

Dit is een echt moeilijk probleem op een aantal gebieden, met name FMRI, waar duizenden datapunten worden vergeleken en er zullen er ongetwijfeld een aantal bij toeval als significant naar voren komen. Gezien het feit dat het veld historisch zeer verkennend is geweest, moet men iets doen om te corrigeren voor het feit dat honderden gebieden van de hersenen er puur door toeval significant zullen uitzien. Daarom zijn er op dat gebied veel methoden ontwikkeld om criteria aan te passen.

Aan de andere kant kan men in sommige velden hoogstens naar 3 tot 5 niveaus van een variabele kijken en altijd elke combinatie testen als er een significante ANOVA optreedt. Het is bekend dat dit enkele problemen heeft (type 1-fouten), maar het is niet bijzonder verschrikkelijk.

Het hangt af van uw standpunt. De FMRI-onderzoeker erkent een reële behoefte aan een criteriumverschuiving. De persoon die naar een kleine ANOVA kijkt, kan het gevoel hebben dat er duidelijk iets uit de test komt. Het juiste conservatieve standpunt over de meervoudige vergelijkingen is om er altijd iets aan te doen, maar alleen op basis van een enkele dataset. Alle nieuwe gegevens stellen het criterium opnieuw in ... tenzij je een Bayesiaan bent ...

Bedankt, het is erg nuttig geweest. Ik stem het op als ik genoeg rep heb.
De FMRI-onderzoeker zou waarschijnlijk ook het False Discovery Rate (FDR) -criterium gebruiken, omdat het alfa * 100% false positives garandeert gedurende een lange testperiode.
@John, Kunt u alstublieft deze vraag beantwoorden https://stats.stackexchange.com/questions/431011/should-i-correct-p-values-when-the-exact-same-dataset-is-not-being-used-for- Ik zou blij zijn, als je me alsjeblieft kunt helpen.
#2
+26
John D. Cook
2010-08-10 04:39:56 UTC
view on stackexchange narkive permalink

Gerespecteerde statistici hebben een breed scala aan standpunten ingenomen over meerdere vergelijkingen. Het is een subtiel onderwerp. Als iemand denkt dat het eenvoudig is, vraag ik me af hoeveel ze erover hebben nagedacht.

Hier is een interessant Bayesiaans perspectief op meerdere tests van Andrew Gelman: waarom we ons (meestal) geen zorgen maken over meerdere vergelijkingen.

Wat ik interessant vind aan dit artikel is dat het * perspectief * Bayesiaans is, maar de hiërarchische modelleringsbenadering die wordt aangeboden om correcties voor meerdere vergelijkingen te vervangen, vereist * niet * dat je Bayesiaans bent.
Ik keek net naar dat artikel; Ik denk dat er misschien meer moet worden geciteerd. Ik heb een hekel aan doorspoeleffecten omdat geavanceerde meervoudige vergelijkingstechnieken niet goed bekend of gemakkelijk te doen zijn. Een lichtere benadering is daarentegen doodeenvoudig. Ik vraag me af of er serieuze problemen mee zijn die overwogen moeten worden.
Maar zie de post van Gelman uit 2014 [In een van de vreselijke ironie van het leven schreef ik een paper "Waarom we (meestal) geen zorgen hoeven te maken over meerdere vergelijkingen", maar nu besteed ik veel tijd aan het zorgen maken over meerdere vergelijkingen] (http: //andrewgelman.com/2014/10/14/one-lifes-horrible-ironies-wrote-paper-usually-dont-worry-multiple-comparisons-now-spend-lots-time-worrying-multiple-comparisons/).
#3
+13
pmgjones
2010-08-10 03:18:23 UTC
view on stackexchange narkive permalink

Met betrekking tot de eerdere opmerking, moet de fMRI-onderzoeker onthouden dat het om klinisch belangrijke resultaten gaat, niet om de dichtheidsverschuiving van een enkele pixel op een fMRI van de hersenen. Als het niet leidt tot een klinische verbetering / nadeel, maakt het niet uit. Dat is een manier om de bezorgdheid over meervoudige vergelijkingen te verminderen.

Zie ook:

  1. Bauer, P. (1991). Meerdere testen in klinische onderzoeken. Stat Med, 10 (6), 871-89; discussie 889-90.
  2. Proschan, M. A. & Waclawiw, M. A. (2000). Praktische richtlijnen voor multipliciteitsaanpassing in klinische onderzoeken. Control Clin Trials, 21 (6), 527-39.
  3. Rothman, K. J. (1990). Er zijn geen aanpassingen nodig voor meerdere vergelijkingen. Epidemiology (Cambridge, Mass.), 1 (1), 43-6.
  4. Perneger, T. V. (1998). Wat is er mis met bonferroni-aanpassingen. BMJ (Clinical Research Ed.), 316 (7139), 1236-8.
Dit is ook zeker het vermelden waard: http://prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
Ik weet zeker dat ze veel plezier hebben gehad om een ​​dode zalm naar zijn emoties te vragen !!!
Dit bericht bevat ook nuttige referenties met betrekking tot RCT's: http://j.mp/bAgr1B.
#4
+10
robin girard
2010-08-10 02:18:01 UTC
view on stackexchange narkive permalink

Om ideeën op te lossen: ik zal het geval nemen wanneer u $ n $ onafhankelijke willekeurige variabelen $ (X_i) _ {i = 1, \ dots, n} $ zodanig dat voor $ i = 1, \ dots, n $ $ X_i $ is afkomstig van $ \ mathcal {N} (\ theta_i, 1) $ . Ik neem aan dat je wilt weten welke een niet-nulgemiddelde heeft, formeel wil je testen:

$ H_ {0i}: \ theta_i = 0 $ span> Vs $ H_ {1i}: \ theta_i \ neq 0 $

Definitie van een drempel: U heeft $ n $ beslissingen die u moet nemen en wellicht heeft u een ander doel. Voor een bepaalde test $ i $ ga je zeker een drempel kiezen $ \ tau_i $ en besluit je niet om $ H_ {0i} $ te accepteren als $ | X_i | > \ tau_i $ .

Verschillende opties: je moet de drempels kiezen $ \ tau_i $ en daarvoor heb je twee opties :

  1. kies dezelfde drempel voor iedereen

  2. om een andere drempel te kiezen voor iedereen (meestal een datawise drempel, zie hieronder).

Verschillende doelen: Deze opties kunnen worden aangestuurd voor verschillende doelen zoals

  • De kans beheersen om ten onrechte $ H_ {0i} $ te verwerpen of meer dan één $ i $ .

  • De verwachting van de valse al controleren arm ratio (of False Discovery Rate)

    Wat je doel ook is, het is een goed idee om een ​​datawise-drempel te gebruiken.

Mijn antwoord op uw vraag: uw intuïtie is gerelateerd aan de belangrijkste heuristiek voor het kiezen van een datawise-drempel. Het is het volgende (aan de oorsprong van Holm's procedure die krachtiger is dan Bonferoni):

Stel je voor dat je al een beslissing hebt genomen voor de $ p $ span> laagste $ | X_ {i} | $ en de beslissing is om $ H_ {0i} $ span te accepteren > voor hen allemaal. Dan hoeft u alleen $ np $ vergelijkingen te maken en hebt u geen enkel risico genomen om $ H_ {0i} $ te weigeren ten onrechte! Aangezien u uw budget niet heeft gebruikt, neemt u misschien wat meer risico voor de resterende test en kiest u een grotere drempel.

In het geval van uw juryleden: neem ik aan ( en ik denk dat je hetzelfde zou moeten doen) dat beide rechters dezelfde budgetten van valse beschuldigingen hebben voor hun leven. De 60-jarige rechter is misschien minder conservatief als hij in het verleden niemand beschuldigde! Maar als hij al veel beschuldigingen heeft geuit, zal hij conservatiever zijn en misschien zelfs meer dan de jongste rechter.

Ik denk dat je een typefout hebt in je hypothesen - ze lijken allebei hetzelfde te zijn ...
#5
+4
peuhp
2016-01-05 00:52:28 UTC
view on stackexchange narkive permalink

Een illustratief (en grappig) artikel ( http://www.jsur.org/ar/jsur_ben102010.pdf) over de noodzaak om te corrigeren voor meerdere tests in een praktisch onderzoek waarbij veel variabelen worden ontwikkeld, bijv. functionele MRI (fMRI). Dit korte citaat bevat het grootste deel van de boodschap:

"[...] we voltooiden een fMRI-scansessie met een post-mortem Atlantische zalm als onderwerp. De zalm kreeg de dezelfde taak voor het nemen van sociaal perspectief die later aan een groep menselijke proefpersonen werd uitgevoerd. "

dat is, naar mijn ervaring, een geweldig argument om gebruikers aan te moedigen om meerdere tests te gebruiken correcties.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...