Vraag:
Is het aanpassen van p-waarden in een meervoudige regressie voor meervoudige vergelijkingen een goed idee?
Mikael M
2010-09-30 19:07:56 UTC
view on stackexchange narkive permalink

Laten we aannemen dat u een sociaalwetenschappelijk onderzoeker / econometrist bent die relevante voorspellers van de vraag naar een dienst probeert te vinden. Je hebt 2 uitkomst / afhankelijke variabelen die de vraag beschrijven (met behulp van de service ja / nee, en het aantal keren). Je hebt 10 voorspellende / onafhankelijke variabelen die theoretisch de vraag zouden kunnen verklaren (bijv. Leeftijd, geslacht, inkomen, prijs, ras, enz.). Het uitvoeren van twee afzonderlijke meervoudige regressies levert schattingen van 20 coëfficiënten en hun p-waarden op. Met voldoende onafhankelijke variabelen in je regressies zou je vroeg of laat tenminste één variabele vinden met een statistisch significante correlatie tussen de afhankelijke en onafhankelijke variabelen.

Mijn vraag: is het een goed idee om de p-waarden voor meerdere tests te corrigeren als ik alle onafhankelijke variabelen in de regressie wil opnemen? Alle verwijzingen naar eerder werk worden zeer op prijs gesteld.

hmmm ... interessant probleem - bivariate regressie met één variabele [soort van] continu en één dichotoom.De gebruikelijke MVN-regressietheorie zegt dat het doen van afzonderlijke regressies op elk van de twee bivariate normale responsen - en vervolgens de resultaten samenvoegt - de juiste analyse is - in de zin van gauss-markov van het minimaliseren van de vc-matrix van de regressieschatters onder alle zuivere lineaire schatters - enin het MVN-geval, onder alle zuivere schatters].is 'afzonderlijke regressie' nog steeds het beste wat men kan doen als één regressie logistiek is?[onbevooroordeeldheid lijkt in dat geval een beetje een uitdaging, behalve
Vijf antwoorden:
#1
+48
chl
2010-09-30 19:33:12 UTC
view on stackexchange narkive permalink

Het lijkt erop dat uw vraag meer in het algemeen betrekking heeft op het probleem van het identificeren van goede voorspellers. In dit geval zou je moeten overwegen om een ​​soort van bestrafte regressie te gebruiken (methoden die omgaan met variabele of feature selectie zijn ook relevant), bijvoorbeeld met bijvoorbeeld L1, L2 (of een combinatie daarvan, de zogenaamde elasticnet) straffen (zoek naar gerelateerde vragen op deze site, of de R bestrafte en elasticnet een> pakket, onder anderen).

Nu, over het corrigeren van p-waarden voor uw regressiecoëfficiënten (of equivalent uw gedeeltelijke correlatiecoëfficiënten) om u te beschermen tegen over-optimisme (bijv. met Bonferroni of, beter, step-down-methoden), het lijkt erop dat dit zou wees alleen relevant als u één model overweegt en die voorspellers zoekt die een aanzienlijk deel van de verklaarde variantie bijdragen, dat wil zeggen als u geen modelselectie uitvoert (met stapsgewijze selectie of hiërarchische tests). Dit artikel kan een goed begin zijn: Bonferroni-aanpassingen in tests voor regressiecoëfficiënten. Houd er rekening mee dat een dergelijke correctie u niet beschermt tegen multicollineariteitsproblemen, die de gerapporteerde p-waarden beïnvloeden.

Gezien uw gegevens, zou ik aanraden om een ​​soort iteratieve modelselectietechnieken te gebruiken. In R bijvoorbeeld, maakt de functie stepAIC het mogelijk om stapsgewijze modelselectie uit te voeren door exacte AIC. U kunt ook het relatieve belang van uw voorspellers schatten op basis van hun bijdrage aan $ R ^ 2 $ met behulp van boostrap (zie het relaimpo -pakket). Ik denk dat het meten van de grootte van het rapportage-effect of het percentage verklaarde variantie informatiever is dan de p-waarde, vooral in een bevestigingsmodel.

Opgemerkt moet worden dat stapsgewijze benaderingen ook hun nadelen hebben (bijv. Wald-tests zijn niet aangepast aan voorwaardelijke hypothesen zoals geïnduceerd door de stapsgewijze procedure), of zoals aangegeven door Frank Harrell op R-mailing, "stapsgewijze selectie van variabelen op basis van AIC heeft alle problemen van stapsgewijze selectie van variabelen op basis van P-waarden. AIC is slechts een herformulering van de P-waarde" (maar AIC blijft nuttig als de set voorspellers al is gedefinieerd); een gerelateerde vraag - Is een variabele significant in een lineair regressiemodel? - leverde interessante opmerkingen op (onder andere @Rob) over het gebruik van AIC voor variabeleselectie. Ik voeg aan het eind een aantal referenties toe (inclusief papers die ter beschikking zijn gesteld door @Stephan); er zijn ook veel andere verwijzingen op P.Mean.

Frank Harrell heeft een boek geschreven over Regressie Modellering Strategie dat veel discussie en adviezen over dit probleem bevat (§4.3, pp. 56-60). Hij ontwikkelde ook efficiënte R-routines om met gegeneraliseerde lineaire modellen om te gaan (zie de pakketten Design of rms). Dus ik denk dat je er zeker naar moet kijken (zijn hand-outs zijn beschikbaar op zijn homepage).

Referenties

  • Whittingham, MJ, Stephens, P, Bradbury, RB en Freckleton, RP (2006). Waarom gebruiken we nog steeds stapsgewijze modellering in ecologie en gedrag? Journal of Animal Ecology , 75 , 1182-1189.
  • Austin, PC (2008). Bootstrap-modelselectie had vergelijkbare prestaties voor het selecteren van authentieke variabelen en ruisvariabelen in vergelijking met eliminatie van achterwaartse variabelen: een simulatiestudie. Journal of Clinical Epidemiology , 61 (10) , 1009-1017.
  • Austin, PC en Tu, JV (2004). Geautomatiseerde variabelenselectiemethoden voor logistische regressie produceerden onstabiele modellen voor het voorspellen van de mortaliteit door acuut myocardinfarct. Journal of Clinical Epidemiology , 57 , 1138-1146.
  • Groenland, S (1994). Hiërarchische regressie voor epidemiologische analyses van meervoudige blootstellingen. Milieugezondheidsperspectieven , 102 (Suppl 8) , 33–39.
  • Groenland, S (2008). Meerdere vergelijkingen en associatieselectie in de algemene epidemiologie. International Journal of Epidemiology , 37 (3) , 430-434.
  • Beyene, J, Atenafu, EG, Hamid, JS, To, T , en Sung L (2009). Bepalen van het relatieve belang van variabelen bij het ontwikkelen en valideren van voorspellende modellen. BMC Medical Research Methodology , 9 , 64.
  • Bursac, Z, Gauss, CH, Williams, DK, en Hosmer, DW (2008). Doelbewuste selectie van variabelen in logistische regressie. Broncode voor biologie en geneeskunde , 3 , 17.
  • Brombin, C, Finos, L, en Salmaso, L (2007). Stapsgewijze p-waarden aanpassen in gegeneraliseerde lineaire modellen. Internationale conferentie over meervoudige vergelijkingsprocedures . - zie step.adj () in het R someMTP -pakket.
  • Wiegand, RE (2010). Prestaties van het gebruik van meerdere stapsgewijze algoritmen voor variabeleselectie. Statistics in Medicine , 29 (15), 1647-1659.
  • Moons KG, Donders AR, Steyerberg EW en Harrell FE (2004). Bestrafte maximale waarschijnlijkheidsschatting om binaire uitkomsten te voorspellen. Journal of Clinical Epidemiology , 57 (12) , 1262-1270.
  • Tibshirani, R (1996). Regressiekrimp en selectie via de lasso. Journal of The Royal Statistical Society B , 58 (1) , 267–288.
  • Efron, B, Hastie, T, Johnstone, I, en Tibshirani, R (2004). Least Angle Regression. Annals of Statistics , 32 (2) , 407-499.
  • Flom, PL en Cassell, DL (2007). Stapsgewijs stoppen: waarom stapsgewijze en vergelijkbare selectiemethoden slecht zijn en wat u moet gebruiken. NESUG 2007 Proceedings .
  • Shtatland, E.S., Cain, E., en Barton, M.B. (2001). De gevaren van stapsgewijze logistieke regressie en hoe u eraan kunt ontsnappen met behulp van informatiecriteria en het Output Delivery System. SUGI 26 Proceedings (pp. 222–226).
  • Ik vind de downvote niet erg, maar een opmerking wordt op prijs gesteld (zodat ik mezelf kan leren, begrijpen wat er mis was en mijn toekomstige reacties verbeteren).
    +1, goed antwoord en ook de opmerking van chl over het achterlaten van een verklaring voor downvotes om zowel de auteur als de lezers te helpen begrijpen wat er mogelijk ontbreekt. Bedankt.
    Ik sluit me aan bij de aanbeveling van chl om een ​​soort van bestrafte regressie te gebruiken (bijvoorbeeld de lasso).
    @chl: Ik ben niet tevreden met het aanbevelen van stapsgewijze selectie van voorspellers. Meestal is dit gebaseerd op p-waarden ("sluit een voorspeller uit met p> .15, neem deze op als p <.05") en leidt het tot vertekende schattingen en slechte voorspellende prestaties (Whittingham et al., 2006, Why do we still still stapsgewijze modellering gebruiken in ecologie en gedrag? J Anim Ecol, 75, 1182-1189). AIC-gebaseerde stapsgewijze benaderingen hebben echter dezelfde zwakte - Frank Harrell besprak dit in een bericht op R-help op ma, 09 aug. 2010 16:34:19 -0500 (CDT) in de thread "Logistic Regression in R (SAS -) zoals output) ".
    Is er een manier om links in reacties op te nemen?
    @Stephan +1 Bedankt hiervoor. Ik ken het standpunt van Frank Harrell. Zijn boek is een ‘redding’ voor biostatistiek, evenals het meer recente boek van EW Steyerberg. Daarom verwees ik aan het einde van mijn antwoord naar zijn werk, ervan uitgaande dat de geïnteresseerde lezer op zoek zou gaan naar een meer grondige uitleg. Mijn eerste gedachte was om te wijzen op verschillende manieren om het probleem aan te pakken. Zoals Whuber het mooi opmerkte, is er ruimte voor verbetering in mijn reactie, vooral. met kruisvalidatie en conceptuele vraagstukken rond voorspellende modellen.
    @Stephan Het probleem is nu dat we vaak enkele variabelen in ons model willen behouden (ongeacht hun p-waarden), zoals @whuber zei; daarom heb ik voorgesteld om naar het "bestrafte" pakket van J Goeman te kijken, omdat het toelaat om slechts een subset van de covariaten te bestraffen. Uit mijn ervaring vond ik de resultaten van Lasso / Ridge-regressie een beetje moeilijk uit te leggen aan een extern publiek, vooral. wanneer gegevens niet echt krimp / regularisatie vereisen (bijv. "ideaal" geval met 500 onderwerpen en 10 variabelen, geen problemen met collineariteit of bemiddeling). Dus als we dingen simpel kunnen houden zonder te veel te passen ...
    #2
    +26
    whuber
    2010-09-30 20:53:07 UTC
    view on stackexchange narkive permalink

    Je kunt in hoge mate doen wat je wilt , op voorwaarde dat je genoeg willekeurige gegevens overhoudt om het model dat je bedenkt te testen op basis van de bewaarde gegevens. Een verdeling van 50% kan een goed idee zijn. Ja, je verliest enig vermogen om relaties te ontdekken, maar wat je wint is enorm; namelijk de mogelijkheid om uw werk te repliceren voordat het wordt gepubliceerd. Ongeacht hoe geavanceerd de statistische technieken die u toepast, u zult versteld staan ​​van het aantal "significante" voorspellers die uiteindelijk volledig nutteloos zijn wanneer ze worden toegepast op de bevestigingsgegevens.

    Houd ook in gedachten dat " relevant 'voor voorspelling betekent meer dan een lage p-waarde. Dat betekent tenslotte alleen dat het waarschijnlijk is dat een relatie die in deze specifieke dataset wordt gevonden, niet aan toeval is te wijten. Voor voorspelling is het eigenlijk belangrijker om de variabelen te vinden die een substantiële invloed uitoefenen op de voorspelling (zonder het model te overdrijven); dat wil zeggen, om de variabelen te vinden die waarschijnlijk 'echt' zijn en wanneer ze worden gevarieerd binnen een redelijk bereik van waarden (niet alleen de waarden die in uw steekproef kunnen voorkomen!), zorgt u ervoor dat de predictand variëren aanzienlijk. Als je hold-out-gegevens hebt om een ​​model te bevestigen, kun je het prettiger vinden om tijdelijk marginaal 'significante' variabelen vast te houden die misschien geen lage p-waarden hebben.

    Om deze redenen (en voortbouwend op het goede antwoord van chl ), hoewel ik stapsgewijze modellen, AIC-vergelijkingen en Bonferroni-correcties heel nuttig heb gevonden (vooral met honderden of duizenden mogelijke voorspellers in het spel), zouden dit niet de enige bepalende factoren moeten zijn van welke variabelen je model binnenkomen. Verlies ook de leidraad die de theorie biedt niet uit het oog: variabelen met een sterke theoretische rechtvaardiging om in een model te staan, moeten meestal worden bewaard, zelfs als ze niet significant zijn, op voorwaarde dat ze geen slecht geconditioneerde vergelijkingen creëren ( bijv. , collineariteit).

    NB : nadat u een model heeft gekozen en het nut ervan heeft bevestigd met de hold-out-gegevens, is het prima om de bewaarde gegevens opnieuw te combineren met de hold-out-gegevens voor een definitieve schatting. Er gaat dus niets verloren in termen van de precisie waarmee u modelcoëfficiënten kunt schatten.

    Bedankt! Als u geen toegang heeft tot de originele gegevens, maar alleen een tabel met regressiecoëfficiënten, is de Bonferroni-aanpassing dan uw enige keuze?
    Vermoedelijk heb je ook de p-waarden :-). Maar met alleen die en de coëfficiënten is het moeilijk voor te stellen wat je anders zou kunnen doen dan een Bonferroni-aanpassing. (Ik maak altijd zo'n aanpassing wanneer ik een paper lees met meerdere tests: het is een snelle manier om de resultaten eruit te halen die waarschijnlijk rommel zijn.) De meeste mensen geven ook samenvattende statistieken voor de variabelen: je kunt ook bereiken of sds gebruiken samen met de coëfficiënten om te schatten hoeveel effect elke verklarende variabele kan hebben op de voorspelling.
    Bedankt voor je uitleg, vooral. op kruisvalidatie. Ik waardeer je laatste argument, namelijk dat we ook moeten zoeken naar theoretische relevantie (voorbij p-waarden).
    #3
    +19
    Brenden
    2010-10-05 01:40:31 UTC
    view on stackexchange narkive permalink

    Ik denk dat dit een heel goede vraag is; het raakt de kern van het omstreden "probleem" van meervoudige testen dat gebieden teistert die variëren van epidemiologie tot econometrie. Hoe kunnen we tenslotte weten of de betekenis die we vinden onecht is of niet? Hoe waar is ons multivariabele model?

    In termen van technische benaderingen om de waarschijnlijkheid van publicatie van ruisvariabelen te compenseren, ben ik het van harte eens met 'whuber' dat het gebruik van een deel van uw steekproef als trainingsgegevens en de rest als test data is een goed idee. Dit is een benadering die in de technische literatuur wordt besproken, dus als je de tijd neemt, kun je waarschijnlijk enkele goede richtlijnen vinden voor wanneer en hoe je het moet gebruiken.

    Maar om directer op de filosofie van meervoudige testen, stel ik voor dat u de artikelen leest waarnaar ik hieronder verwijs, waarvan sommige de stelling ondersteunen dat aanpassing voor meervoudige testen vaak schadelijk is (kost stroom), onnodig en misschien zelfs een logische misvatting. Ik accepteer niet automatisch de bewering dat ons vermogen om de ene potentiële voorspeller te onderzoeken onverbiddelijk wordt verminderd door het onderzoek van een andere. Het gezinsvriendelijke foutenpercentage van type 1 kan toenemen naarmate we meer voorspellers in een bepaald model opnemen, maar zolang we de limieten van onze steekproefomvang niet overschrijden, is de kans op een type 1-fout voor elke individuele voorspeller is constant; en het controleren op familiale fouten maakt niet duidelijk welke specifieke variabele ruis is en welke niet. Natuurlijk zijn er ook overtuigende tegenargumenten.

    Dus, zolang je je lijst met mogelijke variabelen beperkt tot degene die plausibel zijn (dat wil zeggen, bekende wegen naar de uitkomst hebben), dan is het risico van onechtheid wordt al redelijk goed aangepakt.

    Ik zou er echter aan willen toevoegen dat een voorspellend model niet zo bezig is met de "waarheidswaarde" van zijn voorspellers als een causaal model; er is misschien veel verwarring in het model, maar zolang we een grote mate van de variantie verklaren, maken we ons niet al te veel zorgen. Dit maakt het werk gemakkelijker, althans in zekere zin.

    Cheers,

    Brenden, Biostatistical Consultant

    PS: misschien wil je een nul-opgeblazen Poisson-regressie doen voor de gegevens die je beschrijft, in plaats van twee aparte regressies.

    1. Perneger, TV Wat is er mis met Bonferroni-aanpassingen. BMJ 1998; 316: 1236
    2. Cook, R.J. & Farewell, V.T. Veelvuldigheidsoverwegingen bij het ontwerp en de analyse van klinische onderzoeken. Journal of the Royal Statistical Society , serie A 1996; Vol. 159, nr. 1: 93-110
    3. Rothman, K.J. Er zijn geen aanpassingen nodig voor meerdere vergelijkingen. Epidemiology 1990; Vol. 1, nr. 1: 43-46
    4. Marshall, J.R. Data baggeren en opmerkelijkheid. Epidemiology 1990; Vol. 1, nr. 1: 5-7
    5. Groenland, S. & Robins, J.M. Empirical-Bayes-aanpassingen voor meerdere vergelijkingen zijn soms nuttig. Epidemiology 1991; Vol. 2, nr. 4: 244-251
    Vervolg: 2. Cook R.J. en vaarwel V.T. Veelvuldige overwegingen bij het ontwerp en de analyse van klinische onderzoeken. Journal of the Royal Statistical Society, Series A 1996; Vol. 159, nr. 1: 93-110
    Bedankt voor je opmerkingen, Brenden, vooral de laatste over voorspelling versus causale verklaring. En welkom op de site! Ik hoop in de toekomst nog veel meer van uw bijdragen te zien.
    Vervolg: 3. Rothman K.J. Er zijn geen aanpassingen nodig voor meerdere vergelijkingen. Epidemiology 1990; Vol. 1, nr. 1: 43-46 4. Marshall J.R. Data baggeren en opmerkelijk. Epidemiology 1990; Vol. 1, No. 1: 5-7 5. Greenland S. en Robins J.M. Empirical-Bayes aanpassingen voor meervoudige vergelijkingen zijn soms nuttig. Epidemiology 1991; Vol. 2, nr. 4: 244-251
    (+1) Mogelijk bent u geïnteresseerd in de volgende thread: http://stats.stackexchange.com/questions/3252/how-to-cope-with-exploratory-data-analysis-and-data-dredging-in-small -monster-stud. Het lijkt erop dat we veel links gemeen hebben :-)
    #4
    +6
    gung - Reinstate Monica
    2012-06-06 00:20:49 UTC
    view on stackexchange narkive permalink

    Hier zijn goede antwoorden. Laat me een paar kleine punten toevoegen die ik nergens anders zie.

    Ten eerste, wat is de aard van uw responsvariabelen? Worden ze meer in het bijzonder beschouwd als gerelateerd aan elkaar? U moet alleen twee afzonderlijke meervoudige regressies doen als wordt aangenomen dat ze onafhankelijk zijn (theoretisch) / als de residuen van de twee modellen onafhankelijk zijn (empirisch). Anders zou u een multivariate regressie moeten overwegen. ('Multivariate' betekent> 1 responsvariabele; 'multiple' betekent> 1 voorspellende variabele.)

    Het andere ding om in gedachten te houden is dat het model wordt geleverd met een globale $ F $ -test, wat een gelijktijdige test van alle voorspellers. Het is mogelijk dat de globale test 'niet significant' is, terwijl sommige van de individuele voorspellers 'significant' lijken te zijn. Dat zou u moeten pauzeren, als het zich voordoet. Aan de andere kant, als de globale test suggereert dat ten minste enkele van de voorspellers gerelateerd zijn, biedt dat enige bescherming tegen het probleem van meerdere vergelijkingen (d.w.z. suggereert dat niet alle nullen waar zijn).

    #5
      0
    Charlie
    2010-09-30 21:04:06 UTC
    view on stackexchange narkive permalink

    U kunt een schijnbaar ongerelateerde regressie uitvoeren en een F-test gebruiken. Zet uw gegevens in de volgende vorm:

      Out1 1 P11 P12 0 0 0Out2 0 0 0 1 P21 P22  

    zodat de voorspellers voor uw eerste uitkomst hebben hun waarden wanneer die uitkomst de y-variabele is en anders 0 en vice versa. Dus je y is een lijst met beide uitkomsten. P11 en P12 zijn de twee voorspellers voor de eerste uitkomst en P21 en P22 zijn de twee voorspellers voor de tweede uitkomst. Als seks bijvoorbeeld een voorspeller is voor beide uitkomsten, moet het gebruik ervan om uitkomst 1 te voorspellen in een aparte variabele / kolom staan ​​bij het voorspellen van uitkomst 2. Hierdoor heeft je regressie voor elke uitkomst verschillende hellingen / effecten voor seks.

    In dit raamwerk kunt u standaard F-testprocedures gebruiken.



    Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
    Loading...