Vraag:
Welke pseudo-$ R ^ 2 $ -maatstaf moet worden gerapporteerd voor logistische regressie (Cox & Snell of Nagelkerke)?
Henrik
2010-10-13 21:12:58 UTC
view on stackexchange narkive permalink

Ik heb SPSS -uitvoer voor een logistiek regressiemodel. De output rapporteert twee metingen voor de model fit, Cox & Snell en Nagelkerke.

Dus als vuistregel, welke van deze $ R ^ ² $ maatregelen zou u rapporteren als het model past?

Of, welke van deze fit-indices wordt gewoonlijk gerapporteerd in tijdschriften?


Enige achtergrond: de regressie probeert de aan- of afwezigheid van een vogel (auerhoen) te voorspellen op basis van enkele omgevingsvariabelen (bv. steilheid, begroeiing, ...). Helaas kwam de vogel niet erg vaak voor (35 treffers tot 468 missers) waardoor de regressie nogal matig presteert. Cox & Snell is .09, Nagelkerke, .23.

Het onderwerp is milieuwetenschappen of ecologie.

De uitstekende UCLA-stats-helpsite heeft [een uitstekende pagina] (http://statistics.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm) waarin de verschillende pseudo- $ R ^ 2 $ 's & hoe ze met elkaar verband houden.
Nieuwe UCLA-link: https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-pseudo-r-squareds/
Hier zijn twee links die een exact niet-parametrisch algoritme bespreken dat de nauwkeurigheid van logistische regressiemodellen maximaliseert.Als u deze methode met uw gegevens gebruikt, verhoogt dit de classificatieprestaties van uw logistische regressiemodel wanneer het op de steekproef wordt toegepast.Voorbeeld 1: http://onlinelibrary.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/abstract Voorbeeld 2: http://epm.sagepub.com/content/54/1/73.abstract
Zeven antwoorden:
#1
+78
whuber
2010-10-13 22:46:40 UTC
view on stackexchange narkive permalink

Normaal gesproken zou ik $ R ^ 2 $ helemaal niet rapporteren. Hosmer en Lemeshow, in hun leerboek Applied Logistic Regression (2e Ed.), Leggen uit waarom:

In het algemeen, [$ R ^ 2 $ metingen] zijn gebaseerd op verschillende vergelijkingen van de voorspelde waarden van het aangepaste model met die van [het basismodel], het model zonder gegevens of alleen onderscheppen, en beoordelen als gevolg daarvan de goedheid van de pasvorm niet. We denken dat een echte maatstaf voor fit er een is die strikt gebaseerd is op een vergelijking van waargenomen met voorspelde waarden van het gefitte model.

[Op p. 164.]

Met betrekking tot verschillende ML-versies van $ R ^ 2 $, de "pseudo $ R ^ 2 $" -stat, vermelden ze dat het niet "wordt aanbevolen voor routinematig gebruik, aangezien het niet zo intuïtief is makkelijk uit te leggen, "maar ze voelen zich verplicht het te beschrijven omdat verschillende softwarepakketten het rapporteren.

Ze sluiten deze discussie af door te schrijven:

... low $ R ^ 2 $ waarden in logistische regressie zijn de norm en dit vormt een probleem bij het rapporteren van hun waarden aan een publiek dat gewend is om lineaire regressiewaarden te zien. ... Aldus [argumenteren door te verwijzen naar lopende voorbeelden in de tekst] raden we niet aan om routinematig $ R ^ 2 $ waarden te publiceren met resultaten van aangepaste logistieke modellen. Ze kunnen echter nuttig zijn bij het bouwen van modellen als een statistiek om concurrerende modellen te evalueren.

[Op p. 167.]

Mijn ervaring met enkele grote logistieke modellen (100k tot 300k records, 100 - 300 verklarende variabelen) is precies zoals H & L beschrijft. Ik zou een relatief hoge $ R ^ 2 $ kunnen behalen met mijn gegevens, tot ongeveer 0,40. Deze kwamen overeen met classificatiefouten tussen 3% en 15% (fout-negatieven en fout-positieven, gebalanceerd, zoals bevestigd met 50% hold-out datasets). Zoals H & L liet doorschemeren, moest ik veel tijd besteden aan het uitschakelen van de cliënt (zelf een ervaren adviseur, die bekend was met $ R ^ 2 $) met betrekking tot $ R ^ 2 $ en hem ertoe te brengen zich te concentreren op wat belangrijk was in de analyse (de classificatiefoutenpercentages). Ik kan u van harte aanbevelen de resultaten van uw analyse te beschrijven zonder te verwijzen naar $ R ^ 2 $, wat waarschijnlijker misleidend is dan niet.

(+1) Ik dacht er aanvankelijk over om mijn antwoord uit te breiden (dat kwam net na de jouwe), maar je antwoord is beslist zelfvoorzienend.
bedankt hiervoor, nuttig voor een project waar ik momenteel ook aan werk - en helemaal logisch.
@whuber: Ik neig ook naar de juiste classif. tarieven, maar ik heb talloze verwijzingen in studieboeken en websites gezien die analisten waarschuwen om ze niet te vertrouwen en benadrukken dat pseudo-rsq, ondanks zijn beperkingen, een eerlijkere maatstaf is. Ik lees vaak iets dat tot op zekere hoogte in mijn eigen analyses lijkt te worden bevestigd: dat met de toevoeging van een bepaalde voorspeller pseudo-rsq omhoog kan gaan (en andere statistieken zullen een voordeel van de toevoeging aangeven) terwijl het juiste classificatiepercentage dat niet doet, en dat men het laatste niet moet vertrouwen. Heb je hier al over nagedacht?
@rolando2 Ja, dat heb ik. Dit roept de vraag op: * hoeveel * de pseudo-$ R ^ 2 $ zou moeten stijgen om het opnemen van variabelen te rechtvaardigen. Ik vermoed dat uw "juiste classificatiepercentage" kan verwijzen naar het * in-sample * tarief, dat natuurlijk bevooroordeeld is. Als dat juist is, vergelijkt wat u leest slechts twee inferieure statistieken. De * out of sample * rate is een veel nuttiger indicator dan de pseudo- $ R ^ 2 $.
Ik snap het. Over kruisvalidatie. Goed punt, tx.
+1.Om een subtiel deel van uw antwoord uit te breiden, noemt u ook _classification error rates_, wat meervoud is en niet moet worden verward met _accuracy_.Er zijn veel verschillende soorten berekeningen die uit een verwarringmatrix kunnen komen - _nauwkeurigheid_, _fals positieve snelheid_, _precisie_, enz. - en welke we belangrijk vinden, hangt af van de toepassing.Ook maak je het onderscheid van _out-of-sample_, dat verschilt van _cross validation_, maar er soms mee verward wordt.
#2
+27
chl
2010-10-13 23:02:07 UTC
view on stackexchange narkive permalink

Beide indices zijn maatstaven voor de sterkte van de associatie (d.w.z. of een voorspeller is geassocieerd met de uitkomst, zoals bij een LR-test), en kunnen worden gebruikt om voorspellend vermogen of modelprestaties te kwantificeren. Een enkele voorspeller kan een significant effect hebben op de uitkomst, maar het is niet noodzakelijk zo nuttig voor het voorspellen van individuele respons , vandaar de noodzaak om de prestatie van het model als geheel te beoordelen (t.o.v. het nulmodel). De Nagelkerke $ R ^ 2 $ is handig omdat deze een maximale waarde van 1,0 heeft, zoals Srikant zei. Dit is slechts een genormaliseerde versie van de $ R ^ 2 $ berekend op basis van de waarschijnlijkheidsratio, $ R ^ 2 _ {\ text {LR}} = 1- \ exp (- \ text {LR} / n) $, die verbinding heeft met de Wald-statistiek voor algehele associatie, zoals oorspronkelijk voorgesteld door Cox en Snell. Andere indices van voorspellend vermogen zijn de Brier-score, de C-index (concordantiekans of ROC-gebied) of Somers 'D, de laatste twee geven een betere maatstaf voor voorspellende discriminatie.

De enige aannames die bij logistische regressie worden gemaakt, zijn die van lineariteit en additiviteit (+ onafhankelijkheid). Hoewel er veel globale goodness-of-fit-tests zijn voorgesteld (zoals de Hosmer & Lemeshow $ \ chi ^ 2 $ -test, maar zie mijn opmerking op @onestop), ontbreekt het ze over het algemeen aan kracht. Voor het beoordelen van de fit van het model is het beter om te vertrouwen op visuele criteria (gestratificeerde schattingen, niet-parametrische afvlakking) die helpen om lokale of globale afwijkingen tussen voorspelde en waargenomen uitkomsten (bijv. Niet-lineariteit of interactie) te ontdekken, en dit wordt grotendeels gedetailleerd beschreven in Harrell's RMS-hand-out. Over een gerelateerd onderwerp (kalibratietests) wijst Steyerberg ( Clinical Prediction Models , 2009) op dezelfde benadering voor het beoordelen van de overeenkomst tussen waargenomen resultaten en voorspelde waarschijnlijkheden:

Kalibratie heeft betrekking op goodness-of-fit, wat betrekking heeft op het vermogen van een model om in een bepaalde set gegevens te passen. Meestal is er geen enkele goodness-of-fit-test die goed is macht tegen allerlei gebrek aan fit van een voorspellingsmodel. Voorbeelden van gebrek aan fit zijn gemiste niet-lineariteiten, interacties of een ongepaste linkfunctie tussen de lineaire voorspeller en de uitkomst. Goodness-of-fit kan worden getest met een $ \ chi ^ 2 $ -statistiek. (p. 274)

Hij stelt ook voor om te vertrouwen op het absolute verschil tussen afgevlakte waargenomen resultaten en voorspelde waarschijnlijkheden, hetzij visueel, hetzij met de zogenaamde Harrell's E-statistiek.

Meer details zijn te vinden in het boek van Harrell, Regression Modelling Strategies (pp. 203-205, 230-244, 247-249). Voor een recentere discussie, zie ook

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ en Kattan, MW (2010) . Het beoordelen van de prestaties van voorspellingsmodellen, een kader voor traditionele en nieuwe maatregelen. Epidemiologie , 21 (1) , 128-138.

zou je wat meer kunnen zeggen over het onderscheid tussen "goedheid van fit" en sterkte van associatie of voorspellend vermogen?
@Andy Bedankt dat je erop wijst. Ik realiseer me achteraf dat mijn eerste zin inderdaad niet goed klinkt. Ik zal mijn antwoord bijwerken, laat het me weten als u dit goed vindt.
Bedankt voor de update en het maakt het onderscheid duidelijk.
#3
+22
probabilityislogic
2011-11-16 19:51:29 UTC
view on stackexchange narkive permalink

Ik had gedacht dat het grootste probleem met elke soort $ R ^ 2 $ maat voor logistieke regressie is dat je te maken hebt met een model met een bekende ruis waarde. Dit is in tegenstelling tot standaard lineaire regressie, waarbij het geluidsniveau meestal als onbekend wordt beschouwd. Want we kunnen een glm-kansdichtheidsfunctie schrijven als:

$$ f (y_i | \ mu_i, \ phi) = \ exp \ left (\ frac {y_ib (\ mu_i) -c (\ mu_i)} {\ phi} + d (y_i, \ phi) \ right) $$

Waar $ b (.), \ c (.), \ d (.;.) $ zijn bekende functies, en $ \ mu_i = g ^ {- 1} ( x_i ^ T \ beta) $ voor inverse link-functie $ g ^ {- 1} (.) $ . Als we de gebruikelijke GLM-deviantie-residuen definiëren als

\ begin {align} d_i ^ 2 & = 2 \ phi \ left (\ log [f (y_i | \ mu_i = y_i, \ phi)] - \ log [f (y_i | \ mu_i = \ hat {\ mu} _i, \ phi)] \ right) \\ & = 2 \ phi \ left [y_ib (y_i) -y_ib (\ hat {\ mu} _i) -c (y_i) + c (\ hat {\ mu} _i) \ right] \ end {align} De we hebben (via likelihood ratio chi-square, $ \ chi ^ 2 = \ frac {1} {\ phi} \ sum_ {i = 1} ^ {N} d_i ^ 2 $ )

$$ E \ left (\ sum_ {i = 1} ^ {N} d_i ^ 2 \ right) = E (\ phi \ chi ^ 2) \ approx (Np) \ phi $$

Waarbij $ p $ de dimensie is van $ \ beta $ . Voor logistieke regressie hebben we $ \ phi = 1 $ , wat bekend is. We kunnen dit dus gebruiken om te beslissen over een bepaald restniveau dat "acceptabel" of "redelijk" is. Dit kan meestal niet worden gedaan voor OLS-regressie (tenzij u vooraf informatie over de ruis hebt). We verwachten namelijk dat elk afwijkingsresidu ongeveer $ 1 $ zal zijn. Te veel $ d_i ^ 2 \ gg1 $ en het is waarschijnlijk dat belangrijke effecten ontbreken in het model (ondermaats); te veel $ d_i ^ 2 \ ll1 $ en het is waarschijnlijk dat er overtollige of onechte effecten in het model zitten (te veel passen). (dit kan ook een verkeerde specificatie van het model betekenen).

Dit betekent nu dat het probleem voor de pseudo- $ R ^ 2 $ is dat het niet lukt Houd er rekening mee dat het niveau van binominale variatie voorspelbaar is (op voorwaarde dat de binominale foutstructuur niet in twijfel wordt getrokken). Dus hoewel Nagelkerke varieert van $ 0 $ tot $ 1 $ , is het nog steeds niet correct geschaald. Bovendien kan ik niet zien waarom deze pseudo $ R ^ 2 $ worden genoemd als ze niet gelijk zijn aan de gebruikelijke $ R ^ 2 $ wanneer u een "GLM" met een identiteitslink en een normale fout aanpast. De equivalente cox-snell R-squared voor normale fout (met behulp van REML-schatting van variantie) wordt bijvoorbeeld gegeven door:

$$ R ^ 2_ {CS} = 1- \ exp \ left (- \ frac {Np} {N} \ cdot \ frac {R ^ 2_ {OLS}} {1-R ^ 2_ {OLS}} \ right) $$

Wat er zeker vreemd uitziet.

Ik denk dat de betere "Goodness of Fit" -maatstaf de som is van de deviantieresiduen, $ \ chi ^ 2 $ . Dit komt voornamelijk omdat we een doel hebben om naar te streven.

+1 Mooie uiteenzetting van de problemen waarop wordt gezinspeeld in de commentaren na [Srikants antwoord] (http://stats.stackexchange.com/questions/3559/logistic-regression-which-pseudo-r-squared-measure-is-the- een-te-rapporteren-cox / 3560 # 3560).
Gegeven het feit dat een binominale GLM zou passen met iteratief herwogen kleinste kwadraten, waarom zou men dan als maat voor de kwaliteit van de aanpassing niet de R2 van de gewogen kleinste kwadraten-aanpassing van de laatste IRLS-iteratie waarmee de GLM was geschikt rapporteren?Zoals in https://stats.stackexchange.com/questions/412580/why-is-r2-not-reported-for-glms-based-on-last-iteration-of-weighted-least-square?
#4
+16
Stephan Kolassa
2010-10-14 00:33:12 UTC
view on stackexchange narkive permalink

Ik vond Tue Tjur's korte paper "Coefficients of Determination in Logistic Regression Models - A New Proposal: The Coefficient of Discrimination" (2009, The American Statistician ) op verschillende voorstellen voor een determinatiecoëfficiënt in logistieke modellen heel verhelderend. Hij legt de voor- en nadelen goed onder de aandacht - en biedt natuurlijk een nieuwe definitie. Zeer aan te bevelen (hoewel ik zelf geen favoriet heb).

Bedankt voor het wijzen op dat papier; op de een of andere manier miste ik het (en het verscheen toen ik midden in een groot logistiek regressieproject zat!).
Voor de goede orde, deze nieuwe definitie is $ D = \ bar {\ hat \ pi} _1 - \ bar {\ hat \ pi} _0 $, wat de gemiddelde voorspelde waarde is voor de $ 1 $ -antwoorden minus de gemiddelde voorspelde waarde voor de $ 0 $ reacties. Het kan variëren van $ 0 $ tot $ 1 $. Tjur wijst de Nagelkerke-pseudo $ R ^ 2 $ niet af, maar suggereert dat het de "intuïtieve aantrekkingskracht" mist van $ D $.
#5
+8
onestop
2010-10-14 01:08:12 UTC
view on stackexchange narkive permalink

Ik wilde ook 'geen van beiden' zeggen, dus ik heb het antwoord van Whuber positief gestemd.

Naast kritiek op R ^ 2 stelde Hosmer & Lemeshow een alternatieve maatstaf voor goedheid voor: -geschikt voor logistieke regressie die soms nuttig is. Dit is gebaseerd op het verdelen van de gegevens in (zeg) 10 groepen van gelijke grootte (of zo dicht mogelijk bij elkaar) door te ordenen op basis van de voorspelde waarschijnlijkheid (of equivalent, de lineaire voorspeller) en vervolgens het waargenomen aantal positieve reacties in elke groep te vergelijken. en het uitvoeren van een chikwadraattoets. Deze 'Hosmer-Lemeshow goodness-of-fit test' wordt in de meeste statistische softwarepakketten geïmplementeerd.

De originele HL $ \ chi ^ 2 $ GoF-test is niet erg krachtig, want het hangt af van het categoriseren van de continue voorspellingsschaal in een willekeurig aantal groepen; H & L stelde voor om deciel te overwegen, maar het hangt natuurlijk af van de steekproefomvang, en onder sommige omstandigheden (bijv.IRT-modellen) heb je vaak maar heel weinig mensen aan een of beide uiteinden van de schaal, zodat de afsnijdingen ongelijk verdeeld zijn. Zie Een vergelijking van goedheidstests voor het logistische regressiemodel, Stat. Med. 1997 16 (9): 965, http://j.mp/aV2W6I
Bedankt chi, dat is een nuttige referentie, hoewel je j.mp-link me naar een BiblioInserm-inlogprompt bracht. Hier is een op doi gebaseerde link: http: //dx.doi.org/10.1002/ (SICI) 1097-0258 (19970515) 16: 9 <965 :: AID-SIM509> 3.0.CO; 2-O
Sorry voor de verkeerde link ... Ik meen me te herinneren dat Frank Harrell's `Design`-pakket de alternatieve H&L 1 df-test bevat.
#6
+3
user28
2010-10-13 21:36:53 UTC
view on stackexchange narkive permalink

Ik zou de voorkeur geven aan Nagelkerke, aangezien de pasvorm van dit model 1 bereikt wanneer het model perfect past, waardoor de lezer een idee krijgt van hoe ver uw model verwijderd is van perfecte pasvorm. De Cox & Shell haalt 1 niet voor een perfecte modelpassing en daarom is het interpreteren van een waarde van 0,09 iets moeilijker. Zie deze url voor meer informatie over Pseudo RSquared voor een uitleg van verschillende soorten passen.

Een "perfecte pasvorm" is zo verre van haalbaar in een realistische logistieke regressie dat het oneerlijk lijkt om het als referentie of standaard te gebruiken.
@whuber Dat is waar, maar je zou de standaard kunnen gebruiken om de relatieve prestaties van twee concurrerende modellen te vergelijken. Je punten met een lage R ^ 2 in je antwoord en de implicaties ervan zijn goede punten, maar als je * * hebt (bijv. Recensenten eisen dit enz.) Om een ​​of andere vorm van R ^ 2 te gebruiken, dan verdient Nagelkerke de voorkeur.
@Skridant Ja, nog steeds het probleem van recensenten die overal $ R ^ 2 $ en Bonferroni-correctie willen zien ...
@Srikant, @chl: Een cynische lezing van deze thread zou suggereren om gewoon de grootste R ^ 2 te kiezen uit al die softwarerapporten ;-).
@chl Push-back aanbieden aan reviewers / klanten is natuurlijk noodzakelijk, maar soms moeten we ook pragmatisch zijn. Als lezers lage R ^ 2 niet verkeerd interpreteren als een gebrek aan adequate modelprestaties, zullen de problemen die door @whuber worden opgeworpen tot op zekere hoogte worden verzacht.
@Skridant Er zijn alternatieve metingen van de voorspellingsprestaties die logischer of intuïtiever zijn (bijv.ROC-gebied, Somers D) en die samen met pseudo $ R ^ 2 $ kunnen worden gerapporteerd.
#7
+3
rolando2
2011-11-17 06:00:15 UTC
view on stackexchange narkive permalink

Ondanks de argumenten tegen het gebruik van pseudo-r-squareds, zullen sommige mensen om verschillende redenen ze op zijn minst op bepaalde tijden willen blijven gebruiken. Wat ik uit mijn lezingen heb geïnternaliseerd (en het spijt me dat ik momenteel geen citaten kan geven) is dat

  • zowel C&S als Nag. zijn onder 0,5, C&S zal een betere graadmeter zijn;
    als ze allebei boven 0,5 zijn, Nag. zullen; en
    als ze schrijlings op .5, punt.

Een formule waarvan de resultaten vaak tussen deze twee vallen, genoemd door Scott Menard in Applied Logistic Regression Analysis (Sage), is ook

  [-2LL0 - (-2LL1)] / - 2LL0.  

Dit wordt in de onderstaande tabel aangeduid als "L".

enter image description here

Wat laat deze foto zien (waar staat de horizontale as voor)? En hoe verschilt de laatste formule (die eruitziet als een geschaalde statistiek van de waarschijnlijkheidsratio) precies van Nagelkerke $ R ^ 2 $?
Analyse #: ik heb verschillende analyses geprobeerd met verschillende datasets. Heb de Nagelkerke-formule niet bij de hand, maar ik wed dat deze direct beschikbaar is.
Paul Allison behandelt de Nagelkerke-formule, een naar boven bijgestelde Cox & Snell-formule, op http://www.statisticalhorizons.com/2013/02. Na het lezen van die blog, en over het algemeen in de 2-3 jaar sinds het grootste deel van deze discussie plaatsvond, ben ik er meer van overtuigd geraakt dat de onderschattingen van Cox & Snell variantie verklaarden en dat ik beter af kan zijn door C & S en het Nagelkerke-resultaat te middelen.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...