Vraag:
Pearson's of Spearman's correlatie met niet-normale gegevens
Jeromy Anglim
2010-10-19 06:14:17 UTC
view on stackexchange narkive permalink

Ik krijg deze vraag vaak genoeg in mijn statistiekadvieswerk, dat ik dacht dat ik hem hier zou posten. Ik heb een antwoord, dat hieronder wordt gepost, maar ik was benieuwd naar wat anderen te zeggen hadden.

Vraag: Als je twee variabelen hebt die normaal niet verdeeld zijn, zou gebruik je Spearman's rho voor de correlatie?

Waarom niet ** beide ** (Pearson's r * en * Spearman's ρ) berekenen en rapporteren?Hun verschil (of het ontbreken daarvan) zal aanvullende informatie opleveren.
Een vraag die de verdelingsaannames vergelijkt die zijn gemaakt wanneer we een eenvoudige regressiecoëfficiënt bèta testen op significantie en wanneer we de Pearson-correlatiecoëfficiënt testen (numeriek gelijk aan de bèta) http://stats.stackexchange.com/q/181043/3277.
De correlatie van Pearson is lineair, die van Spearman is monotoon, dus ze hebben normaal gesproken niet hetzelfde doel.De Pearson-coëfficiënt heeft u niet nodig om normaliteit aan te nemen.Er is een test voor die normaliteit aanneemt, maar je hebt niet alleen die optie.
Vijf antwoorden:
#1
+83
Rob Hyndman
2010-10-19 06:53:20 UTC
view on stackexchange narkive permalink

Pearson's correlatie is een maat voor de lineaire relatie tussen twee continue willekeurige variabelen. Het veronderstelt geen normaliteit, hoewel het wel eindige varianties en eindige covariantie veronderstelt. Als de variabelen bivariate normaal zijn, geeft Pearson's correlatie een volledige beschrijving van de associatie.

Spearman's correlatie is van toepassing op rangen en biedt zo een maat voor een monotone relatie tussen twee continue willekeurige variabelen. Het is ook nuttig met ordinale gegevens en is robuust voor uitbijters (in tegenstelling tot de correlatie van Pearson).

De verdeling van beide correlatiecoëfficiënten hangt af van de onderliggende verdeling, hoewel beide asymptotisch normaal zijn vanwege de centrale limietstelling.

Pearson's $ \ rho $ gaat niet uit van normaliteit, maar is alleen een uitputtende maatstaf voor associatie als de gezamenlijke distributie multivariate normaal is. Gezien de verwarring die dit onderscheid oproept, zou je het misschien aan je antwoord willen toevoegen.
@kwak. Goed punt. Ik zal het antwoord updaten.
Is er een bron die kan worden aangehaald om de bovenstaande bewering te ondersteunen (Persoon r gaat niet uit van normaliteit)? We hebben op dit moment hetzelfde argument op onze afdeling.
@RobHyndman Op het gebied van financiële tijdreeksen (bijvoorbeeld wanneer u probeert meer te weten te komen over correlaties tussen aandelenrendementen), zou u Pearson-correlatie of op rang gebaseerde correlaties aanbevelen? Wikipedia is vrij sterk tegen Pearson, maar hun bron is twijfelachtig.
* "Wanneer de variabelen bivariate normaal zijn, geeft Pearson's correlatie een volledige beschrijving van de associatie." * En als de variabelen NIET bivariate normaal zijn, hoe nuttig is Pearson's correlatie dan?
Hier: http://www.statisticssolutions.com/correlation-pearson-kendall-spearman/ zeggen ze dat "Voor de Pearson-correlatie moeten beide variabelen normaal verdeeld zijn. Andere aannames zijn onder meer lineariteit en homoscedasticiteit"
Dit antwoord lijkt nogal indirect."Als de variabelen bivariaat normaal zijn ..." En wanneer niet?Dit soort verklaring is waarom ik nooit statistieken krijg."Rob, wat vind je van mijn nieuwe jurk?""De donkere kleur benadrukt je lichte huid."'Zeker, Rob, maar vind je * leuk * hoe het mijn huid benadrukt?'"Een lichte huid wordt in veel culturen als mooi beschouwd.""Ik weet het, Rob, maar vind * jij * het leuk?""Ik vind de jurk mooi."'Ik denk het ook, Rob, maar is het mooi * op mij *?''Je ziet er altijd mooi uit, schat.'*zucht*
Als u de twee voorgaande zinnen leest, vindt u het antwoord.
Hoewel de asymptotische verdelingen van de correlaties normaal zijn, zijn de varianties van die normale verdelingen afhankelijk van de onbekende populatieparameters.In de zin van gevolgtrekking hebben we bivariate normaliteit nodig voor Pearson's correlatie.
Nee, dat hebben we niet.Het is heel goed mogelijk om op ten minste vier verschillende manieren een conclusie te trekken voor de correlatie van Pearson zonder uit te gaan van bivariate normaliteit.(i) asymptotische resultaten gebruiken - hierboven al genoemd;(ii) een andere parametrische verdelingsaanname maken en de nulverdeling van de teststatistiek afleiden of simuleren;(iii) een permutatietest gebruiken;(iv) gebruik een bootstrap-test.Er zijn waarschijnlijk andere benaderingen
Deze antwoorden laten allemaal zien wat er mis is met het huidige statistiekonderwijs.De CLT garandeert NIET dat uw gegevens naar normaal convergeren.In feite zal dit in bijna alle gevallen NIET gebeuren.Elk antwoord hier is circulair omdat het ervan uitgaat dat normaliteit iets is waar gegevens uit de echte wereld naartoe neigen, en dat is NIET het geval.De meeste gegevens uit de echte wereld zullen gefaseerd zijn, wat betekent dat de momenten buitengewoon slecht gedefinieerd zijn, of geen periode bestaan.Convergentie is traag of bestaat niet.Pearson's correlatie wordt uit gemak gebruikt, niet omdat het een robuuste maatstaf is, wat het NIET is.
#2
+54
onestop
2010-10-19 12:07:17 UTC
view on stackexchange narkive permalink

Vergeet Kendall's tau niet! Roger Newson heeft gepleit voor de superioriteit van Kendalls τa ten opzichte van Spearman's correlatie rS als een op rang gebaseerde maatstaf van correlatie in een paper waarvan de volledige tekst nu gratis online beschikbaar is:

Newson R. Parameters achter "niet-parametrische" statistieken: Kendall's tau, Somers 'D en mediaan verschillen. Stata Journal 2002; 2 (1): 45-64.

Hij verwijst (op p47) naar Kendall & Gibbons (1990) als argument dat "... betrouwbaarheidsintervallen voor Spearman's r S sub > zijn minder betrouwbaar en minder interpreteerbaar dan betrouwbaarheidsintervallen voor Kendall's τ -parameters, maar het voorbeeld van Spearman's rS is veel meer gemakkelijk te berekenen zonder computer ”(wat natuurlijk niet meer zo belangrijk is). Helaas heb ik niet gemakkelijk toegang tot een exemplaar van hun boek:

Kendall, M. G. en J. D. Gibbons. 1990. Rank Correlation Methods . 5e druk. Londen: Griffin.

Ik ben ook een grote fan van Kendall's tau. Pearson is veel te gevoelig voor invloedrijke punten / uitschieters naar mijn smaak, en hoewel Spearman geen last heeft van dit probleem, vind ik Kendall persoonlijk gemakkelijker te begrijpen, interpreteren en uitleggen dan Spearman. Natuurlijk kan uw kilometerstand variëren.
Ik herinner me uit ervaring dat Kendall's tau nog steeds een stuk langzamer (in R) loopt dan die van Spearman.Dit kan belangrijk zijn als uw dataset groot is.
#3
+39
Jeromy Anglim
2010-10-19 11:08:07 UTC
view on stackexchange narkive permalink

Vanuit een toegepast perspectief ben ik meer bezig met het kiezen van een benadering die de relatie tussen twee variabelen samenvat op een manier die aansluit bij mijn onderzoeksvraag. Ik denk dat het bepalen van een methode om nauwkeurige standaardfouten en p-waarden te krijgen een vraag is die op de tweede plaats moet komen. Zelfs als je ervoor kiest om niet op asymptotica te vertrouwen, is er altijd de mogelijkheid om de aannames van distributie op te starten of te veranderen.

Als algemene regel geef ik de voorkeur aan Pearson's correlatie omdat (a) deze over het algemeen meer aansluit bij mijn theoretische interesses; (b) het maakt een meer directe vergelijkbaarheid van bevindingen tussen studies mogelijk, omdat de meeste studies in mijn omgeving de correlatie van Pearson rapporteren; en (c) in veel situaties is er een minimaal verschil tussen Pearson en Spearman correlatiecoëfficiënten.

Er zijn echter situaties waarin ik denk dat Pearson's correlatie met onbewerkte variabelen misleidend is.

  • Uitschieters: uitschieters kunnen een grote invloed hebben op de correlaties van Pearson. Veel uitschieters in toegepaste instellingen weerspiegelen meetfouten of andere factoren waarnaar het model niet bedoeld is om te generaliseren. Een mogelijkheid is om dergelijke uitschieters te verwijderen. Univariate uitschieters bestaan ​​niet bij Spearman's rho omdat alles wordt omgezet in rangen. Spearman is dus robuuster.
  • Sterk scheve variabelen: bij het correleren van scheve variabelen, met name sterk scheve variabelen, maakt een logboek of een andere transformatie vaak de onderliggende relatie tussen de twee variabelen duidelijker (bijv. lichaamsgewicht van dieren). In dergelijke situaties kan het zijn dat de ruwe metriek sowieso niet de meest betekenisvolle metriek is. Spearmans rho heeft een soortgelijk effect als transformatie door beide variabelen om te zetten in rangen. Vanuit dit perspectief kan Spearman's rho worden gezien als een quick-and-dirty benadering (of positiever: het is minder subjectief) waarbij je niet hoeft na te denken over optimale transformaties.

In beide bovenstaande gevallen zou ik onderzoekers aanraden om ofwel aanpassingsstrategieën te overwegen (bijv. transformaties, verwijdering / aanpassing van uitschieters) alvorens Pearson's correlatie toe te passen, ofwel Spearman's rho te gebruiken.

Het probleem met transformatie is dat het in het algemeen ook de fouten transformeert die bij elk punt horen, en dus het gewicht.En het lost het probleem van de uitbijter niet op.
De vorige opmerking is raadselachtig.Transformatie temt vaak uitschieters.Wat u van fouten moet denken, hangt ook af van de schaal die u voor analyse kiest.Als een logaritmische schaal bijvoorbeeld zinvol is, zijn additieve fouten op die schaal vaak ook logisch.
#4
+12
ars
2010-10-19 06:27:48 UTC
view on stackexchange narkive permalink

Bijgewerkt

De vraag vraagt ​​ons om te kiezen tussen de methode van Pearson en Spearman wanneer de normaliteit in twijfel wordt getrokken. Beperkt tot deze zorg, denk ik dat het volgende artikel de beslissing van iemand zou moeten informeren:

Het is best aardig en geeft een overzicht van de aanzienlijke hoeveelheid literatuur over dit onderwerp die tientallen jaren beslaat - beginnend bij Pearson's "verminkte en vervormde oppervlakken" en de robuustheid van de distributie van $ r $. Ten minste een deel van de tegenstrijdige aard van de "feiten" is dat veel van dit werk werd gedaan vóór de komst van rekenkracht - wat de zaken ingewikkeld maakte omdat het type niet-normaliteit in overweging moest worden genomen en moeilijk te onderzoeken was zonder simulaties.

Kowalski's analyse concludeert dat de distributie van $ r $ niet robuust is in aanwezigheid van niet-normaliteit en beveelt alternatieve procedures aan. Het hele artikel is vrij informatief en aanbevolen om te lezen, maar ga voor een samenvatting naar de zeer korte conclusie aan het einde van het artikel.

Als je wordt gevraagd om te kiezen tussen een van Spearman en Pearson wanneer de normaliteit wordt geschonden, een verspreidingsvrij alternatief is het aanbevelen waard, namelijk de methode van Spearman.


Eerder ..

Spearman's correlatie is een op rang gebaseerde correlatiemaatstaf; het is niet-parametrisch en berust niet op een aanname van normaliteit.

De steekproefverdeling voor Pearson's correlatie veronderstelt normaal; Dit betekent in het bijzonder dat, hoewel u het kunt berekenen, conclusies op basis van significantietesten mogelijk niet deugdelijk zijn.

Zoals Rob in de commentaren aangeeft, is dit bij grote steekproeven geen probleem. Bij kleine steekproeven, waar de normaliteit wordt geschonden, verdient Spearman's correlatie de voorkeur.

Update Als ik nadenk over de opmerkingen en de antwoorden, lijkt het mij dat dit neerkomt op het gebruikelijke debat over niet-parametrische versus parametrische tests. Veel van de literatuur, b.v. in biostatistiek, behandelt geen grote monsters. Ik ben over het algemeen niet arrogant als ik op asymptotica vertrouw. Misschien is het in dit geval gerechtvaardigd, maar dat is mij niet direct duidelijk.

Nee. De correlatie van Pearson veronderstelt GEEN normaliteit. Het is een schatting van de correlatie tussen twee willekeurige continue variabelen en is een consistente schatter onder relatief algemene omstandigheden. Zelfs tests op basis van Pearson's correlatie vereisen geen normaliteit als de steekproeven groot genoeg zijn vanwege de CLT.
Ik heb de indruk dat Pearson wordt gedefinieerd zolang de onderliggende distributies eindige varianties en covarianties hebben. Normaliteit is dus * niet * vereist. Als de onderliggende verdelingen niet normaal zijn, kan de teststatistiek een andere verdeling hebben, maar dat is een secundaire kwestie en niet relevant voor de huidige vraag. Is dat niet zo?
@Rob, @Srikant: Klopt, ik dacht aan significantietesten.
@Srikant: Ik weet niet zeker of het een "secundair probleem" is. U kunt tenslotte alles berekenen - het is de gevolgtrekking die ertoe doet. @Rob: uw "als" -kwalificatie is hier de sleutel - het lijkt mij dat dit centraal staat in deze vraag. We kunnen heel wat rechtvaardigen met asymptotisch handzwaaien; uitzonderingen zijn belangrijk.
@ars,@Srikant. Zelfs met kleine steekproeven kunt u nog steeds conclusies trekken over correlaties, maar niet het resultaat van asymptotische normaliteit gebruiken.
@Rob: Zeker, maar het lijkt erop dat je hier de methode van Spearman zou moeten verkiezen boven die van Pearson. Stel bijvoorbeeld kleine steekproeven waarbij X normaal is, maar Y niet - u kunt de twee op even termen vergelijken met rangschikkingsmethoden zoals die van Spearman. Het gebruik van Pearson's vereist meer werk, bijvoorbeeld het vinden van een geschikte transformatie.
@ars. Je kunt gewoon Monte Carlo-methoden of een bootstrap gebruiken. Daar zit niet veel in, alleen rekenen.
@Rob: Ja, we kunnen altijd oplossingen bedenken om de zaken ongeveer hetzelfde te laten verlopen. Gewoon om de methode van Spearman te vermijden - die de meeste niet-statistici kunnen afhandelen met een standaardcommando. Ik denk dat mijn advies blijft om de methode van Spearman te gebruiken voor kleine steekproeven waar normaliteit twijfelachtig is. Ik weet niet zeker of dat hier een geschil is of niet.
@ars. Ik zou Spearman's gebruiken als ik geïnteresseerd was in monotone in plaats van lineaire associaties, of als er uitschieters waren of een hoge mate van scheefheid. Ik zou Pearson's gebruiken voor lineaire relaties, op voorwaarde dat er geen uitschieters zijn. Ik denk niet dat de steekproefomvang relevant is bij het maken van de keuze.
@Rob: OK, bedankt voor de discussie. Ik ben het eens met het eerste deel, maar betwijfel het laatste, en zou ook dat maat alleen een rol speelt omdat normale asymptotica niet van toepassing zijn. Kowalski 1972 heeft bijvoorbeeld een redelijk goed overzicht van de geschiedenis hieromheen en concludeert dat de correlatie van Pearson niet zo robuust is als gedacht. Zie: http://www.jstor.org/pss/2346598
#5
+2
Krishna
2020-02-24 09:49:59 UTC
view on stackexchange narkive permalink

Ik denk dat deze cijfers (van Gross-Error Sensitivity en Asymptotic Variance) en citaten uit het onderstaande artikel het een beetje duidelijk zullen maken:

enter image description here

enter image description here

"De Kendall-correlatiemaatstaf is robuuster en iets efficiënter dan de rangcorrelatie van Spearman, waardoor het vanuit beide perspectieven de beste schatter is."

Bron: Croux, C. en Dehon, C. (2010).Invloedfuncties van de Spearman en Kendall correlatiemaatstaven.Statistische methoden en toepassingen, 19, 497-515.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...