Vraag:
Is er een intuïtieve verklaring waarom multicollineariteit een probleem is bij lineaire regressie?
user28
2010-08-03 03:42:33 UTC
view on stackexchange narkive permalink

De wiki bespreekt de problemen die optreden wanneer multicollineariteit een probleem is bij lineaire regressie. Het basisprobleem is dat multicollineariteit resulteert in onstabiele parameterschattingen, wat het erg moeilijk maakt om het effect van onafhankelijke variabelen op afhankelijke variabelen te beoordelen.

Ik begrijp de technische redenen achter de problemen (kan $ X 'X $, slecht geconditioneerde $ X' X $ enz.) Maar ik ben op zoek naar een meer intuïtieve (misschien geometrische?) Verklaring voor dit probleem.

Is er een geometrische of misschien een andere vorm van gemakkelijk begrijpelijke verklaring waarom multicollineariteit problematisch is in de context van lineaire regressie?

Echt een geweldige vraag. De beste manier om iets te begrijpen is vanuit meerdere verklaringsrichtingen.
Zie ook gerelateerde vraag en visuele uitleg http://stats.stackexchange.com/q/70899/3277
Negen antwoorden:
#1
+97
Rob Hyndman
2010-08-03 03:59:09 UTC
view on stackexchange narkive permalink

Beschouw het eenvoudigste geval waarin $ Y $ wordt teruggetrokken ten opzichte van $ X $ en $ Z $ en waar $ X $ en $ Z $ in hoge mate positief gecorreleerd zijn. Dan is het effect van $ X $ op $ Y $ moeilijk te onderscheiden van het effect van $ Z $ op $ Y $, omdat een verhoging van $ X $ meestal verband houdt met een verhoging van $ Z $.

Een andere manier om hier naar te kijken, is door de vergelijking te overwegen. Als we $ Y = b_0 + b_1X + b_2Z + e $ schrijven, dan is de coëfficiënt $ b_1 $ de toename in $ Y $ voor elke eenheidstoename in $ X $ terwijl $ Z $ constant wordt gehouden. Maar in de praktijk is het vaak onmogelijk om $ Z $ constant te houden en de positieve correlatie tussen $ X $ en $ Z $ betekent dat een eenheidstoename in $ X $ meestal gepaard gaat met een stijging van $ Z $ tegelijkertijd.

Een vergelijkbare maar meer gecompliceerde verklaring geldt voor andere vormen van multicollineariteit.

+1 Het extreem pathologische geval waarin $ X = Z $ dit verder benadrukt. $ Y = b_0 + b_1 X + b_2 Z + e $ en $ Y = b_0 + (b_1 + b_2) X + 0 Z + e $ zouden niet te onderscheiden zijn.
+1 Ik vind dit antwoord leuk omdat een van de meest voorkomende hulpvragen is waarom dan $ b_1> 0 $ en $ b_2 <0 $ is. Inferentie moet rekening houden met realistische inputs.
#2
+32
Snackrifice
2010-08-10 13:04:22 UTC
view on stackexchange narkive permalink

Ik at ooit sushi en dacht dat het een goede intuïtieve demonstratie zou kunnen zijn van slecht geconditioneerde problemen. Stel dat je iemand een vliegtuig wilt laten zien met twee stokken die de bases raken.

Je zou de stokjes waarschijnlijk loodrecht op elkaar houden. Het effect van elke vorm van trilling van je handen in het vliegtuig zorgt ervoor dat het een beetje wiebelt rond wat je de mensen hoopte te laten zien, maar nadat ze je een tijdje hebben bekeken, krijgen ze een goed idee van het vliegtuig dat je van plan was te demonstreren.

Maar laten we zeggen dat je de uiteinden van de stokjes dichter bij elkaar brengt en het effect van je handen ziet trillen. Het vliegtuig dat het vormt, zal veel wilder worden. Uw publiek zal langer moeten kijken om een ​​goed idee te krijgen van welk vliegtuig u probeert te demonstreren.

+1 Ik denk dat dit de vraag het meest direct beantwoordt. Want hoewel multicollineariteit de interpretatie beïnvloedt. Waarom het een probleem is, is de stabiliteit in schatting.
+1 Voor het plaatsen van deze opmerking (en alleen deze opmerking ooit in de geschiedenis van Stackoverflow) onder de gebruikersnaam Snackrifice.
Ik heb deze opmerking waarschijnlijk tien keer gelezen gedurende een aantal jaren dat ik erover struikelde en nog steeds niet zeker weet wat je zegt.Over wat voor soort "vliegtuig" heb je het?Wat bedoel je met "[het] vliegtuig dat je wilde demonstreren?"
#3
+21
ars
2010-08-03 04:26:03 UTC
view on stackexchange narkive permalink

De geometrische benadering is om rekening te houden met de projectie van de kleinste kwadraten van $ Y $ op de deelruimte die wordt overspannen door $ X $.

Stel dat je een model hebt:

$ E [Y | X] = \ beta_ {1} X_ {1} + \ beta_ {2} X_ {2} $

Onze schattingsruimte is het vlak bepaald door de vectoren $ X_ {1} $ en $ X_ { 2} $ en het probleem is om coördinaten te vinden die overeenkomen met $ (\ beta_ {1}, \ beta_ {2}) $ die de vector $ \ hat {Y} $ beschrijft, een projectie van de kleinste kwadraten van $ Y $ op dat vlak.

Veronderstel nu $ X_ {1} = 2 X_ {2} $, dat wil zeggen dat ze collineair zijn. Dan is de subruimte bepaald door $ X_ {1} $ en $ X_ {2} $ slechts een regel en hebben we maar één vrijheidsgraad. We kunnen dus niet twee waarden $ \ beta_ {1} $ en $ \ beta_ {2} $ bepalen zoals gevraagd.

Ik heb lang geleden gestemd, maar het herlezen van je antwoord herinnert me eraan dat ik * Plane Answers to Complex Questions * van Christensen (http://j.mp/atRp9w) altijd leuk vond.
@chl: cool, ik ga het dan zeker eens bekijken. :)
elk antwoord dat begint met "beschouw de projectie van de kleinste kwadraten van op de deelruimte die wordt overspannen door" is niet intuïtief.
#4
+14
Charlie
2012-08-20 22:23:47 UTC
view on stackexchange narkive permalink

Twee mensen duwen een rotsblok een heuvel op. Je wilt weten hoe hard elk van hen pusht. Stel dat je ze tien minuten tegen elkaar ziet duwen en het rotsblok 3 meter beweegt. Heeft de eerste al het werk gedaan en de tweede deed alsof? Of vice versa? Of 50-50? Omdat beide krachten op exact hetzelfde moment werken, kun je de sterkte van beide niet afzonderlijk scheiden. Het enige dat je kunt zeggen, is dat hun gecombineerde kracht 30 cm per minuut is.

Stel je nu voor dat de eerste man zelf een minuut duwt, dan negen minuten met de tweede, en een laatste minuut is slechts de tweede man duwt. Nu kunt u schattingen van de krachten in de eerste en de laatste minuten gebruiken om de kracht van elke persoon afzonderlijk te bepalen. Hoewel ze nog steeds grotendeels tegelijkertijd werken, kun je door het feit dat er een klein verschil is, schattingen krijgen van de kracht voor elk.

Als je elke man tien minuten lang onafhankelijk zag duwen , dat zou u nauwkeuriger schattingen van de krachten geven dan wanneer er een grote overlap in de krachten is.

Ik vertrek als een oefening voor de lezer om dit geval uit te breiden tot de ene man die omhoog duwt en de andere duwt bergafwaarts (het werkt nog steeds).

Perfecte multicolineariteit voorkomt dat je de krachten apart inschat; near multicolinearity geeft u grotere standaardfouten.

#5
+6
Abhijit
2010-08-04 20:37:41 UTC
view on stackexchange narkive permalink

De manier waarop ik hierover nadenk, is in termen van informatie. Stel dat elk van $ X_ {1} $ en $ X_ {2} $ informatie heeft over $ Y $. Hoe meer $ X_ {1} $ en $ X_ {2} $ met elkaar zijn gecorreleerd, hoe meer de informatie-inhoud over $ Y $ vanaf $ X_ {1} $ en $ X_ {2} $ vergelijkbaar is met of overlapt met het punt dat voor perfect gecorreleerde $ X_ {1} $ en $ X_ {2} $, het in feite dezelfde informatie-inhoud is. Als we nu $ X_ {1} $ en $ X_ {2} $ in hetzelfde (regressie) model plaatsen om $ Y $ uit te leggen, probeert het model de informatie te "verdelen" die ($ X_ {1} $, $ X_ {2} $) bevat ongeveer $ Y $ voor elk van $ X_ {1} $ en $ X_ {2} $, op een enigszins willekeurige manier. Er is geen echt goede manier om dit te verdelen, aangezien elke opsplitsing van de informatie er nog steeds toe leidt dat de totale informatie van ($ X_ {1} $, $ X_ {2} $) in het model blijft (voor perfect gecorreleerde $ X $ ' s, dit is echt een geval van niet-identificeerbaarheid). Dit leidt tot onstabiele individuele schattingen voor de individuele coëfficiënten van $ X_ {1} $ en $ X_ {2} $, maar als je kijkt naar de voorspelde waarden $ b_ {1} X_ {1} + b_ {2} X_ {2 } $ over vele runs en schattingen van $ b_ {1} $ en $ b_ {2} $, zullen deze redelijk stabiel zijn.

#6
+4
Tal Galili
2010-08-03 07:28:37 UTC
view on stackexchange narkive permalink

Mijn (zeer) leek-intuïtie hiervoor is dat het OLS-model een bepaald niveau van "signaal" in de X-variabele nodig heeft om te detecteren dat het een "goede" voorspelling geeft voor Y. Als hetzelfde "signaal" wordt verspreid over veel X'en (omdat ze gecorreleerd zijn), dan kan geen van de gecorreleerde X'en voldoende 'bewijs' (statistische significantie) geven dat het een echte voorspeller is.

De vorige (prachtige) antwoorden doen een geweldig werk om uit te leggen waarom dat het geval is.

#7
+3
Young
2012-08-20 20:24:55 UTC
view on stackexchange narkive permalink

Veronderstel dat twee mensen hebben samengewerkt en wetenschappelijke ontdekkingen hebben gedaan. Het is gemakkelijk om hun unieke bijdragen te vertellen (wie deed wat) als twee totaal verschillende personen zijn (de een is theoreticus en de ander is goed in experimenteren), terwijl het moeilijk is om hun unieke invloeden (coëfficiënten in regressie) te onderscheiden wanneer ze een tweeling zijn die op dezelfde manier handelt.

#8
+2
Mitch Flax
2010-08-03 07:20:32 UTC
view on stackexchange narkive permalink

Als twee regressoren perfect gecorreleerd zijn, zullen hun coëfficiënten onmogelijk te berekenen zijn; het is nuttig om te bedenken waarom ze moeilijk te interpreteren zouden zijn als we ze konden berekenen . Dit verklaart in feite waarom het moeilijk is om variabelen te interpreteren die niet perfect gecorreleerd zijn, maar die ook niet echt onafhankelijk zijn.

Stel dat onze afhankelijke variabele de dagelijkse aanvoer van vis in New York is, en onze onafhankelijke variabelen neem er een op voor of het die dag regent en een voor de hoeveelheid aas die op die dag is gekocht. Wat we ons niet realiseren als we onze gegevens verzamelen, is dat elke keer dat het regent, vissers geen aas kopen, en elke keer als dat niet het geval is, kopen ze een constante hoeveelheid aas. Aas en regen zijn dus perfect gecorreleerd, en als we onze regressie uitvoeren, kunnen we hun coëfficiënten niet berekenen. In werkelijkheid zijn Bait en Rain waarschijnlijk niet perfect gecorreleerd, maar we zouden ze niet allebei als regressors willen opnemen zonder ze op de een of andere manier van hun endogeniteit te ontdoen.

#9
+1
Christoph Hanck
2015-12-30 14:48:19 UTC
view on stackexchange narkive permalink

Ik denk dat de dummy variabele trap een andere nuttige mogelijkheid biedt om te illustreren waarom multicollineariteit een probleem is. Bedenk dat het zich voordoet wanneer we een constante en een volledige set dummy's in het model hebben. Dan komt de som van de dummy's bij elkaar op één, de constante, dus multicollineariteit.

Bijv. een dummy voor mannen en een voor vrouwen:

$$ y_i = \ beta_0 + \ beta_1Man_i + \ beta_2Woman_i + u_i $$

De standaardinterpretatie van $ \ beta_1 $ is de verwachte verandering in $ Y $ die voortvloeit uit het veranderen van $ Man_i $ van 0 in 1. Evenzo is $ \ beta_2 $ de verwachte verandering in $ Y $ die voortvloeit uit het veranderen van $ Woman_i $ van 0 in 1.

Maar wat moet $ \ beta_0 $ dan vertegenwoordigen ...? Het is $ E (y_i | Man_i = 0, Woman_i = 0) $, dus het verwachte resultaat voor personen die noch een man noch een vrouw zijn ... het is waarschijnlijk veilig om te zeggen dat voor vrijwel alle datasets die u tegenkomt, dat is geen nuttige vraag om te stellen :-).



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...