Vraag:
Waarom is het mogelijk om significante F-statistieken (p <.001) maar niet-significante regressortests te krijgen?
Ηλίας
2010-10-13 14:40:17 UTC
view on stackexchange narkive permalink

Waarom is het in een meervoudige lineaire regressie mogelijk om een ​​zeer significante F-statistiek (p<.001) te hebben, maar zeer hoge p-waarden op alle t-tests van de regressor?

In mijn model, er zijn 10 regressoren. De ene heeft een p-waarde van 0,1 en de rest is hoger dan 0,9


Zie de vervolgvraag voor het oplossen van dit probleem.

Is de constante ook onbeduidend? Om hoeveel zaken gaat het? Hoeveel variabelen?
Hoe werd de diagnose multicollineariteit gesteld? Er zijn veel methoden, sommige zijn informatiever dan andere. Hoe meer je ons vertelt, hoe beter de community kan antwoorden.
** Deze vraag is een veelgestelde vraag geworden. ** Sommige van de antwoorden hier zijn samengevoegd uit in wezen vergelijkbare threads.
Zie ook hier: [hoe kan een regressie significant zijn terwijl alle voorspellers niet significant zijn] (http://stats.stackexchange.com/questions/14500/), & voor een bespreking van het tegenovergestelde geval, zie hier: [significant t-test versus niet-significante F-statistiek] (http://stats.stackexchange.com/questions/24720/significance-of-coefficients-in-linear-regression-significant-t-test-vs-non-sig) .
Ik had hetzelfde probleem en geen van de bovenstaande antwoorden kon me helpen.Nu weet ik het antwoord (in ieder geval op mijn probleem): de F-waarde van model 2 kan significant zijn, omdat je dezelfde 'constante' (variabele) hebt als in model 1 (welke F-waarde ook significant is).Je moet kijken naar de tabel met de naam 'Modeloverzicht' in de kolom 'Sig.F Change 'om te zien of de verandering in R-kwadraat significant is (voor model 2).Als die significant is, moeten de b-waarden ook significant zijn.U kunt de F-waarde volledig negeren.
Hoewel alle drie de antwoorden 'multicollineariteit' zeggen, is dat eigenlijk een bijzondere omstandigheid.Het punt van het gebruik van een F-test in de eerste plaats is dat individuele p-waarden voor een groep regressoren tegenstrijdige informatie kunnen geven over de betekenis van de groep als geheel.Zie de gerelateerde threads waarnaar @gung linkt.
Negen antwoorden:
#1
+111
whuber
2011-08-20 03:49:29 UTC
view on stackexchange narkive permalink

Er is heel weinig correlatie tussen de onafhankelijke variabelen nodig om dit te veroorzaken.

Probeer het volgende om te zien waarom:

  • Teken 50 sets van tien vectoren $ (x_1, x_2, \ ldots, x_ {10}) $ met coëfficiënten iid standaard normaal.

  • Bereken $ y_i = (x_i + x_ {i + 1}) / \ sqrt {2} $ voor $ i = 1, 2, \ ldots, 9 $. Dit maakt de $ y_i $ individueel standaard normaal, maar met enkele onderlinge correlaties.

  • Bereken $ w = x_1 + x_2 + \ cdots + x_ {10} $. Merk op dat $ w = \ sqrt {2} (y_1 + y_3 + y_5 + y_7 + y_9) $.

  • Voeg een onafhankelijke normaal verdeelde fout toe aan $ w $. Met een beetje experimenteren ontdekte ik dat $ z = w + \ varepsilon $ met $ \ varepsilon \ sim N (0, 6) $ redelijk goed werkt. Dus $ z $ is de som van $ x_i $ plus een fout. Het is ook de som van een deel van de $ y_i $ plus dezelfde fout.

We beschouwen de $ y_i $ als de onafhankelijke variabelen en $ z $ de afhankelijke variabele.

Hier is een scatterplotmatrix van een dergelijke dataset, met $ z $ bovenaan en links en $ y_i $ gaat op volgorde verder.

Scatterplot matrix

De verwachte correlaties tussen $ y_i $ en $ y_j $ zijn $ 1/2 $ wanneer $ | ij | = 1 $ en $ 0 $ anders. De gerealiseerde correlaties lopen op tot 62%. Ze verschijnen als strakkere scatterplots naast de diagonaal.

Bekijk de regressie van $ z $ ten opzichte van $ y_i $:

  Source | SS df MS Aantal obs = 50 ------------- + ---------------------------- - F (9, 40) = 4,57 Model | 1684.15999 9187.128887 Prob > F = 0.0003 Rest | 1636.70545 40 40.9176363 R-kwadraat = 0.5071 ------------- + ---------------------------- - Adj R-kwadraat = 0,3963 Totaal | 3320.86544 49 67.7727641 Root MSE = 6.3967 ------------------------------------------- ----------------------------------- z | Coef. Soa. Err. t P> | t | [95% Conf. Interval]
------------- + ------------------------------------ ---------------------------- y1 | 2,184007 1,264074 1,73 0,092 -,3707815 4,738795 y2 | 1,537829 1,809436 0,85 0,400 -2,119178 5,194837 y3 | 2,621185 2,140416 1,22 0,228 -1,704757 6,947127 y4 | .6024704 2,176045 0,28 0,783 -3,795481 5,000421 y5 | 1,692758 2,196725 0,77 0,445 -2,746989 6,132506 y6 | 0,0290429 2,094395 0,01 0,989 -4,203888 4,261974 y7 | .7794273 2.197227 0,35 0,725 -3,661333 5,220188 y8 | -2,485206 2,19327 -1,13 0,264 -6,91797 1,947558 ​​j9 | 1,844671 1,744538 1,06 0,297 -1,681172 5,370514 _cons | .8498024 .9613522 0,88 0,382 -1,093163 2,792768 ----------------------------------------- -------------------------------------  

De F statistiek is zeer significant, maar geen van de onafhankelijke variabelen is, zelfs zonder enige aanpassing voor alle 9.

Om te zien wat er aan de hand is, overweeg dan de regressie van $ z $ tegen alleen het oneven $ y_i $:

  Bron | SS df MS Aantal obs = 50 ------------- + ---------------------------- - F (5, 44) = 7,77 Model | 1556.88498 5311.376997 Prob > F = 0.0000 Rest | 1763.98046 44 40.0904649 R-kwadraat = 0.4688 ------------- + ---------------------------- - Adj R-kwadraat = 0,4085 Totaal | 3320.86544 49 67.7727641 Root MSE = 6.3317 ------------------------------------------- ----------------------------------- z | Coef. Soa. Err. t P> | t | [95% Conf. Interval] ------------- + ---------------------------------- ------------------------------
y1 | 2,943948, 8138525 3,62 0,001 1,303736 4,58416 y3 | 3,403871 1,080173 3,15 0,003 1,226925 5,580818 y5 | 2,458887 .955118 2,57 0,013,533973 4,383801 y7 | -.3859711 .9742503 -0.40 0.694 -2.349443 1.577501 y9 | .1298614 .9795983 0.13 0.895 -1.844389 2.104112 _cons | 1.118512 .9241601 1.21 0.233 -.7440107 2.981034 ----------------------------------------- -------------------------------------  

Enkele van deze variabelen zijn zeer significant, zelfs met een Bonferroni-aanpassing. (Er valt veel meer te zeggen door naar deze resultaten te kijken, maar het zou ons weghalen van het hoofdpunt.)

De intuïtie hierachter is dat $ z $ afhankelijk is voornamelijk op een subset van de variabelen (maar niet noodzakelijk op een unieke subset). Het complement van deze subset ($ y_2, y_4, y_6, y_8 $) voegt in wezen geen informatie toe over $ z $ vanwege correlaties - hoe klein ook - met de subset zelf.

Dit soort situaties doet zich voor in tijdreeksanalyse . We kunnen de abonnementen als tijden beschouwen. De constructie van de $ y_i $ heeft een seriële correlatie op korte termijn tussen hen teweeggebracht, net als vele tijdreeksen. Hierdoor verliezen we weinig informatie door de series met regelmatige tussenpozen te subsamplen.

Een conclusie die we hieruit kunnen trekken, is dat wanneer te veel variabelen in een model zijn opgenomen, ze de echt significante variabelen kunnen maskeren. Het eerste teken hiervan is de zeer significante algemene F-statistiek, vergezeld van niet zo significante t-tests voor de individuele coëfficiënten. (Zelfs wanneer sommige van de variabelen individueel significant zijn, betekent dit niet automatisch dat de andere dat niet zijn. Dat is een van de fundamentele tekortkomingen van stapsgewijze regressiestrategieën: ze worden het slachtoffer van dit maskerende probleem.) Overigens zijn de variantie-inflatiefactoren in het eerste regressiegebied van 2,55 tot 6,09 met een gemiddelde van 4,79: net op de grens van het diagnosticeren van enige multicollineariteit volgens de meest conservatieve vuistregels; ruim onder de drempel volgens andere regels (waarbij 10 een bovengrens is).

Goed antwoord. Een plus 1 van mij. Ik had er graag meer aan willen geven.
#2
+55
csgillespie
2010-10-13 17:29:11 UTC
view on stackexchange narkive permalink

Zoals Rob vermeldt, gebeurt dit wanneer je sterk gecorreleerde variabelen hebt. Het standaardvoorbeeld dat ik gebruik, is het voorspellen van het gewicht op basis van de schoenmaat. Je kunt het gewicht even goed voorspellen met de rechter- of linkerschoenmaat. Maar samen lukt het niet.

Kort simulatievoorbeeld

  RSS = 3:10 #Juiste schoenmaatLSS = rnorm (RSS, RSS, 0.1) #Links schoenmaat - vergelijkbaar met RSScor (LSS, RSS) #correlatie ~ 0.99gewichten = 120 + rnorm (RSS, 10 * RSS, 10) ## Een joint passen modelm = lm (gewichten ~ LSS + RSS) ## F-waarde is erg klein, maar noch LSS noch RSS zijn significant. Samenvatting (m) ## RSS of LSS apart aanpassen geeft een significant resultaat. samenvatting (lm (gewichten ~ LSS))  
Het is interessant en belangrijk om op te merken dat uw beide modellen in dit geval even goed voorspellen. Hoge correlaties tussen voorspellers zijn niet noodzakelijk een probleem voor voorspelling. Multicolineariteit is alleen een probleem wanneer 1) analisten proberen om meerdere regressiecoëfficiënten onjuist te interpreteren; 2) het model is niet schatbaar; en 3) SE's zijn opgeblazen en coëfficiënten zijn onstabiel.
Ik begrijp dat de twee variabelen sterk met elkaar gecorreleerd zijn, dus het resultaat van de t-test is niet significant, terwijl het resultaat van de F-test significant is. Maar hoe komt het dat dit gebeurt? Ik bedoel, wat is de reden die aan dit feit ten grondslag ligt?
#3
+41
Jeromy Anglim
2011-08-19 10:27:14 UTC
view on stackexchange narkive permalink

Multicollineariteit

  • Zoals u opmerkt, en zoals besproken in deze vorige vraag, is een hoge mate van multicollineariteit een belangrijke oorzaak van een statistisch significante $ R ^ 2 $ maar statisch niet-significante voorspellers.
  • Natuurlijk gaat multicollineariteit niet alleen over een absolute drempel. Standaardfouten op regressiecoëfficiënten zullen toenemen naarmate de intercorrelaties met de focale voorspeller toenemen.

Meerdere bijna significante voorspellers

  • Zelfs als u geen multicollineariteit had, kunt u nog steeds verkrijg niet-significante voorspellers en een algemeen significant model als twee of meer individuele voorspellers dicht bij significant zijn en dus gezamenlijk de algemene voorspelling de drempel van statistische significantie overschrijdt. Als u bijvoorbeeld een alfa van .05 gebruikt en u twee voorspellers had met p-waarden van .06 en .07, dan zou het me niet verbazen als het algehele model een p<.05 had.
Mooi beknopt antwoord.Om hieraan toe te voegen, zou ik willen voorstellen om de gegevens te verstoren (of een voorspeller te verwijderen) en te kijken of er een merkbare verandering is in de coëfficiënten van de regressie.Let bijvoorbeeld op bordveranderingen.
#4
+39
Rob Hyndman
2010-10-13 16:45:32 UTC
view on stackexchange narkive permalink

Dit gebeurt wanneer de voorspellers sterk gecorreleerd zijn. Stel je een situatie voor waarin er maar twee voorspellers zijn met een zeer hoge correlatie. Individueel correleren ze allebei ook nauw met de responsvariabele. Bijgevolg heeft de F-test een lage p-waarde (het wil zeggen dat de voorspellers samen zeer significant zijn in het verklaren van de variatie in de responsvariabele). Maar de t-toets voor elke voorspeller heeft een hoge p-waarde omdat er, na rekening te houden met het effect van de andere voorspeller, niet veel meer te verklaren valt.

Hoi Rob, sorry dat ik je stoor. Ik heb je antwoord doorgelezen (omdat ik de situatie van de vraag momenteel onder ogen zie) maar ik kan niet begrijpen wat je bedoelt door te zeggen "na rekening te hebben gehouden met het effect van de andere voorspeller is er niet veel meer te verklaren". Mag ik u vragen mij dat uit te leggen? Hartelijk bedankt.
@yue86231 Dit betekent dat hoewel we één p-waarde hebben voor elke voorspeller, we niet elke p-waarde afzonderlijk kunnen interpreteren.Elke voorspellende t-test kan alleen de significantie van een variabele * aantonen nadat * rekening is gehouden met de variantie verklaard door alle andere variabelen.De lineaire regressiecoëfficiënten en de standaardfout worden als het ware tegelijkertijd geproduceerd en de twee voorspellers verminderen elkaars significantie.
#5
+11
StasK
2012-08-07 08:55:57 UTC
view on stackexchange narkive permalink

Beschouw het volgende model: $ X_1 \ sim N (0,1) $, $ X_2 = a X_1 + \ delta $, $ Y = bX_1 + cX_2 + \ epsilon $, $ \ delta $, $ \ epsilon $ en $ X_1 $ zijn allemaal onderling onafhankelijk $ N (0,1) $.

Dan is $$ {\ rm Cov} (X_2, Y) = {\ rm E} [(aX_1 + \ delta) ( bX_1 + cX_2 + \ epsilon)] = {\ rm E} [(aX_1 + \ delta) (\ {b + ac \} X_1 + c \ delta + \ epsilon)] = a (b + ac) + c $$

We kunnen dit op nul zetten met bijvoorbeeld $ a = 1 $, $ b = 2 $ en $ c = -1 $. Toch zullen alle relaties duidelijk aanwezig zijn en gemakkelijk te detecteren zijn met regressieanalyse.

U zei dat u de kwestie van het correleren van variabelen en het onbeduidend zijn van regressie beter begrijpt; het betekent waarschijnlijk dat je geconditioneerd bent door het veelvuldig noemen van multicollineariteit, maar je zou je begrip van de geometrie van de kleinste kwadraten moeten vergroten.

#6
+10
Stephan Kolassa
2010-10-13 19:38:27 UTC
view on stackexchange narkive permalink

Een trefwoord om naar te zoeken is "collineariteit" of "multicollineariteit". Dit kan worden gedetecteerd met behulp van diagnostische gegevens zoals Variance Inflation Factors (VIF's) of methoden zoals beschreven in het handboek "Regression Diagnostics: Identifying Influential Data and Sources of Collinearity" door Belsley, Kuh en Welsch. VIF's zijn veel gemakkelijker te begrijpen, maar ze kunnen niet omgaan met collineariteit met betrekking tot het onderscheppen (dwz voorspellers die op zichzelf of in een lineaire combinatie bijna constant zijn) - omgekeerd is de BKW-diagnostiek veel minder intuïtief, maar kan omgaan met collineariteit met betrekking tot het onderscheppen.

#7
+9
Peter Flom
2011-08-19 15:11:00 UTC
view on stackexchange narkive permalink

Het antwoord dat u krijgt, hangt af van de vraag die u stelt. Naast de reeds gemaakte punten beantwoorden de individuele parameters F-waarden en de algemene model F-waarden verschillende vragen, zodat ze verschillende antwoorden krijgen. Ik heb dit zelfs zien gebeuren als de individuele F-waarden niet zo dicht bij significant zijn, vooral als het model meer dan 2 of 3 IV's heeft. Ik weet geen enkele manier om de individuele p-waarden te combineren en iets zinvols te krijgen, hoewel er een manier kan zijn.

(-1) Ja - op de originele poster staat dat hij / zij het ook heeft zien gebeuren. De vraag was wat precies enkele dingen zijn die dit anders kunnen veroorzaken dan collineariteit en ik zie niet in hoe dit een antwoord is.
@Macro De downvote lijkt een beetje hard, omdat er een nuttige en geldige observatie in dit antwoord is: de tests voor algemene significantie en voor individuele variabele significantie "beantwoorden verschillende vragen". Toegegeven, dat is kwalitatief, maar niet meer dan het eerste antwoord met veel upvotes; en aan dat antwoord voegt het wat geldige intuïtie toe, waardoor het aantoonbaar een verbetering ten opzichte van dat antwoord is.
Ik heb nooit gezegd dat dit antwoord geen geldige informatie of intuïtie leverde. Als ik een goed antwoord op deze vraag had gehad, had ik inmiddels gereageerd - het is nogal een moeilijke vraag - ik zei alleen maar dat dit antwoord de vraag in geen enkele zin van het woord lijkt te beantwoorden.
#8
+9
Dave Kincaid
2011-08-20 02:02:58 UTC
view on stackexchange narkive permalink

Een ander ding om in gedachten te houden is dat de tests op de individuele coëfficiënten elk ervan uitgaan dat alle andere voorspellers in het model zitten. Met andere woorden, elke voorspeller is niet significant zolang alle andere voorspellers in het model zitten. Er moet enige interactie of onderlinge afhankelijkheid zijn tussen twee of meer van uw voorspellers.

Zoals iemand anders hierboven vroeg: hoe heeft u een gebrek aan multicollineariteit vastgesteld?

#9
+4
Peter Flom
2012-08-07 16:06:50 UTC
view on stackexchange narkive permalink

Een manier om dit te begrijpen is de geometrie van de kleinste kwadraten, zoals @StasK suggereert.

Een andere is om te beseffen dat het betekent dat X gerelateerd is aan Y bij het controleren op de andere variabelen, maar niet alleen. U zegt dat X betrekking heeft op unieke variantie in Y. Dit klopt. De unieke variantie in Y verschilt echter van de totale variantie. Dus, welke variantie verwijderen de andere variabelen?

Het zou helpen als u ons uw variabelen zou kunnen vertellen.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...