Vraag:
Waarom wordt Poisson-regressie gebruikt voor telgegevens?
zaxtax
2010-09-24 00:38:40 UTC
view on stackexchange narkive permalink

Ik begrijp dat het voor bepaalde datasets, zoals stemmen, beter presteert. Waarom wordt Poisson-regressie gebruikt in plaats van gewone lineaire regressie of logistische regressie? Wat is de wiskundige motivatie ervoor?

Zie mijn antwoord op dit bericht voor een ander standpunt: http://stats.stackexchange.com/questions/142338/goodness-of-fit-and-which-model-to-choose-linear-regression-or-poisson/142353#142353
Vijf antwoorden:
#1
+56
Stephan Kolassa
2010-09-24 01:42:46 UTC
view on stackexchange narkive permalink

Poisson-gedistribueerde -gegevens hebben een intrinsiek integerwaarde, wat logisch is voor telgegevens. Gewone kleinste kwadraten (OLS, die u "lineaire regressie" noemt) gaat ervan uit dat echte waarden normaal verdeeld zijn rond de verwachte waarde en elke reële waarde kunnen aannemen, positief of negatief, geheel getal of fractioneel, wat dan ook. Ten slotte werkt logistische regressie alleen voor gegevens met een waarde van 0-1 (waarde TRUE-FALSE), zoals 'heeft een ziekte' versus 'heeft de ziekte niet'. De Poisson-verdeling is dus het meest logisch voor telgegevens.

Dat gezegd hebbende, is een normale verdeling vaak een vrij goede benadering van een Poisson-verdeling voor gegevens met een gemiddelde van meer dan 30 of zo. En in een regressiekader, waar je voorspellers hebt die de telling beïnvloeden, is een OLS met zijn normale verdeling misschien gemakkelijker te passen en zou eigenlijk algemener zijn, aangezien de Poisson-verdeling en regressie aannemen dat het gemiddelde en de variantie gelijk zijn, terwijl OLS kan omgaan met ongelijke gemiddelden en varianties - voor een telgegevensmodel met verschillende gemiddelden en varianties zou men bijvoorbeeld een negatieve binominale verdeling kunnen gebruiken.

Merk op dat alleen aanpassen met behulp van OlS geen normaliteit vereist - als je de parameters afleidt, heb je de aanname van de normale verdeling nodig
@Dason: Ik sta gecorrigeerd.
Als je de variantie-schatter van Huber / White / Sandwich gebruikt, kun je de aanname van gemiddelde variantie versoepelen
@Dason Hoewel het niet strikt vereist is, geeft het gebruik van de juiste vorm van model voor wat u past bijna altijd een betere schatting, en u kunt het zien in percelen met residuen.
#2
+26
Matt Parker
2010-09-24 01:52:16 UTC
view on stackexchange narkive permalink

In wezen komt dat doordat lineaire en logistische regressie de verkeerde aannames doet over hoe telresultaten eruit zien. Stel je voor dat je model een heel domme robot is die je bevelen meedogenloos zal opvolgen, hoe onzinnig die bevelen ook zijn; het mist volledig het vermogen om te evalueren wat je het vertelt. Als je je robot vertelt dat zoiets als stemmen continu wordt verdeeld van negatief oneindig naar oneindig, is dat wat het denkt dat stemmen zijn, en het kan je onzinnige voorspellingen geven (Ross Perot zal -10.469 stemmen krijgen bij de komende verkiezingen).

Omgekeerd is de Poisson-verdeling discreet en positief (of nul ... nul telt als positief, ja?). Dit zal uw robot op zijn minst dwingen om u antwoorden te geven die in het echte leven kunnen gebeuren. Het kunnen al dan niet goede antwoorden zijn, maar ze zullen in ieder geval worden getrokken uit de mogelijke reeks van "aantal uitgebrachte stemmen".

Natuurlijk heeft de Poisson zijn eigen problemen: het veronderstelt dat het gemiddelde van de stemgetalvariabele ook gelijk zal zijn aan zijn variantie. Ik weet niet of ik ooit een niet-gekunsteld voorbeeld heb gezien waarin dit waar was. Gelukkig hebben slimme mensen andere distributies bedacht die ook positief en discreet zijn, maar die parameters toevoegen om de variantie, eh, te laten variëren (bijv. Negatieve binominale regressie).

#3
+5
Thylacoleo
2010-09-24 04:28:23 UTC
view on stackexchange narkive permalink

Als je wiskundig begint met de simpele aanname dat de kans dat een gebeurtenis plaatsvindt in een gedefinieerd interval $ T = 1 $ $ \ lambda $ is, kun je het verwachte aantal gebeurtenissen in het interval $ T = t $ is laten zien $ \ lambda.t $, de variantie is ook $ \ lambda.t $ en de kansverdeling is
$$ p (N = n) = \ frac {(\ lambda.t) ^ {n} e ^ {- \ lambda.t}} {n!} $$

Via deze en de maximale likelihood-methode & gegeneraliseerde lineaire modellen (of een andere methode ) kom je uit op Poisson-regressie.

In eenvoudige bewoordingen is Poisson-regressie het model dat past bij de aannames van het onderliggende willekeurige proces dat een klein aantal gebeurtenissen genereert met een bepaalde snelheid (dwz aantal per tijdseenheid) bepaald door andere variabelen in het model.

#4
+3
Dason
2010-09-24 04:10:50 UTC
view on stackexchange narkive permalink

Anderen hebben in wezen hetzelfde gezegd als wat ik ga zeggen, maar ik dacht dat ik er mijn mening over zou toevoegen. Het hangt af van wat u precies doet, maar vaak willen we het probleem / de gegevens die voorhanden zijn, graag conceptualiseren. Dit is een iets andere benadering dan alleen het bouwen van een model dat redelijk goed voorspelt. Als we proberen te conceptualiseren wat er aan de hand is, is het logisch om telgegevens te modelleren met een niet-negatieve verdeling die alleen massa op gehele getallen zet. We hebben ook veel resultaten die er in wezen op neerkomen dat telgegevens onder bepaalde omstandigheden echt worden verdeeld als een poisson. Dus als het ons doel is om het probleem te conceptualiseren, is het echt logisch om een ​​poisson als responsvariabele te gebruiken. Anderen hebben op andere redenen gewezen waarom het een goed idee is, maar als je echt probeert het probleem te conceptualiseren en echt begrijpt hoe de gegevens die je ziet kunnen worden gegenereerd, dan is het in sommige situaties logisch om een ​​poissonregressie te gebruiken.

#5
+2
crx
2010-09-24 01:28:49 UTC
view on stackexchange narkive permalink

Ik begrijp voornamelijk dat tellingen altijd positief en discreet zijn, de Poisson kan dergelijke gegevens samenvatten met één parameter. De belangrijkste vangst is dat de variantie gelijk is aan het gemiddelde.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...