Vraag:
Zijn er voorbeelden waarin Bayesiaanse geloofwaardige intervallen duidelijk inferieur zijn aan frequentistische betrouwbaarheidsintervallen?
Dikran Marsupial
2010-09-03 23:23:44 UTC
view on stackexchange narkive permalink

Een recente vraag over het verschil tussen vertrouwen en geloofwaardige intervallen bracht me ertoe het artikel van Edwin Jaynes over dat onderwerp opnieuw te lezen:

Jaynes, ET, 1976. 'Confidence Intervals vs Bayesian Intervals,' in Foundations of Probability Theory, Statistical Inference, and Statistical Theories of Science, WL Harper en CA Hooker (red.), D. Reidel, Dordrecht, p. 175; ( pdf)

In abstracto schrijft Jaynes:

... we tonen de Bayesiaanse en orthodoxe oplossingen voor zes algemene statistische problemen met betrouwbaarheidsintervallen (inclusief significantietests op basis van dezelfde redenering). In elk geval vinden we dat de situatie precies het tegenovergestelde is, d.w.z. de Bayesiaanse methode is gemakkelijker toe te passen en levert dezelfde of betere resultaten op. De orthodoxe resultaten zijn inderdaad alleen bevredigend als ze nauw (of precies) overeenstemmen met de Bayesiaanse resultaten. Er is nog geen tegengesteld voorbeeld gemaakt.

(nadruk van mij)

Het artikel werd gepubliceerd in 1976, dus misschien is het verder gegaan . Mijn vraag is: zijn er voorbeelden waarbij het frequentistische betrouwbaarheidsinterval duidelijk superieur is aan het Bayesiaanse geloofwaardige interval (volgens de uitdaging die impliciet door Jaynes is gemaakt)?

Voorbeelden gebaseerd op onjuiste eerdere aannames zijn niet acceptabel, zoals ze zeggen niets over de interne consistentie van de verschillende benaderingen.

Onder vrij milde aannames zijn (a) Bayesiaanse schattingsprocedures toelaatbaar en (b) alle, of bijna alle, toelaatbare schatters zijn Bayesiaans met betrekking tot sommige eerdere schattingen. Het is dus geen verrassing dat een Bayesiaans betrouwbaarheidsinterval "dezelfde of betere resultaten oplevert." Merk op dat mijn uitspraken (a) en (b) deel uitmaken van de * frequentistische * analyse van rationele beslissingstheorie. Waar frequentisten afstand doen van Bayesianen gaat niet over de wiskunde of zelfs de statistische procedures, maar over de betekenis, rechtvaardiging en het juiste gebruik van een prior voor een bepaald probleem.
Betekent de bovenstaande opmerking dus dat het antwoord op de vraag van het OP is: 'Dergelijke voorbeelden kunnen niet worden geconstrueerd'? Of bestaat er misschien een pathologisch voorbeeld dat de aannames achter de toelaatbaarheid schendt?
@Srikant: Goede vraag. Ik denk dat de plaats om het onderzoek te beginnen een situatie is waarin er niet door Bayes toelaatbare schatters zijn - niet noodzakelijk een 'pathologische', maar tenminste een die de gelegenheid biedt om een ​​'tegengesteld voorbeeld' te vinden.
Ik zou wat duidelijkheid willen geven aan de "onjuiste eerdere aannames ..." door te stellen dat het Bayesiaanse antwoord en het frequentistische antwoord gebruik moeten maken van * dezelfde informatie *, anders vergelijk je alleen de antwoorden op twee verschillende vragen. Goede vraag echter (+1 van mij)
Ik denk dat ik zo'n voorbeeld heb gezien in het boek "All of Statistics" van Larry Wasserman, waarin hij een voorbeeld geeft waarin het gebruik van Bayesian CI _niet_ het verstandige is om te doen. Het is echter een pathologisch voorbeeld.
pathologie of niet, het zou waarschijnlijk de eerste in zijn soort zijn. Ik ben erg benieuwd naar dit voorbeeld, want deze "pathologieën" hebben meestal een goed leerelement
@suncoolsu - is het voorbeeld in Wasserman waar de veronderstelde "dekking" tot nul daalt?
@probabilityislogic. Ik denk van wel, maar ik moet het controleren. Ik kom hier binnenkort op terug!
@suncoolsu - dit voorbeeld van Wasserman is geen voorbeeld van "defecte Bayes". Omdat $ \ theta \ sim N (0,1) $, en de dekking voor $ \ theta <2 $ goed is, moet u er rekening mee houden dat $ Pr (| \ theta | <2) \ ongeveer 0.977 $, dus de veronderstelde "slechte dekking "wordt alleen verkregen in een klein deel van de mogelijkheden, als het voorafgaande waar is. Als je het gemiddelde van deze dekking zou nemen ten opzichte van het posterieure van $ \ theta $, zou het ongeveer 95% zijn, omdat de meeste van de posterieure waarschijnlijkheid in het $ \ theta <2 $ bereik zou liggen. (meer Later)
@suncoolsu - Ik zou echter zeggen dat het een goed voorbeeld is van de niet-robuuste eigenschappen van geconjugeerde priors. Want als de werkelijke waarde van $ \ theta $ zeg $ 4 $ is, maar uw prior zegt $ \ theta \ sim N (0,1) $, dan zullen de prior en de gegevens vrijwel zeker in conflict komen. Als de prior geconjugeerd is, zeg je eigenlijk dat de voorafgaande informatie * net zo overtuigend is als de gegevens *. Als de prior in plaats daarvan $ \ theta \ sim St (0,1,10) $ (T met 10 df) was, dan zegt u, omdat de waarschijnlijkheid normaal is, dat de gegevens overtuigender zijn dan de vorige ... (meer nog steeds)
... vervolg ... en dat u in geval van een conflict wilt dat de gegevens "winnen". Als de situatie omgekeerd was (waarschijnlijkheid van de student en normale prior), dan zou de prior "winnen" als de gegevens in strijd zijn met de prior. Zie [This post] (http://stats.stackexchange.com/questions/6493/mildly-informative-prior-distributions-for-scale-parameters/6506#6506) voor enkele links naar hoe dit werkt. Ik zou vermoeden dat de dekking beter zou zijn voor grote $ \ theta $ (maar mogelijk slechter voor kleine $ \ theta $) als een student-t-distributie werd gebruikt als prior in plaats van normaal.
Ik denk dat ik dit als antwoord in meer detail zal geven, omdat het een goed voorbeeld is van waar Jaynes het in zijn paper over heeft. Wasserman laat een probleem zien, laat zien dat de Bayesiaanse manier een ogenschijnlijk contra-intuïtief resultaat geeft, waarschuwt voor het "gevaar van Bayesiaanse methoden", zonder enig onderzoek naar * waarom * de Bayesiaanse oplossing het resultaat geeft. Ten tweede wordt het * Frequentist Confidence Interval niet gegeven in het equivalente probleem! * Ik zal in mijn antwoord aantonen dat het voorbeeld kan worden geformuleerd in equivalente frequentistische termen * die precies hetzelfde antwoord geven als het Bayesiaanse antwoord! *
Zeven antwoorden:
#1
+56
Dikran Marsupial
2011-01-21 17:21:13 UTC
view on stackexchange narkive permalink

Ik zei eerder dat ik de vraag zou proberen te beantwoorden, dus hier gaat het ...

Jaynes was een beetje ondeugend in zijn paper omdat een frequentistisch betrouwbaarheidsinterval niet wordt gedefinieerd als een interval waarin we kunnen verwachten dat de werkelijke waarde van de statistiek met een hoge (gespecificeerde) waarschijnlijkheid ligt, dus het is niet onnodig verwonderlijk dat er tegenstrijdigheden ontstaan ​​als ze worden geïnterpreteerd alsof ze dat waren. Het probleem is dat dit vaak de manier is waarop betrouwbaarheidsintervallen in de praktijk worden gebruikt, aangezien een interval dat hoogstwaarschijnlijk de werkelijke waarde bevat (gegeven wat we kunnen afleiden uit onze steekproef van gegevens), is wat we vaak willen.

Het belangrijkste voor mij is dat wanneer een vraag wordt gesteld, het het beste is om een ​​direct antwoord op die vraag te hebben. Of Bayesiaanse geloofwaardige intervallen slechter zijn dan frequentistische betrouwbaarheidsintervallen, hangt af van de vraag die werkelijk is gesteld. Als de gestelde vraag was:

(a) "Geef me een interval waar de werkelijke waarde van de statistiek ligt bij kans p", dan lijkt het erop dat een frequentist die vraag niet echt rechtstreeks kan beantwoorden (en dit introduceert de soort problemen die Jaynes in zijn paper bespreekt), maar een Bayesiaanse kan, en daarom is een Bayesiaanse geloofwaardige interval superieur aan het frequentistische betrouwbaarheidsinterval in de voorbeelden die Jaynes geeft. Maar dit is alleen omdat het de "verkeerde vraag" is voor de frequentist.

(b) "Geef me een interval waarin, als het experiment een groot aantal keren werd herhaald, de werkelijke waarde van de statistiek zou liggen binnen p * 100% van dergelijke intervallen "dan is het frequentistische antwoord precies wat je wilt. De Bayesiaan kan mogelijk ook een direct antwoord op deze vraag geven (hoewel het misschien niet alleen het voor de hand liggende geloofwaardige interval is). De opmerking van Whuber op de vraag suggereert dat dit het geval is.

In wezen is het dus een kwestie van de vraag correct specificeren en het antwoord correct interpreteren. Als je vraag (a) wilt stellen, gebruik dan een Bayesiaanse geloofwaardige interval, als je vraag (b) wilt stellen, gebruik dan een frequentistisch betrouwbaarheidsinterval.

Goed gezegd, vooral over welke vraag een CI eigenlijk beantwoordt. In het artikel van Jaynes vermeldt hij echter dat CI's (en meest frequente procedures) zijn ontworpen om goed te werken "op de lange termijn" (bijv. Hoe vaak zie je $ n \ rightarrow \ infty $ of "for large n the distributie is ongeveer ... "aannames in frequentistische methoden?), maar er zijn veel van dergelijke procedures die dit kunnen doen. Ik denk dat dit is waar frequentistische technieken (consistentie, vooringenomenheid, convergentie, enz.) Kunnen worden gebruikt om verschillende Bayesiaanse procedures te beoordelen waartussen moeilijk te beslissen is.
"Jaynes was een beetje ondeugend in zijn krant ..." Ik denk dat het punt dat Jaynes probeerde te maken (of het punt dat ik eruit haalde) is dat vertrouwensintervallen worden gebruikt om vraag a) in een groot aantal gevallen (ik zou speculeren dat iedereen die * alleen frequentistische training heeft *, CI's zal gebruiken om vraag a te beantwoorden) en zij zullen denken dat ze een geschikt frequentistisch antwoord zijn)
ja, met "een beetje ondeugend" bedoelde ik gewoon dat Jaynes het punt op een nogal ondeugende confronterende (maar ook vermakelijke) manier naar voren bracht (althans zo las ik het). Maar als hij dat niet had gedaan, had het waarschijnlijk geen enkele impact gehad.
#2
+25
probabilityislogic
2011-01-31 12:44:48 UTC
view on stackexchange narkive permalink

Dit is een "uitgewerkt" voorbeeld gegeven in een boek geschreven door Larry Wasserman Alle statistieken op pagina 216 ( 12.8 Sterke en zwakke punten van BayesianInference ). Ik geef in feite wat Wasserman niet doet in zijn boek 1) een verklaring voor wat er werkelijk gebeurt, in plaats van een wegwerplijn; 2) het frequentistische antwoord op de vraag, dat Wasserman gemakshalve niet geeft; en 3) een demonstratie dat het equivalente vertrouwen berekend met dezelfde informatie lijdt aan hetzelfde probleem.

In dit voorbeeld stelt hij de volgende situatie

  1. Een waarneming, X, met een steekproefverdeling: $ (X | \ theta) \ sim N (\ theta, 1) $
  2. Eerdere distributie van $ (\ theta) \ sim N (0 , 1) $ (hij gebruikt eigenlijk een algemene $ \ tau ^ 2 $ voor de variantie, maar zijn diagram is gespecialiseerd in $ \ tau ^ 2 = 1 $)

Vervolgens laat hij zien dat, bij gebruik van een Bayesiaanse 95% geloofwaardige interval in deze opzet, uiteindelijk 0% frequentistische dekking heeft wanneer de werkelijke waarde van $ \ theta $ willekeurig groot wordt. Hij geeft bijvoorbeeld een grafiek van de dekking (p218), en als hij met het oog controleert of de werkelijke waarde van $ \ theta $ 3 is, is de dekking ongeveer 35%. Vervolgens zegt hij:

... Wat moeten we hieruit concluderen? Het belangrijkste is om te begrijpen dat frequentistische en Bayesiaanse methoden verschillende vragen beantwoorden. Gebruik Bayesiaanse gevolgtrekking om eerdere overtuigingen op een principiële manier met gegevens te combineren. Gebruik frequentistische methoden om procedures te construeren met gegarandeerde prestaties op lange termijn, zoals betrouwbaarheidsintervallen, ... (p217)

en gaat dan verder zonder enige uitleg of uitleg van waarom de Bayesiaanse methode presteerde blijkbaar zo slecht. Verder geeft hij geen antwoord vanuit de frequentistische benadering, maar alleen een brede penseeluitspraak over "de lange termijn" - een klassieke politieke tactiek (benadruk je kracht + de zwakte van anderen, maar vergelijk nooit op dezelfde manier).

Ik zal laten zien hoe het probleem zoals vermeld $ \ tau = 1 $ kan worden geformuleerd in frequentistische / orthodoxe termen, en vervolgens zal ik aantonen dat het resultaat met behulp van betrouwbaarheidsintervallen precies hetzelfde antwoord geeft als de Bayesiaanse . Dus elk defect in het Bayesiaanse (echt of waargenomen) wordt niet gecorrigeerd door betrouwbaarheidsintervallen te gebruiken.

Oké, dus hier gaat het. De eerste vraag die ik stel is welke kennis wordt beschreven door de eerdere $ \ theta \ sim N (0,1) $? Als iemand "onwetend" was over $ \ theta $, dan is $ p (\ theta) \ propto 1 $ de juiste manier om dit uit te drukken. Stel nu dat we onwetend waren, en we $ Y \ sim N (\ theta, 1) $ observeerden, onafhankelijk van $ X $. Wat zou onze posterior voor $ \ theta $ zijn?

$$ p (\ theta | Y) \ propto p (\ theta) p (Y | \ theta) \ propto exp \ Big (- \ frac {1} {2} (Y- \ theta) ^ 2 \ Big) $$

Dus $ (\ theta | Y) \ sim N (Y, 1) $. Dit betekent dat de eerdere verdeling die in het voorbeeld van Wassermans wordt gegeven, gelijk is aan het hebben waargenomen van een iid-kopie van $ X $ gelijk aan $ 0 $. Frequentistische methoden kunnen niet omgaan met een prior, maar het kan worden beschouwd als twee observaties van de steekproefverdeling, één gelijk aan $ 0 $ en één gelijk aan $ X $. Beide problemen zijn volledig equivalent, en we kunnen eigenlijk het frequentistische antwoord op de vraag geven.

Omdat we te maken hebben met een normale verdeling met bekende variantie, is het gemiddelde een voldoende statistiek om een ​​betrouwbaarheidsinterval voor $ \ theta $. Het gemiddelde is gelijk aan $ \ overline {x} = \ frac {0 + X} {2} = \ frac {X} {2} $ en heeft een steekproefverdeling

$$ (\ overline { x} | \ theta) \ sim N (\ theta, \ frac {1} {2}) $$

Dus een $ (1- \ alpha) \ text {%} $ CI wordt gegeven door :

$$ \ frac {1} {2} X \ pm Z _ {\ alpha / 2} \ frac {1} {\ sqrt {2}} $$

Maar , gebruikmakend van de resultaten van voorbeeld 12.8 voor Wasserman, laat hij zien dat het posterieure $ (1- \ alpha) \ text {%} $ geloofwaardige interval voor $ \ theta $ wordt gegeven door:

$$ cX \ pm \ sqrt {c} Z _ {\ alpha / 2} $$.

Waar $ c = \ frac {\ tau ^ {2}} {1+ \ tau ^ {2}} $. Als u dus de waarde op $ \ tau ^ {2} = 1 $ invoegt, krijgt u $ c = \ frac {1} {2} $ en wordt het geloofwaardige interval:

$$ \ frac {1} {2} X \ pm Z _ {\ alpha / 2} \ frac {1} {\ sqrt {2}} $$

Wat precies hetzelfde is als het betrouwbaarheidsinterval! Dus elk defect in de dekking dat wordt vertoond door de Bayesiaanse methode, wordt niet gecorrigeerd door het frequentistische betrouwbaarheidsinterval te gebruiken! [Als de frequentist ervoor kiest om de prior te negeren, dan moet de Bayesian, om een ​​eerlijke vergelijking te zijn, deze prior ook negeren en de onwetendheid voorafgaand $ p (\ theta) \ propto 1 $ gebruiken, en de twee intervallen zullen nog steeds gelijk zijn - beide $ X \ pm Z _ {\ alpha / 2}) $].

Dus wat is hier aan de hand? Het probleem is in feite een van de niet-robuustheid van de normale steekproefverdeling. omdat het probleem hetzelfde is als al een iid-kopie hebben waargenomen, $ X = 0 $. Als u $ 0 $ heeft waargenomen, is het uiterst onwaarschijnlijk dat dit heeft plaatsgevonden als de werkelijke waarde $ \ theta = 4 $ is (waarschijnlijkheid dat $ X \ leq 0 $ wanneer $ \ theta = 4 $ is 0.000032). Dit verklaart waarom de dekking zo slecht is voor grote "echte waarden", omdat ze in feite de impliciete waarneming in de voorafgaande een uitbijter maken. In feite kun je aantonen dat dit voorbeeld in wezen equivalent is aan het aantonen dat het rekenkundig gemiddelde een onbegrensde invloedsfunctie heeft.

Generalisatie. Sommige mensen zeggen nu misschien "maar je hebt alleen rekening gehouden met $ \ tau = 1 $, wat kan een speciaal geval zijn ". Dit is niet waar: elke waarde van $ \ tau ^ 2 = \ frac {1} {N} $ $ (N = 0,1,2,3, \ dots) $ kan worden geïnterpreteerd als $ N $ iid kopieën van $ X $ die allemaal gelijk waren aan $ 0 $, naast de $ X $ van de vraag. Het betrouwbaarheidsinterval zal dezelfde "slechte" dekkingseigenschappen hebben voor grote $ \ theta $. Maar dit wordt steeds onwaarschijnlijker als je waarden van $ 0 $ blijft observeren (en geen enkel rationeel persoon zou zich zorgen blijven maken over grote $ \ theta $ als je $ 0 $ blijft zien).

Bedankt voor de analyse. AFAICS is dit slechts een voorbeeld van een probleem veroorzaakt door een onjuiste (informatieve) veronderstelling en zegt het niets over de interne consistentie van de Bayesiaanse benadering?
Nee, de prior is niet noodzakelijk onjuist, tenzij men niet echt een waarde van $ 0 $ observeerde voordat het experiment werd uitgevoerd (of enige gelijkwaardige kennis vergaarde). Het betekent in feite dat, naarmate de echte $ \ theta $ willekeurig groot wordt, de kans om deze impliciete waarnemingen waar te nemen willekeurig klein wordt (zoals het krijgen van een "ongelukkig monster").
je kunt zien door op te merken dat de steekproef bestaat uit een observatie op $ 0 $ en een andere op $ X $. $ 0 $ staat vast (omdat het is waargenomen), maar $ X $ zal in de meeste gevallen "dicht" bij $ \ theta $ liggen. Dus als $ \ theta $ groot wordt, komt het steekproefgemiddelde steeds verder weg van zowel $ X $ als $ 0 $, en omdat de variantie vast is, is de breedte van de CI vast, zodat het uiteindelijk geen $ X bevat. $ of $ 0 $, en dus niet in de buurt komen van een van de twee waarschijnlijke waarden van $ \ theta $ (voor een ervan is een uitbijter als ze ver uit elkaar komen te staan, voor vaste $ \ theta $)
U heeft een fout gemaakt in de beschrijving van het betrouwbaarheidsinterval, namelijk: $$ X \ pm Z _ {\ alpha / 2} $$ en dit valt * niet * samen met het geloofwaardige interval $$ cX \ pm c Z _ {\ alpha / 2} $$ Dit geldt voor elke waarde van $ \ tau> 0 $ waarvoor $ c = \ frac {\ tau ^ 2} {\ tau ^ 2 + 1} <1 $
@sextus empiricus - dit is alleen waar als je de gegevens die impliciet in het voorafgaande negeren negeert (dwz stel $ \ tau ^ 2 \ in op \ infty $).Om de problemen equivalent te maken in termen van informatie die wordt gebruikt, moet de CI-procedure de pseudo-datapunten toevoegen voordat de statistieken worden berekend.Wanneer u dit doet, vallen de intervallen samen.
U lijkt te beweren dat de informatie / gegevens die impliciet de prior creëren, een gelijkwaardig resultaat zullen geven in een frequentistische benadering.Maar wat als deze gegevens $ Y $ en $ X $ werden bemonsterd voor i.i.d $ \ theta_Y, \ theta_X $ in plaats van $ \ theta_Y = \ theta_X $?Als je op basis van eerdere waarnemingen / schattingen van $ \ theta_1, \ theta_2, ..., \ theta_k $, hebt ontdekt dat $ \ theta \ sim N (0, \ tau ^ 2) $, dan is het niet juist / betrouwbaar omnieuwe geobserveerde gegevens / steekproef (om een nieuwe $ \ theta_ {k + 1} $ te schatten) aanvullen met 'kunstmatige' gegevens (het zou betekenen dat het succespercentage voor de CI niet onafhankelijk is van $ \ theta_ {k + 1} $)
@sextus empiricus - u pakt nu een ander probleem aan.Dit probleem met meerdere $ \ theta_k $ is niet het voorbeeld dat ik hier beschouw.Er is slechts één enkele waarde $ \ theta $ (dwz hetzelfde als freq-probleem).De pdf beschrijft de onzekerheid voor zijn waarde.
@probabiltyislogic waarom beschouw je alleen die smaak van Wassermans probleem waar geloofwaardige interval- en betrouwbaarheidsintervallen samenvallen?Is het de praktische situatie dat de prior altijd kan worden vervangen door data + niet-informatieve prior?Ik denk dat dit vaak niet het geval is.(een praktisch geval van het probleem dat ik aan het nemen was, is bijvoorbeeld wanneer $ \ theta $ het IQ van een persoon is en $ X $ een IQ-testresultaat; vaak kijken die tests naar betrouwbaarheidsintervallen in plaats van geloofwaardige intervallen en MLE in plaats van maximale posterieurewaarschijnlijkheid bij het uiten van voorspellingen van IQ)
@sextus empiricus - ik beschouw deze zaak alleen omdat dat is wat er in de paper stond die ik besprak - ik wilde geen 'stroman' creëren door over een ander probleem te praten.Als je een voorbeeld kunt bedenken waarvan je denkt dat Bayes erger is, moet je het posten.
@probabilityislogic Zowel Wasserman in Figuur 12.1 van 'Alle statistieken' als Jaynes in 'betrouwbaarheidsintervallen versus bayesiaanse intervallen' beschrijven gevallen waarin ze * niet * samenvallen.Zeker als je een niet-informatieve prior gebruikt in de Bayesiaanse methode (zoals Jaynes liet zien) of als je de voorbeeldgegevens aanvult met bevooroordeelde gegevens in de frequentistische methode (zoals je liet zien), dan vallen de twee methoden samen.Maar zowel Jaynes als Wasserman beschrijven gevallen waarin je (om welke reden dan ook) dit * niet * doet .......
.... Het nadeel / voordeel van de Bayesiaanse / frequentistische behandeling is dat de bias de nauwkeurigheid / precisie verbetert / vermindert, afhankelijk van de bias juistheid / incorrectheid.Wat Jaynes beweert is dat de Bayesiaanse methode beter is (bij slim gebruik van voorinformatie / kennis) of op zijn minst hetzelfde (bij gebruik van geüniformeerde prior) en als bonus ook gemakkelijker te berekenen en intuïtiever is.Maar het probleem is dat men de methode zou kunnen misbruiken en de priors verkeerd zou gebruiken en de methode subjectief onnauwkeurig zou maken (aan de andere kant is de frequentistische methode subjectief overdreven conservatief) ...
... Ik geloof dat dit contrast / verschil tussen voor- en nadelen van het gebruik van eerdere informatie het punt is dat Wasserman wil beschrijven.(dat je de frequentistische methode vergelijkbaar kunt maken door bias toe te voegen aan de bemonsterde gegevens is, denk ik, afgezien van het punt).
#3
+11
Joris Meys
2010-09-04 01:24:52 UTC
view on stackexchange narkive permalink

Het probleem begint met je zin:

Voorbeelden gebaseerd op onjuiste eerdere aannames zijn niet acceptabel aangezien ze niets zeggen over de interne consistentie van de verschillende benaderingen.

Ja, hoe weet je dat je prior juist is?

Neem het geval van Bayesiaanse inferentie in de fylogenie. De kans op ten minste één verandering is gerelateerd aan de evolutionaire tijd (taklengte t) door de formule

$$ P = 1-e ^ {- \ frac {4} {3} ut} $$

waarbij u de vervangingssnelheid is.

Nu wil je een model maken van de evolutie, gebaseerd op vergelijking van DNA-sequenties. In wezen probeer je een boom te schatten waarin je de hoeveelheid verandering tussen de DNA-sequenties zo dicht mogelijk probeert te modelleren. De bovenstaande P is de kans op minimaal één wijziging op een bepaalde tak. Evolutionaire modellen beschrijven de kansen op verandering tussen twee willekeurige nucleotiden, en uit deze evolutionaire modellen wordt de schattingsfunctie afgeleid, hetzij met p als parameter of met t als parameter.

Je hebt geen verstandige kennis en je koos een flat prior voor p. Dit impliceert inherent een exponentieel afnemende prior voor t. (Het wordt nog problematischer als je een vlakke prior op t wilt plaatsen. De geïmpliceerde prior op p is sterk afhankelijk van waar je het bereik van t afsnijdt.)

In theorie kan t oneindig zijn , maar als je een oneindig bereik toestaat, is het gebied onder zijn dichtheidsfunctie ook gelijk aan oneindig, dus je moet een afkappunt definiëren voor de prior. Als u nu het afkappunt voldoende groot kiest, is het niet moeilijk om te bewijzen dat beide uiteinden van het geloofwaardige interval toenemen, en op een bepaald punt is de werkelijke waarde niet meer in het geloofwaardige interval opgenomen. Tenzij je een heel goed idee hebt over de prior, is het niet gegarandeerd dat Bayesiaanse methoden gelijk of superieur zijn aan andere methoden.

ref: Joseph Felsenstein: Inferring Phylogenies, hoofdstuk 18

Even terzijde, ik word ziek van die Bayesiaanse / Frequentistische ruzie. Het zijn allebei verschillende kaders, en geen van beide is de Absolute Waarheid. De klassieke voorbeelden van Bayesiaanse methoden komen steevast uit kansberekening, en geen enkele frequentist zal ze tegenspreken. Het klassieke argument tegen Bayesiaanse methoden omvat steevast de willekeurige keuze van een prior. En verstandige priors zijn zeker mogelijk.

Het komt allemaal neer op het juiste gebruik van beide methoden op het juiste moment. Ik heb heel weinig argumenten / vergelijkingen gezien waarbij beide methoden correct werden toegepast. Veronderstellingen van welke methode dan ook worden erg onderschat en veel te vaak genegeerd.

EDIT: ter verduidelijking ligt het probleem in het feit dat de schatting op basis van p verschilt van de schatting op basis van t in het Bayesiaanse raamwerk wanneer werken met niet-informatieve priors (wat in een aantal gevallen de enige mogelijke oplossing is). Dit is niet waar in het ML-raamwerk voor fylogenetische inferentie. Het is geen kwestie van een verkeerde prior, het is inherent aan de methode.

Het is mogelijk geïnteresseerd te zijn in de verschillen tussen Bayesiaanse en frequentistische statistieken zonder dat het een ruzie is. Het is belangrijk om de tekortkomingen en voordelen van de voorkeursbenadering te kennen. Ik heb specifiek priors uitgesloten, omdat dat op zich geen probleem is met het raamwerk, maar gewoon een kwestie van GIGO. Hetzelfde geldt voor statistieken van frequentisten, bijvoorbeeld door een onjuiste parametrische verdeling van de gegevens aan te nemen. Dat zou geen kritiek zijn op de frequentistische methodologie, alleen op de specifieke methode.BTW, ik heb geen specifiek probleem met onjuiste priors.
Jaynes eerste voorbeeld: Geen enkele statisticus bij zijn volle verstand zal ooit een F-test en een T-test op die dataset gebruiken. Afgezien daarvan vergelijkt hij een tweezijdige toets met P (b> a), wat niet dezelfde geteste hypothese is. Zijn voorbeeld is dus niet eerlijk, wat hij later in wezen toegeeft. Daarnaast kun je "the frameworks" niet vergelijken. Waar hebben we het dan over? ML, REML, LS, bestrafte methoden, ...? intervallen voor coëfficiënten, statistieken, voorspellingen, ...? U kunt zich net zo goed afvragen of lutherse dienstverlening gelijk of beter is dan sjiitische dienstverlening. Ze praten over dezelfde God.
Kunt u verduidelijken wat uw gegevens zijn en wat de parameters zijn die u in uw model zou schatten? Ik ben op dit punt een beetje in de war. Kunt u ook $$ in plaats van $ gebruiken om de formule te centreren? De lettergrootte is momenteel erg klein.
@Srikant: Het voorbeeld in het boek van Felsensteins is gebaseerd op een Jukes-Cantor-model voor DNA-evolutie. Gegevens zijn DNA-sequenties. U wilt de kans op verandering in uw reeks schatten, die gerelateerd is aan uw taklengte op basis van de genoemde formule. Taklengtes worden gedefinieerd als tijd van evolutie: hoe groter de kans op veranderingen, hoe meer tijd er verstreek tussen de voorouder en de huidige toestand. Sorry, maar ik kan de hele theorie achter ML en Bayesiaanse fylogenetische inferentie niet in slechts één bericht samenvatten. Felsenstein had daarvoor een half boek nodig.
Ik denk dat ik alleen maar wilde dat je verduidelijkt welke variabelen in je vergelijking gegevens waren en welke de parameter waren, aangezien het niet duidelijk was uit je bericht, vooral voor iemand zoals ik die een buitenstaander is. Ik ben nog steeds verdwaald, maar ik denk dat ik het boek zou moeten lezen om meer te weten te komen.
@Srikant: Ik heb geprobeerd iets meer te verduidelijken. Eigenlijk is P de parameter die wordt gebruikt in de waarschijnlijkheidsfunctie voor optimalisatie, en de formule geeft alleen de relatie met t, die als alternatief kan worden gebruikt in de waarschijnlijkheidsfunctie. Sorry, ik kan niet duidelijker zijn. Als fylogenie je interesseert, kan ik het Felsensteins-boek zeker aanbevelen, het is een juweeltje. http://www.sinauer.com/detail.php?id=1775
Het is mij niet duidelijk waarom het een probleem is dat een vlakke prior op p een exponentieel afnemende prior op t impliceert. Als dat in strijd is met biologische kennis, betekent dit gewoon dat een flat prior op p niet de werkelijke voorkennis weerspiegelt. Ik zie ook niet in waarom het een probleem is om een ​​incorrect flat prior op t te gebruiken (anders dan ik had gedacht het is niet consistent met voorkennis; de branchetijd kan niet zeggen een miljard jaar, als dat zo was, zouden we hier nog niet zijn, dus het is ongepast om een ​​platte prior te gebruiken). Merk op dat platte priors niet noodzakelijk onwetendheid impliceren .
@Dikran: het is geen probleem. Het is een feit. Het probleem is dat p en t strikt verwant zijn, en daarom precies hetzelfde model zouden moeten geven. Dat gebeurt in een ML-benadering, maar dat gebeurt niet in de Bayesiaanse benadering. In het voorbeeld van Felsensteins zorgt een afkapping van de t-prior op 700 of groter ervoor dat het geloofwaardige interval de werkelijke waarde niet meer dekt. In dit specifieke geval, d.w.z. het gebrek aan voorkennis, is Bayesiaanse gevolgtrekking gewoon niet haalbaar. Er is geen zinnige "niet-informatieve" voorafgaande die kan worden gebruikt.
@Dikran: Met betrekking tot de vlakke t-prior: de prior wordt afgekapt. Wanneer afgekapt op 5 (!), Is het grootste deel van de massa van de prior op p geconcentreerd rond de maximale p-waarde. Bij grotere afkappingswaarden is dit effect nog meer uitgesproken. Het punt is - nogmaals - dat het onmogelijk is om een ​​zinnige prior te vinden als je geen voorkennis hebt van fylogenetische inferentie.
Joris, ik denk dat je het niet begrijpt, een vlakke prior is niet per se niet-informatief. Het is volkomen redelijk dat dezelfde staat van kennis / onwetendheid wordt uitgedrukt door een vlakke prior op p en (laten we zeggen) een vlakke prior op log (t) (wat een veel voorkomende Jeffrey's prior is) in plaats van een vlakke prior op t. Onderzoekt het boek ideeën van MAXENT en transformatiegroepen voor dit probleem? Er zijn niet genoeg details in uw voorbeeld, maar uit wat ik kan opmaken, is zelfs een afgekapte flat prior op t waarschijnlijk niet consistent met eerdere kennis over t.
@Joris, ook in uw oorspronkelijke opmerking stelt u voor dat de vlakke prior op t moet worden afgekapt, omdat anders het gebied onder de dichtheidsfunctie oneindig is. Dit is niet waar, er zijn tal van problemen waarbij onjuiste priors heel goed werken, dus het is niet per se nodig om de flat prior af te kappen.
@Dikran: Ik denk dat je het punt mist: het gebruik van dezelfde niet-informatieve prior geeft twee verschillende modellen met Bayesiaanse statistieken over dezelfde dataset. Niet zo met ML. De Bayesiaan kan erg bevooroordeeld zijn vanwege de aard van het model en de incompatibiliteit van dat model met oneindige priors. Je hoeft me niet te geloven. Felsenstein is de autoriteit op het gebied van fylogenetische inferentie, en zijn boek legt u beter uit dan ik zal kunnen. Verwijzing in een eerdere opmerking.
@Joris,, zoals ik al zei, is een platte prior NIET NOODZAKELIJK ONINFORMATIEF. Overweeg dit, als twee priors verschillende resultaten opleveren, dan moet deze logischerwijs een andere staat van voorkennis vertegenwoordigen (zie de vroege hoofdstukken van het Jaynes-boek waarin de desiderata voor Baysiaanse inferentie worden uiteengezet). Daarom kunnen de "flat p" prior en "flat t" prior niet allebei niet informatief zijn. Felsenstein is misschien een expert op het gebied van fylogenetische inferentie, maar het is mogelijk dat hij geen expert is in Bayesiaanse inferentie. Als hij stelt dat twee prioren die verschillende resultaten geven, allebei niet informatief zijn, staat hij op gespannen voet met Jaynes (die het zeker was).
@Dikran: Het punt is niet of een platte prior niet informatief is. Het punt is dat een bevredigende, niet-informatieve prior niet kan worden gedefinieerd vanwege de aard van het model. Vandaar dat de hele methode onbruikbaar wordt als je geen voorafgaande informatie hebt, en dus tot de conclusie leidt dat Bayesiaanse gevolgtrekking in dit geval inferieur is aan de ML-benadering. Felsenstein heeft nooit gezegd dat een platte prior niet informatief was. Hij illustreerde zojuist waarom een ​​niet-informatieve prior niet kan worden bepaald, aan de hand van het voorbeeld van een platte prior.
@Joris - het kan zijn dat in dit geval geen niet-informatieve prior kan worden geconstrueerd, maar niets dat u tot nu toe hebt geschreven, bewijst dat dit het geval is. Wat schrijft Felsenstein over MAXENT en transformatiegroepen (de twee belangrijkste technieken die worden gebruikt om een ​​niet-informatieve prior voor een bepaald probleem te bepalen)? Als hij die methoden niet heeft onderzocht, hoe kan hij dan weten dat een niet-informatieve prior onmogelijk is? Het lijkt mij dat een vlakke prior op p overeenkomt met een vlakke prior op log (t), wat een bekende Jeffreys 'prior is. Kunt u aantonen dat de vlakke log (t) prior informatief is?
Ik kreeg onlangs een exemplaar van het boek van Felsenstein. In hoofdstuk 18 zegt hij niet waarom je geen onjuiste flat prior op 0-oneindig kunt gebruiken. Evenmin noemt hij MaxEnt of transformatiegroepen in zijn kritiek op uniformatieve priors. Terwijl de rest van het boek misschien erg goed is; dit suggereert dat er onvoldoende kennis is over dat specifieke onderwerp. Waarschuwing lector - alleen omdat iets in een tekstboek of dagboekpapier verschijnt, wil nog niet zeggen dat het correct is.
@Dikran:-entropiemaximalisatie zonder testbare informatie krijgt slechts één beperking: de waarschijnlijkheden zijn bij elkaar opgeteld één. Meestal wordt daar de uniforme verdeling genomen. Ik beschouw het niet als verleend, maar ik ben het eens met de berekeningen en redeneringen van Felsensteins. Dus we zijn het niet eens, zoals meer mensen op dat gebied. Felsenstein is verre van geaccepteerd door iedereen, en ik accepteer niet alles wat hij zegt. Maar op dit punt volg ik hem. Soms is een Bayesiaanse benadering niet superieur aan een andere. En het geval dat hij beschrijft is er volgens mij een van. YMMV.
Ik suggereer niet dat een Bayesiaanse benadering beter is dan een frequente - paarden voor cursussen. In dit geval zijn het waarschijnlijk transformatiegroepen die de sleutel in handen hebben. Het is heel goed mogelijk dat een prior op taklengte die onveranderlijk is aan de gebruikte eenheden gelijk is aan een vlakke prior op de waarschijnlijkheid van een verandering - in welk geval de kritiek van Felsensteins ernstig misplaatst is. Niet-informatieve priors zijn niet noodzakelijk plat en het is ongepast om niet-informatieve priors te bekritiseren zonder de standaardprocedures te noemen om ze te vinden! Niet dat dit betekent dat Bayesian natuurlijk beter is.
Dit is een zeer slecht voorbeeld van de "inferioriteit" van Bayesiaanse methoden, van precies hetzelfde type waarover Jaynes spreekt in zijn paper uit 1976. Je moet opschrijven wat de * numerieke / wiskundige vergelijking * die de ML (of andere frequentistische methode) doet, * en de overeenkomstige Bayesiaanse methode en het numerieke antwoord! * Je hebt het model opgeschreven, maar geen oplossing voor de schatting van er iets mee te maken hebben! De rest van je antwoord zou enorm verbeteren als je opschrijft wat het meest frequente antwoord met ML eigenlijk is.
@probabilityislogic: Ik heb de referenties gegeven. Dit is een discussiesite, geen wetenschappelijk tijdschrift. Lees de opmerkingen en de referentie die ik heb gegeven voor meer informatie. en voordat je het een slecht voorbeeld noemt.
@joris meys - Ik begrijp dat u wel een referentie hebt gegeven, maar uw discussie gaat niet over * hoe * de betrouwbaarheidsintervaloplossing superieur is aan het Bayesiaanse geloofwaardige interval. Dit betekent dat het betrouwbaarheidsinterval in principe * onberekenbaar * moet zijn met behulp van Bayesiaanse methoden. Door de Bayesiaanse oplossing weer te geven die hetzelfde interval geeft, kunt u laten zien welke eerdere informatie impliciet in de procedure was opgenomen om het betrouwbaarheidsinterval te genereren.
@probabilityislogic: de hele discussie draait om de bewering van Felstensteins dat het onmogelijk is om een ​​prior te stellen zonder onmogelijke aannames te doen over tijd of mutatiesnelheid. Onthoud dat we het hebben over fylogenetische bomen. Dit concept zorgt voor een heel ander raamwerk, aangezien het geen klassiek equationeel model is in een ruimte met reële getallen. Ik zou je aanraden het hoofdstuk van zijn boek te lezen om zijn argument te zien over hoe onder bepaalde omstandigheden kan worden bewezen dat de Bayesiaanse benadering onjuist is. Ik zou graag willen benadrukken dat dit EEN voorbeeld is. Het zegt niets over Bayesian in het algemeen.
@probabilityislogic: Om het verschil in aard van het probleem te laten zien: je praat over betrouwbaarheidsintervallen. Probeer nu een betrouwbaarheidsinterval te definiëren rond een fylogenetische boom ...
@Joris Meys - Ik waardeer de verwijzing naar het boek (maar het lijkt alsof er geen link is, ik moet zijn boek kopen om je referentie te lezen), en dat is waar alle argumenten zijn. De vergelijking die je voor het model hebt gepresenteerd, is eenvoudig genoeg (0

0, u> 0 met een relatie tussen elk), in feite zou het kunnen worden uitgedrukt als $ P = Pr (Y

Excuses (nogmaals), ik heb de breuk verkeerd geschreven (vandaag is gewoon niet mijn dag!). Dus het zou zo moeten zijn dat je $ P = Pr (Y <\ frac {4u} {3}) $ kunt schrijven waar $ Y \ sim Expo (t) $ zodat $ E (Y) = \ frac {1} {t } $. Als we $ u $ of $ t $ niet observeren, is het model niet identificeerbaar (d.w.z. er is een oneindig aantal $ u $ en $ t $ waarden die dezelfde $ P $ opleveren).
@probabilityislogic - Ik heb het boek van Felsenstein, helaas is zijn redenering onjuist, omdat hij lijkt te denken dat alle platte priors niet informatief zijn en vice versa en dus het feit in overweging neemt dat twee platte priors op verschillende parametrisaties van hetzelfde ding verschillende conclusies geven, is daar een aanwijzing is een probleem. Het uitgangspunt is onjuist en de conclusie is niet verrassend voor iedereen die bekend is met het idee van transformatiegroepen. In wezen zou een niet-informatieve prior op taklengte ongevoelig moeten zijn voor de keuze van eenheden, wat een prior zou opleveren die vlak was op een logaritmische schaal.
@Joris, kunt u een specifiek paginanummer geven?
reactie verwijderd - wat dan ook ...
@Dikran: Ik zal het vanavond opzoeken. Het is waar hij het effect van de afkapping op de t prior laat zien. Eigenlijk is het bijna een pagina groot, je had het moeten zien toen je het hoofdstuk las. Het is vrij het middelpunt van zijn verhaal ...
@probabilityislogic: het hele punt dat Felstenstein maakt is dat t en u met elkaar verbonden zijn. Dit betekent dat een vlakke prior op t een sterk vertekende prior op u geeft en vice versa. U moet een prior gebruiken die de voorkeur geeft aan bepaalde waarden voor een van beide om een ​​prior te hebben die ** biologisch ** zinvol is. Je moet dus op zijn minst iets weten over de transformatiesnelheid of de mutatietijd om bijvoorbeeld mrBayes in de fylogenie te gebruiken.
@Joris, het is even geleden dat ik het betreffende hoofdstuk heb gelezen, maar het IIRC Felseneteins-probleem was dat een vlakke prior op taklengte biologisch onwaarschijnlijk is. Ik ben het ermee eens, maar een vlakke prior op taklengte is niet noodzakelijk een niet-informatieve prior. Felsensteing lijkt (ten onrechte) te denken dat alleen platte priors niet informatief zijn, en is zich daarom niet bewust van andere keuzes die mogelijk niet informatief en biologisch plausibel zijn. Ik moet er echter op wijzen dat als u kennis heeft van wat wel en niet biologisch aannemelijk is, u niet geheel ongeïnformeerd bent, en geen van beide uw prior zou moeten zijn!
@Joris "Het hele punt dat Felstenstein maakt is dat t en u met elkaar verbonden zijn. Dit betekent dat een vlakke prior op t een sterk vertekende prior op u geeft en vice versa." Het kan zijn dat u deze bias krijgt als u een minimaal informatieve prior maakt die de voorkennis omvat dat de meeteenheden geen effect zouden moeten hebben op de conclusie (transformatiegroepen).
@joris Ik kan begrijpen wat u probeert te zeggen, door een prior te stellen beschrijft u een * kennisstatus *, net alsof u een steekproefverdeling instelt. Nu in het uniform prior op $ P $ beschrijft u een * kennis * dat het mogelijk is dat "geen wijziging" en "een of meer wijzigingen" plaatsvinden op een bepaalde tak. De waarschijnlijkheidstheorie vertelt u hoe u dit * coherent * kunt omzetten in * dezelfde kennis * ongeveer $ t $, gezien uw kennis over de relatie tussen $ P $ en $ t $. Dus een "platte" prior voor $ t $ beschrijft noodzakelijkerwijs een * andere kennisstatus *.
Dat de oplossingen anders zijn, is niet meer en niet minder verrassend dan wanneer je een ander model tussen P en t zou gebruiken.
Ik ben een beetje nieuwsgierig, hoe werkt de ML-oplossing voor $ t $ als je $ P $ gewoon aansluit op je waarschijnlijkheid. De afgeleide is (door kettingregel) $ \ frac {dL} {dt} = \ frac {dL} {dP} \ frac {dP} {dt} = 0 $ maar van de functie voor $ P $ betekent dit $ \ frac {dP} {dt} = \ frac {4u} {3} e ^ {- \ frac {4} {3} ut} $, dus stel $ u \ rightarrow 0 $ en $ t \ rightarrow \ infty $ zo in dat $ P $ is ongewijzigd (en gelijk aan $ P_ {MLE} $) zou de ML-vergelijking oplossen? Of is er iets met $ u $ dat niet in de informatie staat?
@Dikran: de grafiek over de afkapping van T wordt getoond op pagina 305 (fig 18.7)
@probabilityislogic: we hebben het over bomen. De waarschijnlijkheid van de boom is de vermenigvuldiging van alle waarschijnlijkheden op elke locatie (knooppunt) van de boom, die wordt gedefinieerd als de som van alle mogelijke nucleotiden die mogelijk hebben bestaan ​​in de interne knooppunten van de boom, van de waarschijnlijkheden van elk scenario van evenementen. En die kans wordt bepaald door een model waarbij T (of u) betrokken is, waarbij het Jukes-Cantor-model het gemakkelijkste is. Zoals gezegd past fylogenie niet in een klassiek kader.
@probabilityislogic: Er zijn inmiddels talloze raamwerken opgebouwd rond bayesiaanse posterieure waarschijnlijkheden als alternatief voor bootstrap-ondersteuningswaarden, maar de meeste studies concluderen - terecht - dat beide niet kunnen worden vergeleken. En voor de schattingen van de voorafgaande zowel geboorte-sterfprocessen (op gegevens gebaseerd) als theoretische verdelingen voor taklengtes zijn uitgebreid gebruikt. Bayesiaanse applicaties zoals mrBayes kunnen de rekentijd aanzienlijk verkorten, maar de discussie blijft of ze beter of slechter presteren, waarbij elke kant van het argument "bewijs" levert voor de claim.
@probabilityislogic: Maar nogmaals, de meeste onderzoeken concluderen stipt dat ze niet vergelijkbaar zijn. En ik volg nog steeds Felsenstein dat, voor het geval er geen verdere kennis beschikbaar is, het risico op bias veel groter is bij een bayesiaan dan bij een ML-schatting voor een fylogenetische boom. Als je de literatuur over fylogenie induikt (en de artikelen bekijkt die ook niet online zijn, de wetenschap is niet begonnen in 1998), zul je zien dat deze controverse de afgelopen 50 jaar zwaar is besproken. U en @Dikran zijn het misschien niet eens, maar de opmerkingen hier zijn verre van de juiste plek om dit goed te bespreken. Proost
@Joris, Figuur 18.7 op pagina 305 laat alleen zien dat bij gebruik van een informatieve (niet niet-informatieve) prior, de maximale waarschijnlijkheidsschatting buiten het Bayesiaanse geloofwaardige interval ligt. Daar is niets verrassends aan. Zoals reeds is opgemerkt, is het onwaarschijnlijk dat een vlakke prior op taklengte niet-informatief is (transformatiegroepen), vooral wanneer deze onnodig wordt afgekapt (het is mogelijk om onjuiste priors te gebruiken).
Ik denk dat iets dat misschien over het hoofd is gezien in de bovenstaande discussie (inclusief door mij) is dat de ML-oplossing precies gelijk is aan het maximum van de gezamenlijke posterieure dichtheid met behulp van een uniforme prior (dus $ p (\ theta | X) \ propto p (X | \ theta) $ ($ \ theta $ is de vector van parameters). Je kunt dus * niet * beweren dat ML goed is en Bayes niet, omdat ML wiskundig equivalent is aan een Bayesiaanse oplossing (flat prior, en 0- 1 verliesfunctie) U moet een oplossing vinden die * niet * kan worden geproduceerd met behulp van Bayesiaanse methoden.
#4
+11
probabilityislogic
2011-01-19 14:05:54 UTC
view on stackexchange narkive permalink

Keith Winstein,

EDIT: Ter verduidelijking, dit antwoord beschrijft het voorbeeld dat wordt gegeven in Keith Winstein Answer on the King met het wrede statistische spel. De Bayesiaanse en Frequentistische antwoorden gebruiken beide dezelfde informatie, namelijk het negeren van de informatie over het aantal eerlijke en oneerlijke munten bij het samenstellen van de intervallen. Als deze informatie niet wordt genegeerd, moet de frequentist de geïntegreerde Beta-Binomial Likelihood gebruiken als steekproefverdeling bij het construeren van het betrouwbaarheidsinterval, in welk geval het Clopper-Pearson-betrouwbaarheidsinterval niet geschikt is en moet worden gewijzigd. Een soortgelijke aanpassing zou moeten plaatsvinden in de Bayesiaanse oplossing.

EDIT: ik heb ook het eerste gebruik van de clopper Pearson Interval verduidelijkt.

EDIT: helaas, mijn alfa is verkeerd om, en mijn clopper pearson-interval is onjuist. Mijn nederigste excuses aan @whuber, die dit correct heeft aangegeven, maar met wie ik het aanvankelijk niet eens was en die ik negeerde.

De CI die de Clopper Pearson-methode gebruikt is erg goed

Als u maar één observatie krijgt, kan het Clopper Pearson Interval analytisch worden geëvalueerd. Stel dat de munt wordt weergegeven als "succes" (hoofden), u moet $ \ theta $ kiezen zodat

$$ [Pr (Bi (1, \ theta) \ geq X) \ geq \ frac {\ alpha} {2}] \ cap [Pr (Bi (1, \ theta) \ leq X) \ geq \ frac {\ alpha} {2}] $$

Wanneer $ X = 1 $ deze kansen zijn $ Pr (Bi (1, \ theta) \ geq 1) = \ theta $ en $ Pr (Bi (1, \ theta) \ leq 1) = 1 $, dus de Clopper Pearson CI impliceert dat $ \ theta \ geq \ frac {\ alpha} {2} $ (en de triviaal altijd waar $ 1 \ geq \ frac {\ alpha} {2} $) wanneer $ X = 1 $. Als $ X = 0 $ zijn deze kansen $ Pr (Bi (1, \ theta) \ geq 0) = 1 $ en $ Pr (Bi (1, \ theta) \ leq 0) = 1- \ theta $, dus de Clopper Pearson CI impliceert dat $ 1- \ theta \ geq \ frac {\ alpha} {2} $, of $ \ theta \ leq 1- \ frac {\ alpha} {2} $ wanneer $ X = 0 $. Dus voor een 95% -BI krijgen we $ [0,025,1] $ als $ X = 1 $ en $ [0,0,975] $ als $ X = 0 $.

Iemand die de Clopper Pearson Confidence Interval gebruikt, zal nooit worden onthoofd. Bij het observeren van het interval is het in feite de hele parameterruimte. Maar het C-P-interval doet dit door 100% dekking te geven aan een zogenaamd 95% -interval! Kortom, de Frequentists 'cheats' door een betrouwbaarheidsinterval van 95% meer dekking te geven dan hem / zij werd gevraagd te geven (hoewel wie in zo'n situatie niet vals zou spelen? Als ik het was, zou ik de hele [0, 1] interval). Als de koning om een ​​ exact 95% betrouwbaarheidsinterval zou vragen, zou deze frequentistische methode mislukken, ongeacht wat er werkelijk gebeurde (misschien bestaat er een betere?).

Hoe zit het met het Bayesiaanse interval? (met name het Bayesiaanse interval met de hoogste posterieure desniteit (HPD))

Omdat we a priori weten dat zowel kop als munt omhoog kunnen komen, is de uniform prior een redelijke keuze. Dit geeft een posterieure verdeling van $ (\ theta | X) \ sim Beta (1 + X, 2-X) $. Nu hoeven we alleen nog maar een interval te maken met een posterieure waarschijnlijkheid van 95%. Vergelijkbaar met de clopper pearson CI, is de Cummulative Beta-distributie hier ook analytisch, zodat $ Pr (\ theta \ geq \ theta ^ {e} | x = 1) = 1 - (\ theta ^ {e}) ^ {2 } $ en $ Pr (\ theta \ leq \ theta ^ {e} | x = 0) = 1- (1- \ theta ^ {e}) ^ {2} $ als je deze op 0,95 instelt, krijg je $ \ theta ^ {e } = \ sqrt {0,05} \ ongeveer 0,224 $ als $ X = 1 $ en $ \ theta ^ {e} = 1- \ sqrt {0,05} \ ongeveer 0,776 $ als $ X = 0 $. Dus de twee geloofwaardige intervallen zijn $ (0,0.776) $ wanneer $ X = 0 $ en $ (0.224,1) $ wanneer $ X = 1 $

Dus de Bayesian zal worden onthoofd voor zijn HPD Credible interval in het geval dat hij de slechte munt krijgt en de slechte munt krijgt staarten die optreden met een kans van $ \ frac {1} {10 ^ {12} +1} \ maal \ frac {1} {10} \ ongeveer 0 $.

Eerste waarneming: het Bayesiaanse interval is kleiner dan het betrouwbaarheidsinterval. Een ander ding is dat de Bayesian dichter bij de werkelijke dekking zou komen, namelijk 95%, dan de frequentist. In feite is de Bayesian ongeveer net zo dicht bij de dekking van 95% als bij dit probleem kan worden bereikt. En in tegenstelling tot de bewering van Keith: als de slechte munt wordt gekozen, zullen gemiddeld 10 van de 100 Bayesianen hun hoofd verliezen (niet allemaal, omdat de slechte munt moet opkomen voordat het interval geen $ 0,1 $ bevat).

Interessant is dat als het CP-interval voor 1 observatie herhaaldelijk werd gebruikt (dus we hebben N van dergelijke intervallen, elk gebaseerd op 1 observatie), en de werkelijke verhouding tussen $ 0,025 $ en $ 0,975 $ lag, dan was de dekking van het 95% BI zal altijd 100% zijn, en niet 95%! Dit hangt duidelijk af van de werkelijke waarde van de parameter! Dit is dus ten minste één geval waarin herhaald gebruik van een betrouwbaarheidsinterval niet leidt tot het gewenste betrouwbaarheidsniveau.

Om een ​​ echt betrouwbaarheidsinterval van 95% te citeren, per definitie zouden er enkele gevallen (dwz tenminste één) van het waargenomen interval moeten zijn die niet de ware waarde van de parameter bevatten. Hoe kan men anders de tag 95% rechtvaardigen? Zou het niet gewoon geldig of ongeldig zijn om het een interval van 90%, 50%, 20% of zelfs 0% te noemen?

Ik zie niet in hoe eenvoudig het is te zeggen "het betekent eigenlijk 95% of meer "zonder een aanvullende beperking is bevredigend. Dit komt omdat de voor de hand liggende wiskundige oplossing de hele parameterruimte is, en het probleem is triviaal. stel dat ik een 50% -BI wil? als het alleen de valse negatieven begrenst, is de hele parameterruimte een geldige CI die alleen dit criterium gebruikt.

Misschien is een beter criterium (en dit is wat volgens mij impliciet is in de definitie van Kieth) "zo dicht mogelijk bij 95% mogelijk, zonder onder de 95% te gaan". Het Bayesiaanse interval zou een dekking hebben die dichter bij 95% ligt dan de frequentist (hoewel niet veel), en zou niet onder de 95% vallen in de dekking ($ \ text {100%} $ dekking wanneer $ X = 0 $ en $ 100 \ times \ frac {10 ^ {12} + \ frac {9} {10}} {10 ^ {12} +1} \ text {%} > \ text {95%} $ dekking wanneer $ X = 1 $) .

Tot slot, het lijkt een beetje vreemd om een ​​interval van onzekerheid te vragen en dat interval vervolgens te evalueren door de echte waarde te gebruiken waarover we onzeker waren. Een "eerlijkere" vergelijking, zowel voor vertrouwen als voor geloofwaardige intervallen, lijkt mij de waarheid van de verklaring van onzekerheid gegeven met het interval .

In je eerste hoofdparagraaf lijkt het alsof je $ \ alpha $ en $ 1- \ alpha $ door elkaar hebt gehaald. Waar komt de waarde van 10 ^ 12 + 1 binnen? Wat bedoel je met "onthoofd"? Het lijkt erop dat deze tekst moet worden nagelezen en herzien.
$ 10 ^ {12} $ is voor de biljoen eerlijke munten, en 1 is voor de oneerlijke munt. En ik heb $ \ alpha $ en $ 1- \ alpha $ niet verward met het Clopper Pearson-interval [hier] [1]
[sorry typfout] $ 10 ^ {12} $ (TeX gefixeerd) is voor de biljoen eerlijke munten, en 1 is voor de oneerlijke munt, een daarboven is een ruwe ong. naar de kans op het hebben van de "slechte" munt. Onthoofd is het gevolg van het geven van het verkeerde betrouwbaarheidsinterval. En ik heb $ \ alpha $ en $ 1- \ alpha $ niet verward met het Clopper Pearson-interval dat op de wikipagina wordt vermeld (betrouwbaarheidsinterval voor binominale proporties). Wat er gebeurt, is dat een deel van het C-P-interval een tautologie $ 1 \ geq \ frac {\ alpha} {2} $ is bij één waarneming. De kant "draait" wanneer X = 1 tot X = 0, daarom is er $ 1- \ theta $ en $ \ theta $.
Bedoel je het antwoord van @Keith Winstein?
@whuber, Ja, ik bedoel het antwoord van Keith Winstein.
#5
+9
Keith Winstein
2010-09-04 09:22:52 UTC
view on stackexchange narkive permalink

Frequentistische betrouwbaarheidsintervallen beperken het aantal valse positieven (Type I-fouten) en garanderen dat hun dekking hieronder wordt begrensd door de betrouwbaarheidsparameter, zelfs in het ergste geval. Bayesiaanse geloofwaardigheidsintervallen niet.

Dus als het ding waar je om geeft vals-positieven zijn en je deze moet binden, zijn betrouwbaarheidsintervallen de aanpak die je wilt gebruiken.

Laten we bijvoorbeeld zeggen dat je een slechte koning hebt met een hof van 100 hovelingen en courtisanes en hij wil een wreed statistisch spel met hen spelen. De koning heeft een zak met een biljoen eerlijke munten, plus een oneerlijke munt waarvan de kopkans 10% is. Hij gaat het volgende spel spelen. Ten eerste trekt hij willekeurig een munt uit de zak.

Daarna wordt de munt door een kamer van 100 mensen gegeven en wordt iedereen gedwongen om er een privé-experiment mee uit te voeren. dan zal elke persoon een onzekerheidsinterval van 95% aangeven over wat zij denken dat de kans op de koppen van de munt is.

Iedereen die een interval geeft dat een vals positief vertegenwoordigt, dwz een interval dat de werkelijke waarde niet dekt van de hoofden waarschijnlijkheid - zal worden onthoofd.

Als we de / a posteriori / kansverdelingsfunctie van het gewicht van de munt willen uitdrukken, dan is een geloofwaardigheidsinterval natuurlijk wat dat doet. Het antwoord is altijd het interval [0,5, 0,5], ongeacht de uitkomst. Zelfs als je nul of één kop omdraait, zeg je nog steeds [0,5, 0,5] omdat het veel waarschijnlijker is dat de koning een goede munt heeft getrokken en je een 1/1024 dag had met tien koppen op rij , dan trok de koning de oneerlijke munt.

Dus dit is geen goed idee voor de hovelingen en courtisanes om te gebruiken! Omdat wanneer de oneerlijke munt wordt getrokken, de hele kamer (alle 100 mensen) het bij het verkeerde eind heeft en ze allemaal zullen worden onthoofd.

In deze wereld waar false positives het belangrijkste zijn, hebben we een absolute garantie nodig dat het percentage false positives minder dan 5% zal zijn, ongeacht welke munt wordt getrokken. Dan moeten we een betrouwbaarheidsinterval gebruiken, zoals Blyth-Still-Casella of Clopper-Pearson, dat werkt en een dekking van ten minste 95% biedt ongeacht de werkelijke waarde van de parameter, zelfs in het ergste geval . Als iedereen in plaats daarvan deze methode gebruikt, ongeacht welke munt er wordt getrokken, kunnen we aan het eind van de dag garanderen dat het verwachte aantal verkeerde mensen niet meer dan vijf zal zijn.

Het punt is dus: als uw criterium vereist dat false positives worden begrensd (of equivalent, dekking wordt gegarandeerd), moet u met een betrouwbaarheidsinterval gaan. Dat is wat ze doen. Geloofwaardigheidsintervallen kunnen een meer intuïtieve manier zijn om onzekerheid uit te drukken, ze kunnen redelijk goed presteren op basis van een frequentistische analyse, maar ze zullen niet de gegarandeerde binding bieden aan valse positieven die je krijgt als je erom vraagt.

(Natuurlijk, als je ook om vals-negatieven geeft, heb je een methode nodig die ook daarover garanties geeft ...)

Stof tot nadenken, maar het specifieke voorbeeld is oneerlijk, aangezien de frequentistische benadering de relatieve kosten van fout-positieve en fout-negatieve kosten mag overwegen, maar de Bayesiaanse benadering is dat niet. Het juiste om te doen volgens de Bayesiaanse beslissingstheorie is om een ​​interval van [0,1] te geven, aangezien er geen straf is geassocieerd met fout-negatieven. Dus in een gelijkwaardige vergelijking van raamwerken, zou ook geen van de Bayesianen ooit onthoofd worden. De kwestie over het begrenzen van false-positives geeft me echter een richting om een ​​antwoord te zoeken op Jaynes 'uitdaging.
Merk ook op dat als de geselecteerde munt vaak genoeg wordt omgedraaid, het Bayesiaanse betrouwbaarheidsinterval uiteindelijk zal worden gecentreerd op de langetermijnfrequentie van koppen voor de betreffende munt in plaats van op de prior. Als mijn leven afhing van het interval dat de werkelijke waarschijnlijkheid van een hoofd bevat, zou ik de munt niet één keer omdraaien!
Nu we er nog wat meer over nadenken, is dit voorbeeld ongeldig, aangezien het criterium dat wordt gebruikt om succes te meten niet hetzelfde is als het criterium dat wordt geïmpliceerd door de vraag van de koning. Het probleem zit hem in de "maakt niet uit welke munt wordt getrokken", een clausule die is ontworpen om elke methode die gebruikmaakt van de voorkennis over de zeldzaamheid van de vooringenomen munt, te misleiden. Bayesains kunnen trouwens ook grenzen afleiden (bijv.PAC-grenzen) en als daarom gevraagd zou hebben, en ik vermoed dat het antwoord hetzelfde zou zijn als het Clopper-Pearson-interval. Om een ​​eerlijke test te zijn, moet voor beide benaderingen dezelfde informatie worden gegeven.
Dikran, er hoeven geen "Bayesianen" en "Frequentisten" te zijn. Het zijn geen onverenigbare filosofische scholen waarop men zich maar op één kan abonneren! Het zijn wiskundige instrumenten waarvan de doeltreffendheid kan worden aangetoond in het gemeenschappelijke kader van de kansrekening. Mijn punt is dat ALS de vereiste absoluut gebonden is aan valse positieven, ongeacht de werkelijke waarde van de parameter, DAN een betrouwbaarheidsinterval de methode is die dat bereikt. Natuurlijk zijn we het allemaal eens over dezelfde waarschijnlijkheidsaxioma's en hetzelfde antwoord kan op vele manieren worden afgeleid.
Ik ben het eens met het eerste punt, het is een kwestie van "paarden voor cursussen", maar voorbeelden die laten zien waar de grenzen liggen, zijn interessant en geven inzicht in de "cursussen" die het meest geschikt zijn voor elk "paard". De voorbeelden moeten echter eerlijk zijn, zodat het criterium voor succes overeenkomt met de gestelde vraag (Jaynes is misschien niet helemaal immuun voor die kritiek, die ik zal behandelen in mijn antwoord dat ik later zal posten).
Het betrouwbaarheidsinterval geeft alleen een grens aan het * verwachte * aantal fout-positieven, het is niet mogelijk om een ​​absolute grens te leggen aan het aantal fout-positieven voor een bepaalde steekproef (waarbij een triviaal interval van [0,1] wordt verwaarloosd). Een Bayesiaan zou een interval zo bepalen dat de kans op meer dan vijf onthoofdingen kleiner is dan een bepaalde drempelwaarde (bijvoorbeeld 10 ^ -6). Dit lijkt minstens zo nuttig als een gebondenheid aan het verwachte aantal onthoofdingen en heeft als voordeel een (probabilistische) gebondenheid te zijn aan wat er gebeurt met de feitelijke steekproef van hovelingen. Ik zou zeggen dat dit een duidelijke gelijkspel was.
Betrouwbaarheidsintervallen zijn naar mijn mening * volledig en volkomen nutteloos * TENZIJ het experiment een gematigd aantal keren moet worden herhaald (10 of meer). Omdat of een $ \ alpha $ -niveau-CI al dan niet de ware parameter bevat, in feite een $ Bernouli (\ alpha) $-willekeurige variabele is die is "door elkaar gehaald", zodat we niet weten of we een "succes" of een mislukking". Ook voor dit probleem is het onmogelijk om een ​​"exacte" CI te geven, omdat $ 1 ^ {12} $ maal zijn 0,5 en 1 maal zijn 0,1. Laat me 95% van deze set zien? het bestaat niet! Zou je niet gewoon de set van twee getallen {0,5,0.1} geven?
De gestelde vraag is een beetje dubbelzinnig, omdat niet duidelijk wordt aangegeven welke * informatie * de 100 mensen hebben. Weten ze de verdeling in de tas? want als ze dat doen, is het "experimenteren" nutteloos, men zou gewoon het interval $ [0.1,0.5] $ geven of zelfs alleen de twee waarden $ 0.1 $ en $ 0.5 $ (geeft wel de vereiste $ \ text {100%} \ geq \ sms {95%} $ dekking). Als we alleen weten dat er een zak met munten is om uit te trekken, zou de Bayesian het hele [0,1] interval specificeren, omdat false positives * alles * is dat er toe doet in deze vraag (en de * grootte * van het interval doet niet).
Ik zou hebben gedacht dat het bovenstaande argument net zo geldig is voor de frequentist. Het bovenstaande argument (voor zover ik kan nagaan) roept geen specifiek Bayesiaanse of frequentistische principes op (hoewel het wel het principe van * geestelijke gezondheid * aanroept).
Een betrouwbaarheidsinterval is niet gebonden aan het aantal valse positieven - zie mijn antwoord hieronder voor een tegenvoorbeeld om mijn bewering te staven.
Hallo - ja, de dekkingskans van een betrouwbaarheidsinterval wordt hieronder begrensd door de betrouwbaarheidsparameter. Een betrouwbaarheidsinterval van 95% heeft dus een dekking van ten minste 95%, ongeacht de werkelijke waarde van de parameter. Een geloofwaardigheidsinterval geeft deze garantie niet, en kan een dekking hebben die lager is dan de waarschijnlijkheid - het kan zelfs een dekking van 0% hebben voor sommige waarden van de parameter, zoals in het "king" -voorbeeld. Zie http://stats.stackexchange.com/questions/2272/whats-the-difference-between-a-confidence-interval-and-a-credible-interval voor een uitgebreidere uitleg.
@Keith - als wat je zegt waar is, moet je wijzen op de fout die ik heb gemaakt in mijn antwoord (met betrekking tot het voorbeeld van Wasserman). Omdat het CI in dat geval niet de dekking van 95% heeft voor alle waarden van de parameter. Dus als je gelijk hebt, dan moet ik logischerwijs ergens in de berekeningen een fout hebben gemaakt.
#6
+4
Sextus Empiricus
2020-01-09 21:08:46 UTC
view on stackexchange narkive permalink

In dit antwoord probeer ik het verschil tussen betrouwbaarheidsintervallen en geloofwaardige intervallen op een intuïtieve manier te beschrijven.

Ik hoop dat dit kan helpen om te begrijpen:

  • waarom / hoe geloofwaardige intervallen beter zijn dan betrouwbaarheidsintervallen.
  • van welke omstandigheden de geloofwaardige interval afhangt en wanneer ze niet altijd beter zijn .

Geloofwaardige intervallen en betrouwbaarheidsintervallen worden op verschillende manieren geconstrueerd en kunnen verschillen

zie ook: De basislogica van het construeren van een betrouwbaarheidsinterval en Als een geloofwaardig interval een vlakke prior heeft, is een betrouwbaarheidsinterval van 95% dan gelijk aan een geloofwaardig interval van 95%?

In de vraag door probabilityislogic wordt een voorbeeld gegeven van Larry Wasserman, dat werd genoemd in de commentaren van suncoolsu.

$$ X \ sim N (\ theta, 1) \ quad \ text {where} \ quad \ theta \ sim N (0, \ tau ^ 2) $$

We kunnen elk experiment met willekeurige waarden voor $ \ theta $ en $ X $ zien als een gezamenlijke variabele. Dit wordt hieronder uitgezet voor de 20k gesimuleerde gevallen waarin $ \ tau = 1 $

Wasserman example

Dit experiment kan worden beschouwd als een gezamenlijke willekeurige variabele waarbij zowel de waarneming $ X $ als de onderliggende niet-waargenomen parameter $ \ theta $ hebben een multivariate normale verdeling.

$$ f (x, \ theta) = \ frac {1} {2 \ pi \ tau} e ^ {- \ frac {1} {2} \ left ( (x- \ theta) ^ 2 + \ frac {1} {\ tau ^ 2} \ theta ^ 2 \ right)} $$

Zowel het $ \ alpha \% $ -betrouwbaarheidsinterval en $ \ alpha \% $ - geloofwaardig interval trekt grenzen op zo'n manier dat $ \ alpha \% $ van de massa van de dichtheid $ f (\ theta , X) $ valt binnen de grenzen. Hoe verschillen ze?

  • Het geloofwaardige interval trekt grenzen door de $ \ alpha \% $ massa in horizontale richting te evalueren, zodat voor elke vaste $ X $ een $ \ alpha \% $ van de massa valt tussen de grenzen van de voorwaardelijke dichtheid $$ \ theta_X \ sim N (cX, c) \ quad \ text {with} \ quad c = \ frac {\ tau ^ 2} {\ tau ^ 2 + 1} $$ valt tussen de grenzen.

  • Het betrouwbaarheidsinterval trekt grenzen door de $ \ alpha \% $ massa in verticale richting te evalueren, zodat voor elke vaste $ \ theta $ een $ \ alpha \% $ van de massa valt tussen de grenzen van de voorwaardelijke dichtheid $$ X_ \ theta \ sim N (\ theta, 1) \ hphantom {\ quad \ text {with} \ quad c = \ frac {\ tau ^ 2} {\ tau ^ 2 + 1}} $$

Wat is er anders?

De betrouwbaarheidsinterval is beperkt op de manier waarop het de grenzen trekt. Het betrouwbaarheidsinterval plaatst deze grenzen door rekening te houden met de voorwaardelijke verdeling $ X_ \ theta $ en omvat $ \ alpha \% $ onafhankelijk van wat de werkelijke waarde van $ \ theta $ is (deze onafhankelijkheid is zowel de sterkte als de zwakte van het betrouwbaarheidsinterval) .

De geloofwaardige interval verbetert door informatie op te nemen over de marginale verdeling van $ \ theta $ en op deze manier kan het kleinere intervallen maken zonder op te geven op de gemiddelde dekking die nog steeds $ \ alpha \% $ is. (Maar het wordt minder betrouwbaar / mislukt als de aanvullende aanname, over de voorafgaande, niet waar is)

In het voorbeeld is het geloofwaardige interval kleiner met een factor $ c = \ frac {\ tau ^ 2} {\ tau ^ 2 + 1} $ en de verbetering van de dekking, zij het met de kleinere intervallen, wordt bereikt door de intervallen een beetje te verschuiven naar $ \ theta = 0 $ , die een grotere kans heeft om zich voor te doen (dit is waar de eerdere dichtheid zich concentreert).

Conclusie

We kunnen zeggen dat *, als de aannames waar zijn, dan zal voor een gegeven waarneming $ X $ het geloofwaardige interval altijd presteren better (of tenminste hetzelfde). Maar ja, de uitzondering is het nadeel van het geloofwaardige interval (en het voordeel van het betrouwbaarheidsinterval) dat de voorwaardelijke dekkingskans $ \ alpha \% $ vertekend is, afhankelijk van de werkelijke waarde van de parameter $ \ theta $ . Dit is vooral nadelig wanneer de aannames over de eerdere distributie van $ \ theta $ niet betrouwbaar zijn.

* zie ook de twee methoden in deze vraag De basislogica van het construeren van een betrouwbaarheidsinterval. In de afbeelding van mijn antwoord wordt geïllustreerd dat het betrouwbaarheidsinterval de grenzen kan plaatsen, met betrekking tot de posterieure distributie voor een bepaalde waarneming $ X $ , op verschillende 'hoogtes '. Het is dus misschien niet altijd optimaal om het kortste interval te selecteren, en voor elke waarneming $ X $ kan het mogelijk zijn om de lengte van het interval te verkleinen door de grenzen te verleggen tijdens het omsluiten dezelfde $ \ alpha \% $ hoeveelheid kansmassa.

Voor een gegeven onderliggende parameter $ \ theta $ zijn de rollen omgedraaid en presteert het betrouwbaarheidsinterval beter (kleiner interval in verticale richting) dan het geloofwaardige interval. (hoewel dit niet de prestatie is die we zoeken omdat we geïnteresseerd zijn in de intervallen in de andere richting, intervallen van $ \ theta $ gegeven $ X $ en niet intervallen van $ X $ gegeven $ \ theta $ )

Over de uitzondering

Voorbeelden gebaseerd op onjuiste eerdere aannames zijn niet acceptabel

Deze uitsluiting van onjuiste aannames maakt het een beetje een beladen vraag. Ja, onder bepaalde voorwaarden is het geloofwaardige interval beter dan het betrouwbaarheidsinterval. Maar zijn die voorwaarden praktisch?

Zowel geloofwaardige intervallen als betrouwbaarheidsintervallen doen uitspraken over enige waarschijnlijkheid, zoals $ \ alpha \% $ van de gevallen waarin de parameter correct is geschat. Die "waarschijnlijkheid" is echter slechts een waarschijnlijkheid in wiskundige zin en heeft betrekking op het specifieke geval dat de onderliggende aannames van het model zeer betrouwbaar zijn.

Als de aannames onzeker zijn, zou deze onzekerheid zich moeten voortplanten in de berekende onzekerheid / waarschijnlijkheid $ \ alpha \% $ . Dus geloofwaardige intervallen en betrouwbaarheidsintervallen zijn in de praktijk alleen geschikt als de aannames voldoende betrouwbaar zijn, zodat de voortplanting van fouten kan worden verwaarloosd. Geloofwaardige intervallen zijn in sommige gevallen misschien gemakkelijker te berekenen, maar de aanvullende aannames maken geloofwaardige intervallen (op de een of andere manier) meer moeilijker toe te passen dan betrouwbaarheidsintervallen, omdat er meer aannames worden gedaan en dit zal de 'true' waarde van $ \ alpha \% $ .

Extra:

Deze vraag heeft een beetje betrekking op Waarom impliceert een 95% betrouwbaarheidsinterval (BI) geen 95% kans om het gemiddelde te bevatten?

Zie in de afbeelding hieronder de uitdrukking van voorwaardelijke waarschijnlijkheid / kans om de parameter voor dit specifieke voorbeeld te bevatten

Why does a 95% Confidence Interval (CI) not imply a 95% chance of containing the mean?

Het $ \ alpha \% $ betrouwbaarheidsinterval zal de juiste parameter $ \ alpha \% $ correct schatten / bevatten van de tijd, voor elke parameter $ \ theta $ . Maar voor een bepaalde waarneming $ X $ zal het $ \ alpha \% $ betrouwbaarheidsinterval niet schatten / bevatten de echte parameter $ \ alpha \% $ van de tijd. (Type I-fouten treden in dezelfde mate op $ \ alpha \% $ voor verschillende waarden van de onderliggende parameter $ \ theta $ . Maar voor verschillende waarnemingen $ X $ zal het type I-foutenpercentage verschillen. Voor sommige waarnemingen kan het betrouwbaarheidsinterval meer / minder vaak verkeerd zijn dan voor andere opmerkingen).

Het $ \ alpha \% $ geloofwaardige interval zal de juiste parameter $ \ alpha \% $ correct schatten / bevatten van de tijd, voor elke waarneming $ X $ . Maar voor een bepaalde parameter $ \ theta $ zal het $ \ alpha \% $ geloofwaardige interval niet schatting / bevatten de echte parameter $ \ alpha \% $ van de tijd. (Type I-fouten treden in dezelfde mate op $ \ alpha \% $ voor verschillende waarden van de waargenomen parameter $ X $ . Maar voor verschillende onderliggende parameters $ \ theta $ zal het type I-foutpercentage verschillen. Voor sommige onderliggende parameters kan het aannemelijke interval meer / minder vaak zijn verkeerd dan voor andere onderliggende parameters).

Code voor het berekenen van beide afbeeldingen:

  # parameters
set.zaad (1)
n <- 2 * 10 ^ 4
perc = 0,95
za <- qnorm (0,5 + perc / 2,0,1)

# model
tau <- 1
theta <- rnorm (n, 0, tau)
X <- rnorm (n, theta, 1)

# plot scatterdiagram van distributie
plot (theta, X, xlab = expressie (theta), ylab = "waargenomen X",
     pch = 21, col = rgb (0,0,0,0,05), bg = rgb (0,0,0,0,05), cex = 0,25,
     xlim = c (-5,5), ylim = c (-5,5)
    )

# Betrouwbaarheidsinterval
t <- seq (-6,6,0,01)
lijnen (t, t-za * 1, col = 2)
lijnen (t, t + za * 1, col = 2)

# geloofwaardig interval
obsX <- seq (-6,6,0,01)
regels (obsX * tau ^ 2 / (tau ^ 2 + 1) + za * sqrt (tau ^ 2 / (tau ^ 2 + 1)), obsX, col = 3)
regels (obsX * tau ^ 2 / (tau ^ 2 + 1) -za * sqrt (tau ^ 2 / (tau ^ 2 + 1)), obsX, col = 3)

# contouren toevoegen voor voegdichtheid
conX <- seq (-5,5,0,1)
inhoud <- seq (-5,5,0,1)
ln <- lengte (conX)

z <- matrix (rep (0, ln ^ 2), ln)
voor (i in 1: ln) {
  voor (j in 1: ln) {
    z [i, j] <- dnorm (conT [i], 0, tau) * dnorm (conX [j], conT [i], 1)
  }
}
contour (conT, conX, -log (z), add = TRUE, levels = 1:10)

legenda (-5,5, c ("betrouwbaarheidsinterval", "geloofwaardig interval", "loggewrichtsdichtheid"), lty = 1, col = c (2,3,1), lwd = c (1,1,0.5 ), cex = 0,7)
title (uitdrukking (atop ("scatterplot en contourplot van",
                      plakken ("X ~ N (", theta, ", 1) en", theta, "~ N (0,", tau ^ 2, ")"))))




# succespercentage expressie als functie van X en theta
# Waarom impliceert een 95% betrouwbaarheidsinterval (BI) geen 95% kans om het gemiddelde te bevatten?
layout (matrix (c (1: 2), 1))
par (mar = c (4,4,2,2), mgp = c (2,5,1,0))
pX <- seq (-5,5,0,1)
pt <- seq (-5,5,0,1)
cc <- tau ^ 2 / (tau ^ 2 + 1)

plot (-10, -10, xlim = c (-5,5), ylim = c (0,1),
     xlab = expression (theta), ylab = "kans om de parameter te bevatten")
regels (pt, pnorm (pt / cc + za / sqrt (cc), pt, 1) -pnorm (pt / cc-za / sqrt (cc), pt, 1), col = 3)
lijnen (pt, pnorm (pt + za, pt, 1) -pnorm (pt-za, pt, 1), col = 2)
title (uitdrukking (plak ("voor verschillende waarden", theta)))

legende (-3.8,0.15,
       c ("betrouwbaarheidsinterval", "geloofwaardig interval"),
       lty = 1, col = c (2,3), cex = 0,7, box.col = "wit")


plot (-10, -10, xlim = c (-5,5), ylim = c (0,1),
     xlab = expressie (X), ylab = "kans om de parameter te bevatten")
regels (pX, pnorm (pX * cc + za * sqrt (cc), pX * cc, sqrt (cc)) - pnorm (pX * cc-za * sqrt (cc), pX * cc, sqrt (cc)), col = 3)
regels (pX, pnorm (pX + za, pX * cc, sqrt (cc)) - pnorm (pX-za, pX * cc, sqrt (cc)), col = 2)
title (uitdrukking (plak ("voor verschillende waarden", X)))


tekst (0,0.3,
     c ("95% betrouwbaarheidsinterval \ nbetekent niet \ n95% kans om de parameter te bevatten"),
     cex = 0,7, pos = 1)

bibliotheek (vorm)
Pijlen (-3,0,3, -3,9,0,38, arr.lengte = 0,2)
 
Wanneer ik schrijf * "Dus het is misschien niet altijd de optimale keuze van het kortste interval, en voor elke waarneming $ X $ kan het mogelijk zijn om de lengte van het interval te verkleinen door de grenzen te verleggen terwijl dezelfde α% waarschijnlijkheidsmassa wordt omsloten."* Opgemerkt moet worden dat deze α% variabel is als functie van X voor het betrouwbaarheidsinterval ...
.... Dus als je dezelfde variabiliteit gebruikt, kun je de intervallen altijd korter maken of minstens even groot.Maar als u een constante α% afhankelijkheid van X maakt, zoals bij een typisch geloofwaardig interval, dan is het mogelijk dat het geloofwaardige interval * niet * kleiner is dan het betrouwbaarheidsinterval voor * elke * X. Dat betekent dat het geloofwaardige interval dat wel doetdomineren niet altijd het betrouwbaarheidsinterval.(Ik heb geen duidelijk voorbeeld in gedachten, maar ik kan me voorstellen dat het mogelijk moet zijn)
alleen al vanwege uw opmerking over de onjuiste eerdere aannames - als we dit versoepelen, dan moeten we ook bedenken dat het model $ p (X | \ theta) $ ook "fout" is.Maar dit is meestal voor niemand nuttig - de oplossing is meestal een impliciete versie van 'verander het model' (bijv. Niet-parametrische tests, enz.)
@probabilityislogic Wanneer men een betrouwbaarheidsinterval construeert, gebruikt men het model $ p (X \, \ vert \, \ theta) $.Wanneer men een geloofwaardig interval construeert, heeft men ook een * aanvullend * model / aanname / geloof voor de marginale verdeling $ p (\ theta) $.Inderdaad, voor * beide * aannames / modellen zouden we moeten overwegen hoe betrouwbaar ze zijn en in hoeverre de fouten in de aannames zich voortplanten in de idealistische uitdrukkingen van Bayesiaanse / frequentistische waarschijnlijkheid.Gelukkig is de uitdrukking voor $ p (X \, \ vert \, \ theta) $ vaak heel redelijk, maar de $ p (\ theta) $ is niet altijd zo duidelijk.
Ik ben het hier niet mee eens - vaak is de kans groot waar de echte problemen zijn (bijv. Aanname van constante variantie).Waarom is er een enorme literatuur over "uitschieters" en "robuustheid" als de waarschijnlijkheid redelijk is?Bovendien kan het 'probleem' met de prior eenvoudig worden opgelost door een t-verdeling te gebruiken met een lage df in plaats van normaal.Voor grote "echte waarden" van $ \ theta $ zou de prior worden genegeerd, waarbij de posterior zich concentreert rond $ X $ in plaats van $ cX $.
@probabiltyislogic je hebt gelijk, de kans is niet altijd het minst problematisch.Ik had moeten zeggen dat $ p (\ theta) $ soms het grootste probleem is, soms is het $ p (X \, \ vert \, \ theta) $, soms is het beide.Maar daarnaast is het waarschijnlijk niet de reden waarom mensen kiezen, goed of fout, voor de frequentistische methode (het essentiële verschil is hoe ze intervalgrenzen tekenen en ervoor kiezen om de waarschijnlijkheid dat het interval correct is afhankelijk te maken van andere parameters; zoals geïllustreerd inde twee grafieken die ik heb gemaakt op basis van de figuur van Wasserman).
@probabiltyislogic Ik ben het met je eens dat je de spot kunt drijven met * "een 95% betrouwbaarheidsinterval (BI) impliceert geen 95% kans om het gemiddelde te bevatten" * zoals Jaynes doet in het artikel.Het is vaak niet de waarschijnlijkheid die interessant is (tenzij men de test vaak doet op een groot ensemble, zodat het zin heeft om te focussen op de frequentie van succes, bijv. Kwaliteitstesten of het evalueren van aandelen, of wanneer de verliesfunctie afhangt van de echte $ \ theta$ en niet op de waargenomen $ X $).Het creëren van een uitspraak over de posterieure waarschijnlijkheid is echter geen echte oplossing als de prior niet correct is.
#7
  0
Stéphane Laurent
2012-04-07 00:30:16 UTC
view on stackexchange narkive permalink

zijn er voorbeelden waarbij het frequentistische betrouwbaarheidsinterval duidelijk superieur is aan het Bayesiaanse geloofwaardige interval (volgens de impliciete uitdaging van Jaynes).

Hier is een voorbeeld : de echte $ \ theta $ is gelijk aan $ 10 $ maar de voorafgaande op $ \ theta $ is geconcentreerd op ongeveer $ 1 $. Ik doe statistieken voor een klinische proef, en $ \ theta $ meet het risico op overlijden, dus het Bayesiaanse resultaat is een ramp, nietwaar? Serieuzer, wat is "het" Bayesiaanse geloofwaardige interval? Met andere woorden: wat is de geselecteerde prior? Misschien heeft Jaynes een automatische manier voorgesteld om een ​​prior te selecteren, ik weet het niet!

Bernardo stelde een "reference prior" voor om te gebruiken als standaard voor wetenschappelijke communicatie [en zelfs een "reference geloofwaardig interval" ( Bernardo - objectieve, geloofwaardige regio's)]. Ervan uitgaande dat dit "de" Bayesiaanse benadering is, is nu de vraag: wanneer is een interval superieur aan een ander? De frequentistische eigenschappen van het Bayesiaanse interval zijn niet altijd optimaal, maar dat geldt ook voor de Bayesiaanse eigenschappen van "het" frequentistische interval
(wat is trouwens "het" frequentistische interval?)

Ik speculeer, maar ik vermoed dat dit antwoord ongetwijfeld dezelfde behandeling zal krijgen als anderen. Iemand zal eenvoudigweg beweren dat dit een kwestie is van een slechte keuze van prior en niet van een of andere inherente zwakte van de Bayesiaanse procedures, die naar mijn mening gedeeltelijk een geldige kritiek proberen te ontwijken.
De opmerking van @cardinal's is volkomen juist. De prior is hier een orde van grootte uit, waardoor de kritiek erg zwak is. Voorafgaande informatie is ook belangrijk voor frequentisten; wat men weet _a priori_ zou moeten bepalen, b.v. welke schattingen en teststatistieken worden gebruikt. Als deze keuzes gebaseerd zijn op informatie die in de orde van grootte verkeerd is, zijn slechte resultaten te verwachten; Bayesiaans of frequentist zijn, komt er niet in.
Mijn "voorbeeld" was niet het belangrijkste deel van mijn antwoord. Maar wat is een goede keuze van prior? Het is gemakkelijk om een ​​prior voor te stellen wiens ondersteuning de ware parameter bevat, maar de posterieure niet, dus het frequentistische interval is superieur?
Kardinaal en gast hebben gelijk, mijn vraag bevatte expliciet "Voorbeelden gebaseerd op onjuiste eerdere aannames zijn niet acceptabel aangezien ze niets zeggen over de interne consistentie van de verschillende benaderingen." om een ​​goede reden. Frequentistische tests kunnen zowel op onjuiste als op Bayesiaanse aannames gebaseerd zijn (het Bayesiaanse raamwerk stelt de aannames explicieter); de vraag is of het * framework * zwakke punten heeft. Ook als de werkelijke waarde in de prior was, maar niet in de posterieure, zou dat betekenen dat de waarnemingen de mogelijkheid uitsluiten dat de werkelijke waarde correct is!
@cardinal het ontkomt niet aan kritiek op Bayesiaanse methoden, natuurlijk is de keuze van een prior een probleem. Het is gewoon niet de kwestie die relevant is voor deze specifieke vraag. De moeilijkheid bij het uitvoeren van de integralen is een andere zwakte van Bayesiaanse methoden. Paarden voor cursussen, het is de kunst om te weten welk paard voor welke cursus gaat, vandaar mijn interesse in de vraag.
Misschien moet ik mijn antwoord wijzigen en mijn "voorbeeld" verwijderen - dit is niet het serieuze deel van mijn antwoord. Mijn antwoord ging voornamelijk over de betekenis van "de" Bayesiaanse benadering. Hoe noem je de Bayesiaanse benadering? Deze benadering vereist de keuze van een subjectieve prior of gebruikt een automatische manier om een ​​niet-informatieve prior te selecteren? In het tweede geval is het belangrijk om het werk van Bernardo te noemen. Ten tweede hebt u de "superioriteits" -relatie tussen intervallen niet gedefinieerd: wanneer zegt u dat een interval superieur is aan een ander?
Merk op dat het feit dat de prior een orde van grootte afwijkt er niet toe doet, zolang de staarten van de prior naar alle waarschijnlijkheid "dikker" zijn dan de staarten. Als u bijvoorbeeld $ p (x_i | \ mu) \ sim N (\ mu, 1) $ voor $ i = 1, \ dots, n $ hebt en u uw prior instelt als $ p (\ mu) \ sim Cauchy (m, v) $. Dan kan het achterste gemiddelde niet meer dan een vaste afstand verwijderd zijn van het steekproefgemiddelde. Verder neigt de afstand naar nul als $ | m- \ overline {x} | \ to \ infty $ - dat wil zeggen, omdat onze eerdere gok meer in strijd is met de gegevens.
Het probleem waar u het over heeft, gaat meer over een eerdere specificatie dan over een fout. We willen dat de voorafgaande nauwkeurig beschrijft welke informatie u heeft. Het bovenstaande voorbeeld is er een waarin we beschouwen dat de waarschijnlijkheidsfunctie betrouwbaarder is dan het voorgaande.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...