Vraag:
Wat is het verschil tussen een betrouwbaarheidsinterval en een geloofwaardig interval?
Matt Parker
2010-09-01 18:53:07 UTC
view on stackexchange narkive permalink

Door de uitwisseling van Joris en Srikant hier vroeg ik me (opnieuw) af of mijn interne verklaringen voor het verschil tussen betrouwbaarheidsintervallen en geloofwaardige intervallen de juiste waren. Hoe zou u het verschil verklaren?

Negen antwoorden:
#1
+355
Keith Winstein
2010-09-01 23:46:23 UTC
view on stackexchange narkive permalink

Ik ben het volledig eens met de uitleg van Srikant. Om er een meer heuristische draai aan te geven:

Klassieke benaderingen stellen over het algemeen dat de wereld één richting is (bijv. Een parameter heeft één bepaalde werkelijke waarde), en proberen experimenten uit te voeren waarvan de resulterende conclusie - ongeacht de werkelijke waarde van de parameter - zal correct zijn met ten minste enige minimale waarschijnlijkheid.

Als resultaat, om onzekerheid in onze kennis na een experiment uit te drukken, gebruikt de frequentistische benadering een "betrouwbaarheidsinterval" - een reeks waarden die zijn ontworpen om de werkelijke waarde van de parameter op te nemen met een minimale waarschijnlijkheid, bijvoorbeeld 95%. Een frequentist zal het experiment en de 95% betrouwbaarheidsintervalprocedure zo ontwerpen dat van elke 100 uitgevoerde experimenten die beginnen tot eindigen, verwacht wordt dat ten minste 95 van de resulterende betrouwbaarheidsintervallen de werkelijke waarde van de parameter bevatten. De andere 5 zijn misschien een beetje fout, of ze zijn misschien complete onzin - formeel gezien is dat ok wat betreft de aanpak, zolang 95 van de 100 gevolgtrekkingen correct zijn. (Natuurlijk zouden we liever hebben dat ze een beetje fout zijn, niet totale onzin.)

Bayesiaanse benaderingen formuleren het probleem anders. In plaats van te zeggen dat de parameter simpelweg één (onbekende) echte waarde heeft, zegt een Bayesiaanse methode dat de waarde van de parameter vast is, maar is gekozen uit een of andere kansverdeling - bekend als de eerdere kansverdeling. (Een andere manier om dat te zeggen is dat de Bayesian voordat hij metingen verricht, een kansverdeling toekent, die ze een geloofstoestand noemen, op basis van wat de werkelijke waarde van de parameter is.) Deze 'prior' zou bekend kunnen zijn (stel je voor dat je probeert om de grootte van een vrachtwagen te schatten, als we de algemene verdeling van vrachtwagengroottes kennen van de DMV) of het kan een aanname zijn die uit het niets is gehaald. De Bayesiaanse gevolgtrekking is eenvoudiger: we verzamelen enkele gegevens en berekenen vervolgens de kans op verschillende waarden van de parameter GEGEVEN aan de gegevens. Deze nieuwe kansverdeling wordt de "a posteriori waarschijnlijkheid" of eenvoudigweg de "posterior" genoemd. Bayesiaanse benaderingen kunnen hun onzekerheid samenvatten door een reeks waarden te geven op de posterieure kansverdeling die 95% van de kans omvat - dit wordt een "95% geloofwaardigheidsinterval" genoemd.

Een Bayesiaanse partizaan zou kritiek kunnen leveren op de frequentistisch betrouwbaarheidsinterval zoals dit: "Dus wat als 95 van de 100 experimenten een betrouwbaarheidsinterval opleveren dat de werkelijke waarde omvat? Het kan me niet schelen dat 99 experimenten IK NIET DOE; Ik geef om dit experiment dat IK DEED DOET. Uw regel staat toe dat 5 van de 100 complete onzin zijn [negatieve waarden, onmogelijke waarden] zolang de andere 95 correct zijn; dat is belachelijk. "

Een die-hard-frequentist zou het Bayesiaanse geloofwaardigheidsinterval als volgt kunnen bekritiseren: "Dus wat als 95% van de posterieure waarschijnlijkheid binnen dit bereik valt? Wat als de werkelijke waarde bijvoorbeeld 0,37 is? Als dat zo is, dan is uw methode, run start tot finish, zal 75% van de tijd VERKEERD zijn. Uw antwoord is: 'Ach, dat is oké, want volgens de voorgaande is het zeer zeldzaam dat de waarde 0,37 is', en dat kan zo zijn, maar ik wil een methode die werkt voor ELKE mogelijke waarde van de parameter. Ik geef niet om 99 waarden van de parameter die HET NIET HEEFT; Ik geef om de enige echte waarde DIE HET WEL HEEFT. Oh, trouwens, je antwoorden zijn alleen correct als de prior juist is. Als je het gewoon uit het niets trekt omdat het goed voelt, kun je ver weg zijn. "

In zekere zin hebben beide partizanen gelijk in hun kritiek op elkaars methoden, maar ik zou je willen aansporen om wiskundig na te denken over het onderscheid - zoals Srikant uitlegt.


Hier is een uitgebreid voorbeeld uit die talk die laat zien het verschil precies in een discreet voorbeeld.

Toen ik een kind was, verraste mijn moeder me af en toe door me een potje chocoladekoekjes te laten bezorgen per post. Het bezorgbedrijf had vier verschillende soorten koekjespotten in voorraad - type A, type B, type C en type D, en ze zaten allemaal op dezelfde vrachtwagen en je wist nooit zeker welk type je zou krijgen. Elke pot bevatte precies 100 koekjes, maar het kenmerk dat de verschillende koekjestrommels onderscheidde, was hun respectievelijke verdeling van chocoladeschilfers per koekje. Als je in een potje reikte en willekeurig een enkel koekje eruit haalde, zijn dit de waarschijnlijkheidsverdelingen die je zou krijgen op het aantal fiches:

alt text

Een koektrommel type A heeft bijvoorbeeld 70 koekjes met elk twee chips en geen koekjes met vier of meer chips! Een koektrommel type D heeft 70 koekjes met elk één chip. Merk op hoe elke verticale kolom een ​​waarschijnlijkheidsmassafunctie is - de voorwaardelijke waarschijnlijkheid van het aantal fiches dat je krijgt, aangezien de pot = A, of B, of C of D, en elke kolom optelt tot 100.

Vroeger vond ik het heerlijk om een ​​spel te spelen zodra de bezorger mijn nieuwe koektrommel afleverde. Ik haalde willekeurig een enkel koekje uit de pot, telde de chips op het koekje en probeerde mijn onzekerheid uit te drukken - op het niveau van 70% - over welke potten het zou kunnen zijn. Het is dus de identiteit van de pot (A, B, C of D) die de waarde van de parameter is die wordt geschat. Het aantal fiches (0, 1, 2, 3 of 4) is de uitkomst of de observatie of de steekproef.

Oorspronkelijk speelde ik dit spel met een frequentist, 70% Betrouwbaarheidsinterval. Zo'n interval moet ervoor zorgen dat ongeacht de werkelijke waarde van de parameter, wat betekent dat het niet uitmaakt welke koekjestrommel ik heb, het interval die werkelijke waarde met een waarschijnlijkheid van ten minste 70% bedekt. ​​

Een interval is natuurlijk een functie die een resultaat (een rij) relateert aan een set waarden van de parameter (een set kolommen). Maar om het betrouwbaarheidsinterval construeren en een dekking van 70% te garanderen, moeten we 'verticaal' werken - elke kolom om beurten bekijken en ervoor zorgen dat 70% van de kansmassafunctie wordt gedekt, zodat 70% van de tijd zal de identiteit van die kolom deel uitmaken van het interval dat resulteert. Onthoud dat het de verticale kolommen zijn die een p.m.f vormen.

Dus nadat ik die procedure had uitgevoerd, eindigde ik met deze intervallen:

enter image description here

Als het aantal fiches op het koekje dat ik trek bijvoorbeeld 1 is, is mijn betrouwbaarheidsinterval {B, C, D}. Als het getal 4 is, is mijn betrouwbaarheidsinterval {B, C}. Merk op dat aangezien elke kolom 70% of meer is, ongeacht in welke kolom we ons werkelijk bevinden (ongeacht welke pot de bezorger heeft afgezet), het interval dat resulteert uit deze procedure de juiste pot zal omvatten met een waarschijnlijkheid van ten minste 70%.

Merk ook op dat de procedure die ik volgde bij het construeren van de intervallen enige discretie had. In de kolom voor type B had ik er net zo goed voor kunnen zorgen dat de intervallen met B 0,1,2,3 zouden zijn in plaats van 1,2,3,4. Dat zou geresulteerd hebben in een dekking van 75% voor type B-potten (12 + 19 + 24 + 20), terwijl de ondergrens van 70% nog steeds werd gehaald.

Mijn zus Bayesia vond deze aanpak echter gek. 'Je moet de bezorger als onderdeel van het systeem beschouwen,' zei ze. "Laten we de identiteit van de pot zelf als een willekeurige variabele beschouwen, en laten we aannemen dat de bezorger op een uniforme manier een van de twee kiest - wat betekent dat hij alle vier op zijn vrachtwagen heeft en als hij bij ons kiest er willekeurig een, elk met een uniforme waarschijnlijkheid. "

" Met die aanname, laten we nu kijken naar de gezamenlijke kansen van de hele gebeurtenis - het jar-type en het aantal fiches die je uit je eerste koekje trekt, "zei ze, terwijl ze de volgende tabel tekende:

enter image description here

Merk op dat de hele tabel nu een waarschijnlijkheidsmassafunctie is, wat betekent dat de hele tabel sommen tot 100%.

"Ok", zei ik, "waar ga je mee?"

"Je hebt gekeken naar de voorwaardelijke waarschijnlijkheid van het aantal chips, gezien de pot, 'zei Bayesia. "Dat is helemaal verkeerd! Wat je echt belangrijk vindt, is de voorwaardelijke kans van welk potje het is, gezien het aantal chips op het koekje! Je interval van 70% moet gewoon de lijstpotjes bevatten die in totaal 70% kans hebben om de echte pot. Is dat niet een stuk eenvoudiger en intuïtiever? "

"Zeker, maar hoe berekenen we dat?" Vroeg ik.

"Laten we zeggen dat we weten dat je 3 fiches hebt. Dan kunnen we alle andere rijen in de tabel negeren en die rij gewoon behandelen als een kansmassa-functie . We zullen de kansen echter proportioneel moeten opschalen, zodat elke rij optelt naar 100. " Ze deed:

enter image description here

"Merk op hoe elke rij nu een pmf is, en sommeert naar 100%. We hebben de voorwaardelijke waarschijnlijkheid omgedraaid van waar je mee begon - nu is het de kans dat de man een bepaald potje heeft afgezet, gezien het aantal fiches op het eerste koekje. "

" Interessant, "zei ik. "Dus nu omcirkelen we net genoeg potten in elke rij om een ​​kans van 70% te krijgen?" We hebben precies dat gedaan door deze geloofwaardigheidsintervallen te maken:

enter image description here

Elk interval bevat een set potten die a posteriori samen 70% zijn. waarschijnlijkheid om de echte pot te zijn.

"Nou, wacht even," zei ik. "Ik ben niet overtuigd. Laten we de twee soorten intervallen naast elkaar zetten en ze vergelijken voor dekking en, ervan uitgaande dat de bezorger elk soort pot met gelijke waarschijnlijkheid kiest, geloofwaardigheid."

Hier dat zijn:

Betrouwbaarheidsintervallen:

enter image description here

Geloofwaardigheidsintervallen:

enter image description here

"Zie je hoe gek je betrouwbaarheidsintervallen zijn?" zei Bayesia. "Je hebt niet eens een zinnig antwoord als je een koekje trekt met nul chips! Je zegt gewoon dat het de lege interval is. Maar dat is duidelijk verkeerd - het moet een van de vier soorten potten zijn. Hoe kun je ermee leven? zelf, door aan het einde van de dag een interval aan te geven als je weet dat het interval verkeerd is? En idem als je een koekje trekt met 3 fiches - je interval is slechts 41% van de tijd correct. dit betrouwbaarheidsinterval van '70% 'is onzin. "

"Nou, hé," antwoordde ik. "Het klopt 70% van de tijd, ongeacht welke pot de bezorger afleverde. Dat is veel meer dan je kunt zeggen over je geloofwaardigheidsintervallen. Wat als de pot van het type B is? Dan is je interval 80% van de tijd verkeerd. , en slechts 20% van de tijd corrigeren! "

" Dit lijkt een groot probleem, "vervolgde ik," omdat je fouten gecorreleerd zullen zijn met het type pot. Als je 100 'Bayesiaanse 'robots om te beoordelen wat voor soort pot je hebt, elke robot bemonstert één cookie, je vertelt me ​​dat je op type B-dagen verwacht dat 80 van de robots het verkeerde antwoord krijgen, elk met meer dan 73% geloof in zijn onjuiste conclusie! Dat is lastig, vooral als je wilt dat de meeste robots het eens worden over het juiste antwoord. "

" PLUS we moesten aannemen dat de bezorger zich uniform gedraagt ​​en elk type pot willekeurig selecteert ," Ik zei. "Waar komt dat vandaan? Wat als het verkeerd is? Je hebt hem niet gesproken; je hebt hem niet geïnterviewd. Toch berusten al je uitspraken van a posteriori waarschijnlijkheid op deze uitspraak over zijn gedrag. Ik hoefde dergelijke aannames niet te doen, en mijn interval voldoet zelfs in het ergste geval aan zijn criterium. "

" Het is waar dat mijn geloofwaardigheidsinterval slecht presteert op potten van type B, "zei Bayesia . "Maar wat dan? Potten van type B komen maar 25% van de tijd voor. Het wordt gecompenseerd door mijn goede dekking van potten van type A, C en D. En ik publiceer nooit onzin."

"Het is waar dat mijn betrouwbaarheidsinterval slecht presteert als ik een koekje zonder chips heb getrokken, "zei ik. "Maar wat dan? Chiploze koekjes gebeuren in het ergste geval hooguit 27% van de tijd (een type-D-pot). Ik kan het me veroorloven om onzin te geven voor deze uitkomst, omdat GEEN potje meer dan 30 keer een verkeerd antwoord geeft. % van de tijd. "

" De kolom sommen zijn belangrijk, "zei ik.

" De rij sommen zijn belangrijk, "zei Bayesia.

"Ik zie dat we in een impasse zitten", zei ik. "We hebben allebei gelijk in de wiskundige uitspraken die we doen, maar we zijn het niet eens over de juiste manier om onzekerheid te kwantificeren."

"Dat is waar," zei mijn zus. "Wil je een koekje?"

Goed antwoord - slechts een klein puntje, u zegt ".... In plaats van te zeggen dat de parameter één echte waarde heeft, zegt een Bayesiaanse methode dat de waarde wordt gekozen uit een of andere kansverdeling ....." Dit is niet waar. Een Bayesiaan past bij de kansverdeling om de onzekerheid over de ware, onbekende, vaste waarde uit te drukken. Dit zegt welke waarden aannemelijk zijn, gegeven wat er bekend was voordat de gegevens werden geobserveerd. De feitelijke waarschijnlijkheidsverklaring is $ Pr [\ theta_0 \ in (\ theta, \ theta + d \ theta) | I] $, waarbij $ \ theta_0 $ de werkelijke waarde is en $ \ theta $ de hypothetische waarde, gebaseerd op informatie $ I $.
... vervolg ... maar het is veel handiger om gewoon $ p (\ theta) $ te schrijven, met begrip van wat het betekent "op de achtergrond". Dit kan duidelijk veel verwarring veroorzaken.
sorry om dit super oude bericht nieuw leven in te blazen, maar een korte vraag, in je bericht in het gedeelte waar de frequentist de Bayesiaanse benadering bekritiseert, zeg je: "Wat als de echte waarde bijvoorbeeld 0,37 is? Als dat zo is, dan is je methode, start start om te eindigen, zal 75% van de tijd VERKEERD zijn. " Hoe kom je aan die cijfers? hoe komt 0,37 overeen met 75% fout? Is dit van een of andere waarschijnlijkheidscurve af? Bedankt
Coole illustratie! Hoe zouden de betrouwbaarheids- en geloofwaardigheidsintervallen van het chocoladeschilfermodel worden aangepast als we n koekjes uit de pot mogen proeven? En kunnen we de nauwkeurigheid van de twee benaderingen beoordelen terwijl we gegevens verzamelen over relatieve freq. van potten die worden geleverd? Ik denk dat de Bayesiaanse benadering betere voorspellingen zal doen als we vrij zeker zijn van de eerdere distributie (zeg maar na ~ 30 leveringen?). Maar als de eerdere dbn abrupt zou veranderen (stel dat een nieuwe bezorger de baan aanneemt), dan zou de frequentistische benadering het voordeel hebben.
@BYS2, wanneer de auteur zegt dat `` Wat als de werkelijke waarde bijvoorbeeld 0,37 is? Als dat zo is, dan is uw methode, van start tot finish, 75% van de tijd VERKEERD '', dan geven ze alleen voorbeeldnummers die zeopgemaakt.In dit specifieke geval zouden ze verwijzen naar een eerdere distributie met een zeer lage waarde van 0,37, met de meeste waarschijnlijkheidsdichtheid elders.En we gaan ervan uit dat onze voorbeelddistributie erg slecht zou presteren als de werkelijke waarde van de parameter 0,37 is, vergelijkbaar met hoe Bayesia's geloofwaardigheidsintervallen jammerlijk faalden toen de pot toevallig van het type B was.
De auteur zegt: `` je verwacht dat 80 van de robots het verkeerde antwoord krijgen, elk met> 73% geloof in hun onjuiste conclusie! '', Maar dit had een `> 72%` overtuiging moeten zijn, aangezien 72% het minimum isgeloofwaardigheid in de tabel met geloofwaardigheidsintervallen.
#2
+39
user28
2010-09-01 21:01:43 UTC
view on stackexchange narkive permalink

Ik begrijp het als volgt:

Achtergrond

Stel dat je wat gegevens $ x $ hebt en je probeert $ \ theta $ te schatten . Je hebt een proces voor het genereren van gegevens dat beschrijft hoe $ x $ wordt gegenereerd afhankelijk van $ \ theta $. Met andere woorden, u kent de verdeling van $ x $ (zeg maar $ f (x | \ theta) $.

Inferentieprobleem

Uw inferentieprobleem is: Welke waarden van $ \ theta $ zijn redelijk gezien de geobserveerde gegevens $ x $?

Betrouwbaarheidsintervallen

Betrouwbaarheidsintervallen zijn een klassiek antwoord op de bovenstaande probleem. Bij deze benadering ga je ervan uit dat er een echte, vaste waarde van $ \ theta $ is. Gegeven deze aanname gebruik je de gegevens $ x $ om een ​​schatting te krijgen van $ \ theta $ (zeg, $ \ hat {\ theta} $). Zodra u uw schatting heeft, wilt u beoordelen waar de werkelijke waarde zich bevindt in verhouding tot uw schatting.

Merk op dat bij deze benadering de werkelijke waarde geen een willekeurige variabele. Het is een vaste maar onbekende hoeveelheid. Daarentegen is uw schatting is een willekeurige variabele, aangezien deze afhangt van uw gegevens $ x $ die zijn gegenereerd op basis van uw gegevens Zo realiseer je je dat je elke keer dat je je studie herhaalt verschillende schattingen krijgt.

Bovenstaand begrip leidt tot aan de volgende methodologie om te beoordelen waar de ware parameter zich bevindt in relatie tot uw schatting. Definieer een interval, $ I \ equiv [lb (x), ub (x)] $ met de volgende eigenschap:

$ P (\ theta \ in I) = 0.95 $

Een interval dat is geconstrueerd zoals hierboven is een zogenaamd betrouwbaarheidsinterval. Aangezien de werkelijke waarde onbekend maar vast is, ligt de werkelijke waarde in het interval of buiten het interval. Het betrouwbaarheidsinterval is dan een verklaring over de waarschijnlijkheid dat het interval dat we verkrijgen daadwerkelijk de echte parameterwaarde heeft. De waarschijnlijkheidsverklaring gaat dus over het interval (d.w.z. de kans dat dat interval de ware waarde heeft of niet) in plaats van over de locatie van de ware parameterwaarde.

In dit paradigma is het zinloos om te spreken over de waarschijnlijkheid dat een werkelijke waarde kleiner of groter is dan een bepaalde waarde, aangezien de werkelijke waarde niet een willekeurige variabele is.

Geloofwaardige intervallen

In tegenstelling tot de klassieke benadering, nemen we in de bayesiaanse benadering aan dat de werkelijke waarde een willekeurige variabele is. We vangen dus onze onzekerheid over de werkelijke parameterwaarde door een eerdere verdeling op te leggen aan de ware parametervector (zeg $ f (\ theta) $).

Met behulp van de stelling van Bayes construeren we de posterieure verdeling voor de parametervector door de prior te combineren met de gegevens die we hebben (kort gezegd is de posterior $ f (\ theta | -) \ propto f (\ theta) f (x | \ theta) $).

We komen dan tot een puntschatting met behulp van de posterieure distributie (gebruik bijvoorbeeld het gemiddelde van de posterieure distributie). Omdat onder dit paradigma de ware parametervector echter een willekeurige variabele is, willen we ook weten hoeveel onzekerheid we hebben in onze puntschatting. We construeren dus een interval zodat het volgende geldt:

$ P (l (\ theta) \ le {\ theta} \ le ub (\ theta)) = 0.95 $

Het bovenstaande is een aannemelijk interval.

Samenvatting

Geloofwaardige intervallen vangen onze huidige onzekerheid in de locatie van de parameterwaarden op en kunnen dus worden geïnterpreteerd als een probabilistische verklaring over de parameter.

Daarentegen leggen betrouwbaarheidsintervallen de onzekerheid vast over het interval dat we hebben verkregen (d.w.z. of het de werkelijke waarde bevat of niet). Ze kunnen dus niet worden geïnterpreteerd als een probabilistische verklaring over de werkelijke parameterwaarden.

Een betrouwbaarheidsinterval van 95% dekt per definitie de werkelijke parameterwaarde in 95% van de gevallen, zoals u correct hebt aangegeven. De kans dat uw interval de werkelijke parameterwaarde dekt, is dus 95%. Je kunt soms iets zeggen over de kans dat de parameter groter of kleiner is dan een van de grenzen, op basis van de aannames die je doet bij het construeren van het interval (vrij vaak de normale verdeling van je schatting). U kunt P (theta> ub) of P (ub
Joris, ik ben het er niet mee eens. Ja, voor elke waarde van de parameter is er> 95% kans dat het resulterende interval de werkelijke waarde dekt. Dat betekent niet dat na het nemen van een bepaalde observatie en het berekenen van het interval, er nog steeds 95% voorwaardelijke kans is gezien de gegevens dat DAT interval de werkelijke waarde dekt. ​​Zoals ik hieronder zei, zou het formeel volkomen acceptabel zijn voor een spuug [0, 1] 95% van de tijd uit en de lege set de andere 5%. De keren dat je de lege set als interval hebt, is er geen 95% kans dat de werkelijke waarde binnen is!
@ Keith: Ik begrijp je punt, hoewel een lege set niet per definitie een interval is. De kans op een betrouwbaarheidsinterval is ook niet afhankelijk van de gegevens, integendeel. Elk betrouwbaarheidsinterval komt uit een andere willekeurige steekproef, dus de kans dat uw steekproef zo ​​wordt getrokken dat het 95% -BI waarop deze is gebaseerd niet de werkelijke parameterwaarde dekt, is slechts 5%, ongeacht de gegevens.
Joris, ik gebruikte "data" als synoniem voor "sample", dus ik denk dat we het daarmee eens zijn. Mijn punt is dat het mogelijk is om in situaties te verkeren, nadat je de steekproef hebt genomen, waarin je met absolute zekerheid kunt bewijzen dat je interval verkeerd is - dat het niet de werkelijke waarde dekt. Dit betekent niet dat het geen geldig 95% betrouwbaarheidsinterval is, dus je kunt niet zeggen dat de betrouwbaarheidsparameter (de 95%) je iets vertelt over de kans op dekking van een bepaald interval nadat je het experiment hebt gedaan en kreeg het interval. Alleen een a posteriori waarschijnlijkheid, geïnformeerd door een prior, kan daar tegen spreken.
@ Keith: ik begrijp je punt. Dus in de Bayesiaanse benadering neem ik een diffuus voorafgaand aan het construeren van hetzelfde interval en noem het een geloofwaardig interval. Als ik in een frequentistische benadering met absolute zekerheid kan bewijzen dat het interval verkeerd is, heb ik aannames geschonden of weet ik wat de werkelijke waarde is. In beide gevallen is het 95% betrouwbaarheidsinterval niet meer geldig. De aannames impliceren een diffuse prior, d.w.z. een volledig gebrek aan kennis over de ware parameter. Als ik voorkennis heb, zou ik in de eerste plaats geen betrouwbaarheidsinterval moeten berekenen.
Nee, ik ben bang dat je het nog steeds niet helemaal hebt. In beide gevallen is er geen vereiste voor een "diffuse prior". Het is prima om een ​​betrouwbaarheidsinterval te berekenen, of je nu voorkennis hebt of niet - het punt is dat het betrouwbaarheidsinterval er gewoon niet toe doet. Een betrouwbaarheidsinterval garandeert de dekkingskans absoluut, zelfs in het ergste geval. Het zal niet "hetzelfde interval" zijn als een geloofwaardigheidsinterval geïnformeerd door een prior, althans niet in het algemeen.
En zoals ik al zei, is het formeel gesproken volkomen acceptabel dat u aan het einde van uw experiment een bepaald betrouwbaarheidsinterval bereikt waarvan u kunt bewijzen dat het niet de werkelijke waarde dekt. Dit betekent NIET dat het interval ongeldig was of dat het geen 95% betrouwbaarheidsinterval is. Als je hetzelfde experiment 100 keer opnieuw uitvoert, moet je natuurlijk verwachten dat je minder dan 5 keer zo'n onzin resultaat krijgt, maar het feit dat je 5% van de runs aantoonbare onzin krijgt, is formeel oké, zolang het betrouwbaarheidsinterval de waardeer de overige 95% van de uitkomsten.
En de transpositie is waar voor een geloofwaardigheidsinterval - het is volkomen acceptabel om waarden van de parameter te hebben die een geloofwaardigheidsinterval opleveren dat altijd verkeerd is! Zolang je prior zegt dat die waarden zeldzaam zijn. Stel je een zak voor met een biljoen gewogen munten - een daarvan heeft een kopkans van 10% en de rest zijn eerlijke munten. Je experiment is: trek een munt uit deze verdeling, draai hem tien keer om, tel het discrete aantal koppen en geef vervolgens een 95% geloofwaardig interval op koppen aan. Als je de "10%" munt krijgt, zal het interval ALTIJD NIET DEKKEN. Nogmaals, maakt het niet ongeldig.
In een van Jaynes papers http://bayes.wustl.edu/etj/articles/confidence.pdf Hij construeert een betrouwbaarheidsinterval en laat vervolgens zien dat je voor het specifieke monster 100% zeker kunt zijn dat de echte waarde niet ligt in het 'vertrouwen interval". Dat betekent niet dat het CI "fout" is, het is alleen dat een frequentistisch betrouwbaarheidsinterval geen antwoord is op de vraag "wat is het interval dat de werkelijke waarde van de statistiek bevat met een waarschijnlijkheid van 95%". Helaas is dat de vraag die we willen stellen, en daarom wordt de CI vaak geïnterpreteerd alsof het een antwoord op die vraag is. :-(
@Keith: Ik snap het niet. Als je bedoelt dat de munt van 10% slechts 1 op de 10 keer head geeft en je eindigt met 0 heads, dan kun je geen betrouwbaarheidsinterval berekenen. Als je 1 kop op de tien keer hebt, is je interval inderdaad niet 50%. Maar ik heb nooit beweerd dat het gedekt was. Ik heb net beweerd dat het onwaarschijnlijk is dat het niet dekt. Ik ken de echte waarde NIET. Bovendien hebben alle CI (Wald, score, Pearson, ...) een slechte dekking aan de randen van de waarschijnlijkheidsruimte, zeker met slechts 10 gevallen. Dus ik zou niets zeggen op basis van die CI. Ik zou waarschijnlijkheidsberekening gebruiken om tot een conclusie te komen. Zoals Bayes deed.
@Keith: maar ik heb je punt begrepen - de echte waarde is geen willekeurige variabele - daar ben ik het mee eens. Mijn fout.
Joris, mijn laatste opmerking ging over een "95% geloofwaardig interval" - geen betrouwbaarheidsinterval! Als je een zak hebt met een biljoen eerlijke munten en een enkele munt van 10%, en je experiment laat je een munt gelijkmatig willekeurig uit de zak trekken, draai hem tien keer om en geef dan een geloofwaardigheidsinterval op voor de waarschijnlijkheid van de koppen. geloofwaardigheidsinterval zal altijd [0,5, 0,5] zijn, wat er ook gebeurt. Dus als je toevallig de oneerlijke munt trekt, zal het geloofwaardigheidsinterval altijd verkeerd zijn.
Ook kan ik het er niet mee eens zijn dat "all CI" een slechte dekking aan de randen heeft. Elke exacte BI, en sommige benaderde BI's, garandeert dat de dekking altijd groter is dan de betrouwbaarheidsparameter (bijv. De 95%), zelfs in het ergste geval. Dit geldt voor een deel van de intervallen van Blyth-Still-Casella en Clopper-Pearson.
@Keith. Ik zou "slechte" dekking moeten specificeren. Te veel dekking is ook een slechte dekking. Ik zal het anders zeggen: aan de randen valt de exacte dekking niet samen met de gekozen dekking.
@svadalli - de Bayesiaanse benadering gaat er niet van uit dat $ \ theta $ * willekeurig * is. Het is niet $ \ theta $ dat wordt gedistribueerd ($ \ theta $ is vast maar onbekend), het is de * onzekerheid over * $ \ theta $ * die wordt gedistribueerd, afhankelijk van een kennis over * $ \ theta $. De feitelijke waarschijnlijkheidsverklaring dat $ f (\ theta) $ vastlegt is $ Pr (\ theta \ text {zit in het interval} (\ theta, \ theta + d \ theta) | I) = f (\ theta) d \ theta $. In feite is exact hetzelfde argument van toepassing op $ X $, het kan ook als vaststaand worden beschouwd, maar onbekend.
#3
+13
Thylacoleo
2010-09-04 15:22:20 UTC
view on stackexchange narkive permalink

Ik ben het op een fundamenteel punt niet eens met het antwoord van Srikant. Srikant verklaarde dit:

"Inferentieprobleem: Uw inferentieprobleem is: welke waarden van θ zijn redelijk gezien de geobserveerde gegevens x?"

In feite is dit het BAYESISCHE INFERENTIE-PROBLEEM. In Bayesiaanse statistieken proberen we P (θ | x) te berekenen, d.w.z. de waarschijnlijkheid van de parameterwaarde gegeven de waargenomen gegevens (steekproef). Het CREDIBLE INTERVAL is een interval van θ met een kans van 95% (of een andere) om de werkelijke waarde van θ te bevatten gezien de verschillende aannames die aan het probleem ten grondslag liggen.

Het FREQUENTISTISCHE INFERENTIE-PROBLEEM is dit:

Zijn de geobserveerde data x redelijk gegeven de hypothetische waarden van θ?

In frequentistische statistieken proberen we P (x | θ) te berekenen, d.w.z. de waarschijnlijkheid van het waarnemen van de gegevens (steekproef) gegeven de veronderstelde parameterwaarde (n). Het VERTROUWELIJKHEIDSINTERVAL (misschien een verkeerde benaming) wordt geïnterpreteerd als: als het experiment dat de willekeurige steekproef x genereerde vele malen zou worden herhaald, zou 95% (of andere) van dergelijke intervallen die uit die willekeurige steekproeven zijn geconstrueerd de ware waarde van de parameter bevatten.

Knoei met je hoofd? Dat is het probleem met frequentistische statistieken en het belangrijkste waar Bayesiaanse statistieken mee te maken hebben.

Zoals Sikrant opmerkt, zijn P (θ | x) en P (x | θ) als volgt gerelateerd:

P (θ | x) = P (θ) P (x | θ)

Waar P (θ) onze eerdere waarschijnlijkheid is; P (x | θ) is de waarschijnlijkheid van de gegevens afhankelijk van die prior en P (θ | x) is de posterieure waarschijnlijkheid. De voorafgaande P (θ) is inherent subjectief, maar dat is de prijs van kennis over het universum - in zeer diepe zin.

De andere delen van zowel Sikrant's als Keith's antwoorden zijn uitstekend.

Technisch gezien heb je gelijk, maar houd er rekening mee dat het betrouwbaarheidsinterval de set parameterwaarden geeft waarvoor de nulhypothese waar is. Dus, "zijn de geobserveerde gegevens x redelijk gezien onze hypothese over theta?" kan worden geherformuleerd als "Welke werkelijke waarden van theta zouden een compatibele hypothese zijn gezien de waargenomen gegevens x?" Merk op dat de opnieuw geformuleerde vraag niet noodzakelijkerwijs impliceert dat theta als een willekeurige variabele wordt beschouwd. De opnieuw geformuleerde vraag maakt gebruik van het feit dat we nulhypothesetests uitvoeren door te inspecteren of de hypothetische waarde binnen het betrouwbaarheidsinterval valt.
@svadali - betrouwbaarheidsintervallen evalueren * gegevens * voor een vaste hypothese. Als u dus bij het wijzigen van het "vaste" deel van de vergelijking geen rekening houdt met de waarschijnlijkheid van de hypothese voordat u uw gegevens observeert, dan zult u ongetwijfeld met inconsistenties en incoherente resultaten komen. Voorwaardelijke waarschijnlijkheid is niet "beperkt" bij het wijzigen van de voorwaarden (bijv. Door de voorwaarden te veranderen kunt u een voorwaardelijke kans veranderen van 0 in 1). De voorafgaande kans houdt rekening met deze willekeur. Conditionering op X is gedaan omdat we er zeker van zijn dat X is opgetreden - we hebben X waargenomen!
#4
+13
suncoolsu
2010-09-16 14:35:44 UTC
view on stackexchange narkive permalink

De eerder gegeven antwoorden zijn erg nuttig en gedetailleerd. Hier is mijn $ 0,25.

Betrouwbaarheidsinterval (CI) is een concept gebaseerd op de klassieke definitie van waarschijnlijkheid (ook wel de "Frequentistische definitie" genoemd) dat waarschijnlijkheid als evenredig is en gebaseerd is op het axiomatische systeem van Kolmogrov (en anderen).

Van geloofwaardige intervallen (Highest Posterior Density, HPD) kan worden aangenomen dat ze hun oorsprong hebben in de beslissingstheorie, gebaseerd op de werken van Wald en de Finetti (en veel uitgebreid door anderen).

Aangezien de mensen in deze thread uitstekend werk hebben geleverd door voorbeelden te geven en het verschil in hypothesen in de Bayesiaanse en frequentistische casus, wil ik slechts enkele belangrijke punten benadrukken.

  1. CI's zijn gebaseerd op het feit dat de interpretatie MOET worden gemaakt op alle mogelijke herhalingen van een experiment dat kan worden gezien en NIET alleen op de waargenomen gegevens, waarbij asHPD's VOLLEDIG zijn gebaseerd op de waargenomen gegevens (en onze eerdere aannames weglaten).

  2. In het algemeen zijn CI's NIET coherent (zal later worden uitgelegd) terwijl HPD's coherent zijn (vanwege hun wortels in de beslissingstheorie). Samenhang (zoals ik aan mijn grootmoeder zou uitleggen) betekent: gegeven een gokprobleem op een parameterwaarde, als een klassieke statisticus (frequentist) wedt op CI en een bayesiaanse gokt op HPD's, is de frequentist GEBONDEN om te verliezen (exclusief het triviale geval wanneer HPD = CI). Kortom, als je de bevindingen van je experiment wilt samenvatten als een kans op basis van de data, dan MOET de kans een posterieure kans zijn (op basis van een prior). Er is een stelling (cf. Heath and Sudderth, Annals of Statistics, 1978) die (ruwweg) stelt: Toewijzing van waarschijnlijkheid aan $ \ theta $ op basis van gegevens zal niet een zekere verliezer als en slechts als het op een bayesiaanse manier wordt verkregen.

  3. Aangezien CI's geen voorwaarden stellen aan de geobserveerde gegevens (ook wel "Conditionality Principle" CP genoemd), kunnen er paradoxale voorbeelden zijn. Fisher was een groot voorstander van CP en vond ook veel paradoxale voorbeelden wanneer dit NIET werd gevolgd (zoals in het geval van CI). Dit is de reden waarom hij p-waarden gebruikte voor inferentie, in tegenstelling tot CI. Volgens hem waren p-waarden gebaseerd op de waargenomen data (er kan veel gezegd worden over p-waarden, maar daar gaat het hier niet om). Twee van de zeer bekende paradoxale voorbeelden zijn: (4 en 5)

  4. Cox's voorbeeld (Annals of Math. Stat., 1958): $ X_i \ sim \ mathcal {N} (\ mu, \ sigma ^ 2) $ (iid) voor $ i \ in \ {1, \ dots, n \} $ en we willen een schatting maken van $ \ mu $ . $ n $ staat NIET vast en wordt gekozen door het gooien van een munt. Als de toss H oplevert, wordt 2 gekozen, anders wordt 1000 gekozen. De 'gezond verstand'-schatting - steekproefgemiddelde is een zuivere schatting met een variantie van $ 0,5 \ sigma ^ 2 + 0.0005 \ sigma ^ 2 $ . Wat gebruiken we als de variantie van het steekproefgemiddelde wanneer $ n = 1000 $ ? Is het niet beter (of verstandig) om de variantie van de steekproefgemiddelde schatter te gebruiken als $ 0,001 \ sigma ^ 2 $ (voorwaardelijke variantie) in plaats van de werkelijke variantie van de schatter , dat is ENORM !! ( $ 0,5 \ sigma ^ 2 + 0.0005 \ sigma ^ 2 $ ). Dit is een eenvoudige illustratie van CP wanneer we de variantie gebruiken als $ 0,001 \ sigma ^ 2 $ wanneer $ n = 1000 $ . $ n $ stand alone heeft geen belang of geen informatie voor $ \ mu $ en $ \ sigma $ (dwz $ n $ is voor hen een ondergeschikte waarde) maar GEGEVEN de waarde ervan, weet u veel over de" kwaliteit Van de gegevens". Dit heeft rechtstreeks betrekking op CI, aangezien ze betrekking hebben op de variantie die niet moet worden geconditioneerd op $ n $ , dwz we zullen uiteindelijk de grotere variantie gebruiken, dus te conservatief.

  5. Voorbeeld van Welch: dit voorbeeld werkt voor elke $ n $ , maar we nemen $ n = 2 $ voor eenvoud. $ X_1, X_2 \ sim \ mathcal {U} (\ theta - 1/2, \ theta +1/2) $ (iid), $ \ theta $ behoort tot de Real-lijn. Dit impliceert $ X_1 - \ theta \ sim \ mathcal {U} (- 1/2, 1/2) $ (iid). $ \ frac {1} {2} (X_1 + X_2) {\ bar x} - \ theta $ (merk op dat dit GEEN statistiek is) heeft een onafhankelijke distributie van $ \ theta $ . We kunnen $ c > 0 $ s.t. $ \ text {Prob} _ \ theta (-c < = {\ bar x} - \ theta < = c) = 1- \ alpha (\ ongeveer 99 \%) $ , wat inhoudt dat $ ({\ bar x} - c, {\ bar x} + c) $ het 99% BI is van $ \ theta $ . De interpretatie van deze CI is: als we herhaaldelijk bemonsteren, krijgen we verschillende $ {\ bar x} $ en 99% (minstens) keer zal het true $ \ theta $ , MAAR (de olifant in de kamer) voor GIVEN data, we weten NIET hoe waarschijnlijk het is dat CI true $ \ theta $ . Beschouw nu de volgende gegevens: $ X_1 = 0 $ en $ X_2 = 1 $ , als $ | X_1 - X_2 | = 1 $ , we weten ZEKER dat het interval $ (X_1, X_2) $ bevat $ \ theta $ (een mogelijke kritiek, $ \ text {Prob} (| X_1 - X_2 | = 1) = 0 $ , maar we kunnen er wiskundig mee omgaan en ik zal er niet over praten). Dit voorbeeld illustreert ook prachtig het concept van samenhang. Als je een klassieke statisticus bent, gok je zeker op het 99% BI zonder te kijken naar de waarde van $ | X_1 - X_2 | $ (ervan uitgaande dat je trouw bent aan je beroep). Een bayesiaan zal echter alleen op de CI wedden als de waarde van $ | X_1 - X_2 | $ dicht bij 1 ligt. Als we conditioneren op $ | X_1 - X_2 | $ , het interval is coherent en de speler zal niet langer een zekere verliezer zijn (vergelijkbaar met de stelling van Heath en Sudderth).

  6. Fisher had een aanbeveling voor dergelijke problemen - gebruik CP. Voor het voorbeeld van Welch stelde Fisher voor om $ X_2-X_1 $ te conditioneren. Zoals we zien, is $ X_2-X_1 $ ondergeschikt aan $ \ theta $ , maar het geeft informatie over theta. Als $ X_2-X_1 $ SMALL is, is er niet veel informatie over $ \ theta $ in de gegevens. Als $ X_2-X_1 $ LARGE is, staat er veel informatie over $ \ theta $ in de gegevens. Fisher breidde de strategie van conditionering op de aanvullende statistiek uit tot een algemene theorie genaamd Fiducial Inference (ook wel zijn grootste mislukking genoemd, zie Zabell, Stat. Sci. 1992), maar het werd niet populair vanwege gebrek aan algemeenheid en flexibiliteit. Fisher probeerde een manier te vinden die verschilt van zowel de klassieke statistiek (van de Neyman School) als de Bayesiaanse school (vandaar het beroemde gezegde van Savage: "Fisher wilde een Bayesiaanse omelet maken (dwz met CP) zonder de Bayesiaanse eieren te breken") . Folklore (geen bewijs) zegt: Fisher viel Neyman in zijn debatten aan (voor Type I en Type II fout en CI) door hem een ​​ Quality Control-man te noemen in plaats van een Scientist , aangezien de methoden van Neyman niet afhankelijk waren van de geobserveerde gegevens, maar naar alle mogelijke herhalingen keken.

  7. Statistici willen naast de CP ook het Sufficiency Principle (SP) gebruiken. Maar SP en CP impliceren samen het Likelihood Principle (LP) (cf. Birnbaum, JASA, 1962) dwz gegeven CP en SP, moet men de steekproefruimte negeren en alleen naar de waarschijnlijkheidsfunctie kijken. We hoeven dus alleen naar de gegeven gegevens te kijken en NIET naar de hele sample-ruimte (kijken naar de hele sample-ruimte is vergelijkbaar met herhaalde sampling). Dit heeft geleid tot concepten als Observed Fisher Information (cf. Efron en Hinkley, AS, 1978) die de informatie over de gegevens meten vanuit een frequentistisch perspectief. De hoeveelheid informatie in de data is een Bayesiaans concept (en dus gerelateerd aan HPD), in plaats van CI.

  8. Kiefer deed eind jaren zeventig wat fundamenteel werk aan CI, maar zijn extensies zijn niet populair geworden. Een goede referentiebron is Berger ("Kunnen Fisher, Neyman en Jeffreys het eens zijn over het testen van hypothesen", Stat Sci, 2003).


Samenvatting:

(Zoals opgemerkt door Srikant en anderen)
CI's kunnen niet worden geïnterpreteerd als waarschijnlijkheid en ze vertellen niets over de onbekende parameter GIVEN the waargenomen data. CI's zijn uitspraken over herhaalde experimenten.

HPD's zijn probabilistische intervallen gebaseerd op de posterieure verdeling van de onbekende parameter en hebben een op waarschijnlijkheid gebaseerde interpretatie op basis van de gegeven gegevens.

Frequentistische eigenschap (herhaalde steekproeven) eigenschap is een wenselijke eigenschap en HPD's (met de juiste prioriteiten) en CI hebben ze allebei. HPD's voorwaarde op de gegeven gegevens ook bij het beantwoorden van de vragen over de onbekende parameter.

(Doelstelling NIET subjectief) Bayesianen zijn het met de klassieke statistici eens dat er een enkele WARE waarde van de parameter is. Ze verschillen echter allebei in de manier waarop ze conclusies trekken over deze ware parameter.

Bayesiaanse HPD's bieden ons een goede manier om gegevens te conditioneren, maar als ze het niet eens zijn met de frequentistische eigenschappen van CI, zijn ze niet erg nuttig (analogie: een persoon die HPD's gebruikt (met een aantal eerdere) zonder een goede frequentistische eigenschap , zal gedoemd zijn als een timmerman die alleen om de hamer geeft en de schroevendraaier vergeet)

Eindelijk heb ik mensen in deze thread gezien (commentaar van Dr. Joris: ". ..aannames impliceren een diffuse prior, dwz een volledig gebrek aan kennis over de ware parameter. ") praten over gebrek aan kennis over de ware parameter die equivalent is aan het gebruik van een diffuse prior. Ik weet niet of ik het met de stelling eens kan zijn (Dr. Keith is het met mij eens). In het geval van de basismodellen kunnen sommige distributies bijvoorbeeld worden verkregen door een uniforme prior te gebruiken (die door sommige mensen diffuus wordt genoemd), MAAR dit betekent NIET dat een uniforme distributie kan worden beschouwd als een LAGE INFORMATIEPRIOR. Over het algemeen betekent NON-INFORMATIVE (Objective) prior niet dat er weinig informatie over de parameter is.



Opmerking: Veel van deze punten zijn gebaseerd op over de lezingen door een van de prominente bayesianen. Ik ben nog steeds een student en zou hem op de een of andere manier verkeerd kunnen hebben begrepen. Aanvaard bij voorbaat mijn excuses.

"de frequentist IS GEBONDEN om te verliezen" Als ik naar het antwoord met de meeste stemmen kijk, zou ik aannemen dat dit afhangt van de hulpprogramma-functie (bijvoorbeeld niet als er spijtoptimalisatie aan de gang is).Intuïtief kan het ook afhangen van het vermogen om de eerdere functie te bepalen ...
"de frequentist IS GEBONDEN om te verliezen" ... * afhankelijk van het hebben van de juiste prior * (wat in het algemeen niet zo eenvoudig is).Perfect voorbeeld: gokverslaafden zijn er 99% zeker van dat hun geluk deze keer zal veranderen.Degenen die dit eerder in hun beslissingsanalyse opnemen, doen het op de lange termijn meestal niet zo goed.
Ik denk niet dat je betrouwbaarheidsintervallen moet afkorten als * CI's * in een antwoord over het onderscheid tussen geloofwaardige intervallen en betrouwbaarheidsintervallen.
#5
+10
probabilityislogic
2011-06-14 21:37:11 UTC
view on stackexchange narkive permalink

Altijd leuk om een ​​beetje filosofie te beoefenen. Ik vind het antwoord van Keith best wel leuk, maar ik zou zeggen dat hij de positie van "meneer vergeetachtig Bayesia" inneemt. De slechte dekking bij type B en type C kan alleen ontstaan ​​als hij / zij bij elke proef dezelfde kansverdeling toepast en weigert zijn (haar) eerdere bij te werken.

Je kunt dit heel duidelijk zien , voor de type A en type D potten als het ware "definitieve voorspellingen" doen (voor respectievelijk 0-1 en 2-3 chips), terwijl type B en C potten in principe een uniforme verdeling van chips geven. Dus bij herhalingen van het experiment met een vaste "echte pot" (of als we een ander koekje proefden), zal een uniforme verdeling van chips het bewijs leveren voor potten van type B of C.

En uit het "praktische "standpunt, type B en C zou een enorme steekproef vereisen om ze te kunnen onderscheiden. De KL-verschillen tussen de twee verdelingen zijn $ KL (B || C) \ ongeveer 0,006 \ ongeveer KL (C || B) $. Dit is een divergentie equivalent aan twee normale distributies, beide met variantie $ 1 $ en een verschil in gemiddelden van $ \ sqrt {2 \ maal 0,006} = 0,11 $. Er kan dus onmogelijk van ons worden verwacht dat we kunnen discrimineren op basis van één steekproef (voor het normale geval zouden we ongeveer 320 steekproefomvang nodig hebben om dit verschil te detecteren bij een significantieniveau van 5%). We kunnen dus terecht type B en type C samen laten instorten, totdat we een voldoende grote steekproef hebben.

Wat gebeurt er nu met die geloofwaardige intervallen? We hebben nu eigenlijk 100% dekking van "B of C"! Hoe zit het met de frequentistische intervallen? De dekking is ongewijzigd aangezien alle intervallen zowel B als C of geen van beide bevatten, dus het is nog steeds onderhevig aan de kritiek in de reactie van Keith - 59% en 0% voor 3 en 0 chips waargenomen.

Maar laten we hier pragmatisch zijn. Als je iets optimaliseert met betrekking tot één functie, kan niet worden verwacht dat het goed werkt voor een andere functie. Zowel de frequentistische als de Bayesiaanse intervallen bereiken echter gemiddeld het gewenste geloofwaardigheids- / betrouwbaarheidsniveau. We hebben $ (0 + 99 + 99 + 59 + 99) /5=71.2$ - dus de bezoeker heeft een gepaste gemiddelde geloofwaardigheid. We hebben ook $ (98 + 60 + 66 + 97) /4=80.3$ - de bayesiaan heeft een passende gemiddelde dekking.

Een ander punt dat ik wil benadrukken is dat de Bayesiaan niet zegt dat "de parameter is willekeurig "door een kansverdeling toe te wijzen. Voor de Bayesiaanse (nou ja, in ieder geval voor mij) is een kansverdeling een beschrijving van wat er bekend is over die parameter. Het begrip "willekeur" bestaat niet echt in de Bayesiaanse theorie, alleen de begrippen "weten" en "niet weten". De "bekende" gaan in op de voorwaarden, en de "onbekenden" zijn datgene waarvoor we de waarschijnlijkheden berekenen, indien van belang, en marginaliseren als ze hinderlijk zijn. Een geloofwaardig interval beschrijft dus wat er bekend is over een vaste parameter, door middel van een gemiddelde over wat er niet over bekend is. Dus als we de positie zouden innemen van de persoon die de koektrommel pakte en wist dat het van het type A was, zou hun geloofwaardigheidsinterval gewoon [A] zijn, ongeacht de steekproef, en ongeacht hoeveel stalen er werden genomen. En ze zouden 100% nauwkeurig zijn!

Een betrouwbaarheidsinterval is gebaseerd op de "willekeur" of variatie die bestaat in de verschillende mogelijke steekproeven. De enige variatie waarmee ze rekening houden, is die in een steekproef. Dus het betrouwbaarheidsinterval is ongewijzigd voor de persoon die de koektrommel heeft ingepakt en nieuw is dat het type A was. niet A, ook al weten ze dat de pot van het type A is! (als ze vasthielden aan hun ideologie en hun gezond verstand negeerden). Om te zien dat dit het geval is, moet u er rekening mee houden dat niets in deze situatie de steekproefverdeling heeft veranderd - we hebben simpelweg het perspectief van een andere persoon genomen met "niet-gegevens" gebaseerde informatie over een parameter.

Vertrouwen intervallen zullen alleen veranderen als de gegevens veranderen of het model / de steekproefverdeling verandert. geloofwaardigheidsintervallen kunnen veranderen als rekening wordt gehouden met andere relevante informatie.

Merk op dat dit idiote gedrag zeker niet is wat een voorstander van betrouwbaarheidsintervallen daadwerkelijk zou doen; maar het toont wel een zwakte in de filosofie die in een bepaald geval aan de methode ten grondslag ligt. Betrouwbaarheidsintervallen werken het beste als u niet veel weet over een parameter buiten de informatie in een gegevensset. En verder, geloofwaardigheidsintervallen zullen niet veel kunnen verbeteren op betrouwbaarheidsintervallen, tenzij er voorafgaande informatie is waarmee het betrouwbaarheidsinterval geen rekening kan houden, of het vinden van de voldoende en aanvullende statistieken moeilijk is.

Ik kan niet zeggen dat ik Keiths uitleg van het jar-voorbeeld begreep, een korte vraag: ik herhaal het experiment $ m $ keer, verzamelde $ m $ verschillende samples, dus nu heb ik $ m $ verschillende CI's berekend (elk met 95% betrouwbaarheidsniveau), wat is nu CI? Betekent dit dat 95% van $ m $ CI's de werkelijke waarde moet dekken?
@loganecolss - dit is inderdaad waar, maar alleen in de limiet van $ m \ tot \ infty $. Dit komt overeen met de standaard "waarschijnlijkheid" = "lange termijn frequentie" interpretatie van onderliggende CI's.
Ja, in de limiet. Dan betekenen de CI's voor een of slechts een paar voorbeelden niets, toch? Wat heeft het dan voor zin om de CI te berekenen, als ik geen tonnen monsters heb?
@loganecolss - daarom ben ik een Bayesiaan.
@probabilityislogic Betekent dit dat het het beste is om een Bayesiaanse benadering te gebruiken als er onbekend is (met kleine gegevens), en een Frequentistische benadering als er geen onbekende (big data) is voor de beste (/ snelste?) Resultaten?
@nazka - soort van.Ik zou zeggen dat het altijd het beste is om een Bayesiaanse benadering te gebruiken, ongeacht hoeveel gegevens je hebt.Als dit goed kan worden benaderd door een frequente procedure, gebruik die dan.Bayesiaans is geen synoniem voor langzaam.
@probabilityislogic Ok bedankt!(Ja, ik wilde sneller zijn om tot de optimale oplossing te leiden).Ik las op Quora dat als we de Bayesiaanse en Frequentistische benadering vergelijken met bijvoorbeeld een Quicksort, de Bayesiaanse benadering zal leiden tot het meest optimale interval en de Frequentistische benadering tot het slechtste interval.Als het zo is, denk ik dat dit echt de beste en snelste manier is om ze te beschrijven.
#6
+7
Dikran Marsupial
2010-09-04 16:07:45 UTC
view on stackexchange narkive permalink

Zoals ik het begrijp: een geloofwaardig interval is een verklaring van het bereik van waarden voor de statistiek van belang die aannemelijk blijven gezien de specifieke steekproef van gegevens die we daadwerkelijk hebben waargenomen. Een betrouwbaarheidsinterval is een verklaring van de frequentie waarmee de werkelijke waarde in het betrouwbaarheidsinterval ligt wanneer het experiment een groot aantal keren wordt herhaald, elke keer met een andere steekproef van gegevens van dezelfde onderliggende populatie.

Normaal gesproken is de vraag die we willen beantwoorden 'welke waarden van de statistiek zijn consistent met de geobserveerde gegevens', en het geloofwaardige interval geeft een direct antwoord op die vraag - de werkelijke waarde van de statistiek ligt in een 95% geloofwaardig interval met waarschijnlijkheid 95%. Het betrouwbaarheidsinterval geeft geen direct antwoord op deze vraag; het is niet correct te beweren dat de kans dat de werkelijke waarde van de statistiek binnen het 95% betrouwbaarheidsinterval ligt, 95% is (tenzij het toevallig samenvalt met het geloofwaardige interval). Dit is echter een veel voorkomende verkeerde interpretatie van een frequentistisch betrouwbaarheidsinterval, aangezien het de interpretatie is die een direct antwoord op de vraag zou zijn.

Het artikel van Jayne's dat ik bespreek in een andere vraag geeft hier een goed voorbeeld van ( voorbeeld # 5), waar een perfect correct betrouwbaarheidsinterval is geconstrueerd, waarbij de specifieke steekproef van gegevens waarop het is gebaseerd elke mogelijkheid uitsluit dat de werkelijke waarde van de statistiek in het 95% betrouwbaarheidsinterval ligt! Dit is alleen een probleem als het betrouwbaarheidsinterval onjuist wordt geïnterpreteerd als een verklaring van plausibele waarden van de statistiek op basis van de specifieke steekproef die we hebben waargenomen.

Aan het eind van de dag is het een zaak van "paarden voor cursussen", en welk interval het beste is, hangt af van de vraag die u beantwoord wilt hebben - kies gewoon de methode die die vraag direct beantwoordt.

Ik vermoed dat betrouwbaarheidsintervallen nuttiger zijn bij het analyseren van [ontworpen] herhaalbare experimenten (aangezien dat slechts de aanname is die ten grondslag ligt aan het betrouwbaarheidsinterval), en geloofwaardige intervallen beter bij het analyseren van observatiegegevens, maar dat is slechts een mening (ik gebruik beide soorten van intervallen in mijn eigen werk, maar zou mezelf in geen van beide omschrijven als een expert).

Het probleem met betrouwbaarheidsintervallen in herhaalde experimenten, is dat om ze te laten werken, de condities van het herhaalbare experiment hetzelfde moeten blijven (en wie zou dat geloven?), Terwijl het Bayesiaanse interval (indien correct gebruikt) condities op de gegevens geobserveerd, en biedt daarmee ruimte voor veranderingen die plaatsvinden in de echte wereld (via gegevens). Ik denk dat het de * conditioneringsregels * van Bayesiaanse statistieken zijn die het zo moeilijk maken om beter te presteren (ik denk dat het onmogelijk is: alleen gelijkwaardigheid kan worden bereikt), en de automatische machinerie die het hiermee bereikt, maakt het zo glad.
#7
+4
Chester Lin
2013-07-03 11:14:54 UTC
view on stackexchange narkive permalink

Ik ontdekte dat veel interpretaties over betrouwbaarheidsinterval en geloofwaardige set onjuist zijn. Het betrouwbaarheidsinterval kan bijvoorbeeld niet worden uitgedrukt in dit formaat $ P (\ theta \ in CI) $. Als je goed kijkt naar de 'distributies' in de gevolgtrekking van frequentist en Bayesian, zul je zien dat Frequentist werkt aan Sampling Distribution op de data, terwijl Bayesian werkt aan (posterieure) distributie van de parameter. Ze zijn gedefinieerd op totaal verschillende Sample Space en Sigma Algebra.

Dus ja, je kunt zeggen 'Als je het experiment vaak herhaalt, zal ongeveer 95% van de 95% CI's de ware parameter dekken'. Hoewel je in het Bayesiaans kunt zeggen 'de werkelijke waarde van de statistiek ligt in een 95% geloofwaardig interval met een waarschijnlijkheid van 95%', is deze waarschijnlijkheid van 95% (in het Bayesiaans) zelf slechts een schatting. (Onthoud dat het gebaseerd is op de toestandsverdeling gezien deze specifieke gegevens, niet op de steekproefverdeling). Deze schatter zou een willekeurige fout moeten bevatten vanwege een willekeurige steekproef.

Bayesiaans probeert het type I-foutprobleem te vermijden. Bayesiaans zegt altijd dat het geen zin heeft om in het Bayesiaans over een type I-fout te praten. Dit is niet helemaal waar. Statistici willen altijd de mogelijkheid of fout meten dat 'Uw gegevens suggereren dat u een beslissing moet nemen, maar de populatie suggereert anders'. Dit is iets dat Bayesian niet kan beantwoorden (details worden hier weggelaten). Helaas is dit misschien wel het belangrijkste dat een statisticus zou moeten beantwoorden. Statistici suggereren niet alleen een beslissing. Statistici moeten ook kunnen aangeven in hoeverre de beslissing mogelijk fout kan gaan.

Ik moet de volgende tabel en termen verzinnen om het concept uit te leggen. Ik hoop dat dit het verschil tussen betrouwbaarheidsinterval en geloofwaardige set kan helpen verklaren.

Houd er rekening mee dat de posterieure distributie $ P (\ theta_0 | Data_n) $ is, waarbij $ \ theta_0 $ wordt gedefinieerd ten opzichte van de eerdere $ P (\ theta_0) $. In frequentist is de steekproefverdeling $ P (Data_n; \ theta) $. De steekproefverdeling van $ \ hat {\ theta} $ is $ P (\ hat {\ theta} _n; \ theta) $. Het subscript $ n $ is de steekproefomvang. Gebruik de notatie $ P (Data_n | \ theta) $ niet om de steekproefverdeling in frequentist weer te geven. Je kunt praten over willekeurige gegevens in $ P (Data_n; \ theta) $ en $ P (\ hat {\ theta} _n; \ theta) $, maar je kunt niet praten over willekeurige gegevens in $ P (\ theta_0 | Data_n) $.

Confidence Interval vs Credible Set

Het '???????' legt uit waarom we type I-fout (of iets dergelijks) niet in het Bayesiaans kunnen evalueren.

Houd er ook rekening mee dat onder bepaalde omstandigheden geloofwaardige sets kunnen worden gebruikt om betrouwbaarheidsintervallen te benaderen. Dit is echter slechts een wiskundige benadering. De interpretatie moet bij frequentist passen. De Bayesiaanse interpretatie werkt in dit geval niet meer.


Thylacoleo 's notatie in $ P (x | \ theta) $ is niet frequent. Dit is nog steeds Bayesiaans. Deze notatie veroorzaakt een fundamenteel probleem in de maattheorie wanneer we het hebben over frequentist.

Ik ben het eens met de conclusie van Dikran Marsupial. Als u de FDA-recensent bent, wilt u altijd de mogelijkheid weten dat u een medicijnaanvraag goedkeurt, maar het medicijn is eigenlijk niet effectief. Dit is het antwoord dat Bayesian niet kan geven, althans in klassiek / typisch Bayesian.

#8
+3
user36160
2015-09-03 21:20:52 UTC
view on stackexchange narkive permalink

Algemeen en consistent vertrouwen en geloofwaardige regio's. http://dx.doi.org/10.6084/m9.figshare.1528163 met code op http://dx.doi.org/10.6084/m9.figshare.1528187

Geeft een beschrijving van geloofwaardige intervallen en betrouwbaarheidsintervallen voor setselectie samen met generieke R-code om zowel de waarschijnlijkheidsfunctie als enkele geobserveerde gegevens te berekenen. Verder stelt het teststatistieken voor die geloofwaardige en betrouwbaarheidsintervallen van optimale grootte geven die consistent zijn met elkaar.

Kortom en vermijdende formules. Het Bayesiaanse geloofwaardige interval is gebaseerd op de waarschijnlijkheid van de parameters op basis van de gegevens . Het verzamelt de parameters met een hoge waarschijnlijkheid in de geloofwaardige set / interval. Het 95% geloofwaardige interval bevat parameters die samen een kans van 0,95 hebben gegeven de data.

Het frequentistische betrouwbaarheidsinterval is gebaseerd op de waarschijnlijkheid van de gegevens op basis van enkele parameters . Voor elke (mogelijk oneindig veel) parameter, genereert het eerst de set gegevens die gezien de parameter waarschijnlijk zullen worden waargenomen. Vervolgens controleert het voor elke parameter of de geselecteerde gegevens met hoge waarschijnlijkheid de waargenomen gegevens bevatten. Als de gegevens met hoge waarschijnlijkheid de waargenomen gegevens bevatten, wordt de bijbehorende parameter toegevoegd aan het betrouwbaarheidsinterval. Het betrouwbaarheidsinterval is dus de verzameling parameters waarvoor we de mogelijkheid niet kunnen uitsluiten dat de parameter de gegevens heeft gegenereerd. Dit geeft een zodanige regel dat, indien herhaaldelijk toegepast op vergelijkbare problemen, het 95% -betrouwbaarheidsinterval in 95% van de gevallen de echte parameterwaarde bevat.

95% geloofwaardige set en 95% betrouwbaarheid ingesteld voor een voorbeeld uit een negatieve binominale distributie 95% Credible set and 95% Confidence set for negative binomial distribution

De beschrijving van de betrouwbaarheidsintervallen is niet correct.De "95%" komt van de waarschijnlijkheid dat een steekproef uit de populatie een interval zal produceren dat de werkelijke waarde van de parameter bevat.
@jlimahaverford - De beschrijving is correct zoals die van jou is.Om de link te leggen naar wat u beschrijft, heb ik toegevoegd "Dit geeft een regel die zodanig is dat, indien herhaaldelijk toegepast op vergelijkbare problemen, het 95% geloofwaardige interval in 95% van de gevallen de ware parameterwaarde zal bevatten."
Ik had het niet over uw beschrijving van geloofwaardige intervallen, ik had het over betrouwbaarheidsintervallen.Ik merk nu dat u in het midden van uw paragraaf over vertrouwensintervallen weer over geloofwaardig begint te praten, en ik denk dat dit een vergissing is.Het belangrijke idee is dit: "Als dit de werkelijke waarde van de parameter zou zijn, wat is dan de kans dat ik een steekproef zou trekken die zo extreem of hoger is. Als het antwoord groter is dan 5%, dan ligt het in het betrouwbaarheidsinterval."
@jlimahaverford - eens en gecorrigeerd - Bedankt.
hmm, ik zie het niet gecorrigeerd.
@jlimahaverford - Er staat nu "Dit geeft een regel zodanig dat, indien herhaaldelijk toegepast op vergelijkbare problemen, het 95% betrouwbaarheidsinterval in 95% van de gevallen de echte parameterwaarde zal bevatten."
#9
+2
kjetil b halvorsen
2016-12-24 07:13:30 UTC
view on stackexchange narkive permalink

Dit is meer een opmerking, maar te lang.In de volgende paper: The Dawning of the Age of Stochasticity (David Mumford) heeft Mumford de volgende interessante opmerking:

Terwijl al deze echt opwindende toepassingen werden gemaaktstatistieken, de meerderheid van de statistici zelf, geleid door Sir RAFisher, die hun handen achter hun rug steunde, erop aandringend dat statistieken alleen in totaal reproduceerbare situaties gebruikt konden worden en dan alleen de empirische gegevens gebruiken.Dit is de zogenaamde 'frequentist'school' die vocht met de Bayesiaanse school, die geloofde dat predikanten konden worden gebruikt en dat het gebruik van statistische gevolgtrekkingen enorm uitgebreid was.Deze benadering ontkent dat statistische gevolgtrekking alles te maken kan hebben met echt denken, omdat situaties uit het echte leven altijd begraven zijn in contextuele variabelen en niet kunnen worden herhaald. Gelukkig stierf de Bayesiaanse school niet helemaal, zoals wordt voortgezet door DeFinetti, E.T.Jaynes, en anderen.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...