Vraag:
Wat zijn de 'grote problemen' in statistieken?
raegtin
2010-09-05 09:16:30 UTC
view on stackexchange narkive permalink

Wiskunde heeft zijn beroemde millenniumproblemen (en, historisch gezien, Hilbert's 23), vragen die hebben bijgedragen aan het bepalen van de richting van het vakgebied.

Ik heb echter geen idee wat de Riemann-hypothesen en P vs. NP's van statistieken zouden zijn.

Dus, wat zijn de overkoepelende open vragen in statistieken?

Bewerkt toe te voegen: Als voorbeeld van de algemene geest (zo niet echt specificiteit) van het antwoord dat ik zoek, vond ik een "Hilbert's 23" -geïnspireerde lezing door David Donoho op een "Math Challenges of the 21st Century "conference: High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality

Dus een mogelijk antwoord zou kunnen spreken over big data en waarom het belangrijk is, de soorten statistische uitdagingen dimensionale dataposities en methoden die moeten worden ontwikkeld of vragen die moeten worden beantwoord om het probleem op te lossen.

Bedankt voor het plaatsen van dit bericht. Het is een belangrijke (en mogelijk inspirerende) discussie om te voeren.
Zeven antwoorden:
#1
+48
whuber
2010-09-06 22:27:02 UTC
view on stackexchange narkive permalink

Een grote vraag moet betrekking hebben op de belangrijkste kwesties van de statistische methodologie of, omdat statistieken volledig over toepassingen gaan, moet het gaan over hoe statistieken worden gebruikt bij problemen die belangrijk zijn voor de samenleving.

Dit karakterisering suggereert dat het volgende moet worden meegenomen bij elke overweging van grote problemen:

  • Hoe geneesmiddelenonderzoeken het beste kunnen worden uitgevoerd . Momenteel vereist het klassieke hypothesetesten vele formele studiefasen. In latere (bevestigende) fasen doemen de economische en ethische kwesties op. Kunnen we het beter doen? Moeten we honderden of duizenden zieke mensen in controlegroepen plaatsen en ze daar houden tot bijvoorbeeld het einde van een studie, of kunnen we betere manieren vinden om behandelingen te identificeren die echt werken en deze af te leveren aan leden van de studie (en anderen) eerder?

  • Omgaan met vooringenomenheid in wetenschappelijke publicaties . Negatieve resultaten worden veel minder gepubliceerd omdat ze gewoon geen magische p-waarde bereiken. Alle takken van de wetenschap moeten betere manieren vinden om wetenschappelijk belangrijke, niet alleen statistisch significante resultaten aan het licht te brengen. (Het probleem van meerdere vergelijkingen en het omgaan met hoog-dimensionale gegevens zijn subcategorieën van dit probleem.)

  • De grenzen van statistische methoden onderzoeken en hun interfaces met machine learning en machine cognition . Onvermijdelijke vooruitgang in computertechnologie zal echte AI tijdens ons leven toegankelijk maken. Hoe gaan we kunstmatige hersenen programmeren? Welke rol kunnen statistisch denken en statistisch leren spelen bij het creëren van deze vooruitgang? Hoe kunnen statistici helpen bij het nadenken over kunstmatige cognitie, kunstmatig leren, bij het onderzoeken van hun beperkingen en bij het maken van vorderingen?

  • Betere manieren ontwikkelen om geospatiale gegevens te analyseren . Er wordt vaak beweerd dat de meeste of overgrote meerderheid van de databases locatiereferenties bevat. Binnenkort zullen veel mensen en apparaten in realtime worden gelokaliseerd met behulp van GPS- en mobiele telefoontechnologieën. Statistische methoden om ruimtelijke gegevens te analyseren en te exploiteren staan ​​eigenlijk nog maar in de kinderschoenen (en lijken te zijn gedegradeerd tot GIS en ruimtelijke software die doorgaans wordt gebruikt door niet-statistici).

Op welke manieren proberen mensen deze problemen op te lossen?
@grautur: Dat zijn vier uitstekende vragen (plus nog veel meer, omdat uw antwoord van toepassing is op elk antwoord in deze thread). Ze verdienen allemaal uitgebreide antwoorden, maar daar is natuurlijk geen ruimte voor: vraag voor vraag graag!
Met betrekking tot het eerste punt (geneesmiddelenonderzoeken): zelfs mensen die anders misschien niet geïnteresseerd zijn in medische experimenten, zouden het NYTimes-artikel * New Drugs Stir Debate on Basic Rules of Clinical Trials * (http://www.nytimes.com/2010/ moeten lezen). 09/19 / health / research / 19trial.html? Pagewanted = 1 & _r = 1 & th & emc = th). De statistisch geletterde lezer zal onmiddellijk de onuitgesproken implicaties zien met betrekking tot experimenteel ontwerp en het gebruik van p-waarden voor besluitvorming. Er is ergens een statistische oplossing voor het raadsel op leven en dood dat in dit artikel wordt beschreven.
#2
+26
raegtin
2011-07-03 03:03:50 UTC
view on stackexchange narkive permalink

Michael Jordan heeft een kort artikel genaamd Wat zijn de open problemen in de Bayesiaanse statistiek?, waarin hij een aantal statistici ondervroeg naar hun mening over de openstaande problemen in statistieken. Ik zal hier een beetje samenvatten (oftewel kopiëren en plakken), maar het is waarschijnlijk het beste om alleen het origineel te lezen.

Nonparametrics en semiparametrics

  • Voor welke problemen is Bayesiaanse non-parametrie nuttig en de moeite waard?
  • David Dunson: "Niet-parametrische Bayes-modellen omvatten oneindig veel parameters en priors worden doorgaans voor het gemak gekozen met hyperparameters die zijn ingesteld op schijnbaar redelijke waarden zonder de juiste objectieve of subjectieve rechtvaardiging."
  • "Verschillende mensen merkten op dat een van de aantrekkelijke toepassingen van frequentistische niet-parametrische gegevens de semiparametrische inferentie is, waarbij de niet-parametrische component van het model een hinderlijke parameter is. Deze mensen vonden dat het wenselijk zou zijn om uit de (frequentistische) theorie van Bayesiaanse semiparametrie. "

Priors

  • " Elicitatie blijft een belangrijke bron van open problemen. "
  • 'Aad van der Vaart zette objectief Bayes op zijn kop en wees op een gebrek aan theorie voor' situaties waarin men wil dat het voorafgaande doorkomt in het achterste 'in plaats van' alleen maar een Bayesiaanse benadering van afvlakking te bieden. ''

Bayesiaanse / frequentistische relaties

  • "Veel respondenten spraken de wens uit om de Bayesiaanse / frequentistische relaties verder uit te bouwen. Dit kwam het meest naar voren in de context van hoog-dimensionale modellen en gegevens, waar niet alleen subjectieve benaderingen van specificatie van priors moeilijk te implementeren zijn, maar ook gemakshalve (zeer) misleidend kunnen zijn. "
  • 'Sommige respondenten verlangden naar niet-asymptotische theorie die de vermeende voordelen van Bayesiaanse methoden beter zou kunnen onthullen, bijvoorbeeld David Dunson: "Vaak wordt de frequentistische optimale snelheid verkregen door procedures die het duidelijk veel slechter doen in eindige steekproeven dan Bayesiaanse benaderingen." / li>

Berekening en statistieken

  • Alan Gelfand: "Als MCMC niet langer levensvatbaar is voor de problemen die mensen willen aanpakken, wat is dan de rol van INLA, van variatiemethoden, van ABC-benaderingen? "
  • " Verschillende respondenten vroegen om een ​​meer grondige integratie van computationele en statistische wetenschap, waarbij ze opmerkten dat de reeks gevolgtrekkingen die men in een bepaalde situatie kan bereiken, gezamenlijk een functie zijn van het model, de prior, de gegevens en de computationele bronnen, en wensend voor een meer expliciet beheer van de afwegingen tussen deze hoeveelheden. Rob Kass bracht inderdaad de mogelijkheid naar voren van een idee van 'inferentiële oplosbaarheid', waar sommige problemen niet hoopvol zijn (bijv. , modelselectie in regressie waarbij "voor bescheiden hoeveelheden gegevens die onderhevig zijn aan niet-triviale ruis het onmogelijk is om bruikbare betrouwbaarheidsintervallen te krijgen over regressiecoëfficiënten wanneer er grote aantallen variabelen zijn waarvan de aan- of afwezigheid in het model a priori niet is gespecificeerd") en waar er andere problemen zijn ("bepaalde functionalen waarvoor bruikbare betrouwbaarheidsintervallen bestaan") waarvoor hoop is. "
  • " Verschillende respondenten verontschuldigden zich voor een bepaalde vaagheid, maar gaven aan dat een groot aantal de hoeveelheid gegevens hoeft niet noodzakelijk een grote hoeveelheid berekeningen te zijn; eerder dat de inferentiële kracht die aanwezig is in grote gegevens op de een of andere manier moet worden overgedragen naar het algoritme en het mogelijk moet maken om met minder rekenstappen te volstaan ​​om een ​​bevredigende (geschatte) inferentiële oplossing te bereiken. "

Model Selectie en hypothesetesten

  • George Casella: "We doen nu modelselectie, maar Bayesianen lijken zich geen zorgen te maken over de eigenschappen van het baseren van gevolgtrekkingen op het geselecteerde model. Wat als het fout is? Wat zijn de gevolgen van het opzetten van geloofwaardige regio's voor een bepaalde parameter $ β_1 $ wanneer u het verkeerde model heeft geselecteerd? Kunnen we procedures hebben met een soort garantie? "
  • Er is meer werk nodig op het gebied van beslissingstheoretische grondslagen bij modelselectie.
  • David Spiegelhalter: "Hoe kunnen controles op eerdere / gegevensconflicten het beste een integraal onderdeel worden van Bayesiaanse analyse?"
  • Andrew Gelman: "Voor modelcontrole is een belangrijk open probleem het ontwikkelen van grafische hulpmiddelen voor het begrijpen en vergelijken van modellen. Grafische voorstellingen zijn niet alleen bedoeld voor onbewerkte gegevens; complexe Bayesiaanse modellen bieden eerder de mogelijkheid voor betere en effectievere verkennende gegevensanalyse."
#3
+13
russellpierce
2010-09-06 00:19:03 UTC
view on stackexchange narkive permalink

Ik weet niet zeker hoe groot ze zijn, maar er is een Wikipedia-pagina voor onopgeloste problemen met statistieken. Hun lijst bevat:

Inferentie en testen

  • Systematische fouten
  • Toelaatbaarheid van de Graybill-Deal-schatter
  • Afhankelijke p-waarden combineren in meta-analyse
  • Behrens-Fisher probleem
  • Meerdere vergelijkingen
  • Open problemen in Bayesiaanse statistieken

Experimenteel ontwerp

  • Problemen in Latijnse vierkanten

Problemen van een meer filosofische aard

  • Steekproef van soortprobleem
  • Doomsday-argument
  • Exchange-paradox
#4
+6
raegtin
2010-09-05 10:23:26 UTC
view on stackexchange narkive permalink

Als voorbeeld van de algemene geest (zo niet echt specificiteit) van het antwoord dat ik zoek, vond ik een "Hilbert's 23" -geïnspireerde lezing door David Donoho op een "Math Challenges of the 21st Century" -conferentie:

Hoogdimensionale gegevensanalyse: de vloeken en zegeningen van dimensionaliteit

Mag ik u voorstellen dat u uw hoofdvraag bewerkt om deze informatie op te nemen?
#5
+4
Robby McKilliam
2010-09-05 13:36:31 UTC
view on stackexchange narkive permalink

Mathoverflow heeft een vergelijkbare vraag over grote problemen in de waarschijnlijkheidstheorie.

Op die pagina lijkt het erop dat de grootste vragen te maken hebben met het vermijden van willekeurige wandelingen en percolaties.

Ik denk echter dat statistiek een apart gebied is van de kansrekening.
@raegtin - Ik denk niet dat waarschijnlijkheidstheorie los staat van statistiek, maar dat het de theorie is. "Statistiek" is de toepassing van kansrekening op inferentiële problemen (d.w.z. de praktijk).
#6
+4
Charlie
2010-09-06 00:18:58 UTC
view on stackexchange narkive permalink

Misschien kun je het "Hard Problems in the Social Sciences 'colloquium van Harvard eerder dit jaar bekijken. In een aantal van deze lezingen komen kwesties aan de orde in het gebruik van statistieken en modellen in de sociale wetenschappen.

#7
+2
pmgjones
2010-09-05 16:43:36 UTC
view on stackexchange narkive permalink

Mijn antwoord zou de strijd zijn tussen frequentistische en Bayesiaanse statistieken. Als mensen je vragen waarin je "gelooft", is dit niet goed! Zeker voor een wetenschappelijke discipline.

Er is niets mis met een wetenschapper die ergens in "gelooft", vooral omdat een Bayesiaanse waarschijnlijkheid de mate van geloof of kennis over de waarheid van een stelling vertegenwoordigt.
... Het probleem doet zich alleen voor als een wetenschapper geen onderscheid kan maken tussen een overtuiging en een feit. Er is niets onwetenschappelijks aan de overtuiging dat Bayesiaanse of frequentistische statistieken superieur zijn, aangezien er geen objectieve test is die het antwoord kan bepalen (AFAIK), dus de keuze is grotendeels subjectief en / of een kwestie van "paarden voor cursussen".
@propofol - Ik ben het ermee eens dat het woord "geloven" niet geschikt is om in statistieken te gebruiken - het heeft de verkeerde soort connotaties. Informatie is een veel geschikter woord denk ik (d.w.z. "welke informatie heb je?"). Het verandert niets aan de wiskunde of de optimaliteitsstellingen van de Bayesiaanse analyse, maar het geeft ze de juiste betekenis in termen van hoe ze feitelijk worden gebruikt. bijv. kennis van een fysische theorie of causaal mechanisme is informatie, en geen overtuiging.


Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...