Vraag:
Volledige inhoudelijke voorbeelden van reproduceerbaar onderzoek met R
Jeromy Anglim
2010-08-21 09:58:12 UTC
view on stackexchange narkive permalink

De vraag: zijn er goede voorbeelden van reproduceerbaar onderzoek met R die gratis online beschikbaar zijn?

Ideaal voorbeeld: Specifiek zouden ideale voorbeelden het volgende opleveren:

  • De onbewerkte gegevens (en idealiter metagegevens die de gegevens verklaren),
  • Alle R-code inclusief gegevensimport, verwerking, analyses , en outputgeneratie,
  • Sweave of een andere benadering om de uiteindelijke output aan het uiteindelijke document te koppelen,
  • Allemaal in een formaat dat gemakkelijk te downloaden en compileerbaar is op de computer van een lezer.

Idealiter zou het voorbeeld een tijdschriftartikel of een proefschrift zijn waarbij de nadruk ligt op een daadwerkelijk toegepast onderwerp in tegenstelling tot een statistisch lesvoorbeeld.

Redenen voor interesse: ik ben vooral geïnteresseerd in toegepaste onderwerpen in tijdschriftartikelen en scripties, omdat in deze situaties verschillende aanvullende problemen optreden:

  • Er ontstaan ​​problemen met betrekking tot het opschonen en verwerken van gegevens,
  • Er ontstaan ​​gerelateerde problemen voor het beheren van metadata,
  • Tijdschriften en scripties hebben vaak stijlgidsen met betrekking tot het uiterlijk en de opmaak van tabellen en figuren,
  • Veel tijdschriften en scripties hebben vaak een breed scala aan analyses die problemen oproepen met betrekking tot workflow (bijv. sequentieanalyse) en verwerkingstijd (bijv. problemen met cachinganalyses, enz.).

Het zien van volledige werkvoorbeelden zou goed instructiemateriaal kunnen zijn voor onderzoekers die beginnen met reproduceerbaar onderzoek.

Vijftien antwoorden:
#1
+15
Dirk Eddelbuettel
2010-08-21 19:03:04 UTC
view on stackexchange narkive permalink

Frank Harrell klopt al vele, vele jaren op de trommel op reproduceerbaar onderzoek en rapporten. Je zou kunnen beginnen op deze wikipagina met een lijst van tal van andere bronnen, inclusief gepubliceerd onderzoek en ook op de pagina van Charles Geyer.

#2
+12
Spacedman
2011-07-28 13:08:34 UTC
view on stackexchange narkive permalink

Het tijdschrift Biostatistics heeft een Associate Editor voor Reproduceerbaarheid, en al zijn artikelen zijn gemarkeerd met:

Reproduceerbaar onderzoek

Ons reproduceerbaar onderzoeksbeleid is dat papers in het tijdschrift een vliegermarkering krijgen D als de gegevens waarop ze zijn gebaseerd vrij beschikbaar zijn, C als de code van de auteur vrij beschikbaar is, en R als zowel de gegevens als de code beschikbaar zijn, en onze Associate Editor voor reproduceerbaarheid kan deze gebruiken om de resultaten in het papier weer te geven. Gegevens en code worden elektronisch op de website van het tijdschrift gepubliceerd als aanvullend materiaal.

http://biostatistics.oxfordjournals.org/

Hoe een goed idee is dat?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract wordt geleverd met een R-pakket in de supplementen die de analyse - heb het zelf nog niet geprobeerd. Kan ook niet achterhalen waar de openheidsclassificatie is gespecificeerd. Stuur een e-mail naar de hoofdredacteur met enkele vragen ...

[bewerken]

Roger Peng, de hoofdredacteur, vertelt me ​​dat er waarschijnlijk geen manier is om de reproduceerbare documenten te vinden zonder de pdf te krijgen. Hij wees me op deze met een mooie grote 'R' erop (wat niet betekent dat er een R-rating is zoals bij films) voor reproduceerbaarheid:

http://biostatistics.oxfordjournals.org/ content / 10/3 / 409.abstract

Natuurlijk is het tijdschrift zelf niet gratis ... #fail

Barry

dat is geweldig om te zien dat een tijdschrift prioriteit geeft aan reproduceerbaarheid. Heb je goede voorbeelden gezien van artikelen die zijn gemarkeerd met R?
Ze geven er geen prioriteit aan voor publicatie, ik denk dat ze het gewoon willen benadrukken. Ik zal mijn antwoord bewerken met een voorbeeld.
#3
+10
John D. Cook
2010-09-02 16:15:56 UTC
view on stackexchange narkive permalink

Onreproduceerbaarheid van NCI60-voorspellers van chemotherapie

Dit is een reproduceerbare analyse die het gebrek aan reproduceerbaarheid aantoont van een artikel dat in het nieuws is geweest. Een klinische proef op basis van de verkeerde conclusies van de niet-reproduceerbare paper werd opgeschort, opnieuw ingesteld, opnieuw opgeschort, ... Het is een goed voorbeeld van reproduceerbare analyse in het nieuws.

#4
+10
Jake
2010-11-12 03:30:56 UTC
view on stackexchange narkive permalink

Ik heb een paar van dergelijke voorbeelden op mijn pagina met research papers. (Ik mag niet meer dan één hyperlink als nieuw lid plaatsen. Dus ik zal alleen de artikelen op die site beschrijven.)

(1) "Effecten manifesteren in willekeurige experimenten" maakt gebruik van het vignet van R systeem.

(2) "Effecten toeschrijven aan een gerandomiseerde cluster" Get-Out-The-Vote-campagne "was een complexere paper met wat tijdrovende simulaties. We gebruikten een op Makefile gebaseerd systeem en plaatsten het in de Dataverse

(3) "EDA voor HLM" was mijn eerste poging. Hier heb ik gewoon de gegevens en de bijbehorende Sweave-bestanden in een tarball geplaatst.

Een probleem dat we ontdekten bij het maken van ons JASA-archief was dat de versies en standaardinstellingen van CRAN-pakketten veranderden. In dat archief nemen we dus ook de versies op van de pakketten die we hebben gebruikt. Het op vignet gebaseerde systeem zal waarschijnlijk kapot gaan als mensen hun pakketten veranderen (niet zeker hoe ze extra pakketten moeten opnemen in het pakket dat het Compendium is).

Ten slotte vraag ik me af wat ik moet doen als R zelf verandert. Zijn er manieren om, laten we zeggen, een virtuele machine te produceren die de volledige computeromgeving reproduceert die voor een paper gebruikt wordt, zodat de virtuele machine niet enorm groot is?

Hoe dan ook, ik hoop dat deze voorbeelden helpen. Ze laten tenminste enkele van mijn eigen experimenten op dit gebied zien.

(Hier zijn enkele hyperlinks in platte tekst.)

 [2]: http://jakebowers.org/manifesteffects- compendium-howto.txt [3]: http://hdl.handle.net/1902.1/12174 [4]: ​​http://hdl.handle.net/1902.1/13376 
Je stelt een aantal interessante vragen. Ik heb een aparte vraag gepost waarin je wordt geciteerd: http://stats.stackexchange.com/questions/4466/how-to-increase-longer-term-reproducibility-of-research-particularly-using-r-and
#5
+9
Jeromy Anglim
2010-11-11 12:22:29 UTC
view on stackexchange narkive permalink

Koenker en Zeileis bieden een webpagina met een relatief compleet voorbeeld. Ze delen:

  • Rnw (Sweave-code)
  • R-analysecode
  • Definitieve pdf
  • Bespreking van problemen met versiebeheer
#6
+8
csgillespie
2010-08-22 02:59:56 UTC
view on stackexchange narkive permalink

We hebben een paper geschreven waarin wordt uitgelegd hoe R / Bioconductor moet worden gebruikt bij het analyseren van microarray-gegevens. Het artikel is geschreven in Sweave en alle code die is gebruikt om de grafieken te genereren, is als aanvullend materiaal opgenomen.

Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010 . Analyse van microarray-gegevens over het tijdsverloop van gist met behulp van BioConductor: een casestudy met behulp van yeast2 Affymetrix-arrays BMC Research Notes, 3:81.

#7
+7
ars
2010-08-21 10:47:10 UTC
view on stackexchange narkive permalink

De pagina op Sweave van Charles Geyer bevat een voorbeeld van een proefschrift dat aan een aantal van uw vereisten voldoet (de onbewerkte gegevens zijn gewoon afkomstig uit een R-pakket, maar de R / sweave-code en de uiteindelijke pdf zijn beschikbaar ):

Een paper over de theorie in het proefschrift van Yun Ju Sung, Monte Carlo Likelihood Inference for Missing Data Models (preprint), bevatte rekenvoorbeelden. Elk nummer in de paper en elke plot is overgenomen (door middel van knippen en plakken, moet ik toegeven) uit een document met "aanvullend materiaal" gemaakt in Sweave.

(De bron bestand is gelinkt onder de sectie "Aanvullende materialen voor een paper".)

Ik weet dat ik ten minste één R-voorbeeld ben tegengekomen bij het bladeren door het ReproducibleResearch.net-materiaal pagina eerder, maar heb er helaas geen bladwijzer voor gemaakt.

#8
+5
Jeromy Anglim
2011-06-16 20:12:18 UTC
view on stackexchange narkive permalink

Simon Jackman heeft een bijzonder nuttig voorbeeld van het analyseren van de resultaten van een onderzoek: "Amerikanen en Australiërs 10 jaar na 9/11". Het heeft meerdere voorbeelden van het integreren van tabellen en figuren.

Hij heeft het Sweave-document en pdf-rapport gemaakt via deze blogpost.

Terwijl de onbewerkte gegevens worden niet geleverd (voor zover ik weet), dus het is niet mogelijk om de daadwerkelijke Sweave-voorbeelden uit te voeren, ik denk dat er behoorlijk wat kan worden geleerd door de Sweave-code te bestuderen.

#9
+5
Jeromy Anglim
2011-07-28 12:11:43 UTC
view on stackexchange narkive permalink

Neil Saunders analyseerde online interacties die verband hielden met een conferentie. Verschillende eigenschappen die het tot een nuttig Sweave-voorbeeld maken, zijn:

  • Rnw-bestand wordt geleverd
  • Grafieken worden gegenereerd met ggplot
  • Goede omvang en gemakkelijk te begrijpen domein

De materialen zijn hier beschikbaar:

#10
+4
Shane
2010-08-21 12:15:44 UTC
view on stackexchange narkive permalink

Ik heb in het verleden goede gevonden en zal posten zodra ik ze opzoek, maar enkele snelle algemene suggesties:

  1. Misschien kun je enkele interessante voorbeelden vinden door op Google te zoeken met trefwoorden en ext: rnw (die zal zoeken naar bestanden met de extensie sweave). Hier is een voorbeeldzoekopdracht. Dit is het derde resultaat van mijn zoekopdracht: http://www.ne.su.se/paper/araietal_source.Rnw. Hier is nog een voorbeeld van mijn zoekopdracht: http://www.stat.umn.edu/geyer/gdor/.
  2. Veel R-pakketten hebben interessante vignetten die in wezen op hetzelfde neerkomen. Een voorbeeld: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw
#11
+4
user88
2010-08-21 12:30:48 UTC
view on stackexchange narkive permalink

Bekijk ook Journal Of Statistical Software; ze moedigen het maken van papieren in Sweave aan.

Nee, niet formeel - het indienen van LaTeX wordt aangemoedigd, maar als je naar de [instructiespagina] (http://www.jstatsoft.org/instructions) kijkt, staat het woord Sweave niet. Auteurs gebruiken het en / of verzenden de R-code met het papier, maar voor mij sluit dit aan bij Shane's punt over pakketvignetten.
Oké, nog steeds gebruiken de meeste indieners het (ook de journalstijl omvat Swave.sty); het grootste probleem is dat er geen Rnws zijn gepubliceerd, maar papieren gemaakt door Sweave worden geleverd met Stangle-uitvoer.
#12
+4
Jeromy Anglim
2011-01-01 16:35:18 UTC
view on stackexchange narkive permalink

Robert Gentleman schreef een paper met de titel "Reproducible Research: A Bioinformatics Case Study"

Het implementeert een korte reeks analyses als een R-pakket en gebruikt Sweave. het gebruik van Sweave meer in het algemeen.

Zie het gedeelte "Gerelateerde bestanden" van de artikelpagina voor een archiefbestand van alle gebruikte bestanden en mappen.

Referentie:

  • Gentleman, Robert (2005) "Reproducible Research: A Bioinformatics Case Study," Statistical Applications in Genetics and Molecular Biology: Vol. 4: Iss. 1, artikel 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Beschikbaar op: http://www.bepress.com/sagmb/vol4/iss1/art2
#13
+4
Tim
2011-08-31 06:51:26 UTC
view on stackexchange narkive permalink

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Een mooi artikel, door een labgenoot van mij. Onze PI was best tevreden toen hiervoor iets op fanmail binnenkwam. Nu hebben alle publicaties van de groep de aanvullende methoden die zijn vastgelegd in LaTeX / Sweave. Sommige artikelen ook (kan niet beslissen of ik de mijne in LyX / Sweave wil houden of vouwen en gewoon de aanvullende artikelen in Sweave wil doen).

#14
+3
zzr
2010-11-05 17:26:46 UTC
view on stackexchange narkive permalink

Het zoeken naar voorbeelden en praktijken is een goede manier om te leren, maar ik wilde alleen vermelden dat reproduceerbaarheid niet alleen een technische / scriptherhalingskant heeft, maar ook codestijl en structurerend aspect, minimalisering van bijwerkingen in kernfuncties enz. I ontdekte persoonlijk dat Chambers book Software for Data Analysis het mogelijk maakt om diepere technieken te begrijpen die helpen om betrouwbaarheid en reproduceerbaarheidsproblemen op R-codeniveau te voorkomen.

#15
+2
WojciechF
2017-03-23 19:00:50 UTC
view on stackexchange narkive permalink

als u nog steeds een goed voorbeeld van een volledig reproduceerbare analyse plus een PAPIER nodig heeft, gebruikt u deze opslagplaats.

De @jscamac heeft geweldig werk geleverd door zijn analyse uitvoerbaar te maken en ik heb deze persoonlijk gevalideerd.

U kunt leren hoe u R-specifieke functies zoals het pakket remake gebruikt om reproduceerbaarheid te garanderen.

Pas op, de berekeningen duren ongeveer een uur.

Het is allemaal scripted en produceert uiteindelijk een LaTeX-paper met cijfers.



Deze Q&A is automatisch vertaald vanuit de Engelse taal.De originele inhoud is beschikbaar op stackexchange, waarvoor we bedanken voor de cc by-sa 2.0-licentie waaronder het wordt gedistribueerd.
Loading...