ทำตัวอย่างที่สำคัญของการวิจัยที่ทำซ้ำได้โดยใช้ R


71

คำถาม:มีตัวอย่างที่ดีของการวิจัยที่ทำซ้ำได้โดยใช้ R ที่ให้บริการออนไลน์ได้อย่างอิสระหรือไม่?

ตัวอย่างในอุดมคติ: โดยเฉพาะตัวอย่างอุดมคติจะมี:

  • ข้อมูลดิบ (และข้อมูลเมตานึกคิดอธิบายข้อมูล)
  • รหัส R ทั้งหมดรวมถึงการนำเข้าข้อมูลการประมวลผลการวิเคราะห์และการสร้างผลลัพธ์
  • Sweave หรือวิธีการอื่นสำหรับเชื่อมโยงผลลัพธ์สุดท้ายไปยังเอกสารสุดท้าย
  • ทั้งหมดอยู่ในรูปแบบที่สามารถดาวน์โหลดและคอมไพล์ได้อย่างง่ายดายบนคอมพิวเตอร์ของผู้อ่าน

ตามอุดมคติแล้วตัวอย่างจะเป็นบทความในวารสารหรือวิทยานิพนธ์ที่เน้นในหัวข้อที่ประยุกต์ใช้จริงแทนที่จะเป็นตัวอย่างการสอนเชิงสถิติ

เหตุผลที่ให้ความสนใจ: ฉันสนใจเป็นพิเศษในหัวข้อที่นำไปใช้ในบทความในวารสารและวิทยานิพนธ์เพราะในสถานการณ์เหล่านี้มีประเด็นเพิ่มเติมหลายประการเกิดขึ้น:

  • ปัญหาที่เกิดขึ้นเกี่ยวข้องกับการทำความสะอาดและการประมวลผลข้อมูล
  • ปัญหาที่เกิดขึ้นเกี่ยวข้องกับการจัดการข้อมูลเมตา
  • วารสารและวิทยานิพนธ์มักจะมีความคาดหวังของคู่มือสไตล์เกี่ยวกับลักษณะและการจัดรูปแบบของตารางและตัวเลข
  • วารสารและวิทยานิพนธ์จำนวนมากมักจะมีการวิเคราะห์ที่หลากหลายซึ่งทำให้เกิดปัญหาเกี่ยวกับเวิร์กโฟลว์ (เช่นวิธีการวิเคราะห์ลำดับ) และเวลาในการประมวลผล (เช่นปัญหาการวิเคราะห์แคชเป็นต้น)

การดูตัวอย่างการทำงานที่สมบูรณ์สามารถให้วัสดุการเรียนการสอนที่ดีสำหรับนักวิจัยที่เริ่มต้นด้วยการวิจัยที่ทำซ้ำได้

คำตอบ:


14

Frank Harrell ได้ตีกลองในการวิจัยที่ทำซ้ำและรายงานมานานหลายปี คุณสามารถเริ่มต้น ที่หน้า wikiซึ่งแสดงรายการทรัพยากรอื่น ๆ มากมายรวมถึงงานวิจัยที่ตีพิมพ์และครอบคลุมถึงหน้าของ Charles Geyer


11

วารสาร Biostatistics มี Associate Editor for Reproducibility และบทความทั้งหมดถูกทำเครื่องหมาย:

การวิจัยซ้ำ

นโยบายการวิจัยที่ทำซ้ำของเราคือเอกสารในวารสารให้ทำเครื่องหมายว่าว D หากข้อมูลที่ใช้เป็นอิสระ C ถ้ารหัสของผู้เขียนว่างและ R ถ้ามีทั้งข้อมูลและรหัสและ Associate Editor สำหรับการทำซ้ำสามารถใช้สิ่งเหล่านี้เพื่อทำซ้ำผลลัพธ์ในกระดาษ ข้อมูลและรหัสได้รับการเผยแพร่ทางอิเล็กทรอนิกส์บนเว็บไซต์ของวารสารในรูปของวัสดุเสริม

http://biostatistics.oxfordjournals.org/

ความคิดนั้นดีแค่ไหน?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstractมาพร้อมกับแพ็คเกจ R ในภาคผนวกที่ทำการวิเคราะห์ - ยังไม่ได้ลองด้วยตัวเอง นอกจากนี้ไม่สามารถหาตำแหน่งที่ระบุการเปิดกว้างได้ กำลังส่งอีเมลถึงบรรณาธิการร่วมด้วยคำถามบางอย่าง ...

[แก้ไข]

Roger Peng บรรณาธิการบอกฉันว่าอาจไม่มีวิธีการค้นหาเอกสารที่ทำซ้ำได้หากไม่ได้รับ PDF เขาชี้ให้ฉันที่หนึ่งซึ่งมี 'R' ที่ดีขนาดใหญ่บนมัน (ซึ่งไม่ได้หมายถึงอันดับ R เหมือนหนัง) สำหรับการทำซ้ำ:

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

แน่นอนว่าวารสารไม่ได้ฟรี ... #fail

แบร์รี่


1
ช่างเป็นเรื่องที่ยอดเยี่ยมมากที่ได้เห็นการจัดลำดับความสำคัญในการทำซ้ำ คุณเคยเห็นตัวอย่างที่ดีของบทความที่มีเครื่องหมาย R หรือไม่
Jeromy Anglim

1
พวกเขาไม่ได้จัดลำดับความสำคัญสำหรับการเผยแพร่ฉันคิดว่าพวกเขาเพียงต้องการเน้นมัน ฉันจะแก้ไขคำตอบด้วยตัวอย่าง
Spacedman

10

การไม่สามารถวัดได้ของ NCI60 Predictors ของเคมีบำบัด

นี่คือการวิเคราะห์ที่ทำซ้ำได้ซึ่งแสดงให้เห็นถึงการขาดความสามารถในการทำซ้ำของกระดาษที่อยู่ในข่าว การทดลองทางคลินิกตามข้อสรุปที่ผิดพลาดของกระดาษที่ไม่สามารถผลิตได้ถูกระงับซ้ำอีกครั้งหยุดชั่วคราว ... มันเป็นตัวอย่างที่ดีของการวิเคราะห์ที่ทำซ้ำได้ในข่าว


10

ผมมีตัวอย่างเช่นไม่กี่บนของหน้าเอกสารงานวิจัย (ฉันไม่ได้รับอนุญาตให้โพสต์ไฮเปอร์ลิงก์มากกว่าหนึ่งรายการในฐานะสมาชิกใหม่ดังนั้นฉันจะอธิบายบทความบนไซต์นั้น)

(1) "การจัดทำเอฟเฟ็กต์การทดลองแบบสุ่ม" ใช้ระบบบทความสั้นของ R

(2) "ผลการแจกแจงให้กับแคมเปญแบบสุ่มออกไป - โหวต - กลุ่ม" เป็นกระดาษที่ซับซ้อนกว่าซึ่งเกี่ยวข้องกับการจำลองเวลาที่ใช้เวลานาน เราใช้ระบบที่ใช้ Makefile และโพสต์ไว้ที่ Dataverse

(3) "EDA สำหรับ HLM" เป็นความพยายามครั้งแรกของฉัน ที่นี่ฉันเพียงแค่ใส่ข้อมูลและไฟล์ Sweave ที่เกี่ยวข้องใน tarball

ปัญหาหนึ่งที่เราค้นพบเมื่อสร้าง JASA archive ของเราคือเวอร์ชันและค่าเริ่มต้นของแพ็คเกจ CRAN เปลี่ยนไป ดังนั้นในที่เก็บถาวรนั้นเรายังรวมรุ่นของแพ็คเกจที่เราใช้ ระบบที่ใช้ vignette อาจจะแตกเป็นเสี่ยง ๆ เมื่อคนเปลี่ยนแพ็คเกจของพวกเขา (ไม่แน่ใจว่าจะรวมแพ็คเกจเพิ่มเติมภายในแพ็คเกจที่เป็น Compendium) ได้อย่างไร

ในที่สุดฉันก็สงสัยว่าจะทำอย่างไรเมื่อตัว R เปลี่ยนไป มีวิธีการผลิตพูดว่าเครื่องเสมือนจริงที่สร้างสภาพแวดล้อมการคำนวณทั้งหมดที่ใช้สำหรับกระดาษเช่นที่เครื่องเสมือนไม่ใหญ่หลวงหรือไม่?

อย่างไรก็ตามฉันหวังว่าตัวอย่างเหล่านี้จะช่วยได้ อย่างน้อยพวกเขาก็แสดงการทดลองของฉันในพื้นที่นี้

(นี่คือไฮเปอร์ลิงก์ข้อความธรรมดา)

  [2]: http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]: http://hdl.handle.net/1902.1/12174
  [4]: http://hdl.handle.net/1902.1/13376

คุณตั้งคำถามที่น่าสนใจ ฉันได้โพสต์คำถามแยกต่างหากที่อ้างอิงถึงคุณ: stats.stackexchange.com/questions/4466/…
Jeromy Anglim

9

Koenker และ Zeileisให้ตัวอย่างหน้าเว็บที่ค่อนข้างสมบูรณ์ พวกเขาแบ่งปัน:

  • Rnw (รหัส Sweave)
  • รหัสการวิเคราะห์ R
  • PDF สุดท้าย
  • การอภิปรายปัญหาการควบคุมเวอร์ชัน

8

เราเขียนบทความอธิบายวิธีใช้ R / Bioconductor เมื่อวิเคราะห์ข้อมูล microarray กระดาษถูกเขียนใน Sweave และรหัสทั้งหมดที่ใช้ในการสร้างกราฟจะรวมอยู่ในวัสดุเสริม

Gillespie, CS, Lei, G. , Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010 การวิเคราะห์ข้อมูล microarray หลักสูตรยีสต์โดยใช้ BioConductor: กรณีศึกษาการใช้ yeast2 Affymetrix arrays BMC Research Notes, 3:81


7

หน้า Charles Geyer ใน Sweaveมีตัวอย่างจากวิทยานิพนธ์ที่ตรงกับความต้องการของคุณ (ข้อมูลดิบนั้นมาจากแพ็คเกจ R แต่มีรหัส R / sweave และ PDF ขั้นสุดท้าย):

บทความเกี่ยวกับทฤษฎีในวิทยานิพนธ์ของ Yun Ju Sung, Monte Carlo Likelihood Inference for Missing Data Models (preprint) มีตัวอย่างการคำนวณ ทุกหมายเลขในกระดาษและพล็อตทุกชิ้นถูกนำมา (โดยการตัดและวางฉันต้องยอมรับ) จากเอกสาร "วัสดุเสริม" ที่ทำใน Sweave

( ไฟล์ต้นฉบับเชื่อมโยงอยู่ในส่วน "วัสดุเสริมสำหรับกระดาษ")

ฉันรู้ว่าฉันเคยเจออย่างน้อยหนึ่งตัวอย่าง R เรียกดูหน้าวัสดุ ReproducibleResearch.netมาก่อน แต่น่าเสียดายที่ไม่ได้คั่นหน้ามัน


5

Simon Jackman มีตัวอย่างที่เป็นประโยชน์อย่างยิ่งในการวิเคราะห์ผลลัพธ์ของการสำรวจ: "ชาวอเมริกันและชาวออสเตรเลีย 10 ปีหลังจาก 9/11" มันมีหลายตัวอย่างของการรวมตารางและตัวเลข

เขาได้จัดทำเอกสาร Sweave และรายงาน PDFผ่านทางโพสต์บล็อกนี้

แม้ว่าข้อมูลดิบจะไม่ได้รับ (เท่าที่ฉันสามารถบอกได้) ดังนั้นจึงเป็นไปไม่ได้ที่จะเรียกใช้ตัวอย่าง Sweave จริงฉันคิดว่าบิตที่ยุติธรรมสามารถเรียนรู้ได้จากการศึกษารหัส Sweave


5

Neil Saunders วิเคราะห์การโต้ตอบออนไลน์ที่เกี่ยวข้องกับการประชุม คุณสมบัติหลายอย่างที่ทำให้เป็นตัวอย่างของ Sweave ที่มีประโยชน์ ได้แก่ :

  • มีการจัดเตรียมไฟล์ Rnw
  • สร้างกราฟโดยใช้ ggplot
  • ขนาดที่ดีและโดเมนที่เข้าใจได้ง่าย

วัสดุมีอยู่ที่นี่:


4

ดูวารสารวารสารซอฟต์แวร์สถิติ ; พวกเขาสนับสนุนให้ทำเอกสารใน Sweave


ไม่ไม่เป็นทางการ - การส่ง LaTeX นั้นเป็นการส่งเสริม แต่ถ้าคุณดูที่หน้าคำแนะนำมันจะไม่มีคำว่า Sweave ผู้เขียนใช้มันและ / หรือส่งรหัส R ด้วยกระดาษ แต่สำหรับฉันจุดสะท้อนของเชนนี้เกี่ยวกับบทความสะเพร่า
Dirk Eddelbuettel

ตกลงผู้ส่งส่วนใหญ่ยังใช้งานอยู่ (รวมถึงรูปแบบวารสารรวมถึง Swave.sty); ปัญหาหลักคือไม่มีการเผยแพร่ Rnws เอกสารที่ทำโดย Sweave มาพร้อมกับ Stangle output

4

ฉันเคยพบคนดีในอดีตและจะโพสต์เมื่อฉันขุดมันขึ้นมา แต่มีคำแนะนำทั่วไปที่รวดเร็ว:

  1. คุณอาจพบตัวอย่างที่น่าสนใจโดยค้นหา google ด้วยคำหลักและ ext: rnw (ซึ่งจะค้นหาไฟล์ที่มีนามสกุล sweave) นี่คือการค้นหาตัวอย่างเช่น นี่คือผลที่สามจากการค้นหาของฉัน: http://www.ne.su.se/paper/araietal_source.Rnw นี่เป็นอีกตัวอย่างหนึ่งจากการค้นหาของฉัน: http://www.stat.umn.edu/geyer/gdor/
  2. แพ็คเกจ R จำนวนมากมีบทความสั้น ๆ ที่น่าสนใจซึ่งสำคัญกับสิ่งเดียวกัน ตัวอย่าง: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw

4

Robert Gentleman เขียนบทความที่ชื่อว่า"การวิจัยแบบทำซ้ำ: กรณีศึกษาชีวสารสนเทศศาสตร์"

ใช้ชุดการวิเคราะห์สั้น ๆ เป็น R Package และใช้ Sweave นอกจากนี้ยังกล่าวถึงการใช้ Sweave โดยทั่วไป

ดูส่วน"ไฟล์ที่เกี่ยวข้อง"ของหน้าบทความสำหรับไฟล์เก็บถาวรของไฟล์และโฟลเดอร์ทั้งหมดที่ใช้

อ้างอิง:

  • สุภาพบุรุษโรเบิร์ต (2548) "การวิจัยซ้ำ: กรณีศึกษาชีวสารสนเทศศาสตร์" การประยุกต์ใช้ทางสถิติในพันธุศาสตร์และอณูชีววิทยา: ฉบับ 4: ปัญหา 1 บทความ 2
  • DOI: 10.2202 / 1544-6115.1034
  • มีอยู่ที่: http://www.bepress.com/sagmb/vol4/iss1/art2

4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

กระดาษที่ดีโดยเพื่อนทดลองของฉัน PI ของเรายินดีเป็นอย่างยิ่งเมื่อมีบางสิ่งที่คล้ายกับจดหมายจากแฟนคลับ ตอนนี้สิ่งพิมพ์ทั้งหมดจากกลุ่มมีวิธีการเพิ่มเติมใน LaTeX / Sweave บางส่วนของเอกสารเช่นกัน (ไม่สามารถตัดสินใจได้ว่าจะเก็บระเบิดของฉันใน LyX / Sweave หรือพับและเพียงแค่ทำเสริมใน Sweave)


3

การมองหาตัวอย่างและวิธีปฏิบัติเป็นวิธีที่ดีในการเรียนรู้ แต่ฉันแค่อยากจะพูดถึงว่าการทำซ้ำไม่เพียง แต่จะรันทางด้านเทคนิค / สคริปต์เท่านั้น แต่ยังรวมถึงรูปแบบโค้ดและโครงสร้าง ซอฟต์แวร์ Chambers book สำหรับการวิเคราะห์ข้อมูลช่วยให้เข้าใจเทคนิคที่ลึกซึ้งยิ่งขึ้นซึ่งช่วยหลีกเลี่ยงความน่าเชื่อถือและปัญหาการทำซ้ำในระดับรหัส R


2

หากคุณยังต้องการตัวอย่างที่ดีของการวิเคราะห์การทำซ้ำอย่างสมบูรณ์พร้อมกระดาษให้ใช้repoนี้

@jscamac ทำงานได้ยอดเยี่ยมโดยทำให้การวิเคราะห์ของเขาสามารถพิสูจน์ได้และฉันรับรองว่าเป็นการส่วนตัว

คุณสามารถเรียนรู้วิธีการใช้ฟังก์ชั่นเฉพาะ R เช่นแพ็คเกจremakeเพื่อให้มั่นใจได้ว่าจะสามารถทำซ้ำได้

ระวัง / การคำนวณใช้เวลาประมาณหนึ่งชั่วโมงจึงจะเสร็จสมบูรณ์

มันเขียนสคริปต์ทั้งหมดและผลิตกระดาษ LaTeX ในท้ายที่สุดกับตัวเลข

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.