มีสถิติทางสถิติที่น่าสนใจและเป็นที่เขียนบ้างบ้าง?


28

มีบทความอะไรบ้างที่อธิบายการใช้งานสถิติที่จะสนุกและให้ข้อมูลในการอ่าน? เพื่อความชัดเจนฉันไม่ได้มองหาเอกสารที่อธิบายวิธีการทางสถิติแบบใหม่ (เช่นบทความเกี่ยวกับการถดถอยมุมน้อย) แต่เป็นเอกสารที่อธิบายถึงวิธีการแก้ปัญหาในโลกแห่งความเป็นจริง

ตัวอย่างเช่นกระดาษหนึ่งแผ่นที่เหมาะกับสิ่งที่ฉันกำลังมองหาคือกระดาษสภาพภูมิอากาศจากชมรมวารสารที่ผ่านการตรวจสอบข้ามฉบับที่สอง ฉันกำลังมองหาเอกสารสถิติ - ish เพิ่มเติมมากกว่าเอกสารการเรียนรู้ด้วยเครื่อง แต่ฉันคิดว่ามันเป็นความแตกต่างที่คลุมเครือ (ฉันจะจัดประเภทเอกสาร Netflix Prize เป็นแนวเขตบิตและกระดาษในการวิเคราะห์ความเชื่อมั่นเป็นบางสิ่ง ฉันไม่ได้มองหา)

ฉันถามเพราะแอปพลิเคชันสถิติส่วนใหญ่ที่ฉันเห็นเป็นตัวอย่างเล็ก ๆ น้อย ๆ ที่คุณเห็นในตำราเรียนหรือสิ่งต่าง ๆ ที่เกี่ยวข้องกับงานของฉันเองดังนั้นฉันจึงต้องการแยกสาขาออกเล็กน้อย


4
คุณมีความสนใจทั่วไปที่คุณต้องการแสดงหรือไม่ ที่อาจช่วยแนะนำคำแนะนำ การประยุกต์ใช้สถิติได้กลายเป็นที่แพร่หลายอย่างกว้างขวางในฟิลด์ที่กว้างอย่างน่าทึ่ง
พระคาร์ดินัล

1
@ cardinal, ไม่, ไม่มีความสนใจเป็นพิเศษ - มีวัตถุประสงค์เพื่อแยกออกจากสิ่งที่ฉันมักจะอ่านดังนั้นฉันพยายามไม่ จำกัด คำตอบใด ๆ (นี้ไม่อาจจะทำให้คำถามบิตกว้างเกินไป แต่ผมคิดว่าผมกำลังมองหาบุคคล "ที่ดีที่สุดของ" รายการของผู้คน.)
raegtin

1
คลาสสิกที่ต้องอ่านโดยเฉพาะอย่างยิ่งเพราะโมเดลความน่าจะเป็นทั้งหมดได้รับแรงบันดาลใจจากเหตุผล "ทางกายภาพ" เกี่ยวกับปัญหาแทนที่จะดึงออกมาจากหมวกคือ: F. Mosteller, DL Wallace (1963): การอนุมานปัญหาการประพันธ์: การศึกษาเปรียบเทียบวิธีการเลือกปฏิบัติที่นำไปใช้กับการประพันธ์ของเอกสารโชคดีที่เป็น ข้อพิพาทกันคือ J. Am. สถิติ รศ 58 (302), pp. 275–309 นอกจากนี้ที่ลิงค์นี้
pglpm

คำตอบ:


12

เป็นเรื่องยากสำหรับฉันที่จะเห็นกระดาษที่คุณอาจสนใจดังนั้นขอให้ฉันลองแนะนำบทความต่อไปนี้จากวรรณกรรมไซโครเมท:

Borsboom, D. (2006) การโจมตีของ psychometricians Psychometrika , 71 , 425-440

สำหรับการแต่งฉาก (ทำไมเราต้องใช้แบบจำลองทางสถิติที่สะท้อนสมมติฐานที่พบในการวิจัยทางจิตวิทยาได้ดีกว่า) และ

Borsboom, D. (2008) มุมมองทางจิตวิทยาในระบบการวินิจฉัย วารสารจิตวิทยาคลินิก , 64 , 1089-1108

สำหรับมุมมองที่ประยุกต์ใช้กับยาวินิจฉัย (เปลี่ยนจากการประเมินว่าใช่ / ไม่ใช่ตามที่ใช้ใน DSM-IV เป็นวิธีการ "มิติ" สำหรับ DSM-V) การทบทวนแบบจำลองตัวแปรแฝงที่มีขนาดใหญ่ขึ้นในการวิจัยด้านชีวการแพทย์ที่ฉันชอบคือ:

Rabe-Hesketh, S. และ Skrondal, A. (2008) คลาสสิกรุ่นตัวแปรแฝงสำหรับการวิจัยทางการแพทย์ วิธีการทางสถิติในการวิจัยทางการแพทย์ , 17 (1) , 5-32


@ chl (+1) เอกสาร Borsboom นั้นยอดเยี่ยมพวกเขาขยายความคิดของฉันเกี่ยวกับการวัดอย่างมาก
richiemorrisroe

+1 ฉันชอบ Borsboom เช่นกัน สำหรับผู้ที่สนใจในบทความโจมตีผมคิดว่าจะได้รับความสนใจใน "แนวคิดของความถูกต้อง" rhowell.ba.ttu.edu/borsboomValidity2004.pdf แม้ว่าจะเป็น verbose มากกว่าเล็กน้อยดังนั้นจึงไม่ใช่เรื่องง่ายที่จะติดตามตามบทความการโจมตี
Andy W

10

นี่คือเอกสารที่ได้รับการอ้างถึงห้าฉบับจาก 40 ปีที่ผ่านมาของวารสาร Royal Society Society, Series C: สถิติประยุกต์ที่มีแอพพลิเคชั่นที่ชัดเจนในชื่อที่สะดุดตาฉันขณะสแกนผ่านผลการค้นหา Web of Knowledge:


9

ในระดับที่กว้างขึ้นฉันอยากจะแนะนำ ["การสร้างแบบจำลองทางสถิติ: สองวัฒนธรรม"] [1] โดย Leo Breiman ในปี 2544 (อ้างอิง 515) ฉันรู้ว่ามันเพิ่งถูกปกคลุมด้วยชมรมวารสารและฉันพบว่ามันน่าสนใจจริงๆ ฉันเป็นนามธรรมแล้ว

นามธรรม. มีสองวัฒนธรรมในการใช้แบบจำลองทางสถิติเพื่อให้ได้ข้อสรุปจากข้อมูล หนึ่งสมมติว่าข้อมูลถูกสร้างขึ้นโดยโมเดลข้อมูลสุ่มที่กำหนด ส่วนอีกรุ่นใช้อัลกอริธึมและใช้กลไกข้อมูลเป็นที่ไม่รู้จัก ชุมชนสถิติมีความมุ่งมั่นที่จะใช้แบบจำลองข้อมูลเกือบพิเศษ ความมุ่งมั่นนี้นำไปสู่ทฤษฎีที่ไม่เกี่ยวข้องข้อสรุปที่น่าสงสัยและทำให้นักสถิติไม่สามารถทำงานกับปัญหาในปัจจุบันที่น่าสนใจมากมาย แบบจำลองอัลกอริทึมทั้งในเชิงทฤษฎีและปฏิบัติได้พัฒนาอย่างรวดเร็วในด้านนอกสถิติ สามารถใช้ทั้งกับชุดข้อมูลขนาดใหญ่ที่ซับซ้อนและเป็นทางเลือกที่แม่นยำและให้ข้อมูลมากกว่าในการสร้างแบบจำลองข้อมูลในชุดข้อมูลขนาดเล็ก หากเป้าหมายของเราคือการใช้ข้อมูลเพื่อแก้ไขปัญหา

[1]: https://doi.org/10.1214/ss/1009213726 (เปิดการเข้าถึง)


8

จากมุมมองทางระบาดวิทยาทางพันธุกรรมตอนนี้ฉันอยากจะแนะนำเอกสารชุดต่อไปนี้เกี่ยวกับการศึกษาความสัมพันธ์ของจีโนมกว้าง :

  1. Cordell, HJ และ Clayton, DG (2005) การศึกษาการเชื่อมโยงทางพันธุกรรม มีดหมอ 366, 1121-1131
  2. คันทอร์, RM, Lange, K. , และ Sinsheimer, JS (2010) ผลการจัดลำดับความสำคัญ GWAS: ทบทวนวิธีการทางสถิติและคำแนะนำสำหรับการใช้งานของพวกเขา วารสารอเมริกันของพันธุศาสตร์มนุษย์ 86, 6–22
  3. Ioannidis, JPA, Thomas, G. , Daly, MJ (2009) ตรวจสอบความถูกขยายและปรับแต่งจีโนมทั้งสัญญาณสมาคม รีวิวธรรมชาติพันธุศาสตร์ 10, 318-329
  4. Balding, DJ (2006) สอนเกี่ยวกับวิธีการทางสถิติสำหรับการศึกษาสมาคมประชากร รีวิวธรรมชาติพันธุศาสตร์ 7, 781-791
  5. สีเขียว, AE และคณะ (2008) โดยใช้ข้อมูลทางพันธุกรรมในประสาท: จากความเจ็บปวดไปสู่ความเข้าใจของแท้ รีวิวธรรมชาติประสาทวิทยาศาสตร์ 9, 710-720
  6. McCarthy, MI และคณะ (2008) จีโนมทั้งการศึกษาการเชื่อมโยงลักษณะที่ซับซ้อน: ฉันทามติความไม่แน่นอนและความท้าทาย รีวิวธรรมชาติพันธุศาสตร์ 9, 356-369
  7. คณะกรรมการประสานงานสมาคมจิตเวช GWAS (2009) Genomewide ศึกษาสมาคมประวัติศาสตร์เหตุผลและโอกาสสำหรับความผิดปกติทางจิตเวช วารสารจิตเวชอเมริกัน 166 (5), 540-556
  8. Sebastiani, P. et al. (2009) จีโนมทั้งสมาคมการศึกษาและการผ่าทางพันธุกรรมของลักษณะที่ซับซ้อน วารสารโลหิตวิทยาอเมริกัน 84 (8), 504-15
  9. กลุ่มควบคุมกรณีที่เชื่อถือได้ Wellcome (2007) จีโนมทั้งสมาคมการศึกษา 14,000 รายโรคที่พบบ่อยเจ็ดและ 3,000 ควบคุมร่วมกัน ธรรมชาติ 447, 661-678
  10. กลุ่มควบคุมความน่าเชื่อถือ Wellcome Trust (2010) การศึกษาความสัมพันธ์ของจีโนมทั่วทั้ง CNVs ในผู้ป่วย 16,000 รายจากโรคทั่วไป 8 รายการและการควบคุมร่วม 3,000ครั้ง ธรรมชาติ 464, 713-720


2

บทความที่มีผลกระทบ แต่เนิ่น ๆ เกี่ยวกับการวิจัยด้านชีวสารสนเทศ:

Jelizarow et al, มากกว่ามองในแง่ดีในชีวสารสนเทศ: ภาพประกอบ ชีวสารสนเทศศาสตร์, 2010

มันทำให้การสนทนาที่น่าสนใจเกี่ยวกับแหล่งที่มีอคติ, overfitting, และการประมงอย่างมีนัยสำคัญ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.