คำแนะนำสำหรับบทความที่ไม่ใช่ด้านเทคนิค แต่เป็นเนื้อหาเชิงลึก


24

แรงบันดาลใจสำหรับคำถามนี้มาจากบทความเลื่องชื่อของ Leo-Breiman ที่มีชื่อเสียงแบบจำลองทางสถิติ: The Two Cultures (เข้าถึงได้แบบเปิด) ผู้เขียนเปรียบเทียบสิ่งที่เขาเห็นว่าเป็นวิธีการที่แตกต่างกันสองวิธีในการวิเคราะห์ข้อมูลสัมผัสกับแนวคิดหลักในสถิติแบบดั้งเดิมและการเรียนรู้ของเครื่อง อย่างไรก็ตามบทความนี้เป็นที่เข้าใจได้สำหรับผู้ชมที่กว้างขวาง - เนื้อหาสำหรับทุกคนที่ทำงานกับข้อมูลโดยไม่คำนึงว่าพวกเขาได้ติดตามสถิติในระดับปริญญาเอกหรือมีหลักสูตรเบื้องต้นเท่านั้น นอกจากนี้ยังมีบทความที่กระตุ้น นั่นคือมันสร้างการสนทนาได้อย่างง่ายดาย (ดังที่เห็นได้จากชุดของข้อคิดเห็นที่มีชีวิตชีวาที่ตีพิมพ์ในฉบับเดียวกัน)

ฉันอยากรู้ว่าจะค้นหาบทความเพิ่มเติมด้วยคุณสมบัติเหล่านี้ นั่นคือบทความที่:

  • แตะที่แนวคิดพื้นฐานในการวิเคราะห์สถิติ / ข้อมูล
  • สามารถเข้าใจได้โดยผู้ชมในแง่ของการเปลี่ยนแปลงในการมุ่งเน้นการวิจัยและการฝึกอบรมทางสถิติอย่างเป็นทางการ
  • กระตุ้นให้เกิดการอภิปรายไม่ว่าจะผ่านความเข้าใจหรือการทะเลาะ

2
คำตอบที่ผ่านมาน่าสนใจมาก! ให้พวกเขามา แน่นอนฉันจะไม่ยอมรับคำตอบใด ๆ ตามmeta.stats.stackexchange.com/questions/409/…
Richard Border

2
ไม่มีถนนหลวงสำหรับสถิติ
Aksakal

คำตอบ:


15

Shmueli, Galit "เพื่ออธิบายหรือทำนาย?" วิทยาศาสตร์สถิติ (2010): 289-310

ฉันเชื่อว่ามันตรงกับสัญลักษณ์สามข้อของคุณ

มันพูดถึงการอธิบายกับแบบจำลองการทำนาย (เงื่อนไขควรจะอธิบายด้วยตนเอง) และบันทึกที่ความแตกต่างระหว่างพวกเขามักจะไม่ได้รับการยอมรับ

มันเพิ่มจุดที่ขึ้นอยู่กับเป้าหมายของการสร้างแบบจำลอง (อธิบายกับการทำนาย) กลยุทธ์การสร้างแบบจำลองที่แตกต่างกันสามารถนำมาใช้และรูปแบบที่แตกต่างกันอาจถูกเลือกเป็นแบบ "ดีที่สุด"

มันเป็นกระดาษที่ค่อนข้างครอบคลุมและการอ่านที่สนุกสนาน สนทนาของมันจะสรุปในร็อบเจ Hyndman ของบล็อกโพสต์ การสนทนาที่เกี่ยวข้องกับการตรวจสอบข้ามอยู่ในหัวข้อนี้ (มี upvotes มากมาย) อื่น ๆ (ยังไม่ได้ตอบ) คำถามในหัวข้อเดียวกันคือนี้


12

Lehmann, Erich L. "The Fisher, Neyman-Pearson ทฤษฎีการทดสอบสมมติฐาน: หนึ่งทฤษฎีหรือสอง?" วารสารสมาคมสถิติอเมริกัน 88.424 (1993): 1242-1249

ไม่มีใครรู้จักมากนัก แต่เมื่อยักษ์ใหญ่แห่งอาชีพยังคงอยู่ในหมู่พวกเราพวกเขาก็ไม่ได้ดีซึ่งกันและกัน การถกเถียงเกี่ยวกับรากฐานของการทดสอบสมมติฐานโดยเฉพาะไม่ว่าจะเป็นการอุปนัยหรือการนิรนัยเห็นการด่าอย่างจริงจังที่น่าสนใจบางอย่างที่บินไปมาระหว่างฟิชเชอร์ในมือข้างหนึ่งและเนย์แมน - เพียร์สัน และไม่เคยมีปัญหาเกิดขึ้นในช่วงชีวิตของพวกเขา

นานมาแล้วที่พวกเขาผ่านไปมาเลห์มันน์พยายามที่จะลดช่องว่างและในความคิดของฉันก็ทำผลงานได้ดีเพราะเขาแสดงให้เห็นว่าวิธีการนั้นเป็นวิธีที่สมบูรณ์มากกว่าที่จะไม่เกิดร่วมกัน นี่คือสิ่งที่นักเรียนเรียนรู้ทุกวันนี้โดยวิธีการ คุณจำเป็นต้องรู้พื้นฐานบางอย่างเกี่ยวกับการทดสอบสมมติฐาน แต่คุณสามารถติดตามบทความได้โดยไม่มีปัญหา


1
ขอบคุณสำหรับการอ้างอิง ฉันเคยถามคำถามเกี่ยวกับความขัดแย้งที่ถูกกล่าวหาระหว่างแนวทาง F และ NP: stats.stackexchange.com/questions/112769และถึงแม้จะมีความสนใจมากมายและได้รับ upvotes ที่ได้รับฉันยังคงไม่มั่นใจในคำตอบที่มีอยู่ (และไม่ได้ ยอมรับใด ๆ ) ฉันวางแผนที่จะกลับไปที่หัวข้อนั้นและทำการอ่าน / ใส่เงินรางวัลหรืออะไรบางอย่าง แต่ไม่เคยหาเวลา; หากคุณคุ้นเคยกับกระดาษของ Lehmann ฉันจะสนับสนุนให้คุณตอบคำถามที่นั่น
อะมีบาพูดว่า Reinstate Monica

@ amoeba ฉันอ่านบทความของเลห์มันน์อีกครั้งแล้วครั้งเล่ามันอ่านง่ายมาก แต่ฉันไม่คิดว่าฉันจะค้นคว้าเรื่องนี้อย่างละเอียดเหมือนคุณ ดังนั้นเมื่อใดก็ตามที่คุณมีเวลามันจะเป็นความคิดที่ดีสำหรับคุณที่จะข้ามมันและเห็นมุมมองของเขา คุณจะพบกับการอภิปรายปัญหาของ Behrens-Fisher โดยเฉพาะอย่างยิ่งการเปิดเผย
JohnK

ขอบคุณสำหรับการแบ่งปัน. บางทีทุกอย่างที่ฉันเคยได้ยินนั้นค่อนข้างด้านเดียว แต่ทุกอย่างที่ฉันเคยได้ยินเกี่ยวกับ Sir Ron Fisher ก็คือเขาเป็นคนที่ค่อนข้างไม่พอใจที่จะพูดอย่างน้อยที่สุด นอกจากนี้เขายังมีความคิดเห็นที่น่าสงสัยบางประการเกี่ยวกับการเชื่อมโยงระหว่างการใช้ยาสูบและโรคมะเร็งปอด
Phil

อีกทางเลือกหนึ่งที่เบากว่าสำหรับบทความนี้คือ Christensen, Ronald "การทดสอบ Fisher, Neyman, Pearson และ Bayes" ชาวอเมริกันสถิติ 59.2 (2548): 121-126 ฉันพบว่ามันสนุก
Richard Hardy

9

Wilk, MB และ Gnanadesikan, R. 1968. วิธีการวางแผนความน่าจะเป็นสำหรับการวิเคราะห์ข้อมูล Biometrika 55: 1-17 ลิงก์ Jstor ถ้าคุณมีการเข้าถึง

กระดาษนี้เป็นเวลาของการเขียนของฉันเกือบ 50 ปี แต่ก็ยังรู้สึกสดชื่นและสร้างสรรค์ ด้วยการใช้ตัวอย่างที่น่าสนใจและเป็นรูปธรรมมากมายผู้เขียนได้รวมและขยายความคิดที่หลากหลายสำหรับการวางแผนและการเปรียบเทียบการแจกแจงโดยใช้เฟรมเวิร์กของ QQ (quantile-quantile) และ PP (ความน่าจะเป็น) การแจกแจงที่นี่หมายถึงชุดข้อมูลหรือตัวเลข (ส่วนที่เหลือ, ความต่าง, ฯลฯ ) ในวงกว้างที่เกิดขึ้นในการวิเคราะห์

รุ่นเฉพาะของแปลงเหล่านี้ย้อนกลับไปหลายสิบปีความน่าจะเป็นปกติที่เห็นได้ชัดที่สุดหรือแปลงคะแนนปกติ ซึ่งอยู่ในเงื่อนไขเหล่านี้ควอนตัม - ควอนไทน์แปลงคือแปลงของปริมาณที่สังเกตได้เมื่อเทียบกับที่คาดหวังหรือเชิงทฤษฎีจากตัวอย่างของขนาดเดียวกันจากการกระจายแบบปกติ แต่ผู้เขียนแสดงอย่างสุภาพ แต่มั่นใจว่าจะสามารถขยายแนวความคิดเดียวกันได้อย่างง่ายดายและในทางปฏิบัติด้วยการใช้คอมพิวเตอร์สมัยใหม่เพื่อตรวจสอบปริมาณอื่น ๆ และวางแผนผลลัพธ์โดยอัตโนมัติ

ผู้เขียนทั้งสองที่ Bell Telephone Laboratories มีความสุขกับสิ่งอำนวยความสะดวกด้านการคำนวณที่ทันสมัยและแม้กระทั่งมหาวิทยาลัยและสถาบันการวิจัยหลายแห่งก็ใช้เวลาเป็นสิบปีกว่าจะทัน ถึงตอนนี้ความคิดในบทความนี้ควรได้รับการประยุกต์ที่กว้างกว่าที่ได้รับ มันเป็นข้อความหรือหลักสูตรเบื้องต้นที่หายากซึ่งมีความคิดใด ๆ เหล่านี้นอกเหนือจากพล็อต QQ ปกติ ฮิสโทแกรมและพล็อตของกล่อง (มักจะมีประโยชน์อย่างมาก แต่อย่างไรก็ตามในแต่ละครั้งนั้นมีความลำบากและ จำกัด ในหลาย ๆ ด้าน) ยังคงเป็นวัตถุดิบหลักต่อไป

ในระดับส่วนตัวแม้ว่าแนวคิดหลักของบทความนี้จะคุ้นเคยกับอาชีพของฉันมากที่สุด แต่ฉันก็สนุกกับการอ่านซ้ำทุกสองสามปีหรือมากกว่านั้น เหตุผลหนึ่งที่ดีคือความยินดีที่ผู้เขียนมอบความคิดที่เรียบง่าย แต่ทรงพลังเพื่อผลที่ดีพร้อมตัวอย่างที่จริงจัง อีกเหตุผลที่ดีคือวิธีการที่กระดาษซึ่งเขียนสั้นกระชับโดยไม่มีร่องรอยของระเบิดที่น้อยคำแนะนำที่ส่วนขยายของความคิดหลัก มากกว่าหนึ่งครั้งฉันได้ค้นพบการบิดในแนวคิดหลักที่ครอบคลุมอย่างชัดเจนในคำแนะนำด้านข้างและความคิดเห็นเพิ่มเติม

นี่ไม่ใช่แค่กระดาษสำหรับผู้ที่สนใจกราฟิกทางสถิติโดยเฉพาะอย่างยิ่งถึงใจของฉันที่ควรรวมทุกคนที่สนใจในสถิติใด ๆ มันส่งเสริมวิธีคิดเกี่ยวกับการแจกแจงที่มีประโยชน์ในการพัฒนาทักษะและความเข้าใจด้านสถิติของทุกคน


2
นี่เป็นตัวเลือกที่ยอดเยี่ยม ฉันอ่านมันหลายครั้ง - ทันทีที่ฉันเห็นชื่อผู้แต่งในคำตอบของคุณฉันรู้ว่าบทความนี้คืออะไรและฉันอยากอ่านอีกครั้งในทันที ผมคิดว่าผมมีสำเนาของมันที่นี่ที่ไหนสักแห่ง ...
Glen_b -Reinstate โมนิกา

6

Ioannidis, John PA "ทำไมผลการวิจัยที่ตีพิมพ์มากที่สุดนั้นเป็นเท็จ" ยา PLOS (2005)

Ioannidis, John PA "วิธีการสร้างงานวิจัยที่ได้รับการตีพิมพ์มากขึ้นจริง" ยา PLoS (2014)

ต้องอ่านสำหรับนักวิจัย / นักสถิติ / นักวิเคราะห์ทุกคนที่ต้องการหลีกเลี่ยงอันตรายจากการใช้และการตีความสถิติอย่างไม่ถูกต้องในการวิจัย บทความปี 2005 ได้รับการเข้าถึงมากที่สุดในประวัติศาสตร์ของห้องสมุดสาธารณะของวิทยาศาสตร์และกระตุ้นความขัดแย้งและการอภิปรายมากมาย


6

Tukey เจดับบลิว (1960) สรุปเทียบกับการตัดสินใจ Technometrics 2 (4): 423-433

บทความนี้มีพื้นฐานมาจากการพูดคุยหลังอาหารค่ำโดย Tukey และมีความคิดเห็นว่า 'มีการสนทนาเกิดขึ้นมากมาย' ดังนั้นจึงควรจับคู่อย่างน้อยหนึ่งในสามของจุดคะแนนของคุณ

ครั้งแรกที่ฉันอ่านเอกสารนี้เมื่อฉันจบปริญญาเอกด้านวิศวกรรมและชื่นชมการสำรวจของการปฏิบัติของการวิเคราะห์ข้อมูล


ลิงก์ไม่ทำงาน งานนี้
kjetil b halvorsen

5

Efron และมอร์ริสปี 1977 ของสไตน์ Paradox ในสถิติ

Efron และ Morris เขียนบทความทางเทคนิคเกี่ยวกับตัวประเมิน James-Stein ในปี 1970 กำหนดกรอบ "Paradox" ของ Stein ในบริบท Empirical Bayes กระดาษ 1977 เป็นหนึ่งที่นิยมการตีพิมพ์ในวิทยาศาสตร์อเมริกัน

มันเป็นการอ่านที่ยอดเยี่ยม


3

ถึงแม้ว่าความสนใจในแบบจำลองของ Roy จะอยู่ในหมู่นักเศรษฐศาสตร์ (แต่ฉันอาจผิด) บทความต้นฉบับของมันคือ"ความคิดบางอย่างเกี่ยวกับการกระจายรายได้"จากปี 1951 เป็นการอภิปรายเชิงลึกและไม่มีเทคนิคเกี่ยวกับปัญหาการเลือกตนเอง บทความนี้ทำหน้าที่เป็นแรงบันดาลใจสำหรับรุ่นที่ได้รับการพัฒนาโดย James Heckman ถึงแม้ว่าจะเก่า แต่ฉันคิดว่ามันตรงกับสัญลักษณ์แสดงหัวข้อย่อยทั้งสามของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.