จะรบกวนผู้ตัดสินทางสถิติได้อย่างไร?


102

ฉันเพิ่งถามคำถามเกี่ยวกับหลักการทั่วไปรอบสถิติการตรวจสอบในหนังสือพิมพ์ สิ่งที่ฉันอยากจะถามตอนนี้คือสิ่งที่ทำให้คุณหงุดหงิดโดยเฉพาะอย่างยิ่งเมื่อตรวจสอบกระดาษนั่นคือวิธีที่ดีที่สุดที่จะรบกวนผู้ตัดสินทางสถิติ!

โปรดหนึ่งตัวอย่างต่อคำตอบ


มันขยายไปถึงเหตุผลที่ได้รับในการตอบสนองต่อการตรวจสอบเริ่มต้น (ที่รองลงมาและ / หรือการแก้ไขที่สำคัญถูกถาม)?
chl

@chl: ใช่ทำไมไม่
csgillespie

คำตอบ:


69

สิ่งที่ทำให้ฉันรำคาญใจเป็นพิเศษคือคนที่ใช้แพคเกจซอฟต์แวร์ทางสถิติที่ผู้ใช้เขียนอย่างชัดเจน แต่ไม่ได้อ้างถึงอย่างถูกต้องหรือเลยก็เลยไม่สามารถให้เครดิตกับผู้เขียนได้ การทำเช่นนี้เป็นสิ่งสำคัญโดยเฉพาะอย่างยิ่งเมื่อผู้เขียนอยู่ในสถาบันการศึกษาและงานของพวกเขาขึ้นอยู่กับเอกสารเผยแพร่ที่ได้รับการอ้างถึง (บางทีฉันควรจะเพิ่มว่าในสาขาของฉันผู้ร้ายหลายคนไม่ใช่นักสถิติ)


2
+1 สำหรับฉัน สิ่งนี้ทำให้ฉันหงุดหงิดโดยเฉพาะอย่างยิ่งเมื่อพวกเขาอ้างถึงสิ่งที่ผิดและฉันได้ให้รายละเอียดที่เกี่ยวข้องเกี่ยวกับวิธีการอ้างอิงแพ็คเกจ
Gavin Simpson

3
คำถาม: เมื่ออ้างถึงแพคเกจคุณอ้างบทความสั้น ๆ (ถ้ามี) หรือตัวแพ็คเกจเอง?
Brandon Bertelsen

7
@Brandon: หากผู้แต่งบรรจุภัณฑ์สนใจพอที่จะแนะนำคุณพวกเขาก็ให้คำตอบในรูปแบบที่จะถูกหยิบขึ้นมาโดยการอ้างอิง ("some_package")
Ben Bolker

2
นอกเหนือจากการมีกระดาษสถานที่สำคัญซึ่งไม่ใช่เรื่องง่ายที่จะทำวิธีที่ง่ายที่สุดที่จะได้รับการอ้างอิงคือการทิ้งข้อผิดพลาดอย่างน้อยหนึ่งในกระดาษของคุณ จากนั้นคุณสามารถเผยแพร่การแก้ไขซึ่งอ้างอิงเอกสารต้นฉบับ ปล่อยให้เกิดข้อผิดพลาดในการแก้ไขและคุณสามารถเผยแพร่การแก้ไขซึ่งอ้างอิงการแก้ไขต้นฉบับและกระดาษต้นฉบับ (ฉันเห็นสิ่งนี้ในฐานะนักศึกษาปริญญาโทปีที่ 1) จำนวนการอ้างอิงจะเพิ่มขึ้นตามกระบวนการ O (N ^ 2) โดยที่ N คือจำนวนการแก้ไข
Mark L. Stone

67

ดีมากฉันนึกถึงหลายสิ่ง ...

  • การถดถอยแบบขั้นตอน

  • แบ่งข้อมูลอย่างต่อเนื่องเป็นกลุ่ม

  • ให้ค่า p แต่ไม่มีการวัดขนาดของเอฟเฟกต์

  • การอธิบายข้อมูลโดยใช้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานโดยไม่ระบุว่าข้อมูลนั้นมีความสมมาตรและไม่เปลี่ยนรูปแบบมากขึ้นหรือน้อยลง

  • ตัวเลขที่ไม่มีคำอธิบายที่ชัดเจน (แถบข้อผิดพลาดเหล่านั้นคือข้อผิดพลาดมาตรฐานของค่าเฉลี่ยหรือค่าเบี่ยงเบนมาตรฐานภายในกลุ่มหรืออะไร)


5
ฉันอยากรู้เกี่ยวกับสัญลักษณ์แสดงการถดถอยแบบขั้นตอน อะไรทำให้การถดถอยแบบขั้นตอนแย่มาก? มันคือการขุดลอกข้อมูลและปัญหาการเปรียบเทียบหลาย ๆ
Christopher Aden

17
ปัญหาคือขั้นตอนแบบขั้นตอนจะทำให้สมมติฐานและเงื่อนไขพื้นฐานทั้งหมดสำหรับ "สถิติ" เชิงอนุมาน "ปกติ" สมบูรณ์ขึ้นอยู่กับค่า p ซึ่งจะมีความลำเอียงที่ไม่ดี ดังนั้นโดยทั่วไปคำตอบคือ "ใช่" โดยที่ข้อแม้นั้นสามารถแก้ไขได้ในหลักการสำหรับการเปรียบเทียบหลาย ๆ แบบ (แต่ฉันไม่เคยเห็นมาก่อน) ฉันเชื่ออย่างยิ่งว่านี่เป็นเหตุผลที่สำคัญที่สุดเพียงข้อเดียวที่ฉันเห็นการวิจัยทางจิตวิทยาจำนวนมากที่ไม่สามารถทำซ้ำได้ - ซึ่งนำไปสู่การสูญเสียทรัพยากรจำนวนมาก
Stephan Kolassa

10
@ สตีเฟ่น: ฉันเห็นด้วยขั้นตอนเป็นความคิดที่ไม่ดี แม้ว่าในขณะที่พวกเขาอาจยังไม่ได้ทำตามวิธีการทางจิต แต่ก็มีขั้นตอนการคัดเลือกที่หลากหลายที่ปรับสำหรับอคติที่เกี่ยวข้องกับการ overfitting โดยการปรับการประมาณการและข้อผิดพลาดมาตรฐาน โดยทั่วไปจะไม่คิดว่าเป็นปัญหาของการเปรียบเทียบหลาย ๆ พวกเขาเรียกว่าวิธีการหดตัว ดูคำตอบของฉันในหัวข้อนี้ < stats.stackexchange.com/questions/499/… > และ "กลยุทธ์การสร้างแบบจำลองการถดถอย" ของ Harrell หรือ Tibshirani บนเชือก
Brett

5
@ เบร็ท Magill: +1 ในนั้นและใช่ฉันรู้เกี่ยวกับการหดตัวและเชือก ตอนนี้สิ่งที่ฉันต้องการคือวิธีที่จะโน้มน้าวใจนักจิตวิทยาว่าสิ่งเหล่านี้สมเหตุสมผล ... แต่ผู้คนต่างต่อสู้กันด้วยความสำเร็จที่ จำกัด มากเพียงเพื่อให้นักจิตวิทยารายงานช่วงความมั่นใจดังนั้นฉันจึงไม่มองโลกในแง่ดีเกินไปเกี่ยวกับนักจิตวิทยา ยี่สิบปี
Stephan Kolassa

10
ฉันยังยืนยันว่าในการคาดคะเนการเพิ่มประสิทธิภาพของจิตวิทยาไม่ได้เป็นเป้าหมายทางทฤษฎี แต่การถดถอยแบบขั้นตอนเป็นเรื่องเกี่ยวกับการเพิ่มการทำนายให้มากที่สุดแม้ว่าจะเป็นแบบกึ่งเสมือน ดังนั้นจึงมักจะมีการตัดการเชื่อมต่อระหว่างขั้นตอนและคำถาม
Jeromy Anglim

41

Irene Stratton และเพื่อนร่วมงานตีพิมพ์บทความสั้น ๆ เกี่ยวกับคำถามที่เกี่ยวข้องอย่างใกล้ชิด:

สแตรทตัน IM, Neil A. วิธีการตรวจสอบกระดาษของคุณถูกปฏิเสธโดยผู้ตรวจสอบสถิติ แพทยศาสตร์เบาหวานปี 2548; 22 (4): 371-373


ลิงก์เสีย
Oliver Angelil


32

ไม่มีการให้รหัสที่ใช้ในการสร้างผลลัพธ์จำลอง หลังจากขอรหัสก็ต้องใช้งานเพิ่มเติมเพื่อให้มันทำงานบนชุดข้อมูลที่สร้างโดยผู้ตัดสิน


2
และมันมีรูปแบบไม่ดีไม่มีคอมเมนต์และใช้ชื่อตัวแปรและฟังก์ชั่นที่อ่านไม่ออก Ooooh ใช่
naught101

30

การขโมยความคิด (ทฤษฎีหรือระเบียบวิธี) การตรวจสอบครั้งแรกของฉันเป็นจริงสำหรับกระดาษที่คัดลอก / วางจำนวนมากที่ไม่มีการอ้างอิงจากกระดาษวิธีการที่ดีขึ้นเผยแพร่เมื่อ 10 ปีที่แล้ว

พบเพียงคู่ของเอกสารที่น่าสนใจในหัวข้อนี้: การประพันธ์และการขโมยความคิดในด้านวิทยาศาสตร์

ในหลอดเลือดดำเดียวกันฉันพบว่าเท็จ (จากข้อมูลหรือผลลัพธ์) ที่เลวร้ายที่สุดของทั้งหมด


20
ทำให้ผมนึกถึงว่าในวันแรกของฉันเป็นผู้ตัดสินผมใช้เวลาห่างไกลยาวเกินไปตรวจสอบกระดาษสถิติที่ในที่สุดก็ถูกปฏิเสธโดยวารสารที่เฉพาะ แต่ผู้ตัดสินอื่น ๆ และผมแนะนำโปรแกรมที่มีประโยชน์อื่น ๆ อีกมากมายสำหรับวิธีการและฉันยังร่างหลักฐานเกี่ยวกับพีชคณิต เพื่อแทนที่การศึกษาแบบจำลองที่น่าพอใจในต้นฉบับ ผู้เขียนได้ตีพิมพ์บทความสองฉบับออกมา ฉันไม่รำคาญกับสิ่งนั้น แต่การรับรู้เช่น "เราขอขอบคุณผู้ตัดสินในบทความก่อนหน้าสำหรับความคิดเห็นที่เป็นประโยชน์" จะเป็นมารยาทที่ดี
onestop

1
@onestop ใช่ฉันสามารถคิดวิธีการที่น่าผิดหวังสถานการณ์ดังกล่าวอาจจะมี ...
CHL

24
ไม่กี่สัปดาห์ที่ผ่านมาฉันได้รับกระดาษเพื่อตรวจสอบและพบว่า 85% ของมันถูกตีพิมพ์ในวารสารอื่น ... โดยผู้เขียนคนเดียวกัน นั่นก็ยังถือว่าเป็นการลอกเลียนแบบ ในช่วงหลายปีที่ผ่านมาฉันได้ส่งชิ้นส่วนของเอกสารเป็นประจำโดยเฉพาะอย่างยิ่งบทคัดย่อการแนะนำและข้อสรุปไปยัง Web search engine ก่อนทำการตรวจทานใด ๆ ฉันต้องการให้แน่ใจว่างานเป็นต้นฉบับก่อนที่ฉันจะลงทุนเมื่อใดก็ได้ในการอ่าน
whuber

7
+1, @whuber ในฐานะบรรณาธิการของวารสารเกี่ยวกับระเบียบวิธีฉันมักจะมีงานที่ยากลำบากนี้ในการหาว่าการมีส่วนร่วม (ตามกฎจากผู้เขียนที่ได้รับการยอมรับเป็นอย่างดีหรือไม่ผู้เขียนที่อายุน้อยกว่า พวกเขาได้ทำใหม่อีกครั้งในลักษณะที่แตกต่างจากบล็อกเลโก้แปดชิ้นซึ่งประกอบไปด้วยเอกสารห้าชิ้นก่อนหน้านี้ สิ่งนี้ทำให้ฉันตั้งคำถามกับการมีส่วนร่วมในห้าสิบบทความก่อนหน้านี้ที่ผู้เขียนตีพิมพ์เช่นกัน :(.
StasK

26

เมื่อเราถามถึงผู้แต่ง

  1. ความคิดเห็นเล็กน้อยเกี่ยวกับความคิดที่เรามี (ในแง่นี้สิ่งนี้ไม่ถือเป็นเหตุผลในการปฏิเสธกระดาษ แต่เพียงเพื่อให้แน่ใจว่าผู้เขียนสามารถพูดคุยถึง POV อื่น) หรือ
  2. ผลลัพธ์ที่ไม่ชัดเจนหรือขัดแย้ง

และผู้เขียนไม่ได้ตอบในกรณีที่ (1) หรือผลลัพธ์ที่ถูกกล่าวหาใน (2) หายไปจาก MS


7
ผลลัพธ์ที่หายไปอย่างลึกลับควรจะถูกปฏิเสธโดยอัตโนมัติ ฉันแน่ใจว่าสิ่งนี้เกิดขึ้นมากมาย "เบื้องหลัง" (เช่นก่อนที่จะส่งกระดาษ) แต่นี่เป็นหลักฐานที่ชัดเจนของ "การเก็บเชอร์รี่" ที่ผู้อ่านกระดาษทั่วไปจะไม่มีทางรู้
มาโคร

3
อีกเหตุผลหนึ่งสำหรับระบบตรวจสอบเพียร์ที่เปิด
fmark

24

ค่า p และขนาดผลกระทบที่สับสน (เช่นการระบุเอฟเฟกต์ของฉันมีขนาดใหญ่เพราะฉันมีค่า p น้อยมาก)

แตกต่างเล็กน้อยจากคำตอบของสเตฟานที่ไม่รวมขนาดเอฟเฟกต์ แต่ให้ค่า p ฉันเห็นด้วยคุณควรให้ทั้งสอง (และหวังว่าจะเข้าใจความแตกต่าง!)


23

ไม่รวมขนาดผลกระทบ

P-ing ไปตลอดการวิจัย (ฉันต้องให้เครดิตศาสตราจารย์ระดับบัณฑิตศึกษาที่ฉันโปรดปรานสำหรับบรรทัดนั้น)

ให้ตัวเลขที่ผิดปกติ (เพศชายได้รับ 3.102019 ปอนด์มากกว่าผู้หญิง)

ไม่รวมหมายเลขหน้า (ทำให้ยากต่อการตรวจสอบ)

ตัวเลขและตารางไม่ถูกต้อง

(ดังที่ได้กล่าวมาแล้ว - แบบขั้นตอนและจัดหมวดหมู่ตัวแปรต่อเนื่อง)


7
(+1) หัวเราะออกมาดัง ๆ ที่ "ให้ตัวเลขเป็นจำนวนมาก (ผู้ชายได้รับ 3.102019 ปอนด์มากกว่าผู้หญิง)"
มาโคร

19

เมื่อพวกเขาไม่เพียงพออธิบายการวิเคราะห์ของพวกเขาและ / หรือรวมถึงข้อผิดพลาดง่าย ๆ ที่ทำให้ยากต่อการทำงานสิ่งที่ทำจริง ซึ่งมักจะรวมถึงการขว้างศัพท์แสงจำนวนมากโดยวิธีการอธิบายซึ่งคลุมเครือมากกว่าที่ผู้เขียนดูเหมือนจะตระหนักและอาจถูกนำไปใช้ผิดวัตถุประสงค์


เห็นด้วย - ดิ้นรนที่จะเข้าใจความหมายของผู้แต่งก่อนที่จะประเมินเนื้อหาทางวิทยาศาสตร์นั้นน่ารำคาญจริงๆ
Laurent

5
ฉันเห็นด้วย แต่ฉันพบว่ามันน่ารำคาญยิ่งขึ้นเมื่อผู้ตรวจสอบบอกให้คุณละเว้น (หรือย้ายไปยังวัสดุอื่น ๆ ) สิ่งที่เป็นรายละเอียดที่สำคัญมากเกี่ยวกับการวิเคราะห์ตามความเป็นจริง ปัญหานี้เกิดขึ้นเพื่อให้เอกสารทางวิทยาศาสตร์ / สังคมศาสตร์จำนวนมากที่ทำแม้แต่การวิเคราะห์ที่ซับซ้อนที่สุดเล็กน้อยนั้นค่อนข้างเป็นความลับในเรื่องนั้น
มาโคร

16

การใช้ภาษาเชิงสาเหตุเพื่ออธิบายการเชื่อมโยงในข้อมูลเชิงสังเกตเมื่อตัวแปรที่ถูกตัดออกเกือบจะเป็นข้อกังวลที่ร้ายแรง


3
ฉันยอมรับว่านักวิจัยควรเข้าใจถึงภาระของการออกแบบการวิจัยเชิงสังเกตโดยเฉพาะอย่างยิ่งสิ่งที่เกี่ยวข้องกับตัวแปรที่ละเว้น แต่ฉันไม่คิดว่าการหลีกเลี่ยงภาษาเชิงสาเหตุทำเช่นนี้ ดูผลงานของฮิวเบิร์ตบลอคโดยเฉพาะในหนังสือของเขาเกี่ยวกับการหาสาเหตุในการวิจัยที่ไม่ใช่การทดลองเพื่อหาข้อโต้แย้งที่ละเอียดยิ่งขึ้นในการป้องกันการใช้ภาษาเชิงสาเหตุ
Andy W

3
(+1) นี่อาจเป็นปัญหาใหญ่ที่สุดของฉันในการวิจัยทางระบาดวิทยา
มาโคร

14

เมื่อผู้เขียนใช้การทดสอบทางสถิติหนึ่งรายการที่พวกเขารู้ (ในสาขาของฉันมักจะเป็น t-test หรือ ANOVA) ซึ่งเป็น infinitum ของโฆษณาโดยไม่คำนึงว่าเหมาะสมหรือไม่ ฉันเพิ่งตรวจสอบกระดาษที่ผู้เขียนต้องการเปรียบเทียบกลุ่มการรักษาที่แตกต่างกันโหลดังนั้นพวกเขาได้ทำการทดสอบสองตัวอย่างสำหรับทุกคู่ของการรักษาที่เป็นไปได้ ...


13

มาพร้อมกับคำศัพท์ใหม่สำหรับแนวคิดที่มีอยู่หรือในทางกลับกันใช้คำที่มีอยู่เพื่อแสดงถึงสิ่งที่แตกต่าง

ความแตกต่างของคำศัพท์ที่มีอยู่ได้ตัดสินมานานแล้วในวรรณคดี: ข้อมูลยาวในชีวสถิติและข้อมูลแผงในเศรษฐมิติ ตัวบ่งชี้เหตุและผลในทางสังคมวิทยาเทียบกับตัวบ่งชี้เชิงโครงสร้างและตัวสะท้อนในจิตวิทยา เป็นต้นฉันยังคงเกลียดชังพวกเขา แต่อย่างน้อยคุณก็สามารถค้นหาการอ้างอิงถึงพวกเขาแต่ละพันคนในวรรณกรรมของพวกเขา สิ่งที่เกิดขึ้นล่าสุดก็คืองานทั้งหมดของกราฟเชิงเส้นกำกับในวรรณคดีเชิงสาเหตุส่วนใหญ่ถ้าไม่ใช่ทั้งหมดทฤษฎีการระบุและการประเมินในสิ่งเหล่านี้ได้รับการพัฒนาโดยนักเศรษฐศาสตร์ในปี 1950 ภายใต้ชื่อสมการที่เกิดขึ้นพร้อมกัน

คำที่มีความหมายสองเท่าถ้าไม่ใช่สามเท่าคือ "แข็งแกร่ง" และความหมายที่แตกต่างกันมักจะขัดแย้งกัน ข้อผิดพลาดมาตรฐาน "แข็งแกร่ง" ไม่แข็งแรงสำหรับค่าผิดปกติ ยิ่งไปกว่านั้นพวกมันไม่แข็งแรงพอที่จะต่อต้านสิ่งใดนอกจากค่าเบี่ยงเบนที่สันนิษฐานจากตัวแบบและมักจะมีประสิทธิภาพตัวอย่างน้อย ข้อผิดพลาดมาตรฐานของ White ไม่ได้แข็งแกร่งเมื่อเทียบกับความสัมพันธ์แบบอนุกรมหรือแบบคลัสเตอร์ ข้อผิดพลาดมาตรฐาน "แข็งแรง" ใน SEM ไม่สมบูรณ์เมื่อเทียบกับการสะกดผิดของโครงสร้างโมเดล (พา ธ หรือตัวแปรที่ละเว้น) เช่นเดียวกับความคิดในการทดสอบนัยสำคัญสมมุติฐานว่างมันเป็นไปไม่ได้ที่จะชี้นิ้วไปที่ใครและพูดว่า: "คุณมีหน้าที่สร้างความสับสนให้กับนักวิจัยหลายชั่วอายุคนในการสร้างแนวคิดนี้


1
ฉันต้องยอมรับว่าทำบาปทั้งสอง: ฉันอธิบายข้อมูลของฉันว่า "มีโครงสร้างแบบลำดับชั้น: เมื่อฉันมีระดับที่มีความสัมพันธ์ 1: n (การวัดจำนวนมากของตัวอย่างแต่ละตัวอย่างหลายตัวอย่างต่อผู้ป่วย) ในบางจุดฉันค่อนข้างตั้งใจรู้ว่า เรียกว่าโครงสร้างข้อมูลแบบ "คลัสเตอร์" - ตอนนี้ฉันใช้ทั้งสองคำ แต่ฉันก็ยังไม่รู้ว่าฉันจะหาคำนั้นได้อย่างไรฉันดูคำที่อธิบายโครงสร้างข้อมูลของฉันอย่างไม่ถูกต้อง ... ฉันใช้เทคนิคที่เรียกว่าการจำแนกแบบอ่อนในการรับรู้ระยะไกลฟิลด์ของฉัน (เคมี
เมทริกซ์

2
ไม่เป็นไร - คุณสามารถเพิ่ม "หลายระดับ" ในรายการวิธีการอ้างอิงโครงสร้างนี้ได้เช่นกัน "กลุ่ม" มักจะหมายความว่าการสังเกตเป็นที่รู้กันว่ามีความสัมพันธ์กัน แต่ไม่มีใครสนใจที่จะสร้างความสัมพันธ์แบบนั้นเพราะมันไม่ได้เป็นความสนใจหลัก สิ่งที่คุณมีคือการวัด MANOVA ซ้ำ ๆ มีแพ็คเกจ Stata gllammที่คิดเกี่ยวกับข้อมูลของคุณเป็นข้อมูลหลายระดับ / ลำดับชั้น แต่แพคเกจอื่น ๆ ส่วนใหญ่จะคิดว่าการวัดหลายอย่างเป็นตัวแปร / คอลัมน์และตัวอย่างเป็นข้อสังเกต / แถว
StasK

ขอบคุณสำหรับการป้อนข้อมูล ทุกวันนี้ฉันจะถามที่นี่อย่างแน่นอนว่ามันเรียกว่า ... มันไม่ได้วัดซ้ำ: ปกติฉันวัดจำนวน (ลำดับความสำคัญ: ระหว่าง 10 ^ 2 และ 10 ^ 4) จุดที่แตกต่างกันในตัวอย่างเพื่อ สร้างแผนที่สีผิดเพี้ยนขององค์ประกอบที่แตกต่างกันและการวัดแต่ละครั้งก็มีการสังเกต 10 ^ 2 - 10 ^ 3 (ความยาวคลื่นในสเปกตรัม) ภายในแต่ละตัวอย่างสเปกตรัมจำนวนมากนั้นมีความสัมพันธ์สูง แต่ไม่ใช่ทั้งหมด: ตัวอย่างนั้นไม่เหมือนกัน ...
cbeleites

1
... คำอธิบายของคุณของ "คลัสเตอร์" ฟังดูคล้ายกับที่เราทำ แต่ฉันระมัดระวังที่จะแยกตัวอย่างเพื่อตรวจสอบความถูกต้องบอกว่าฉันไม่มีความคิดใด ๆ เกี่ยวกับขนาดตัวอย่างที่มีประสิทธิภาพ (นอกเหนือจากนั้นเป็นอย่างน้อยจำนวนตัวอย่างจริงที่เกี่ยวข้อง) และบางครั้งก็แสดงว่ามีการวัดทั้งหมดของแต่ละ ตัวอย่างจริงช่วยในการฝึกอบรมรูปแบบ
cbeleites

1
ข้อมูลที่น่าสนใจและท้าทายแน่นอน
StasK

11

การพิจารณาข้อมูลที่หายไปเป็นศูนย์

แอปพลิเคชันเชิงปฏิบัติจำนวนมากใช้ข้อมูลที่มีค่าที่หายไปอย่างน้อย แน่นอนว่านี่เป็นเรื่องจริงในด้านระบาดวิทยา ข้อมูลที่หายไปนำเสนอปัญหาสำหรับวิธีการทางสถิติมากมายรวมถึงตัวแบบเชิงเส้น ข้อมูลที่ขาดหายไปกับตัวแบบเชิงเส้นมักจะถูกจัดการด้วยการลบเคสด้วยข้อมูลที่ขาดหายไปใน covariates ใด ๆ นี่เป็นปัญหาเว้นแต่ว่าข้อมูลจะหายไปภายใต้สมมติฐานที่ว่าข้อมูลหายไปโดยสิ้นเชิงในการสุ่ม (MCAR)

บางทีเมื่อ 10 ปีก่อนมันก็สมเหตุสมผลที่จะเผยแพร่ผลลัพธ์จากตัวแบบเชิงเส้นโดยไม่มีการพิจารณาถึงความหายไป ฉันมีความผิดในเรื่องนี้อย่างแน่นอน อย่างไรก็ตามคำแนะนำที่ดีมากเกี่ยวกับวิธีจัดการกับข้อมูลที่ขาดหายไปด้วยการใส่หลาย ๆ อย่างนั้นมีให้ใช้กันอย่างแพร่หลายเช่นเดียวกับแพ็คเกจ / โมเดล / ไลบรารี / etc เชิงสถิติ เพื่ออำนวยความสะดวกในการวิเคราะห์ที่เหมาะสมมากขึ้นภายใต้สมมติฐานที่สมเหตุสมผลมากขึ้นเมื่อมีการขาดหายไป


1
ด้วยจิตวิญญาณของการพยายามให้ความรู้คุณช่วยเพิ่มรายละเอียดเพิ่มเติมได้ไหม คุณพิจารณาถึงสิ่งใด - ยอมรับว่ามีอยู่หรือปรับการวิเคราะห์ทางสถิติในหน้าของมัน (เช่นการใส่ข้อมูล) เมื่อใช้ฉันพยายามที่จะรวม supp ตารางค่าที่ขาดหายไปโดยเพื่อนร่วมทุนที่สนใจ แต่ไม่ชัดเจนว่านี่เพียงพอสำหรับ "การพิจารณา" ตามคำกล่าวนี้หรือไม่
Andy W

8

การรายงานเอฟเฟ็กต์ที่ "เข้าหาความสำคัญ (ตัวอย่างเช่น p <.10) จากนั้นเขียนเกี่ยวกับพวกเขาราวกับว่าพวกเขาบรรลุความสำคัญในระดับที่เข้มงวดและเป็นที่ยอมรับมากขึ้นใช้รูปแบบสมการโครงสร้างหลายแบบที่ไม่ซ้อนกัน ถูกวางซ้อนกันใช้กลยุทธ์การวิเคราะห์ที่เป็นที่ยอมรับและนำเสนอราวกับว่าไม่มีใครเคยคิดที่จะใช้มันมาก่อนบางทีนี่อาจเป็นคุณสมบัติที่เป็นการลอกเลียนแบบในระดับที่ n


บางทีมันอาจจะพลิกโฉมใหม่ของวงล้อมากกว่าการลอกเลียนแบบ?
gerrit

7

ฉันขอแนะนำสองบทความต่อไปนี้:

Martin Bland:
วิธีทำให้ผู้ตัดสินทางสถิติรู้สึกไม่พอใจ
นี่คือพื้นฐานของการพูดคุยที่กำหนดโดย Martin Bland พร้อมกับข้อมูลจากผู้ตัดสินทางสถิติอื่น ๆ ('ตัวอย่างความสะดวกสบายที่มีอัตราการตอบสนองต่ำ') ลงท้ายด้วยรายการ 11 จุดของ '[h] ow เพื่อหลีกเลี่ยงการทำให้ผู้ตัดสินทางสถิติ'

Stian Lydersen: การ
ตรวจสอบทางสถิติ: ความเห็นที่ได้รับบ่อย
บทความล่าสุดนี้ (ตีพิมพ์เมื่อ 2014/2558) แสดงความคิดเห็นทั่วไป 14 เรื่องของผู้เขียนซึ่งอ้างอิงจากประมาณ 200 ความคิดเห็นทางสถิติของเอกสารทางวิทยาศาสตร์ (ในวารสารเฉพาะ) ความคิดเห็นแต่ละรายการมีคำอธิบายสั้น ๆ เกี่ยวกับปัญหาและคำแนะนำเกี่ยวกับวิธีการวิเคราะห์ / รายงานอย่างถูกต้อง รายการอ้างอิงที่อ้างถึงเป็นขุมสมบัติของเอกสารที่น่าสนใจ


รายการโดย Lydersen น่าสนใจ ฉันคิดว่าฉันไม่เห็นด้วยกับพวกเขา . .
StatsStudent

6

ฉันที่สุด (และบ่อยที่สุด) รำคาญโดย "การตรวจสอบ" เล็งไปที่ข้อผิดพลาดทั่วไปของรูปแบบการพยากรณ์ที่ข้อมูลการทดสอบไม่ได้เป็นอิสระ (เช่นการวัดโดยทั่วไปแล้วหลายต่อผู้ป่วยในข้อมูลที่ออกจากบูตหรือข้ามการตรวจสอบแยกวัดไม่ได้ ผู้ป่วย )

น่ารำคาญยิ่งกว่านั้นเอกสารที่ให้ผลการตรวจสอบความผิดพลาดดังกล่าวบวกกับชุดทดสอบอิสระที่แสดงให้เห็นถึงอคติที่มากเกินไปของการตรวจสอบความถูกต้องไขว้ แต่ไม่ใช่คำเดียวที่การออกแบบการตรวจสอบความถูกต้องผิดพลาด ...

(ฉันมีความสุขอย่างสมบูรณ์แบบหากมีการนำเสนอข้อมูลเดียวกัน "เรารู้ว่าการตรวจสอบไขว้ควรแยกผู้ป่วยออก แต่เราติดอยู่กับซอฟต์แวร์ที่ไม่อนุญาตสิ่งนี้ดังนั้นเราจึงทดสอบชุดทดสอบผู้ป่วยอิสระอย่างแท้จริงเพิ่มเติม ")

(ฉันยังทราบด้วยว่า bootstrapping = resampling พร้อมการแทนที่มักจะทำงานได้ดีกว่า cross validation = resampling โดยไม่มีการแทนที่อย่างไรก็ตามเราพบข้อมูล spectroscopic (จำลองสเปกตรัมและการตั้งค่าแบบจำลองเทียมเล็กน้อย แต่สเปกตรัมจริง) - ของ bootstrap มีความไม่แน่นอนโดยรวมคล้ายกัน oob มีอคติมากขึ้น แต่ความแปรปรวนน้อยลง - สำหรับ rewieving ฉันกำลังดูสิ่งนี้จากมุมมองเชิงปฏิบัติที่มาก: การตรวจสอบข้ามซ้ำกับ out-of-bootstrap ไม่แยกผู้ป่วยที่ฉลาดหรือรายงาน / พูดคุย / พูดถึงความไม่แน่นอนแบบสุ่มเนื่องจากขนาดตัวอย่างทดสอบ จำกัด )

นอกจากนี้ความผิดยังมีผลข้างเคียงที่ผู้ตรวจสอบความถูกต้องมักจะต้องปกป้องว่าทำไมผลลัพธ์ของพวกเขาจึงเลวร้ายยิ่งกว่าผลลัพธ์อื่น ๆ ทั้งหมดในวรรณคดี


1
ไม่แน่ใจว่าคุณตั้งใจจะพูดเรื่องนี้ แต่ bootstrap "optimism" เป็นหนึ่งในวิธีที่ดีที่สุดในการตรวจสอบความถูกต้องของแบบจำลองและการฝึกอบรมและตัวอย่างการทดสอบซ้อนทับกัน
Frank Harrell

1
@ Frank Harrell - ฉันไม่แน่ใจว่าฉันได้รับคะแนนของคุณ บางทีความยากลำบากก็คือใน "การตรวจสอบความถูกต้องของแบบจำลองการทำนาย" ทางเคมีเป็นเรื่องเกี่ยวกับประสิทธิภาพสำหรับผู้ป่วยรายใหม่ที่ไม่ทราบอนาคตในอนาคต (ในตัวอย่าง: การวินิจฉัยผู้ป่วยรายใหม่) ฉันใช้ out-of-bootstrap หรือตรวจสอบข้ามซ้ำ / ซ้ำตลอดเวลา คุณช่วยอธิบายได้ไหมว่าข้อดีของการมีชุดทดสอบ & ชุดการทับซ้อนนั้นแตกต่างจากการแยกที่ระดับผู้ป่วย (ฉันถือว่า "การทับซ้อน" หมายถึงการแยกการวัดดังนั้นการทดสอบและการฝึกอบรมอาจเป็นของผู้ป่วยรายเดียวกันเสมอ )?
cbeleites

... และใช่บางจุดของการตรวจสอบความถูกต้องของโมเดลสามารถตอบได้โดยไม่ต้องแยกข้อมูลในกรณีทดสอบและการฝึกอบรมที่แตกต่างกัน (เช่นความเสถียรของโมเดลในแง่ของค่าสัมประสิทธิ์) แต่แบบจำลองความเสถียรแล้ว การคาดการณ์ควรวัดโดยใช้ผู้ป่วยที่ไม่รู้จัก (ไม่ทราบ: ไม่เคยปรากฏในกระบวนการสร้างแบบจำลองรวมถึงการประมวลผลล่วงหน้าที่ขับเคลื่อนด้วยข้อมูลซึ่งคำนึงถึงทุกกรณี) ที่จริงแล้วสำหรับการวัดปริมาณแบบดั้งเดิมในเคมีประยุกต์การตรวจสอบมีขั้นตอนที่ต้องการข้อมูลการทดสอบที่วัดได้อย่างอิสระเพิ่มเติม: ...
cbeleites

สายการปฏิบัติที่ดีสำหรับผู้ประกอบการที่ไม่รู้จักของตราสารและเป็นหนึ่งในลักษณะที่สำคัญของวิธีการวิเคราะห์ที่จะได้รับการพิจารณาระหว่างการตรวจสอบเป็นวิธีการที่มักจะสอบเทียบความต้องการที่จะได้รับการทำ (หรือแสดงให้เห็นว่ามีประโยชน์ดริฟท์เป็นเล็กน้อยเกินจำนวนที่กำหนดของเวลา) - บาง ผู้เขียนได้พูดคุยเกี่ยวกับ "การละเมิดของ resampling" ที่นำไปสู่การละเลยของชุดทดสอบอิสระดังกล่าว
cbeleites

1
หากอุปกรณ์หรือเทคนิคการตรวจวัดนั้นต้องการการตรวจสอบความถูกต้องก็จำเป็นต้องมีตัวอย่างที่เป็นอิสระ แต่ข้อผิดพลาดทั่วไปคือการใช้การแยกข้อมูลเพื่อพยายามจำลองการตรวจสอบอิสระ นี่ยังเป็นการตรวจสอบภายใน ในการตอบคำถาม @cbeleites ด้านบนตัวอย่างที่ซ้อนกันที่เกี่ยวข้องกับ bootstrapping จะส่งผลให้การประเมินแบบจำลองในอนาคตมีประสิทธิภาพแม่นยำกว่าการแยกข้อมูลในชุดข้อมูลส่วนใหญ่ที่มีแนวโน้มว่าจะเห็น ฉันมีการแบ่งข้อมูลทำงานได้ไม่ดีโดยมีอัตราเหตุการณ์ n = 17,000 และ 0.30
Frank Harrell

4

การใช้ "data" ในความหมายเดียว ข้อมูลที่พวกเขาไม่เคยเป็น


2
อาจเป็นนักสถิติชาวฝรั่งเศส;)
Stéphane Laurent

9
ฉันต้องยอมรับว่าเมื่อเร็ว ๆ นี้ฉันได้ละทิ้งการใช้ข้อมูลจำนวนมากไปเป็นเวลา 10 ปีหรือมากกว่านั้น ฉันมักจะเขียนให้กับผู้ชมที่ไม่ใช่ด้านเทคนิคและฉันก็กังวลว่าฉันจะมาผึ่งผาย APA ดูเหมือนจะยังคงมีการอ่านที่เข้มงวดเกี่ยวกับความเป็นพหูพจน์ แต่น่าสนใจว่าสมาคมสถิติรอยัลดูเหมือนจะไม่มีมุมมองที่เฉพาะเจาะจง มีการสนทนาที่น่าสนใจที่นี่: Guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
Chris Beeley

1
ฉันไม่ใช่คนพูดภาษาอังกฤษ แต่ปัญหาเกี่ยวกับผลงานเช่น "ข้อมูล" หรือ "สื่อ" ในเอกพจน์คือภาษาอังกฤษยืมคำภาษาละตินอื่น ๆ อีกมากมายและคุณต้องใช้คำภาษาละตินทั้งหมดอย่างสอดคล้องกัน อะไรต่อไป? "Curricula is" หรือ "Curriculum is"? "ปานกลาง" หาก "data" เป็นภาษาละตินแสดงว่าเป็นพหูพจน์ จบการสนทนา ไม่ว่าจะมีกี่คนที่ต้องการเพิกเฉยในตอนนี้
ฟราน

บางทีฉันอาจใช้ผิดวัตถุประสงค์ แต่ฉันสลับไปมาระหว่างเอกพจน์และพหูพจน์ขึ้นอยู่กับบริบท
StatsStudent

การใช้คำว่า 'ตัวเลข' ต่ำและเฉพาะในสถานการณ์พิเศษฉันคิดว่าคำว่า 'ข้อมูล' เป็นสิ่งที่เทียบเท่ากับคำว่า 'แพ็ค' ในแง่ของ 'หมาป่า' เป็นที่ยอมรับได้อย่างแน่นอนว่าใช้คำว่า 'pack' ในเอกพจน์เพื่ออธิบายหมาป่าหลายตัว คำว่า 'ข้อมูล' จะค่อยๆกลายเป็นสมุหนามของตัวเอง ...
โรเบิร์ตเดอ Graaf

3

สำหรับฉันคือการอ้างถึงสาเหตุโดยไม่มีการวิเคราะห์เชิงสาเหตุที่เหมาะสมหรือเมื่อมีการอนุมานสาเหตุที่ไม่เหมาะสม

ฉันยังเกลียดเมื่อได้รับความสนใจเป็นศูนย์ถึงวิธีการจัดการข้อมูลที่หายไป ฉันเห็นเอกสารจำนวนมากเช่นกันซึ่งผู้เขียนเพียงแค่ทำการวิเคราะห์กรณีที่สมบูรณ์และไม่เอ่ยถึงว่าผลลัพธ์นั้นสามารถสรุปได้ทั่วไปกับประชากรที่มีค่าที่หายไปหรือว่าประชากรที่มีค่าที่หายไปนั้นอาจแตกต่างจากระบบที่เป็นประชากร


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.