ฉันเพิ่งถามคำถามเกี่ยวกับหลักการทั่วไปรอบสถิติการตรวจสอบในหนังสือพิมพ์ สิ่งที่ฉันอยากจะถามตอนนี้คือสิ่งที่ทำให้คุณหงุดหงิดโดยเฉพาะอย่างยิ่งเมื่อตรวจสอบกระดาษนั่นคือวิธีที่ดีที่สุดที่จะรบกวนผู้ตัดสินทางสถิติ!
โปรดหนึ่งตัวอย่างต่อคำตอบ
ฉันเพิ่งถามคำถามเกี่ยวกับหลักการทั่วไปรอบสถิติการตรวจสอบในหนังสือพิมพ์ สิ่งที่ฉันอยากจะถามตอนนี้คือสิ่งที่ทำให้คุณหงุดหงิดโดยเฉพาะอย่างยิ่งเมื่อตรวจสอบกระดาษนั่นคือวิธีที่ดีที่สุดที่จะรบกวนผู้ตัดสินทางสถิติ!
โปรดหนึ่งตัวอย่างต่อคำตอบ
คำตอบ:
สิ่งที่ทำให้ฉันรำคาญใจเป็นพิเศษคือคนที่ใช้แพคเกจซอฟต์แวร์ทางสถิติที่ผู้ใช้เขียนอย่างชัดเจน แต่ไม่ได้อ้างถึงอย่างถูกต้องหรือเลยก็เลยไม่สามารถให้เครดิตกับผู้เขียนได้ การทำเช่นนี้เป็นสิ่งสำคัญโดยเฉพาะอย่างยิ่งเมื่อผู้เขียนอยู่ในสถาบันการศึกษาและงานของพวกเขาขึ้นอยู่กับเอกสารเผยแพร่ที่ได้รับการอ้างถึง (บางทีฉันควรจะเพิ่มว่าในสาขาของฉันผู้ร้ายหลายคนไม่ใช่นักสถิติ)
ดีมากฉันนึกถึงหลายสิ่ง ...
การถดถอยแบบขั้นตอน
ให้ค่า p แต่ไม่มีการวัดขนาดของเอฟเฟกต์
การอธิบายข้อมูลโดยใช้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานโดยไม่ระบุว่าข้อมูลนั้นมีความสมมาตรและไม่เปลี่ยนรูปแบบมากขึ้นหรือน้อยลง
ตัวเลขที่ไม่มีคำอธิบายที่ชัดเจน (แถบข้อผิดพลาดเหล่านั้นคือข้อผิดพลาดมาตรฐานของค่าเฉลี่ยหรือค่าเบี่ยงเบนมาตรฐานภายในกลุ่มหรืออะไร)
Irene Stratton และเพื่อนร่วมงานตีพิมพ์บทความสั้น ๆ เกี่ยวกับคำถามที่เกี่ยวข้องอย่างใกล้ชิด:
สแตรทตัน IM, Neil A. วิธีการตรวจสอบกระดาษของคุณถูกปฏิเสธโดยผู้ตรวจสอบสถิติ แพทยศาสตร์เบาหวานปี 2548; 22 (4): 371-373
ไม่มีการให้รหัสที่ใช้ในการสร้างผลลัพธ์จำลอง หลังจากขอรหัสก็ต้องใช้งานเพิ่มเติมเพื่อให้มันทำงานบนชุดข้อมูลที่สร้างโดยผู้ตัดสิน
การขโมยความคิด (ทฤษฎีหรือระเบียบวิธี) การตรวจสอบครั้งแรกของฉันเป็นจริงสำหรับกระดาษที่คัดลอก / วางจำนวนมากที่ไม่มีการอ้างอิงจากกระดาษวิธีการที่ดีขึ้นเผยแพร่เมื่อ 10 ปีที่แล้ว
พบเพียงคู่ของเอกสารที่น่าสนใจในหัวข้อนี้: การประพันธ์และการขโมยความคิดในด้านวิทยาศาสตร์
ในหลอดเลือดดำเดียวกันฉันพบว่าเท็จ (จากข้อมูลหรือผลลัพธ์) ที่เลวร้ายที่สุดของทั้งหมด
เมื่อเราถามถึงผู้แต่ง
และผู้เขียนไม่ได้ตอบในกรณีที่ (1) หรือผลลัพธ์ที่ถูกกล่าวหาใน (2) หายไปจาก MS
ค่า p และขนาดผลกระทบที่สับสน (เช่นการระบุเอฟเฟกต์ของฉันมีขนาดใหญ่เพราะฉันมีค่า p น้อยมาก)
แตกต่างเล็กน้อยจากคำตอบของสเตฟานที่ไม่รวมขนาดเอฟเฟกต์ แต่ให้ค่า p ฉันเห็นด้วยคุณควรให้ทั้งสอง (และหวังว่าจะเข้าใจความแตกต่าง!)
ไม่รวมขนาดผลกระทบ
P-ing ไปตลอดการวิจัย (ฉันต้องให้เครดิตศาสตราจารย์ระดับบัณฑิตศึกษาที่ฉันโปรดปรานสำหรับบรรทัดนั้น)
ให้ตัวเลขที่ผิดปกติ (เพศชายได้รับ 3.102019 ปอนด์มากกว่าผู้หญิง)
ไม่รวมหมายเลขหน้า (ทำให้ยากต่อการตรวจสอบ)
ตัวเลขและตารางไม่ถูกต้อง
(ดังที่ได้กล่าวมาแล้ว - แบบขั้นตอนและจัดหมวดหมู่ตัวแปรต่อเนื่อง)
เมื่อพวกเขาไม่เพียงพออธิบายการวิเคราะห์ของพวกเขาและ / หรือรวมถึงข้อผิดพลาดง่าย ๆ ที่ทำให้ยากต่อการทำงานสิ่งที่ทำจริง ซึ่งมักจะรวมถึงการขว้างศัพท์แสงจำนวนมากโดยวิธีการอธิบายซึ่งคลุมเครือมากกว่าที่ผู้เขียนดูเหมือนจะตระหนักและอาจถูกนำไปใช้ผิดวัตถุประสงค์
การใช้ภาษาเชิงสาเหตุเพื่ออธิบายการเชื่อมโยงในข้อมูลเชิงสังเกตเมื่อตัวแปรที่ถูกตัดออกเกือบจะเป็นข้อกังวลที่ร้ายแรง
เมื่อผู้เขียนใช้การทดสอบทางสถิติหนึ่งรายการที่พวกเขารู้ (ในสาขาของฉันมักจะเป็น t-test หรือ ANOVA) ซึ่งเป็น infinitum ของโฆษณาโดยไม่คำนึงว่าเหมาะสมหรือไม่ ฉันเพิ่งตรวจสอบกระดาษที่ผู้เขียนต้องการเปรียบเทียบกลุ่มการรักษาที่แตกต่างกันโหลดังนั้นพวกเขาได้ทำการทดสอบสองตัวอย่างสำหรับทุกคู่ของการรักษาที่เป็นไปได้ ...
มาพร้อมกับคำศัพท์ใหม่สำหรับแนวคิดที่มีอยู่หรือในทางกลับกันใช้คำที่มีอยู่เพื่อแสดงถึงสิ่งที่แตกต่าง
ความแตกต่างของคำศัพท์ที่มีอยู่ได้ตัดสินมานานแล้วในวรรณคดี: ข้อมูลยาวในชีวสถิติและข้อมูลแผงในเศรษฐมิติ ตัวบ่งชี้เหตุและผลในทางสังคมวิทยาเทียบกับตัวบ่งชี้เชิงโครงสร้างและตัวสะท้อนในจิตวิทยา เป็นต้นฉันยังคงเกลียดชังพวกเขา แต่อย่างน้อยคุณก็สามารถค้นหาการอ้างอิงถึงพวกเขาแต่ละพันคนในวรรณกรรมของพวกเขา สิ่งที่เกิดขึ้นล่าสุดก็คืองานทั้งหมดของกราฟเชิงเส้นกำกับในวรรณคดีเชิงสาเหตุส่วนใหญ่ถ้าไม่ใช่ทั้งหมดทฤษฎีการระบุและการประเมินในสิ่งเหล่านี้ได้รับการพัฒนาโดยนักเศรษฐศาสตร์ในปี 1950 ภายใต้ชื่อสมการที่เกิดขึ้นพร้อมกัน
คำที่มีความหมายสองเท่าถ้าไม่ใช่สามเท่าคือ "แข็งแกร่ง" และความหมายที่แตกต่างกันมักจะขัดแย้งกัน ข้อผิดพลาดมาตรฐาน "แข็งแกร่ง" ไม่แข็งแรงสำหรับค่าผิดปกติ ยิ่งไปกว่านั้นพวกมันไม่แข็งแรงพอที่จะต่อต้านสิ่งใดนอกจากค่าเบี่ยงเบนที่สันนิษฐานจากตัวแบบและมักจะมีประสิทธิภาพตัวอย่างน้อย ข้อผิดพลาดมาตรฐานของ White ไม่ได้แข็งแกร่งเมื่อเทียบกับความสัมพันธ์แบบอนุกรมหรือแบบคลัสเตอร์ ข้อผิดพลาดมาตรฐาน "แข็งแรง" ใน SEM ไม่สมบูรณ์เมื่อเทียบกับการสะกดผิดของโครงสร้างโมเดล (พา ธ หรือตัวแปรที่ละเว้น) เช่นเดียวกับความคิดในการทดสอบนัยสำคัญสมมุติฐานว่างมันเป็นไปไม่ได้ที่จะชี้นิ้วไปที่ใครและพูดว่า: "คุณมีหน้าที่สร้างความสับสนให้กับนักวิจัยหลายชั่วอายุคนในการสร้างแนวคิดนี้
gllamm
ที่คิดเกี่ยวกับข้อมูลของคุณเป็นข้อมูลหลายระดับ / ลำดับชั้น แต่แพคเกจอื่น ๆ ส่วนใหญ่จะคิดว่าการวัดหลายอย่างเป็นตัวแปร / คอลัมน์และตัวอย่างเป็นข้อสังเกต / แถว
การพิจารณาข้อมูลที่หายไปเป็นศูนย์
แอปพลิเคชันเชิงปฏิบัติจำนวนมากใช้ข้อมูลที่มีค่าที่หายไปอย่างน้อย แน่นอนว่านี่เป็นเรื่องจริงในด้านระบาดวิทยา ข้อมูลที่หายไปนำเสนอปัญหาสำหรับวิธีการทางสถิติมากมายรวมถึงตัวแบบเชิงเส้น ข้อมูลที่ขาดหายไปกับตัวแบบเชิงเส้นมักจะถูกจัดการด้วยการลบเคสด้วยข้อมูลที่ขาดหายไปใน covariates ใด ๆ นี่เป็นปัญหาเว้นแต่ว่าข้อมูลจะหายไปภายใต้สมมติฐานที่ว่าข้อมูลหายไปโดยสิ้นเชิงในการสุ่ม (MCAR)
บางทีเมื่อ 10 ปีก่อนมันก็สมเหตุสมผลที่จะเผยแพร่ผลลัพธ์จากตัวแบบเชิงเส้นโดยไม่มีการพิจารณาถึงความหายไป ฉันมีความผิดในเรื่องนี้อย่างแน่นอน อย่างไรก็ตามคำแนะนำที่ดีมากเกี่ยวกับวิธีจัดการกับข้อมูลที่ขาดหายไปด้วยการใส่หลาย ๆ อย่างนั้นมีให้ใช้กันอย่างแพร่หลายเช่นเดียวกับแพ็คเกจ / โมเดล / ไลบรารี / etc เชิงสถิติ เพื่ออำนวยความสะดวกในการวิเคราะห์ที่เหมาะสมมากขึ้นภายใต้สมมติฐานที่สมเหตุสมผลมากขึ้นเมื่อมีการขาดหายไป
การรายงานเอฟเฟ็กต์ที่ "เข้าหาความสำคัญ (ตัวอย่างเช่น p <.10) จากนั้นเขียนเกี่ยวกับพวกเขาราวกับว่าพวกเขาบรรลุความสำคัญในระดับที่เข้มงวดและเป็นที่ยอมรับมากขึ้นใช้รูปแบบสมการโครงสร้างหลายแบบที่ไม่ซ้อนกัน ถูกวางซ้อนกันใช้กลยุทธ์การวิเคราะห์ที่เป็นที่ยอมรับและนำเสนอราวกับว่าไม่มีใครเคยคิดที่จะใช้มันมาก่อนบางทีนี่อาจเป็นคุณสมบัติที่เป็นการลอกเลียนแบบในระดับที่ n
ฉันขอแนะนำสองบทความต่อไปนี้:
Martin Bland:
วิธีทำให้ผู้ตัดสินทางสถิติรู้สึกไม่พอใจ
นี่คือพื้นฐานของการพูดคุยที่กำหนดโดย Martin Bland พร้อมกับข้อมูลจากผู้ตัดสินทางสถิติอื่น ๆ ('ตัวอย่างความสะดวกสบายที่มีอัตราการตอบสนองต่ำ') ลงท้ายด้วยรายการ 11 จุดของ '[h] ow เพื่อหลีกเลี่ยงการทำให้ผู้ตัดสินทางสถิติ'
Stian Lydersen: การ
ตรวจสอบทางสถิติ: ความเห็นที่ได้รับบ่อย
บทความล่าสุดนี้ (ตีพิมพ์เมื่อ 2014/2558) แสดงความคิดเห็นทั่วไป 14 เรื่องของผู้เขียนซึ่งอ้างอิงจากประมาณ 200 ความคิดเห็นทางสถิติของเอกสารทางวิทยาศาสตร์ (ในวารสารเฉพาะ) ความคิดเห็นแต่ละรายการมีคำอธิบายสั้น ๆ เกี่ยวกับปัญหาและคำแนะนำเกี่ยวกับวิธีการวิเคราะห์ / รายงานอย่างถูกต้อง รายการอ้างอิงที่อ้างถึงเป็นขุมสมบัติของเอกสารที่น่าสนใจ
ฉันที่สุด (และบ่อยที่สุด) รำคาญโดย "การตรวจสอบ" เล็งไปที่ข้อผิดพลาดทั่วไปของรูปแบบการพยากรณ์ที่ข้อมูลการทดสอบไม่ได้เป็นอิสระ (เช่นการวัดโดยทั่วไปแล้วหลายต่อผู้ป่วยในข้อมูลที่ออกจากบูตหรือข้ามการตรวจสอบแยกวัดไม่ได้ ผู้ป่วย )
น่ารำคาญยิ่งกว่านั้นเอกสารที่ให้ผลการตรวจสอบความผิดพลาดดังกล่าวบวกกับชุดทดสอบอิสระที่แสดงให้เห็นถึงอคติที่มากเกินไปของการตรวจสอบความถูกต้องไขว้ แต่ไม่ใช่คำเดียวที่การออกแบบการตรวจสอบความถูกต้องผิดพลาด ...
(ฉันมีความสุขอย่างสมบูรณ์แบบหากมีการนำเสนอข้อมูลเดียวกัน "เรารู้ว่าการตรวจสอบไขว้ควรแยกผู้ป่วยออก แต่เราติดอยู่กับซอฟต์แวร์ที่ไม่อนุญาตสิ่งนี้ดังนั้นเราจึงทดสอบชุดทดสอบผู้ป่วยอิสระอย่างแท้จริงเพิ่มเติม ")
(ฉันยังทราบด้วยว่า bootstrapping = resampling พร้อมการแทนที่มักจะทำงานได้ดีกว่า cross validation = resampling โดยไม่มีการแทนที่อย่างไรก็ตามเราพบข้อมูล spectroscopic (จำลองสเปกตรัมและการตั้งค่าแบบจำลองเทียมเล็กน้อย แต่สเปกตรัมจริง) - ของ bootstrap มีความไม่แน่นอนโดยรวมคล้ายกัน oob มีอคติมากขึ้น แต่ความแปรปรวนน้อยลง - สำหรับ rewieving ฉันกำลังดูสิ่งนี้จากมุมมองเชิงปฏิบัติที่มาก: การตรวจสอบข้ามซ้ำกับ out-of-bootstrap ไม่แยกผู้ป่วยที่ฉลาดหรือรายงาน / พูดคุย / พูดถึงความไม่แน่นอนแบบสุ่มเนื่องจากขนาดตัวอย่างทดสอบ จำกัด )
นอกจากนี้ความผิดยังมีผลข้างเคียงที่ผู้ตรวจสอบความถูกต้องมักจะต้องปกป้องว่าทำไมผลลัพธ์ของพวกเขาจึงเลวร้ายยิ่งกว่าผลลัพธ์อื่น ๆ ทั้งหมดในวรรณคดี
การใช้ "data" ในความหมายเดียว ข้อมูลที่พวกเขาไม่เคยเป็น
สำหรับฉันคือการอ้างถึงสาเหตุโดยไม่มีการวิเคราะห์เชิงสาเหตุที่เหมาะสมหรือเมื่อมีการอนุมานสาเหตุที่ไม่เหมาะสม
ฉันยังเกลียดเมื่อได้รับความสนใจเป็นศูนย์ถึงวิธีการจัดการข้อมูลที่หายไป ฉันเห็นเอกสารจำนวนมากเช่นกันซึ่งผู้เขียนเพียงแค่ทำการวิเคราะห์กรณีที่สมบูรณ์และไม่เอ่ยถึงว่าผลลัพธ์นั้นสามารถสรุปได้ทั่วไปกับประชากรที่มีค่าที่หายไปหรือว่าประชากรที่มีค่าที่หายไปนั้นอาจแตกต่างจากระบบที่เป็นประชากร
ใช้ Microsoft Word แทน LaTeX