ฉันเพิ่งเจอชุดสี่ของ Anscombe (สี่ชุดข้อมูลที่มีสถิติเชิงพรรณนาเกือบจะแยกไม่ออก แต่ดูแตกต่างกันมากเมื่อถูกวางแผน) และฉันอยากรู้ว่ามีชุดข้อมูลที่รู้จักกันดีอื่น ๆ อีกมากหรือน้อยที่สร้างขึ้นเพื่อแสดงให้เห็นถึง ของการวิเคราะห์ทางสถิติ
ฉันเพิ่งเจอชุดสี่ของ Anscombe (สี่ชุดข้อมูลที่มีสถิติเชิงพรรณนาเกือบจะแยกไม่ออก แต่ดูแตกต่างกันมากเมื่อถูกวางแผน) และฉันอยากรู้ว่ามีชุดข้อมูลที่รู้จักกันดีอื่น ๆ อีกมากหรือน้อยที่สร้างขึ้นเพื่อแสดงให้เห็นถึง ของการวิเคราะห์ทางสถิติ
คำตอบ:
ชุดข้อมูลที่ทำหน้าที่เป็นตัวอย่างให้กับความเข้าใจผิดที่เป็นที่นิยมมีอยู่ฉันได้สร้างหลาย ๆ ตัวภายใต้สถานการณ์ต่าง ๆ แต่ส่วนใหญ่ของพวกเขาจะไม่น่าสนใจสำหรับคุณฉันแน่ใจ
* (ซึ่งเป็นข้อมูลที่ Anscombe ทำเพราะเป็นการตอบสนองต่อผู้คนที่ทำงานภายใต้ความเข้าใจผิดว่าคุณภาพของแบบจำลองสามารถแยกแยะได้จากสถิติที่คุณกล่าวถึง)
ฉันจะรวมที่นี่บางอย่างที่อาจเป็นที่สนใจมากกว่าที่ฉันสร้างส่วนใหญ่:
1) ตัวอย่างหนึ่ง (ค่อนข้างน้อย) เป็นตัวอย่างของการแจกแจงแบบไม่ต่อเนื่อง (และชุดข้อมูล) ฉันสร้างขึ้นเพื่อตอบโต้การยืนยันทั่วไปที่ศูนย์ความเบ้สามวินาทีนั้นมีความสมมาตร ( ทฤษฎีขั้นสูงทางสถิติของเคนดัลล์และสจวร์ตนำเสนอครอบครัวต่อเนื่องที่น่าประทับใจยิ่งขึ้น)
นี่คือหนึ่งในตัวอย่างการแจกแจงแบบแยก:
(ชุดข้อมูลสำหรับตัวอย่างตัวอย่างในกรณีตัวอย่างจึงชัดเจน: )
อย่างที่คุณเห็นการกระจายนี้ไม่สมมาตร แต่ช่วงเวลาที่สามของความเบ้นั้นเป็นศูนย์ ในทำนองเดียวกันเราสามารถสร้าง counterexamples ให้กับการยืนยันที่คล้ายกันด้วยความเคารพต่อการวัดความเบ้ที่พบมากที่สุดที่สองสัมประสิทธิ์ความเบ้เพียร์สันที่สอง( )
อันที่จริงฉันยังได้มีการแจกแจงและ / หรือชุดข้อมูลซึ่งทั้งสองมาตรการอยู่ตรงข้ามกับเครื่องหมาย - ซึ่งพอเพียงเพื่อตอบโต้ความคิดที่ว่าความเบ้เป็นแนวคิดที่เข้าใจง่ายเพียงอย่างเดียวแทนที่จะเป็นแนวคิดที่ลื่น รู้วิธีวัดอย่างเหมาะสมในหลาย ๆ กรณี
2) มีชุดของข้อมูลที่สร้างขึ้นในคำตอบพล็อต Box- and- มัสสุสำหรับการกระจายแบบ multimodalตามแนวทางของ Choonpradub & McNeil (2005) ซึ่งแสดงชุดข้อมูลที่ดูแตกต่างกันสี่ชุดด้วย boxplot เดียวกัน
โดยเฉพาะอย่างยิ่งการแจกแจงแบบเบ้อย่างชัดเจนกับกล่องสมมาตรแบบสมมาตรทำให้คนแปลกใจ
3) มีอีกสองชุดของชุดข้อมูลตัวอย่างที่ฉันสร้างขึ้นเพื่อตอบสนองการพึ่งพาฮีสโตแกรมของผู้คนโดยเฉพาะอย่างยิ่งกับถังขยะเพียงไม่กี่ถังเท่านั้น ซึ่งนำไปสู่การยืนยันอย่างมั่นใจผิดพลาดเกี่ยวกับรูปร่างการกระจาย ชุดข้อมูลและตัวอย่างการแสดงสามารถดูได้ที่นี่
นี่คือหนึ่งในตัวอย่างจากที่นั่น นี่คือข้อมูล:
1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98,
1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60,
3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62
และนี่คือสองฮิสโตแกรม:
นั่นเป็น 34 ข้อสังเกตดังกล่าวข้างต้นในทั้งสองกรณีเพียงกับจุดพักที่แตกต่างกันเป็นหนึ่งเดียวกับ binwidthและอื่น ๆ ที่มี binwidth 0.8แปลงถูกสร้างใน R ดังนี้:
x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98,
1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6,
3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)
4) เมื่อเร็ว ๆ นี้ฉันได้สร้างชุดข้อมูลบางชุดเพื่อแสดงให้เห็นถึงความไม่ชัดเจนของการทดสอบ Wilcoxon-Mann-Whitney - นั่นคือเพื่อแสดงให้เห็นว่าอาจปฏิเสธทางเลือกหนึ่งทางเลือกสำหรับชุดข้อมูลสามหรือสี่คู่ A, B และ C, (และ D ในกรณีตัวอย่างทั้งสี่) ซึ่งสรุปได้ว่า (เช่นสรุปว่า B มีแนวโน้มที่จะใหญ่กว่า A) และในทำนองเดียวกันสำหรับ C เทียบกับ B และ A เทียบกับ C (หรือ D ต่อ C และ A ต่อ D สำหรับกรณีตัวอย่าง 4 รายการ); แต่ละคนมีแนวโน้มที่จะมีขนาดใหญ่ขึ้น (ในแง่ที่ว่ามันมีโอกาสมากกว่าที่จะเป็นใหญ่กว่า) ก่อนหน้านี้ในวงจร
ต่อไปนี้เป็นชุดข้อมูลหนึ่งชุดที่มีการสังเกต 30 รายการในแต่ละตัวอย่างระบุว่า A ถึง D:
1 2 3 4 5 6 7 8 9 10 11 12
A 1.58 2.10 16.64 17.34 18.74 19.90 1.53 2.78 16.48 17.53 18.57 19.05
B 3.35 4.62 5.03 20.97 21.25 22.92 3.12 4.83 5.29 20.82 21.64 22.06
C 6.63 7.92 8.15 9.97 23.34 24.70 6.40 7.54 8.24 9.37 23.33 24.26
D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50
13 14 15 16 17 18 19 20 21 22 23 24
A 1.64 2.01 16.79 17.10 18.14 19.70 1.25 2.73 16.19 17.76 18.82 19.08
B 3.39 4.67 5.34 20.52 21.10 22.29 3.38 4.96 5.70 20.45 21.67 22.89
C 6.18 7.74 8.63 9.62 23.07 24.80 6.54 7.37 8.37 9.09 23.22 24.16
D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65
25 26 27 28 29 30
A 1.42 2.56 16.73 17.01 18.86 19.98
B 3.44 4.13 6.00 20.85 21.82 22.05
C 6.57 7.58 8.81 9.08 23.43 24.45
D 10.29 11.48 12.19 13.09 14.68 15.36
นี่คือตัวอย่างทดสอบ:
> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)
Wilcoxon rank sum test
data: adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
-Inf -1.336372
sample estimates:
difference in location
-2.500199
อย่างที่คุณเห็นการทดสอบด้านเดียวปฏิเสธค่าว่าง ค่าจาก A มีแนวโน้มที่จะมีขนาดเล็กกว่าค่าจาก B ข้อสรุปเดียวกัน (ที่ p-value เดียวกัน) ใช้กับ B vs C, C เทียบกับ D และ D กับ A กับ A วัฏจักรของการปฏิเสธของตัวเองไม่ได้เป็นปัญหาโดยอัตโนมัติ ถ้าเราไม่ตีความหมายถึงบางสิ่งมันก็ไม่ดี (เป็นเรื่องง่ายที่จะได้ค่า p น้อยกว่าด้วยตัวอย่างที่คล้ายกัน แต่ใหญ่กว่า)
"บุคคลที่ผิดธรรมดา" ที่ใหญ่กว่ามาที่นี่เมื่อคุณคำนวณช่วงเวลา (ด้านเดียวในกรณีนี้) สำหรับการเปลี่ยนตำแหน่ง - ในทุกกรณี 0 จะไม่รวม (ช่วงเวลาไม่เหมือนกันในแต่ละกรณี) สิ่งนี้นำเราไปสู่ข้อสรุปว่าเมื่อเราย้ายข้ามคอลัมน์ข้อมูลจาก A ถึง B ถึง C ถึง D ตำแหน่งจะย้ายไปทางขวา แต่สิ่งเดียวกันก็เกิดขึ้นอีกครั้งเมื่อเราย้ายกลับไปที่ A
ด้วยชุดข้อมูลเหล่านี้ที่มีขนาดใหญ่กว่า (การกระจายของค่าที่คล้ายกัน แต่มากกว่านั้น) เราสามารถได้รับความสำคัญ (หนึ่งหรือสองหาง) ที่ระดับนัยสำคัญที่เล็กกว่าอย่างมากดังนั้นหนึ่งอาจใช้การปรับ Bonferroni เช่นและยังสรุป กลุ่มมาจากการกระจายซึ่งขยับขึ้นจากครั้งต่อไป
สิ่งนี้แสดงให้เราเห็นว่าการปฏิเสธใน Wilcoxon-Mann-Whitney นั้นไม่ได้แสดงให้เห็นถึงการเรียกร้องการเปลี่ยนตำแหน่งโดยอัตโนมัติ
(แม้ว่าจะไม่ใช่ในกรณีของข้อมูลเหล่านี้ แต่ก็เป็นไปได้ที่จะสร้างชุดที่ค่าเฉลี่ยตัวอย่างคงที่ในขณะที่ผลลัพธ์เช่นด้านบนใช้)
เพิ่มในการแก้ไขในภายหลัง: การอ้างอิงที่ให้ข้อมูลและการศึกษาเกี่ยวกับเรื่องนี้คือ
Brown BM และ Hettmansperger TP (2002)
Kruskal-Wallis, comaprisons หลายอันและลูกเต๋า Efron
สถิติ Aust & N.ZJ , 44 , 427–438
5) อีกสองตัวอย่างของคู่กรณีที่เกี่ยวข้องขึ้นมาที่นี่ - ที่ ANOVA อาจมีความสำคัญ แต่การเปรียบเทียบในแต่ละคู่ไม่ได้ (ตีความสองวิธีที่แตกต่างกันที่นั่นให้ผลตอบโต้ที่แตกต่างกัน)
ดังนั้นจึงมีชุดข้อมูลตัวอย่างหลายชุดที่ขัดแย้งกับความเข้าใจผิดที่อาจเกิดขึ้น
อย่างที่คุณอาจเดาได้ว่าฉันสร้างตัวอย่างที่มีเหตุผลเช่นนี้บ่อยครั้ง (เช่นเดียวกับคนอื่น ๆ ) โดยปกติตามที่ต้องการ สำหรับความเข้าใจผิดที่พบบ่อยเหล่านี้คุณสามารถอธิบายลักษณะการโต้แย้งในลักษณะที่อาจมีการสร้างตัวอย่างใหม่ตามความประสงค์ (แม้ว่าบ่อยครั้งจะมีการทำงานในระดับหนึ่ง)
หากมีสิ่งใดที่คุณอาจสนใจฉันอาจสามารถหาฉากดังกล่าวเพิ่มเติม (ฉันหรือคนอื่น ๆ ) หรืออาจสร้างบางอย่าง
เคล็ดลับที่มีประโยชน์อย่างหนึ่งสำหรับการสร้างข้อมูลการถดถอยแบบสุ่มที่มีค่าสัมประสิทธิ์ที่คุณต้องการมีดังนี้ (ส่วนในวงเล็บคือโครงร่างของรหัส R):
a) ตั้งค่าสัมประสิทธิ์ที่คุณต้องการโดยไม่มีเสียงรบกวน ( y = b0 + b1 * x1 + b2 * x2
)
b) สร้างข้อความแสดงข้อผิดพลาดพร้อมคุณสมบัติที่ต้องการ ( n = rnorm(length(y),s=0.4
)
c) ตั้งค่าการถดถอยของเสียงใน x's เดียวกัน ( nfit = lm(n~x1+x2)
)
d) เพิ่มค่าส่วนที่เหลือจากตัวแปร y ( y = y + nfit$residuals
)
เสร็จสิ้น (สิ่งทั้งหมดสามารถทำได้จริงในไม่กี่บรรทัดของ R)
เกี่ยวกับการสร้างชุดข้อมูล (เช่นของคุณเอง) สำหรับวัตถุประสงค์ที่คล้ายกันคุณอาจสนใจ:
เท่าที่ชุดข้อมูลที่ใช้เพื่อแสดงให้เห็นถึงปรากฏการณ์ที่ซับซ้อน / ตอบโต้เชิงสัญชาตญาณในสถิติมีจำนวนมาก แต่คุณต้องระบุปรากฏการณ์ที่คุณต้องการแสดงให้เห็น ยกตัวอย่างเช่นที่เกี่ยวกับการแสดงให้เห็นถึงความขัดแย้งซิมป์สันที่ชุดกรณีอคติทางเพศเบิร์กลีย์ที่มีชื่อเสียงมาก
สำหรับการอภิปรายที่ดีของชุดข้อมูลที่มีชื่อเสียงมากที่สุดของทั้งหมดโปรดดูที่: ส่วนใดบ้างของ "ไอริส" ชุดข้อมูลที่ทำให้มันประสบความสำเร็จดังนั้นในฐานะที่เป็นชุดข้อมูลตัวอย่าง
ในบทความ"ลองใส่ความถดถอยและขยะที่น่าจะเป็นไปได้ที่พวกเขาอยู่" (C. Achen, 2004) ผู้เขียนสร้างชุดข้อมูลสังเคราะห์ที่ไม่เป็นเชิงเส้นซึ่งหมายถึงการสะท้อนกรณีในชีวิตจริงเมื่อข้อมูล อาจมีข้อผิดพลาดในการเขียนรหัสระหว่างการวัด (เช่นความผิดเพี้ยนในการกำหนดข้อมูลให้กับค่าที่เป็นหมวดหมู่หรือกระบวนการควอนไลซ์ที่ไม่ถูกต้อง)
ข้อมูลสังเคราะห์ถูกสร้างขึ้นจากความสัมพันธ์เชิงเส้นที่สมบูรณ์แบบด้วยสัมประสิทธิ์เชิงบวกสองค่า แต่เมื่อคุณใช้ข้อผิดพลาดการเข้ารหัสแบบไม่เชิงเส้นเทคนิคการถดถอยแบบมาตรฐานจะสร้างสัมประสิทธิ์ที่เป็นเครื่องหมายที่ไม่ถูกต้องและมีนัยสำคัญทางสถิติ คุณบูตชุดข้อมูลสังเคราะห์ขนาดใหญ่ขึ้น)
แม้ว่ามันจะเป็นเพียงชุดข้อมูลสังเคราะห์ขนาดเล็ก แต่กระดาษก็นำเสนอการพิสูจน์ว่าไร้เดียงสา "ทิ้งทุกอย่างที่ฉันสามารถคิดได้ทางด้านขวามือ" การถดถอยหลายรูปแบบแสดงให้เห็นว่าแม้จะมีขนาดเล็ก / ไม่เชิงเส้น โดยทั่วไปในสิ่งต่าง ๆ เช่นข้อผิดพลาดในการเขียนโค้ดหรือข้อผิดพลาดเชิงปริมาณ) คุณสามารถรับผลลัพธ์ที่ทำให้เข้าใจผิดได้หากคุณเชื่อถือการส่งออกของการวิเคราะห์ปุ่มกดการถดถอยแบบมาตรฐาน