ชุดข้อมูลที่สร้างขึ้นเพื่อวัตถุประสงค์คล้ายกับชุดของ Anscombe


32

ฉันเพิ่งเจอชุดสี่ของ Anscombe (สี่ชุดข้อมูลที่มีสถิติเชิงพรรณนาเกือบจะแยกไม่ออก แต่ดูแตกต่างกันมากเมื่อถูกวางแผน) และฉันอยากรู้ว่ามีชุดข้อมูลที่รู้จักกันดีอื่น ๆ อีกมากหรือน้อยที่สร้างขึ้นเพื่อแสดงให้เห็นถึง ของการวิเคราะห์ทางสถิติ


3
ไซต์นี้จะต้องมีชุดข้อมูลดังกล่าวหลายร้อยชุดในตอนนี้หากไม่กระจายไปทั่วตอบ แม้ว่าจะไม่มีวิธีที่เป็นระบบในการค้นหาพวกเขา แต่การดูหัวข้อที่ได้รับการโหวตมากที่สุดสำหรับแท็กยอดนิยมเช่นแท็กการถดถอยจะทำให้เกิดกลุ่ม: ลองค้นหานี้
whuber

2
ของความเกี่ยวข้องโดยตรงblog.revolutionanalytics.com/2017/05/the-datasaurus-dozen.html
ไฮเบอร์เนต

คำตอบ:


30

ชุดข้อมูลที่ทำหน้าที่เป็นตัวอย่างให้กับความเข้าใจผิดที่เป็นที่นิยมมีอยู่ฉันได้สร้างหลาย ๆ ตัวภายใต้สถานการณ์ต่าง ๆ แต่ส่วนใหญ่ของพวกเขาจะไม่น่าสนใจสำหรับคุณฉันแน่ใจ

* (ซึ่งเป็นข้อมูลที่ Anscombe ทำเพราะเป็นการตอบสนองต่อผู้คนที่ทำงานภายใต้ความเข้าใจผิดว่าคุณภาพของแบบจำลองสามารถแยกแยะได้จากสถิติที่คุณกล่าวถึง)

ฉันจะรวมที่นี่บางอย่างที่อาจเป็นที่สนใจมากกว่าที่ฉันสร้างส่วนใหญ่:

1) ตัวอย่างหนึ่ง (ค่อนข้างน้อย) เป็นตัวอย่างของการแจกแจงแบบไม่ต่อเนื่อง (และชุดข้อมูล) ฉันสร้างขึ้นเพื่อตอบโต้การยืนยันทั่วไปที่ศูนย์ความเบ้สามวินาทีนั้นมีความสมมาตร ( ทฤษฎีขั้นสูงทางสถิติของเคนดัลล์และสจวร์ตนำเสนอครอบครัวต่อเนื่องที่น่าประทับใจยิ่งขึ้น)

นี่คือหนึ่งในตัวอย่างการแจกแจงแบบแยก:

x-415P(X=x)2/63/61/6

(ชุดข้อมูลสำหรับตัวอย่างตัวอย่างในกรณีตัวอย่างจึงชัดเจน: )-4,-4,1,1,1,5

อย่างที่คุณเห็นการกระจายนี้ไม่สมมาตร แต่ช่วงเวลาที่สามของความเบ้นั้นเป็นศูนย์ ในทำนองเดียวกันเราสามารถสร้าง counterexamples ให้กับการยืนยันที่คล้ายกันด้วยความเคารพต่อการวัดความเบ้ที่พบมากที่สุดที่สองสัมประสิทธิ์ความเบ้เพียร์สันที่สอง( )3(ม.อีan-ม.อีdผมanσ)

อันที่จริงฉันยังได้มีการแจกแจงและ / หรือชุดข้อมูลซึ่งทั้งสองมาตรการอยู่ตรงข้ามกับเครื่องหมาย - ซึ่งพอเพียงเพื่อตอบโต้ความคิดที่ว่าความเบ้เป็นแนวคิดที่เข้าใจง่ายเพียงอย่างเดียวแทนที่จะเป็นแนวคิดที่ลื่น รู้วิธีวัดอย่างเหมาะสมในหลาย ๆ กรณี

2) มีชุดของข้อมูลที่สร้างขึ้นในคำตอบพล็อต Box- and- มัสสุสำหรับการกระจายแบบ multimodalตามแนวทางของ Choonpradub & McNeil (2005) ซึ่งแสดงชุดข้อมูลที่ดูแตกต่างกันสี่ชุดด้วย boxplot เดียวกัน

ป้อนคำอธิบายรูปภาพที่นี่

โดยเฉพาะอย่างยิ่งการแจกแจงแบบเบ้อย่างชัดเจนกับกล่องสมมาตรแบบสมมาตรทำให้คนแปลกใจ

3) มีอีกสองชุดของชุดข้อมูลตัวอย่างที่ฉันสร้างขึ้นเพื่อตอบสนองการพึ่งพาฮีสโตแกรมของผู้คนโดยเฉพาะอย่างยิ่งกับถังขยะเพียงไม่กี่ถังเท่านั้น ซึ่งนำไปสู่การยืนยันอย่างมั่นใจผิดพลาดเกี่ยวกับรูปร่างการกระจาย ชุดข้อมูลและตัวอย่างการแสดงสามารถดูได้ที่นี่

นี่คือหนึ่งในตัวอย่างจากที่นั่น นี่คือข้อมูล:

  1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62

และนี่คือสองฮิสโตแกรม:

เบ้ vs เบลล์

นั่นเป็น 34 ข้อสังเกตดังกล่าวข้างต้นในทั้งสองกรณีเพียงกับจุดพักที่แตกต่างกันเป็นหนึ่งเดียวกับ binwidthและอื่น ๆ ที่มี binwidth 0.8แปลงถูกสร้างใน R ดังนี้:10.8

x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)

4) เมื่อเร็ว ๆ นี้ฉันได้สร้างชุดข้อมูลบางชุดเพื่อแสดงให้เห็นถึงความไม่ชัดเจนของการทดสอบ Wilcoxon-Mann-Whitney - นั่นคือเพื่อแสดงให้เห็นว่าอาจปฏิเสธทางเลือกหนึ่งทางเลือกสำหรับชุดข้อมูลสามหรือสี่คู่ A, B และ C, (และ D ในกรณีตัวอย่างทั้งสี่) ซึ่งสรุปได้ว่า (เช่นสรุปว่า B มีแนวโน้มที่จะใหญ่กว่า A) และในทำนองเดียวกันสำหรับ C เทียบกับ B และ A เทียบกับ C (หรือ D ต่อ C และ A ต่อ D สำหรับกรณีตัวอย่าง 4 รายการ); แต่ละคนมีแนวโน้มที่จะมีขนาดใหญ่ขึ้น (ในแง่ที่ว่ามันมีโอกาสมากกว่าที่จะเป็นใหญ่กว่า) ก่อนหน้านี้ในวงจรP(B>A)>12

ต่อไปนี้เป็นชุดข้อมูลหนึ่งชุดที่มีการสังเกต 30 รายการในแต่ละตัวอย่างระบุว่า A ถึง D:

       1     2     3     4     5     6     7     8     9    10    11    12
 A  1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 B  3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 C  6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50

      13    14    15    16    17    18    19    20    21    22    23    24
 A  1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 B  3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 C  6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65

      25    26    27    28    29    30
 A  1.42  2.56 16.73 17.01 18.86 19.98
 B  3.44  4.13  6.00 20.85 21.82 22.05
 C  6.57  7.58  8.81  9.08 23.43 24.45
 D 10.29 11.48 12.19 13.09 14.68 15.36

นี่คือตัวอย่างทดสอบ:

> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)

    Wilcoxon rank sum test

data:  adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
      -Inf -1.336372
sample estimates:
difference in location 
             -2.500199 

อย่างที่คุณเห็นการทดสอบด้านเดียวปฏิเสธค่าว่าง ค่าจาก A มีแนวโน้มที่จะมีขนาดเล็กกว่าค่าจาก B ข้อสรุปเดียวกัน (ที่ p-value เดียวกัน) ใช้กับ B vs C, C เทียบกับ D และ D กับ A กับ A วัฏจักรของการปฏิเสธของตัวเองไม่ได้เป็นปัญหาโดยอัตโนมัติ ถ้าเราไม่ตีความหมายถึงบางสิ่งมันก็ไม่ดี (เป็นเรื่องง่ายที่จะได้ค่า p น้อยกว่าด้วยตัวอย่างที่คล้ายกัน แต่ใหญ่กว่า)

"บุคคลที่ผิดธรรมดา" ที่ใหญ่กว่ามาที่นี่เมื่อคุณคำนวณช่วงเวลา (ด้านเดียวในกรณีนี้) สำหรับการเปลี่ยนตำแหน่ง - ในทุกกรณี 0 จะไม่รวม (ช่วงเวลาไม่เหมือนกันในแต่ละกรณี) สิ่งนี้นำเราไปสู่ข้อสรุปว่าเมื่อเราย้ายข้ามคอลัมน์ข้อมูลจาก A ถึง B ถึง C ถึง D ตำแหน่งจะย้ายไปทางขวา แต่สิ่งเดียวกันก็เกิดขึ้นอีกครั้งเมื่อเราย้ายกลับไปที่ A

ด้วยชุดข้อมูลเหล่านี้ที่มีขนาดใหญ่กว่า (การกระจายของค่าที่คล้ายกัน แต่มากกว่านั้น) เราสามารถได้รับความสำคัญ (หนึ่งหรือสองหาง) ที่ระดับนัยสำคัญที่เล็กกว่าอย่างมากดังนั้นหนึ่งอาจใช้การปรับ Bonferroni เช่นและยังสรุป กลุ่มมาจากการกระจายซึ่งขยับขึ้นจากครั้งต่อไป

สิ่งนี้แสดงให้เราเห็นว่าการปฏิเสธใน Wilcoxon-Mann-Whitney นั้นไม่ได้แสดงให้เห็นถึงการเรียกร้องการเปลี่ยนตำแหน่งโดยอัตโนมัติ

(แม้ว่าจะไม่ใช่ในกรณีของข้อมูลเหล่านี้ แต่ก็เป็นไปได้ที่จะสร้างชุดที่ค่าเฉลี่ยตัวอย่างคงที่ในขณะที่ผลลัพธ์เช่นด้านบนใช้)

เพิ่มในการแก้ไขในภายหลัง: การอ้างอิงที่ให้ข้อมูลและการศึกษาเกี่ยวกับเรื่องนี้คือ

Brown BM และ Hettmansperger TP (2002)
Kruskal-Wallis, comaprisons หลายอันและลูกเต๋า Efron
สถิติ Aust & N.ZJ , 44 , 427–438

5) อีกสองตัวอย่างของคู่กรณีที่เกี่ยวข้องขึ้นมาที่นี่ - ที่ ANOVA อาจมีความสำคัญ แต่การเปรียบเทียบในแต่ละคู่ไม่ได้ (ตีความสองวิธีที่แตกต่างกันที่นั่นให้ผลตอบโต้ที่แตกต่างกัน)


ดังนั้นจึงมีชุดข้อมูลตัวอย่างหลายชุดที่ขัดแย้งกับความเข้าใจผิดที่อาจเกิดขึ้น

อย่างที่คุณอาจเดาได้ว่าฉันสร้างตัวอย่างที่มีเหตุผลเช่นนี้บ่อยครั้ง (เช่นเดียวกับคนอื่น ๆ ) โดยปกติตามที่ต้องการ สำหรับความเข้าใจผิดที่พบบ่อยเหล่านี้คุณสามารถอธิบายลักษณะการโต้แย้งในลักษณะที่อาจมีการสร้างตัวอย่างใหม่ตามความประสงค์ (แม้ว่าบ่อยครั้งจะมีการทำงานในระดับหนึ่ง)

หากมีสิ่งใดที่คุณอาจสนใจฉันอาจสามารถหาฉากดังกล่าวเพิ่มเติม (ฉันหรือคนอื่น ๆ ) หรืออาจสร้างบางอย่าง


เคล็ดลับที่มีประโยชน์อย่างหนึ่งสำหรับการสร้างข้อมูลการถดถอยแบบสุ่มที่มีค่าสัมประสิทธิ์ที่คุณต้องการมีดังนี้ (ส่วนในวงเล็บคือโครงร่างของรหัส R):

a) ตั้งค่าสัมประสิทธิ์ที่คุณต้องการโดยไม่มีเสียงรบกวน ( y = b0 + b1 * x1 + b2 * x2)

b) สร้างข้อความแสดงข้อผิดพลาดพร้อมคุณสมบัติที่ต้องการ ( n = rnorm(length(y),s=0.4)

c) ตั้งค่าการถดถอยของเสียงใน x's เดียวกัน ( nfit = lm(n~x1+x2))

d) เพิ่มค่าส่วนที่เหลือจากตัวแปร y ( y = y + nfit$residuals)

เสร็จสิ้น (สิ่งทั้งหมดสามารถทำได้จริงในไม่กี่บรรทัดของ R)


6
(10k)0.1k0.910-k,k=0,...,10

@Glen_b ขอบคุณ ในทางตรงกันข้ามน่าสนใจมาก ๆ ตัวอย่างเช่นฉันเพิ่งบันทึกไฟล์ชื่อ sturges.R ด้วยข้อมูลของคุณ x และบรรทัดของรหัสต่อไปนี้: hist (x, col = "green3", freq = FALSE); hist (x แบ่ง = "สกอตต์" เทือกเขา = "สีฟ้า" ความถี่ = false); hist (x, break = "FD", col = "darkgreen", freq = FALSE) ฉันรู้ว่าบางคนล้มเหลวในการโน้มน้าวให้ชุมชน R ไม่ใช้กฎ Sturges เป็นค่าเริ่มต้นสำหรับจำนวนเซลล์ - ตัวอย่างของคุณอาจเป็น เหตุผลที่น่าเชื่อถือมากกว่าข้อสังเกตที่ไม่ได้เผยแพร่โดย Rob Hyndman
ไฮเบอร์เนต

@ การไฮเบอร์เนตคำขอโทษของฉันสำหรับการขาดความชัดเจน - ฉันเลือกสิ่งที่น่าสนใจที่เกิดขึ้นกับฉัน ดังที่ฉันได้กล่าวว่าการสร้างตัวอย่างเกิดขึ้นเป็นประจำ แต่ส่วนใหญ่จะไม่น่าสนใจ (นอกกลุ่มผู้ชมโดยตรง) บางครั้งฉันก็พูดถึงสิ่งที่ฉันคิดได้ ถ้าฉันจะสร้างตัวอย่างเพื่อแสดงปัญหาเกี่ยวกับกฎของสเตอร์จส์ฉันจะทำให้ตัวอย่างนั้นแตกต่างจากที่อื่น (ฉันคิดว่าค่านิยมหลักของตัวอย่างนั้นแสดงให้เห็นอย่างชัดเจนว่าคุณไม่ควรใช้กฎเดียวเลยและโดยทั่วไปควรพึ่งพาถังขยะมากกว่ากฎทั่วไป)
Glen_b

2
n=5

16

เกี่ยวกับการสร้างชุดข้อมูล (เช่นของคุณเอง) สำหรับวัตถุประสงค์ที่คล้ายกันคุณอาจสนใจ:

เท่าที่ชุดข้อมูลที่ใช้เพื่อแสดงให้เห็นถึงปรากฏการณ์ที่ซับซ้อน / ตอบโต้เชิงสัญชาตญาณในสถิติมีจำนวนมาก แต่คุณต้องระบุปรากฏการณ์ที่คุณต้องการแสดงให้เห็น ยกตัวอย่างเช่นที่เกี่ยวกับการแสดงให้เห็นถึงความขัดแย้งซิมป์สันที่ชุดกรณีอคติทางเพศเบิร์กลีย์ที่มีชื่อเสียงมาก

สำหรับการอภิปรายที่ดีของชุดข้อมูลที่มีชื่อเสียงมากที่สุดของทั้งหมดโปรดดูที่: ส่วนใดบ้างของ "ไอริส" ชุดข้อมูลที่ทำให้มันประสบความสำเร็จดังนั้นในฐานะที่เป็นชุดข้อมูลตัวอย่าง


1

ในบทความ"ลองใส่ความถดถอยและขยะที่น่าจะเป็นไปได้ที่พวกเขาอยู่" (C. Achen, 2004) ผู้เขียนสร้างชุดข้อมูลสังเคราะห์ที่ไม่เป็นเชิงเส้นซึ่งหมายถึงการสะท้อนกรณีในชีวิตจริงเมื่อข้อมูล อาจมีข้อผิดพลาดในการเขียนรหัสระหว่างการวัด (เช่นความผิดเพี้ยนในการกำหนดข้อมูลให้กับค่าที่เป็นหมวดหมู่หรือกระบวนการควอนไลซ์ที่ไม่ถูกต้อง)

ข้อมูลสังเคราะห์ถูกสร้างขึ้นจากความสัมพันธ์เชิงเส้นที่สมบูรณ์แบบด้วยสัมประสิทธิ์เชิงบวกสองค่า แต่เมื่อคุณใช้ข้อผิดพลาดการเข้ารหัสแบบไม่เชิงเส้นเทคนิคการถดถอยแบบมาตรฐานจะสร้างสัมประสิทธิ์ที่เป็นเครื่องหมายที่ไม่ถูกต้องและมีนัยสำคัญทางสถิติ คุณบูตชุดข้อมูลสังเคราะห์ขนาดใหญ่ขึ้น)

แม้ว่ามันจะเป็นเพียงชุดข้อมูลสังเคราะห์ขนาดเล็ก แต่กระดาษก็นำเสนอการพิสูจน์ว่าไร้เดียงสา "ทิ้งทุกอย่างที่ฉันสามารถคิดได้ทางด้านขวามือ" การถดถอยหลายรูปแบบแสดงให้เห็นว่าแม้จะมีขนาดเล็ก / ไม่เชิงเส้น โดยทั่วไปในสิ่งต่าง ๆ เช่นข้อผิดพลาดในการเขียนโค้ดหรือข้อผิดพลาดเชิงปริมาณ) คุณสามารถรับผลลัพธ์ที่ทำให้เข้าใจผิดได้หากคุณเชื่อถือการส่งออกของการวิเคราะห์ปุ่มกดการถดถอยแบบมาตรฐาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.