ฉันจะตีความแผนการกระจายนี้ได้อย่างไร

12

ฉันมีพล็อตกระจายที่มีขนาดตัวอย่างซึ่งเท่ากับจำนวนคนบนแกน x และเงินเดือนมัธยฐานบนแกน y ฉันพยายามหาว่าขนาดกลุ่มตัวอย่างมีผลต่อเงินเดือนเฉลี่ยหรือไม่

นี่คือพล็อต:

ฉันจะตีความพล็อตนี้ได้อย่างไร

— Sameed
แหล่งที่มา

3

หากทำได้ฉันแนะนำให้ทำงานกับการเปลี่ยนแปลงของตัวแปรทั้งสอง หากไม่มีตัวแปรใดที่มีค่าศูนย์ที่แน่นอนให้ดูที่มาตราส่วนบันทึกการใช้งาน

— Glen_b -Reinstate Monica

@Glen_b ขออภัยฉันไม่คุ้นเคยกับเงื่อนไขที่คุณระบุเพียงแค่มองไปที่พล็อตคุณสามารถสร้างความสัมพันธ์ระหว่างตัวแปรทั้งสองได้หรือไม่? สิ่งที่ฉันสามารถเดาได้คือขนาดตัวอย่างสูงสุด 1,000 ไม่มีความสัมพันธ์สำหรับค่าขนาดตัวอย่างเดียวกันมีค่ามัธยฐานหลายค่า สำหรับค่าที่มากกว่า 1,000 เงินเดือนค่ามัธยฐานจะลดลง คุณคิดอย่างไร ?

— Sameed

ฉันไม่เห็นหลักฐานที่ชัดเจนว่ามันดูแบนสำหรับฉัน หากมีการเปลี่ยนแปลงที่ชัดเจนอาจเป็นไปได้ที่ส่วนล่างของขนาดตัวอย่าง คุณมีข้อมูลหรือเพียงแค่ภาพของพล็อตหรือไม่?

— Glen_b -Reinstate Monica

4

หากคุณเห็นค่ามัธยฐานเป็นค่ามัธยฐานของตัวแปรสุ่ม n จะทำให้รู้สึกว่าการแปรผันของค่ามัธยฐานลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น นั่นจะอธิบายการแพร่กระจายขนาดใหญ่ทางด้านซ้ายของพล็อต

— JAD

2

คำสั่งของคุณ "สำหรับขนาดตัวอย่างไม่เกิน 1,000 ไม่มีความสัมพันธ์สำหรับค่าขนาดตัวอย่างเดียวกันที่มีค่ามัธยฐานหลายค่า" ไม่ถูกต้อง

— Peter Flom - Reinstate Monica

9

"Find out" หมายถึงคุณกำลังสำรวจข้อมูล การทดสอบอย่างเป็นทางการจะไม่จำเป็นและต้องสงสัย ให้ใช้เทคนิคการวิเคราะห์ข้อมูลเชิงสำรวจมาตรฐาน (EDA) เพื่อเปิดเผยสิ่งที่อาจอยู่ในข้อมูลแทน

เทคนิคมาตรฐานเหล่านี้รวมถึงเรื่องการแสดงออก , การวิเคราะห์ที่เหลือ , เทคนิคที่แข็งแกร่ง ( "สามอาร์เอส" ของ EDA) และราบเรียบของข้อมูลตามที่อธิบายไว้โดยจอห์นทูกีในหนังสือคลาสสิกของเขาEDA (1977) วิธีการดำเนินการเหล่านี้มีการระบุไว้ในโพสต์ของฉันที่Box-Cox เช่นการเปลี่ยนแปลงสำหรับตัวแปรอิสระ? และในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง , อนึ่ง

ผลที่สุดคือสามารถมองเห็นได้มากโดยเปลี่ยนเป็นแกนล็อก - ล็อก (แสดงทั้งสองตัวแปรได้อย่างมีประสิทธิภาพอีกครั้ง) ทำให้ข้อมูลไม่ราบเรียบและทำให้การตรวจสอบสิ่งที่อาจพลาดหายไปอย่างราบเรียบเช่นที่ฉันจะอธิบาย

ต่อไปนี้เป็นข้อมูลที่แสดงอย่างราบรื่นว่า - หลังจากตรวจสอบความนุ่มนวลหลายประการที่มีระดับความน่าเชื่อถือต่อข้อมูลที่แตกต่างกัน - ดูเหมือนว่าเป็นการประนีประนอมที่ดีระหว่างการปรับให้เรียบมากเกินไปและน้อยเกินไป มันใช้วิธี Loess ซึ่งเป็นวิธีการที่แข็งแกร่งที่รู้จักกันดี (มันไม่ได้รับอิทธิพลอย่างมากจากจุดที่อยู่ห่างออกไปในแนวตั้ง)

กริดแนวตั้งอยู่ในขั้นตอนที่ 10,000 ความเรียบไม่แนะนำให้มีการเปลี่ยนแปลงของGrad_medianขนาดตัวอย่าง: ดูเหมือนว่าจะลดลงเมื่อขนาดตัวอย่างเข้าใกล้ 1,000 (ปลายเรียบไม่น่าเชื่อถือ - โดยเฉพาะอย่างยิ่งสำหรับกลุ่มตัวอย่างขนาดเล็กซึ่งคาดว่าข้อผิดพลาดในการสุ่มตัวอย่างจะค่อนข้างใหญ่ - ดังนั้นอย่า ไม่ได้อ่านมากเกินไป) ความประทับใจในการตกที่แท้จริงนี้ได้รับการสนับสนุนโดยซอฟท์แวร์แถบความเชื่อมั่น (หยาบมาก) ที่เรียบลื่น: "wiggles" ของมันนั้นใหญ่กว่าความกว้างของแถบ

หากต้องการดูสิ่งที่การวิเคราะห์นี้อาจพลาด (นี่คือความแตกต่างของลอการิทึมธรรมชาติ, การวัดความแตกต่างในแนวดิ่งโดยตรงระหว่างข้อมูลที่ราบรื่นก่อนหน้านี้เนื่องจากพวกมันเป็นจำนวนน้อยพวกเขาสามารถตีความได้ว่าเป็นความแตกต่างตามสัดส่วนเช่น สะท้อนค่าข้อมูลที่ต่ำกว่าราคา.) $-0.2$ $20\%$

เราสนใจ (a) มีรูปแบบการเปลี่ยนแปลงเพิ่มเติมหรือไม่เช่นการเปลี่ยนแปลงขนาดตัวอย่างและ (b) การแจกแจงแบบมีเงื่อนไขของการตอบสนอง - การกระจายตามแนวตั้งของตำแหน่งจุด - มีความคล้ายคลึงกันในทุกค่าขนาดตัวอย่างหรือ ว่าบางแง่มุมของพวกเขา (เช่นการแพร่กระจายหรือสมมาตร) อาจมีการเปลี่ยนแปลง

การเรียบนี้จะพยายามติดตามดาต้าพอยน์อย่างใกล้ชิดยิ่งขึ้นกว่าเดิม อย่างไรก็ตามมันเป็นแนวนอนเป็นหลัก (ภายในขอบเขตของแถบความเชื่อมั่นซึ่งมักจะครอบคลุมค่า y ที่ ) ไม่แนะนำให้ตรวจพบความแปรปรวนเพิ่มเติม การเพิ่มขึ้นเล็กน้อยของการแพร่กระจายในแนวดิ่งใกล้กลาง (ขนาดตัวอย่าง 2,000 ถึง 3000) จะไม่สำคัญหากทำการทดสอบอย่างเป็นทางการและดังนั้นจึงไม่มีความแน่นอนในขั้นตอนการสำรวจนี้ ไม่มีการเบี่ยงเบนที่ชัดเจนและเป็นระบบจากพฤติกรรมโดยรวมนี้ชัดเจนในหมวดหมู่ใด ๆ ที่แยกต่างหาก (โดดเด่นไม่ดีเกินไปตามสี - ฉันวิเคราะห์พวกมันแยกกันในรูปที่ไม่ได้แสดงไว้ที่นี่) $0.0$

ดังนั้นสรุปง่ายๆนี้:

ค่าเฉลี่ยมัธยฐานอยู่ที่ต่ำกว่า 10,000 สำหรับขนาดตัวอย่างใกล้ 1,000

รวบรวมความสัมพันธ์ที่ปรากฏในข้อมูลอย่างเพียงพอและดูเหมือนว่าจะมีความสม่ำเสมอในทุกหมวดหมู่ที่สำคัญ ไม่ว่าจะเป็นเรื่องสำคัญ - นั่นคือจะเกิดขึ้นเมื่อเผชิญหน้ากับข้อมูลเพิ่มเติมหรือไม่ - สามารถประเมินได้โดยการรวบรวมข้อมูลเพิ่มเติมเหล่านั้นเท่านั้น

สำหรับผู้ที่ต้องการตรวจสอบงานนี้หรือดำเนินการต่อไปนี่คือRรหัส

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

— whuber
แหล่งที่มา

7

Glen_b แนะนำให้คุณใช้ค่าลอการิทึมของ sample_size และเงินเดือนมัธยฐานเพื่อดูว่าการ rescaling ข้อมูลเหมาะสมหรือไม่

ฉันไม่รู้ว่าฉันจะเห็นด้วยกับความเชื่อของคุณว่าค่ามัธยฐานลดลงเมื่อขนาดตัวอย่างสูงกว่า 1,000 ฉันอยากจะบอกว่าไม่มีความสัมพันธ์เลย ทฤษฎีของคุณทำนายว่าควรมีความสัมพันธ์หรือไม่?

อีกวิธีหนึ่งที่คุณสามารถประเมินความสัมพันธ์ที่เป็นไปได้คือให้เหมาะสมกับเส้นการถดถอยกับข้อมูล หรือคุณอาจใช้เส้นโค้ง lowess พล็อตทั้งสองบรรทัดลงในข้อมูลของคุณและดูว่ามีสิ่งใดที่สามารถแซงได้ (ฉันสงสัยว่ามีอะไรที่สำคัญเกินไป)

— ZAP
แหล่งที่มา

3

Scatterplot นั้นคล้ายกับพล็อตช่องทางที่ใช้ในการวิเคราะห์เมตา ดูตัวอย่างที่คล้ายกัน การพล็อตแถบช่องทางจะแสดงให้เห็นชัดเจนยิ่งขึ้นหากมีความสัมพันธ์ใด ๆ อาจมีวงดนตรีที่เป็นบวกเล็กน้อยในตัวอย่างนี้

— Andy W

6

ฉันเห็นด้วยไม่มีความสัมพันธ์ ฉันสร้างพล็อตกระจายของคุณดั้งเดิม (ซ้าย) และสร้างพล็อตกระจายบันทึก - ล็อกที่แนะนำโดย glen_b (ขวา)

ดูเหมือนว่าไม่มีความสัมพันธ์กับทั้งสอง ความสัมพันธ์ระหว่างข้อมูลที่บันทึกการแปลงอ่อน (Pearson R = -.13) และไม่มีนัยสำคัญ (p = .09) ขึ้นอยู่กับว่าคุณมีข้อมูลพิเศษมากน้อยเพียงใดอาจมีเหตุผลที่จะเห็นความสัมพันธ์เชิงลบที่อ่อนแอ แต่นั่นดูเหมือนยืดออก ฉันเดาว่ารูปแบบใด ๆ ที่ชัดเจนที่คุณเห็นเป็นผลเช่นเดียวกันเห็นที่นี่

$R = 0.0022$ $p = 0.98$

— R Greg Stacey
แหล่งที่มา

ขอบคุณที่ดูความสัมพันธ์ระหว่าง grad-median และ grad-sample-size ฉันงงมากกับความแตกต่างระหว่างตัวเลข!

— famargar

0

ลองใช้การถดถอยเชิงเส้นจะสอนคุณเกี่ยวกับความสัมพันธ์นี้ตามที่แนะนำในคำตอบแรก เนื่องจากดูเหมือนว่าคุณกำลังใช้ python plus matplotlib สำหรับพล็อตนี้คุณจึงเป็นโค้ดหนึ่งบรรทัดที่อยู่ห่างจากโซลูชัน

คุณสามารถใช้ข้อต่อทะเลที่จะแสดงเส้นการถดถอยเชิงเส้น coeffiecient สหสัมพันธ์ของเพียร์สันและค่า p:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

อย่างที่คุณเห็นว่าไม่มีความสัมพันธ์กัน เมื่อดูพล็อตสุดท้ายนี้ดูเหมือนว่าการแปลงล็อกตัวแปร x จะเป็นประโยชน์ มาลองดูกัน:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

คุณสามารถเห็นได้อย่างชัดเจนว่า - การแปลงบันทึกหรือไม่ - ความสัมพันธ์มีขนาดเล็กและทั้งค่า p และช่วงความมั่นใจบอกว่ามันไม่มีความหมายทางสถิติ

— famargar
แหล่งที่มา

3

สิ่งบ่งชี้ของการแจกแจงแบบมีเงื่อนไขอย่างรุนแรงนั้นชี้ให้เห็นว่านี่ไม่ใช่วิธีการที่ดี เมื่อคุณสังเกตว่าความเบ้ของการกระจายขนาดตัวอย่างจะทำให้ขนาดตัวอย่างใหญ่ที่สุดสองสามอันควบคุมลักษณะที่ปรากฏของการถดถอยคุณจะเห็นว่าทำไมคนอื่นถึงแนะนำการแปลงข้อมูลเบื้องต้น

— whuber

1

ฉันไม่ได้คาดเดาหรือคาดเดา: พล็อตในคำถามแสดงลักษณะเหล่านี้อย่างชัดเจน ยังเห็นพล็อตที่สร้างโดยR Greg Staceyซึ่ง - โดยใช้การแปลงล็อก - บันทึกที่แนะนำ - แสดงให้เห็นถึงสิ่งที่พวกเขาประสบความสำเร็จ

— whuber

ฉันเพิ่งพบข้อมูลและทำการศึกษาด้วยตัวเอง - โปรดดูคำตอบที่อัปเดต

— famargar

การศึกษาของคุณยอมจำนนต่อปัญหาสองข้อที่ฉันสังเกตเห็น: การปรากฏตัวของ "ไม่มีความสัมพันธ์" เกิดขึ้นในส่วนเล็ก ๆ ของการตอบสนองแบบมีเงื่อนไขที่เบ้และการใช้ประโยชน์จากค่าถดถอยสูง โดยเฉพาะอย่างยิ่งสายติดตั้งหรือแถบข้อผิดพลาดไม่น่าเชื่อถือ

— whuber

โปรดดูพล็อตที่ฉันเพิ่งเพิ่ม; ฉันหวังว่าฉันจะไม่พลาดอะไรในการทำซ้ำครั้งล่าสุดนี้

— famargar

-1

พล็อตนี้ทำงานเป็นตัวอย่างของทฤษฎีบทขีด จำกัด กลางที่ความแปรปรวนระหว่างตัวอย่างลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น นอกจากนี้ยังเป็นรูปร่างที่คุณคาดหวังด้วยตัวแปรที่เบ้อย่างแรงเช่นเงินเดือน

— Barton Poulson
แหล่งที่มา

3

สิ่งเหล่านี้ไม่ใช่ตัวอย่างอิสระจากประชากรทั่วไป นั่นทำให้ความเกี่ยวข้องของ CLT ค่อนข้างเป็นปัญหา

— whuber