ฉันมีพล็อตกระจายที่มีขนาดตัวอย่างซึ่งเท่ากับจำนวนคนบนแกน x และเงินเดือนมัธยฐานบนแกน y ฉันพยายามหาว่าขนาดกลุ่มตัวอย่างมีผลต่อเงินเดือนเฉลี่ยหรือไม่
นี่คือพล็อต:
ฉันจะตีความพล็อตนี้ได้อย่างไร
ฉันมีพล็อตกระจายที่มีขนาดตัวอย่างซึ่งเท่ากับจำนวนคนบนแกน x และเงินเดือนมัธยฐานบนแกน y ฉันพยายามหาว่าขนาดกลุ่มตัวอย่างมีผลต่อเงินเดือนเฉลี่ยหรือไม่
นี่คือพล็อต:
ฉันจะตีความพล็อตนี้ได้อย่างไร
คำตอบ:
"Find out" หมายถึงคุณกำลังสำรวจข้อมูล การทดสอบอย่างเป็นทางการจะไม่จำเป็นและต้องสงสัย ให้ใช้เทคนิคการวิเคราะห์ข้อมูลเชิงสำรวจมาตรฐาน (EDA) เพื่อเปิดเผยสิ่งที่อาจอยู่ในข้อมูลแทน
เทคนิคมาตรฐานเหล่านี้รวมถึงเรื่องการแสดงออก , การวิเคราะห์ที่เหลือ , เทคนิคที่แข็งแกร่ง ( "สามอาร์เอส" ของ EDA) และราบเรียบของข้อมูลตามที่อธิบายไว้โดยจอห์นทูกีในหนังสือคลาสสิกของเขาEDA (1977) วิธีการดำเนินการเหล่านี้มีการระบุไว้ในโพสต์ของฉันที่Box-Cox เช่นการเปลี่ยนแปลงสำหรับตัวแปรอิสระ? และในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง , อนึ่ง
ผลที่สุดคือสามารถมองเห็นได้มากโดยเปลี่ยนเป็นแกนล็อก - ล็อก (แสดงทั้งสองตัวแปรได้อย่างมีประสิทธิภาพอีกครั้ง) ทำให้ข้อมูลไม่ราบเรียบและทำให้การตรวจสอบสิ่งที่อาจพลาดหายไปอย่างราบเรียบเช่นที่ฉันจะอธิบาย
ต่อไปนี้เป็นข้อมูลที่แสดงอย่างราบรื่นว่า - หลังจากตรวจสอบความนุ่มนวลหลายประการที่มีระดับความน่าเชื่อถือต่อข้อมูลที่แตกต่างกัน - ดูเหมือนว่าเป็นการประนีประนอมที่ดีระหว่างการปรับให้เรียบมากเกินไปและน้อยเกินไป มันใช้วิธี Loess ซึ่งเป็นวิธีการที่แข็งแกร่งที่รู้จักกันดี (มันไม่ได้รับอิทธิพลอย่างมากจากจุดที่อยู่ห่างออกไปในแนวตั้ง)
กริดแนวตั้งอยู่ในขั้นตอนที่ 10,000 ความเรียบไม่แนะนำให้มีการเปลี่ยนแปลงของGrad_median
ขนาดตัวอย่าง: ดูเหมือนว่าจะลดลงเมื่อขนาดตัวอย่างเข้าใกล้ 1,000 (ปลายเรียบไม่น่าเชื่อถือ - โดยเฉพาะอย่างยิ่งสำหรับกลุ่มตัวอย่างขนาดเล็กซึ่งคาดว่าข้อผิดพลาดในการสุ่มตัวอย่างจะค่อนข้างใหญ่ - ดังนั้นอย่า ไม่ได้อ่านมากเกินไป) ความประทับใจในการตกที่แท้จริงนี้ได้รับการสนับสนุนโดยซอฟท์แวร์แถบความเชื่อมั่น (หยาบมาก) ที่เรียบลื่น: "wiggles" ของมันนั้นใหญ่กว่าความกว้างของแถบ
หากต้องการดูสิ่งที่การวิเคราะห์นี้อาจพลาด (นี่คือความแตกต่างของลอการิทึมธรรมชาติ, การวัดความแตกต่างในแนวดิ่งโดยตรงระหว่างข้อมูลที่ราบรื่นก่อนหน้านี้เนื่องจากพวกมันเป็นจำนวนน้อยพวกเขาสามารถตีความได้ว่าเป็นความแตกต่างตามสัดส่วนเช่น สะท้อนค่าข้อมูลที่ต่ำกว่าราคา.)20 %
เราสนใจ (a) มีรูปแบบการเปลี่ยนแปลงเพิ่มเติมหรือไม่เช่นการเปลี่ยนแปลงขนาดตัวอย่างและ (b) การแจกแจงแบบมีเงื่อนไขของการตอบสนอง - การกระจายตามแนวตั้งของตำแหน่งจุด - มีความคล้ายคลึงกันในทุกค่าขนาดตัวอย่างหรือ ว่าบางแง่มุมของพวกเขา (เช่นการแพร่กระจายหรือสมมาตร) อาจมีการเปลี่ยนแปลง
การเรียบนี้จะพยายามติดตามดาต้าพอยน์อย่างใกล้ชิดยิ่งขึ้นกว่าเดิม อย่างไรก็ตามมันเป็นแนวนอนเป็นหลัก (ภายในขอบเขตของแถบความเชื่อมั่นซึ่งมักจะครอบคลุมค่า y ที่ ) ไม่แนะนำให้ตรวจพบความแปรปรวนเพิ่มเติม การเพิ่มขึ้นเล็กน้อยของการแพร่กระจายในแนวดิ่งใกล้กลาง (ขนาดตัวอย่าง 2,000 ถึง 3000) จะไม่สำคัญหากทำการทดสอบอย่างเป็นทางการและดังนั้นจึงไม่มีความแน่นอนในขั้นตอนการสำรวจนี้ ไม่มีการเบี่ยงเบนที่ชัดเจนและเป็นระบบจากพฤติกรรมโดยรวมนี้ชัดเจนในหมวดหมู่ใด ๆ ที่แยกต่างหาก (โดดเด่นไม่ดีเกินไปตามสี - ฉันวิเคราะห์พวกมันแยกกันในรูปที่ไม่ได้แสดงไว้ที่นี่)
ดังนั้นสรุปง่ายๆนี้:
ค่าเฉลี่ยมัธยฐานอยู่ที่ต่ำกว่า 10,000 สำหรับขนาดตัวอย่างใกล้ 1,000
รวบรวมความสัมพันธ์ที่ปรากฏในข้อมูลอย่างเพียงพอและดูเหมือนว่าจะมีความสม่ำเสมอในทุกหมวดหมู่ที่สำคัญ ไม่ว่าจะเป็นเรื่องสำคัญ - นั่นคือจะเกิดขึ้นเมื่อเผชิญหน้ากับข้อมูลเพิ่มเติมหรือไม่ - สามารถประเมินได้โดยการรวบรวมข้อมูลเพิ่มเติมเหล่านั้นเท่านั้น
สำหรับผู้ที่ต้องการตรวจสอบงานนี้หรือดำเนินการต่อไปนี่คือR
รหัส
library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual :=
residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) +
ggtitle("EDA of Median Salary vs. Sample Size",
paste("Span of smooth is", signif(span, 2)))
print(g)
span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() +
ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
paste("Span of smooth is", signif(span, 2)))
print(g.r)
Glen_b แนะนำให้คุณใช้ค่าลอการิทึมของ sample_size และเงินเดือนมัธยฐานเพื่อดูว่าการ rescaling ข้อมูลเหมาะสมหรือไม่
ฉันไม่รู้ว่าฉันจะเห็นด้วยกับความเชื่อของคุณว่าค่ามัธยฐานลดลงเมื่อขนาดตัวอย่างสูงกว่า 1,000 ฉันอยากจะบอกว่าไม่มีความสัมพันธ์เลย ทฤษฎีของคุณทำนายว่าควรมีความสัมพันธ์หรือไม่?
อีกวิธีหนึ่งที่คุณสามารถประเมินความสัมพันธ์ที่เป็นไปได้คือให้เหมาะสมกับเส้นการถดถอยกับข้อมูล หรือคุณอาจใช้เส้นโค้ง lowess พล็อตทั้งสองบรรทัดลงในข้อมูลของคุณและดูว่ามีสิ่งใดที่สามารถแซงได้ (ฉันสงสัยว่ามีอะไรที่สำคัญเกินไป)
ฉันเห็นด้วยไม่มีความสัมพันธ์ ฉันสร้างพล็อตกระจายของคุณดั้งเดิม (ซ้าย) และสร้างพล็อตกระจายบันทึก - ล็อกที่แนะนำโดย glen_b (ขวา)
ดูเหมือนว่าไม่มีความสัมพันธ์กับทั้งสอง ความสัมพันธ์ระหว่างข้อมูลที่บันทึกการแปลงอ่อน (Pearson R = -.13) และไม่มีนัยสำคัญ (p = .09) ขึ้นอยู่กับว่าคุณมีข้อมูลพิเศษมากน้อยเพียงใดอาจมีเหตุผลที่จะเห็นความสัมพันธ์เชิงลบที่อ่อนแอ แต่นั่นดูเหมือนยืดออก ฉันเดาว่ารูปแบบใด ๆ ที่ชัดเจนที่คุณเห็นเป็นผลเช่นเดียวกันเห็นที่นี่
ลองใช้การถดถอยเชิงเส้นจะสอนคุณเกี่ยวกับความสัมพันธ์นี้ตามที่แนะนำในคำตอบแรก เนื่องจากดูเหมือนว่าคุณกำลังใช้ python plus matplotlib สำหรับพล็อตนี้คุณจึงเป็นโค้ดหนึ่งบรรทัดที่อยู่ห่างจากโซลูชัน
คุณสามารถใช้ข้อต่อทะเลที่จะแสดงเส้นการถดถอยเชิงเส้น coeffiecient สหสัมพันธ์ของเพียร์สันและค่า p:
sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")
อย่างที่คุณเห็นว่าไม่มีความสัมพันธ์กัน เมื่อดูพล็อตสุดท้ายนี้ดูเหมือนว่าการแปลงล็อกตัวแปร x จะเป็นประโยชน์ มาลองดูกัน:
df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")
คุณสามารถเห็นได้อย่างชัดเจนว่า - การแปลงบันทึกหรือไม่ - ความสัมพันธ์มีขนาดเล็กและทั้งค่า p และช่วงความมั่นใจบอกว่ามันไม่มีความหมายทางสถิติ
พล็อตนี้ทำงานเป็นตัวอย่างของทฤษฎีบทขีด จำกัด กลางที่ความแปรปรวนระหว่างตัวอย่างลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น นอกจากนี้ยังเป็นรูปร่างที่คุณคาดหวังด้วยตัวแปรที่เบ้อย่างแรงเช่นเงินเดือน