การใช้ deciles เพื่อหาความสัมพันธ์เป็นแนวทางที่ถูกต้องทางสถิติหรือไม่?


10

ฉันมีตัวอย่างของจุดข้อมูล 1,449 จุดที่ไม่สัมพันธ์กัน (r-squared 0.006)

เมื่อวิเคราะห์ข้อมูลฉันค้นพบว่าการแบ่งค่าตัวแปรอิสระออกเป็นกลุ่มเชิงบวกและเชิงลบดูเหมือนว่าจะมีความแตกต่างอย่างมีนัยสำคัญในค่าเฉลี่ยของตัวแปรตามสำหรับแต่ละกลุ่ม

การแบ่งคะแนนออกเป็น 10 ถังขยะ (deciles) โดยใช้ค่าตัวแปรอิสระดูเหมือนว่าจะมีความสัมพันธ์กันมากขึ้นระหว่างหมายเลข decile และค่าตัวแปรขึ้นอยู่กับค่าเฉลี่ย (r-squared 0.27)

ฉันไม่รู้เกี่ยวกับสถิติมากนักดังนั้นนี่เป็นคำถามสองสามข้อ:

  1. นี่เป็นวิธีทางสถิติที่ถูกต้องหรือไม่?
  2. มีวิธีการหาจำนวนที่ดีที่สุดของถังขยะหรือไม่?
  3. คำที่เหมาะสมสำหรับแนวทางนี้คืออะไรฉันจึงสามารถใช้ Google ได้
  4. มีแหล่งข้อมูลเบื้องต้นอะไรบ้างที่จะเรียนรู้เกี่ยวกับวิธีการนี้
  5. มีวิธีอื่นใดอีกบ้างที่ฉันสามารถใช้เพื่อค้นหาความสัมพันธ์ในข้อมูลนี้

นี่คือข้อมูลช่วงชั้นสำหรับการอ้างอิง: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

แก้ไข: นี่คือภาพของข้อมูล: โมเมนตัมของอุตสาหกรรมเป็นตัวแปรอิสระคุณภาพของจุดเข้าใช้งานขึ้นอยู่กับ

โมเมนตัมของอุตสาหกรรมเป็นตัวแปรอิสระคุณภาพของจุดเข้าใช้งานขึ้นอยู่กับ


หวังว่าคำตอบของฉัน (โดยเฉพาะคำตอบ 2-4) จะเข้าใจในความหมายที่ตั้งใจไว้
Glen_b -Reinstate Monica

หากจุดประสงค์ของคุณคือการสำรวจรูปแบบความสัมพันธ์ระหว่างอิสระกับผู้ติดตามนี่เป็นเทคนิคการสำรวจที่ดี อาจทำให้เสียสถิติ แต่ใช้ในอุตสาหกรรมตลอดเวลา (เช่นความเสี่ยงด้านเครดิต) หากคุณกำลังสร้างแบบจำลองการคาดการณ์แล้วคุณสมบัติทางวิศวกรรมอีกครั้งก็โอเค - ถ้าทำในชุดฝึกอบรมจะได้รับการตรวจสอบอย่างถูกต้อง
B_Miner

คุณสามารถให้ข้อมูลเกี่ยวกับวิธีทำให้แน่ใจว่าผลลัพธ์นั้น "ผ่านการตรวจสอบอย่างถูกต้อง" หรือไม่?
B เซเว่น

"ไม่สัมพันธ์ (r-squared 0.006)" หมายความว่าไม่มีความสัมพันธ์เชิงเส้น บางทีอาจมีความสัมพันธ์อื่น ๆ ที่เกี่ยวข้อง คุณได้วางแผนข้อมูลดิบ (ขึ้นอยู่กับอิสระ) หรือไม่?
Emil Friedman

ฉันทำการพล็อตข้อมูล แต่ไม่คิดว่าจะเพิ่มลงในคำถาม ช่างเป็นความคิดที่ยอดเยี่ยม! โปรดดูคำถามที่อัปเดต
B เซเว่น

คำตอบ:


9

0. ความสัมพันธ์ (0.0775) มีขนาดเล็ก แต่ (สถิติ) แตกต่างอย่างมีนัยสำคัญจาก 0 นั่นคือดูเหมือนว่ามีความสัมพันธ์กันจริง ๆ มันมีขนาดเล็กมาก / อ่อนแอ (เท่ากันมีเสียงรบกวนรอบ ๆ ความสัมพันธ์)

1. ค่าเฉลี่ยอะไรภายในถังขยะคือลดความผันแปรของข้อมูล ( σ/nผลกระทบสำหรับความคลาดเคลื่อนมาตรฐานของค่าเฉลี่ย) ซึ่งหมายความว่าคุณขยายความสัมพันธ์ที่อ่อนเกินเทียม ยังเห็นนี้ (ค่อนข้าง) ปัญหาที่เกี่ยวข้อง

2. แน่นอนว่าถังขยะที่น้อยลงหมายถึงข้อมูลที่ได้รับมากขึ้นโดยเฉลี่ยลดเสียงรบกวน แต่ยิ่งกว้างเท่าใดค่าเฉลี่ย "fuzzier" ก็จะกลายเป็นมากขึ้นในแต่ละถังเพราะค่าเฉลี่ยนั้นไม่คงที่เลยทีเดียว ในขณะที่หนึ่งอาจได้รับสูตรเพื่อเพิ่มประสิทธิภาพความสัมพันธ์ภายใต้สมมติฐานของความเป็นเส้นตรงและการกระจายของxมันจะไม่คำนึงถึงผลกระทบที่เกิดจากเสียงรบกวนในข้อมูล วิธีง่ายๆคือการลองใช้ขอบเขตถังขยะที่หลากหลายจนคุณได้ตามที่คุณต้องการ อย่าลืมลองเปลี่ยนความกว้างถังขยะและต้นกำเนิดถังขยะ กลยุทธ์นั้นสามารถพิสูจน์ได้ว่ามีประโยชน์อย่างมากในเรื่องความหนาแน่นและประโยชน์ที่ได้รับเป็นครั้งคราวนั้นสามารถนำไปใช้กับความสัมพันธ์ในการใช้งานได้ซึ่งอาจช่วยให้คุณได้รับผลลัพธ์ที่คุณต้องการอย่างแท้จริง

3. ใช่ อาจเริ่มด้วยการค้นหานี้แล้วอาจลองใช้คำพ้องความหมาย

4. นี่เป็นจุดเริ่มต้นที่ดี มันเป็นหนังสือยอดนิยมที่มุ่งเป้าไปที่ผู้ที่ไม่ใช่นักสถิติ

5. (อย่างจริงจังยิ่งขึ้น :) ฉันขอแนะนำให้ปรับให้เรียบ (เช่นผ่านการถดถอยพหุนามแบบท้องถิ่น / เคอร์เนลให้เรียบ) เป็นวิธีหนึ่งในการตรวจสอบความสัมพันธ์ ขึ้นอยู่กับสิ่งที่คุณต้องการ แต่นี่อาจเป็นวิธีการที่ถูกต้องเมื่อคุณไม่รู้จักรูปแบบความสัมพันธ์ตราบใดที่คุณหลีกเลี่ยงปัญหาการขุดลอกข้อมูล


มีการอ้างอิงที่เป็นที่นิยมซึ่งผู้ริเริ่มปรากฏเป็นRonald Coase :

"ถ้าคุณทรมานข้อมูลมากพอธรรมชาติจะสารภาพเสมอ"


คะแนน 1 & 2 เป็นคำอธิบายที่ดีว่าเหตุใดแนวทางของ OP จึงไม่ใช่วิธีทางสถิติที่ถูกต้องถึงแม้ว่ามันจะเป็นประโยชน์อย่างมากต่อการโน้มน้าวใจให้เชื่อมั่นในประเด็นที่ 0 (สหสัมพันธ์ที่อ่อนแอ)
อัสซาด Ebrahim

9

บางทีคุณอาจได้รับประโยชน์จากเครื่องมือสำรวจ การแบ่งข้อมูลออกเป็นส่วน ๆ ของพิกัด x นั้นดูเหมือนว่าได้ดำเนินการในจิตวิญญาณนั้น ด้วยการแก้ไขที่อธิบายไว้ด้านล่างจึงเป็นวิธีการที่สมบูรณ์แบบ

วิธีการสำรวจ bivariate จำนวนมากได้รับการคิดค้น แบบง่าย ๆ ที่เสนอโดย John Tukey ( EDA , Addison-Wesley 1977) คือ "แผนผังพเนจรที่หลงทาง" ของเขา คุณแบ่งพิกัด x ลงในถังขยะสร้าง boxplot แนวตั้งของข้อมูล y ที่สอดคล้องกันที่ค่ามัธยฐานของแต่ละถังขยะและเชื่อมต่อส่วนสำคัญของ boxplots (ค่ามัธยฐานบานพับ ฯลฯ ) เป็นเส้นโค้ง "ร่องรอยหลงทาง" เหล่านี้ให้ภาพของการกระจายของข้อมูล bivariate และอนุญาตให้ประเมินภาพความสัมพันธ์เชิงเส้นตรงของความสัมพันธ์ค่าผิดปกติและการกระจายเล็กน้อยรวมถึงการประเมินที่มีประสิทธิภาพและการประเมินความเหมาะสมของฟังก์ชันถดถอยแบบไม่เชิงเส้นใด ๆ .

สำหรับแนวคิดนี้ Tukey ได้เพิ่มความคิดซึ่งสอดคล้องกับแนวคิดแบบกล่องซึ่งเป็นวิธีที่ดีในการตรวจสอบการกระจายข้อมูลคือการเริ่มต้นที่ตรงกลางและทำงานออกไปด้านนอกลดปริมาณของข้อมูลในขณะที่คุณไป นั่นคือถังขยะที่จะใช้ไม่จำเป็นต้องถูกตัดที่ควอนไทล์ที่เว้นระยะเท่ากัน แต่ควรจะสะท้อนให้เห็นถึงปริมาณที่จุด2-k และ 1-2-k สำหรับ k=1,2,3,....

ในการแสดงประชากรถังที่แตกต่างเราสามารถสร้างความกว้างของ boxplot แต่ละสัดส่วนตามปริมาณข้อมูลที่แสดง

พล็อตแผนผังหลงทางที่เกิดขึ้นจะมีลักษณะเช่นนี้ ข้อมูลที่พัฒนาจากข้อมูลสรุปจะแสดงเป็นจุดสีเทาในพื้นหลัง ในเรื่องนี้พล็อตแผนผังที่หลงทางได้ถูกวาดขึ้นโดยมีร่องรอยห้าสีและ boxplots (รวมถึงค่าผิดปกติใด ๆ ที่แสดง) เป็นขาวดำ

รูป

ธรรมชาติของความสัมพันธ์ใกล้ศูนย์กลายเป็นชัดเจนทันที: ข้อมูลบิดไปมา ใกล้ศูนย์ของพวกเขาตั้งแต่x=-4 ถึง x=4พวกเขามีความสัมพันธ์เชิงบวกที่ดี ที่ค่าสุดขีดข้อมูลเหล่านี้แสดงความสัมพันธ์เชิงเส้นโค้งที่มีแนวโน้มว่าภาพรวมทั้งหมดจะเป็นลบ ค่าสัมประสิทธิ์สหสัมพันธ์ (ซึ่งเกิดขึ้นเป็น-0.074สำหรับข้อมูลเหล่านี้) อยู่ใกล้กับศูนย์ อย่างไรก็ตามยืนยันในการตีความว่าเป็น "เกือบไม่มีความสัมพันธ์" หรือ "ความสัมพันธ์ที่มีนัยสำคัญ แต่ต่ำ" จะเป็นข้อผิดพลาดเดียวกันหลอกในเรื่องตลกเก่าเกี่ยวกับนักสถิติที่มีความสุขกับหัวของเธอในเตาอบและเท้าใน icebox เพราะโดยเฉลี่ย อุณหภูมิก็สบาย บางครั้งหมายเลขเดียวก็ไม่สามารถอธิบายสถานการณ์ได้

เครื่องมือสำรวจทางเลือกที่มีจุดประสงค์คล้ายกันรวมถึงความราบรื่นของควอนไทล์แบบเรียงซ้อนของข้อมูล ด้วยความพร้อมของซอฟต์แวร์ที่ใช้ในการคำนวณเหล่านี้พวกเขาอาจจะง่ายต่อการดำเนินการกว่าร่องรอยหลงทางวงจร แต่พวกเขาไม่สนุกกับการก่อสร้างที่เรียบง่ายเหมือนกันง่ายต่อการตีความและการบังคับใช้ในวงกว้าง


Rรหัสต่อไปนี้สร้างตัวเลขและสามารถนำไปใช้กับข้อมูลต้นฉบับโดยมีการเปลี่ยนแปลงเพียงเล็กน้อยหรือไม่มีเลย (ไม่สนใจคำเตือนที่สร้างโดยbplt(เรียกโดยbxp): จะบ่นเมื่อไม่มีค่าใช้จ่ายที่จะดึง)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))

@EngrStudent โปรดอ่านข้อความของโพสต์นี้ก่อนที่คุณจะเรียกใช้รหัส คำเตือนนั้นถูกกล่าวถึงและอธิบาย
whuber

ฉันไม่รับรองว่าเวกเตอร์นี้มาจากc(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6)ไหนสิ่งนี้จะถูกสร้างขึ้นและขึ้นอยู่กับข้อมูล ( x) หรือไม่ คุณพูดถึง2^*(-k)แต่นี่ไม่เกี่ยวข้อง
แม็กซิมิเลียน

@ Max นั้นเวกเตอร์สร้างตัวอย่างเฉพาะนี้ขึ้นมา
whuber

ตกลง แต่คุณดำเนินการกับตัวเลขอย่างไร นี่เป็นความผิดที่ชัดเจน:k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
แมกซีมีเลียน

@ Max ฉันไม่สามารถเข้าใจสิ่งที่คุณอาจหมายถึงโดย "ผิดอย่างชัดเจน" คุณไม่สามารถอ้างถึงรหัสของฉัน: เป็นเช็คฉันวิ่งใหม่และมันจะทำซ้ำตัวเลขในทุกรายละเอียด
whuber

6

ฉันไม่เชื่อว่าการ binning เป็นวิธีการทางวิทยาศาสตร์ในการแก้ไขปัญหา มันคือการสูญเสียข้อมูลและโดยพลการ วิธีการจัดอันดับ (ลำดับ; semiparametric) ดีกว่าและไม่สูญเสียข้อมูล แม้ว่าคนเราจะต้องตัดสินใจเรื่องการแยกแยะ แต่ก็ยังไม่สามารถทำซ้ำได้โดยพลการเพราะคนจำนวนมากที่ใช้สำหรับการกำหนดปริมาณในกรณีของความสัมพันธ์ในข้อมูล และตามที่กล่าวถึงในการทรมานข้อมูลที่ดีแสดงความคิดเห็นข้างต้น Howard Wainer มีเอกสารที่ดีที่แสดงวิธีการค้นหาถังขยะที่สามารถสร้างความสัมพันธ์เชิงบวกและค้นหาถังขยะที่สามารถสร้างความสัมพันธ์เชิงลบจากชุดข้อมูลเดียวกัน:

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }

นี่คือสิ่งที่ฉันสงสัย หากคุณเลือกหมายเลขถังขยะที่แตกต่างกันคุณสามารถค้นหาความสัมพันธ์ที่ดีที่สุดสำหรับแสดงสิ่งที่ต้องการ แต่ผลลัพธ์จะไม่สามารถทำซ้ำได้หรือมีผลทางวิทยาศาสตร์ คุณรู้จักแหล่งข้อมูลเบื้องต้นเกี่ยวกับการจัดอันดับหรือไม่?
B เซเว่น

3
ดูเหมือนว่าท่านี้จะสุดเหวี่ยง แน่นอนว่าวิธีการจัดอันดับตามข้อมูลก็จะสูญเสียข้อมูลด้วยเช่นกันพวกเขาจะทิ้งข้อมูลทั้งหมดเกี่ยวกับค่าที่แท้จริง ดังนั้นคำถามเกี่ยวกับการสูญเสียข้อมูลที่เป็นข้อกังวลเกิดขึ้นได้อย่างไรว่าทำไมการวิเคราะห์ถึงเกิดขึ้น? หากเป็นการค้นพบและสำรวจรูปแบบของการ binning ที่หลากหลายสามารถทำงานได้ดีในขณะที่การแทนที่ทุกสิ่งด้วยอันดับน่าจะคลุมเครือและบิดเบือนความสัมพันธ์ หากเป็นการทดสอบเพื่อยืนยันหรือทดสอบสมมติฐานข้อสังเกตของคุณจะมีความเหมาะสมและป้องกันได้มากกว่า
whuber

2
ฉันไม่เห็นด้วยกับสิ่งนั้นจริงๆ ประเภทของข้อมูลที่สูญหายโดยวิธีการจัดอันดับมีน้อยที่สุด (เช่นπ-3πในกรณีของเสียนแบบเกาส์) และสัมพันธ์กับวิธีการสมมติที่รับภาระมากขึ้นพวกเขาสามารถได้รับข้อมูล มันไม่ยากที่จะใช้แบบจำลอง semiparametric (เช่นตัวแบบอัตราต่อรองแบบสัดส่วน) เพื่อประมาณค่าเฉลี่ยและจำนวนของY|X. การสูญเสียข้อมูลมักจะเป็นสิ่งที่ไม่ดีไม่ว่าจะเป็นในระหว่างการสำรวจ (คุณอาจพลาดบางสิ่งที่สำคัญ) หรือในระหว่างการวิเคราะห์อย่างเป็นทางการ (พลังและความแม่นยำและการสูญเสียความเด็ดขาด)
Frank Harrell

2

การแบ่งข้อมูลออกเป็น deciles โดยยึดตาม X ("จุดเข้าคุณภาพ") เป็นลักษณะทั่วไปของวิธีการเก่าที่เสนอครั้งแรกโดย Wald และภายหลังโดยผู้อื่นสำหรับสถานการณ์ที่ทั้ง X และ Y มีข้อผิดพลาด (Wald แบ่งข้อมูลออกเป็นสองกลุ่ม Nair & Shrivastava และ Bartlett แบ่งออกเป็นสามส่วน) มีการอธิบายไว้ในส่วนที่ 5C ของการทำความเข้าใจการวิเคราะห์ข้อมูลที่แข็งแกร่งและสำรวจโดยแก้ไขโดย Hoaglin, Mosteller และ Tukey (Wiley, 1983) อย่างไรก็ตามงานจำนวนมากเกี่ยวกับ "การวัดข้อผิดพลาด" หรือ "ข้อผิดพลาดในรูปแบบตัวแปร" ได้ถูกดำเนินการตั้งแต่นั้นมา หนังสือที่ฉันดูคือข้อผิดพลาดในการวัด: รุ่นวิธีการและแอปพลิเคชันโดย John Buonaccorsi (CRC Press,

สถานการณ์ของคุณอาจแตกต่างกันบ้างเนื่องจากผู้กระจายของคุณทำให้ฉันสงสัยว่าการสังเกตทั้งสองเป็นตัวแปรสุ่มและฉันไม่รู้ว่าแต่ละคนมีข้อผิดพลาดในการวัดหรือไม่ ตัวแปรแสดงถึงอะไร?


คุณภาพจุดเริ่มต้นคือจำนวนหุ้นที่เพิ่มขึ้นหรือลดลงในระยะสั้น ณ เวลาที่กำหนด โมเมนตัมของอุตสาหกรรมเป็นตัวชี้วัดของ "โมเมนตัม" ในอุตสาหกรรมสำหรับสต็อก ณ เวลาเดียวกัน สมมติฐานคือมีความสัมพันธ์ระหว่างโมเมนตัมอุตสาหกรรมและราคาในอนาคตของสต็อก
B เซเว่น

1
โดยทั่วไปเราใส่การตอบสนองบนแกนตั้ง การตรวจสอบด้วยสายตาชี้ให้เห็นว่าแม้ว่าจะมีความสัมพันธ์ที่แท้จริงการเปลี่ยนแปลงคุณภาพของจุดเริ่มต้นทำให้มันไร้ประโยชน์ แต่เนื่องจากคุณกำลังจัดการกับราคาหุ้นสิ่งต่าง ๆ จะมีความซับซ้อนมากขึ้นเนื่องจากอนุกรมเวลามีส่วนเกี่ยวข้อง
Emil Friedman

2

ฉันพบแพ็คเกจ localgauss มีประโยชน์มากสำหรับสิ่งนี้ https://cran.r-project.org/web/packages/localgauss/index.html

แพคเกจประกอบด้วย

รูทีนการคำนวณสำหรับการประเมินและการแสดงพารามิเตอร์ Gaussian ท้องถิ่น พารามิเตอร์เกาส์เซียนท้องถิ่นมีประโยชน์สำหรับการวิเคราะห์ลักษณะและการทดสอบสำหรับการพึ่งพาแบบไม่เป็นเชิงเส้นภายในข้อมูลไบวารี

ตัวอย่าง:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

ผลลัพธ์:

ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.