จะเกิดอะไรขึ้นถ้าตัวแปรอธิบายและการตอบสนองถูกจัดเรียงอย่างอิสระก่อนการถดถอย


302

สมมติว่าเรามีชุดข้อมูลมี points เราต้องการที่จะดำเนินการถดถอยเชิงเส้น แต่แรกที่เราจัดเรียงค่าและค่าเป็นอิสระจากกันสร้างชุดข้อมูลY_j) มีการตีความความหมายของการถดถอยในชุดข้อมูลใหม่หรือไม่? สิ่งนี้มีชื่อหรือไม่?(Xi,Yi)nY i ( X i , Y j )XiYi(Xi,Yj)

ฉันคิดว่านี่เป็นคำถามที่งี่เง่าดังนั้นฉันขอโทษฉันไม่ได้รับการฝึกฝนอย่างเป็นทางการในสถิติ ในใจของฉันสิ่งนี้ทำลายข้อมูลของเราอย่างสมบูรณ์และการถดถอยไม่มีความหมาย แต่ผู้จัดการของฉันบอกว่าเขาได้รับ "การถดถอยที่ดีขึ้นเกือบตลอดเวลา" เมื่อเขาทำสิ่งนี้ (ที่นี่ "ดีกว่า" หมายถึงการคาดการณ์ได้มากขึ้น) ฉันมีความรู้สึกว่าเขากำลังหลอกลวงตัวเอง

แก้ไข: ขอบคุณสำหรับตัวอย่างที่ดีและอดทนของคุณทั้งหมด ฉันแสดงให้เขาเห็นตัวอย่างโดย @ RUser4512 และ @gung และเขายังคงหยุดยั้ง เขากลายเป็นหงุดหงิดและฉันเหนื่อยมาก ฉันรู้สึกหงุดหงิด ฉันอาจจะเริ่มหางานอื่น ๆ เร็ว ๆ นี้


120
แต่ผู้จัดการของฉันบอกว่าเขาได้รับ "การถดถอยที่ดีขึ้นเกือบตลอดเวลา" เมื่อเขาทำสิ่งนี้ โอ้พระเจ้า ...
Jake Westfall

56
ไม่มีเหตุผลใดที่คุณจะรู้สึกเขินอาย!
Jake Westfall

36
"วิทยาศาสตร์เป็นสิ่งที่เราต้องการให้เป็น" - ดร. ลีโอสเปซแมน
Sycorax

52
แนวคิดนี้ต้องแข่งขันกับอีกสิ่งที่ฉันพบ: หากตัวอย่างของคุณมีขนาดเล็กเพียงจัดกลุ่มด้วยข้อมูลเดียวกันจำนวนมาก
Nick Cox

47
คุณควรบอกหัวหน้าของคุณว่าคุณมีความคิดที่ดีกว่า แทนที่จะใช้ข้อมูลจริงเพียงแค่สร้างข้อมูลของคุณเองเพราะมันจะง่ายกว่าในการสร้างแบบจำลอง
dsaxton

คำตอบ:


147

ฉันไม่แน่ใจว่าหัวหน้าของคุณคิดว่า "คาดการณ์ได้มากกว่า" หมายความว่าอย่างไร หลายคนเชื่ออย่างไม่ถูกต้องว่าค่าต่ำกว่าหมายถึงรูปแบบการทำนายที่ดีขึ้น นั่นคือไม่จำเป็นจริง (เป็นกรณีในจุดนี้) อย่างไรก็ตามการเรียงลำดับตัวแปรทั้งสองอย่างเป็นอิสระล่วงหน้าจะรับประกันค่าต่ำกว่า ในอีกทางหนึ่งเราสามารถประเมินความแม่นยำในการทำนายของแบบจำลองโดยการเปรียบเทียบการทำนายกับข้อมูลใหม่ที่สร้างขึ้นโดยกระบวนการเดียวกัน ฉันทำอย่างนั้นในตัวอย่างง่ายๆ (เขียนด้วย) พีppR

options(digits=3)                       # for cleaner output
set.seed(9149)                          # this makes the example exactly reproducible

B1 = .3
N  = 50                                 # 50 data
x  = rnorm(N, mean=0, sd=1)             # standard normal X
y  = 0 + B1*x + rnorm(N, mean=0, sd=1)  # cor(x, y) = .31
sx = sort(x)                            # sorted independently
sy = sort(y)
cor(x,y)    # [1] 0.309
cor(sx,sy)  # [1] 0.993

model.u = lm(y~x)
model.s = lm(sy~sx)
summary(model.u)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.021      0.139   0.151    0.881
# x              0.340      0.151   2.251    0.029  # significant
summary(model.s)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.162     0.0168    9.68 7.37e-13
# sx             1.094     0.0183   59.86 9.31e-47  # wildly significant

u.error = vector(length=N)              # these will hold the output
s.error = vector(length=N)
for(i in 1:N){
  new.x      = rnorm(1, mean=0, sd=1)   # data generated in exactly the same way
  new.y      = 0 + B1*x + rnorm(N, mean=0, sd=1)
  pred.u     = predict(model.u, newdata=data.frame(x=new.x))
  pred.s     = predict(model.s, newdata=data.frame(x=new.x))
  u.error[i] = abs(pred.u-new.y)        # these are the absolute values of
  s.error[i] = abs(pred.s-new.y)        #  the predictive errors
};  rm(i, new.x, new.y, pred.u, pred.s)
u.s = u.error-s.error                   # negative values means the original
                                        # yielded more accurate predictions
mean(u.error)  # [1] 1.1
mean(s.error)  # [1] 1.98
mean(u.s<0)    # [1] 0.68


windows()
  layout(matrix(1:4, nrow=2, byrow=TRUE))
  plot(x, y,   main="Original data")
  abline(model.u, col="blue")
  plot(sx, sy, main="Sorted data")
  abline(model.s, col="red")
  h.u = hist(u.error, breaks=10, plot=FALSE)
  h.s = hist(s.error, breaks=9,  plot=FALSE)
  plot(h.u, xlim=c(0,5), ylim=c(0,11), main="Histogram of prediction errors",
       xlab="Magnitude of prediction error", col=rgb(0,0,1,1/2))
  plot(h.s, col=rgb(1,0,0,1/4), add=TRUE)
  legend("topright", legend=c("original","sorted"), pch=15, 
         col=c(rgb(0,0,1,1/2),rgb(1,0,0,1/4)))
  dotchart(u.s, color=ifelse(u.s<0, "blue", "red"), lcolor="white",
           main="Difference between predictive errors")
  abline(v=0, col="gray")
  legend("topright", legend=c("u better", "s better"), pch=1, col=c("blue","red"))

ป้อนคำอธิบายรูปภาพที่นี่

พล็อตซ้ายบนแสดงข้อมูลดั้งเดิม มีความสัมพันธ์ระหว่างและ (กล่าวคือมีความสัมพันธ์กันประมาณ ) พล็อตขวาบนแสดงให้เห็นว่าข้อมูลมีลักษณะอย่างไรหลังจากเรียงลำดับตัวแปรทั้งสองอย่างเป็นอิสระ คุณสามารถเห็นได้อย่างง่ายดายว่าความแข็งแรงของความสัมพันธ์เพิ่มขึ้นอย่างมาก (ตอนนี้ประมาณ ) อย่างไรก็ตามในแปลงที่ต่ำกว่าเราจะเห็นว่าการแจกแจงข้อผิดพลาดการทำนายนั้นใกล้เคียงกับสำหรับโมเดลที่ได้รับการฝึกอบรมกับข้อมูลดั้งเดิม (ไม่ได้เรียง) ข้อผิดพลาดการคาดการณ์ค่าสัมบูรณ์แบบสัมบูรณ์สำหรับแบบจำลองที่ใช้ข้อมูลดั้งเดิมคือในขณะที่ค่าความผิดพลาดแบบสัมบูรณ์แบบทำนายค่าเฉลี่ยสำหรับแบบจำลองที่ฝึกบนข้อมูลที่เรียงลำดับคือyxy0.99 0 1.1 1.98 Y 68 %.31.9901.11.98- ใหญ่เป็นสองเท่า นั่นหมายถึงการทำนายของตัวแบบข้อมูลที่เรียงลำดับนั้นมากไปกว่าค่าที่ถูกต้อง พล็อตในด้านล่างขวาคือพล็อตจุด จะแสดงความแตกต่างระหว่างข้อผิดพลาดการคาดการณ์กับข้อมูลต้นฉบับและข้อมูลที่เรียงลำดับ สิ่งนี้ช่วยให้คุณเปรียบเทียบการทำนายที่สอดคล้องกันสองแบบสำหรับการสังเกตการณ์ใหม่แต่ละครั้ง จุดสีฟ้าทางด้านซ้ายเป็นเวลาที่ข้อมูลต้นฉบับใกล้เคียงกับค่าใหม่และจุดสีแดงทางด้านขวาเป็นเวลาที่ข้อมูลที่เรียงลำดับให้การคาดการณ์ที่ดีขึ้น มีการทำนายที่แม่นยำจากแบบจำลองที่ฝึกกับข้อมูลดั้งเดิมของเวลา y68%


ระดับที่การเรียงลำดับจะทำให้เกิดปัญหาเหล่านี้คือฟังก์ชันของความสัมพันธ์เชิงเส้นที่มีอยู่ในข้อมูลของคุณ หากความสัมพันธ์ระหว่างและเป็นแล้วการเรียงลำดับจะไม่มีผลและไม่เป็นอันตราย ในทางตรงกันข้ามถ้าความสัมพันธ์เป็นy ที่1.0 - 1.0xy1.01.0การเรียงลำดับจะย้อนกลับความสัมพันธ์อย่างสมบูรณ์ทำให้โมเดลไม่ถูกต้องเท่าที่จะเป็นไปได้ หากข้อมูลไม่ได้ถูกเชื่อมโยงอย่างสมบูรณ์ในตอนแรกการเรียงลำดับจะมีระดับกลาง แต่ยังคงมีผลกระทบที่ค่อนข้างใหญ่และเป็นอันตรายต่อความแม่นยำในการทำนายแบบจำลองของผลลัพธ์ เนื่องจากคุณพูดถึงว่าข้อมูลของคุณมีความสัมพันธ์กันโดยทั่วไปฉันสงสัยว่าได้ให้การป้องกันอันตรายบางประการกับกระบวนการนี้ อย่างไรก็ตามการเรียงลำดับก่อนเป็นอันตรายอย่างแน่นอน ในการสำรวจความเป็นไปได้เหล่านี้เราสามารถเรียกใช้โค้ดข้างต้นใหม่ด้วยค่าที่แตกต่างกันสำหรับB1(ใช้เมล็ดพันธุ์เดียวกันสำหรับการทำซ้ำ) และตรวจสอบผลลัพธ์:

  1. B1 = -5:

    cor(x,y)                            # [1] -0.978
    summary(model.u)$coefficients[2,4]  # [1]  1.6e-34  # (i.e., the p-value)
    summary(model.s)$coefficients[2,4]  # [1]  1.82e-42
    mean(u.error)                       # [1]  7.27
    mean(s.error)                       # [1] 15.4
    mean(u.s<0)                         # [1]  0.98
    
  2. B1 = 0:

    cor(x,y)                            # [1] 0.0385
    summary(model.u)$coefficients[2,4]  # [1] 0.791
    summary(model.s)$coefficients[2,4]  # [1] 4.42e-36
    mean(u.error)                       # [1] 0.908
    mean(s.error)                       # [1] 2.12
    mean(u.s<0)                         # [1] 0.82
    
  3. B1 = 5:

    cor(x,y)                            # [1] 0.979
    summary(model.u)$coefficients[2,4]  # [1] 7.62e-35
    summary(model.s)$coefficients[2,4]  # [1] 3e-49
    mean(u.error)                       # [1] 7.55
    mean(s.error)                       # [1] 6.33
    mean(u.s<0)                         # [1] 0.44
    

12
คำตอบของคุณทำให้เป็นจุดที่ดีมาก แต่อาจไม่ชัดเจนเท่าที่ควรและควร มันไม่จำเป็นต้องชัดเจนสำหรับคนธรรมดา (เช่นพูดว่าผู้จัดการของ OP) สิ่งที่แปลงเหล่านั้นในตอนท้าย (ไม่สนใจรหัส R) แสดงและบอกเป็นนัย IMO คำตอบของคุณสามารถใช้วรรคหนึ่งหรือสองคำอธิบายได้
Ilmari Karonen

3
ขอบคุณสำหรับความคิดเห็นของคุณ @IlmariKaronen คุณสามารถแนะนำสิ่งที่จะเพิ่มได้ไหม? ฉันพยายามทำให้โค้ดอธิบายตนเองได้มากที่สุด & แสดงความคิดเห็นอย่างกว้างขวาง แต่ฉันอาจไม่เห็นสิ่งเหล่านี้ด้วยสายตาของคนที่ไม่คุ้นเคยกับหัวข้อเหล่านี้ ฉันจะเพิ่มข้อความเพื่ออธิบายพล็อตที่ด้านล่าง หากคุณสามารถคิดอย่างอื่นได้โปรดแจ้งให้เราทราบ
gung

13
+1 นี่ยังเป็นคำตอบเดียวที่จัดการกับสถานการณ์ที่เสนอ: เมื่อตัวแปรสองตัวแสดงความสัมพันธ์เชิงบวกบางอย่างอยู่แล้วมันก็เป็นข้อผิดพลาดในการถอยหลังค่าที่เรียงอย่างอิสระ คำตอบอื่น ๆ ทั้งหมดถือว่าไม่มีการเชื่อมโยงหรือว่าเป็นเชิงลบจริง ๆ แม้ว่าพวกเขาจะเป็นตัวอย่างที่ดีเนื่องจากพวกเขาไม่ได้ใช้พวกเขาจะไม่เชื่อ แต่สิ่งที่เรายังขาดอยู่ก็คือตัวอย่างของข้อมูลจริงในระดับโลกที่ใช้งานง่ายเหมือนกับที่จำลองขึ้นที่นี่ซึ่งธรรมชาติของความผิดพลาดนั้นชัดเจนอย่างน่าละอาย
whuber

8
+1 สำหรับการไม่โดนอิทธิพลจากออร์โธดอกซ์และใช้ "=" สำหรับการมอบหมายใน R.
dsaxton

@dsaxton ฉันใช้เป็น<-บางครั้ง แต่เป้าหมายของฉันใน CV คือการเขียนรหัส R ใกล้กับรหัสเทียมที่สุดเท่าที่จะเป็นไปได้เพื่อให้สามารถอ่านได้มากขึ้นสำหรับผู้ที่ไม่คุ้นเคยกับ=การเขียนโปรแกรมภาษาสากลในฐานะผู้ดำเนินการมอบหมาย .
gung

103

หากคุณต้องการที่จะโน้มน้าวให้เจ้านายของคุณคุณสามารถแสดงสิ่งที่เกิดขึ้นกับการจำลองแบบสุ่มอิสระข้อมูล ด้วย R:x,yป้อนคำอธิบายรูปภาพที่นี่

n <- 1000

y<- runif(n)
x <- runif(n)

linearModel <- lm(y ~ x)


x_sorted <- sort(x)
y_sorted <- sort(y)

linearModel_sorted <- lm(y_sorted ~ x_sorted)

par(mfrow = c(2,1))
plot(x,y, main = "Random data")
abline(linearModel,col = "red")


plot(x_sorted,y_sorted, main = "Random, sorted data")
abline(linearModel_sorted,col = "red")

เห็นได้ชัดว่าผลลัพธ์ที่เรียงไว้มีการถดถอยที่ดีกว่ามาก อย่างไรก็ตามเนื่องจากกระบวนการที่ใช้ในการสร้างข้อมูล (ตัวอย่างอิสระสองตัวอย่าง) ไม่มีโอกาสที่จะถูกนำมาใช้ในการทำนายอีกตัวอย่างหนึ่ง


8
มันเกือบจะเหมือนอินเทอร์เน็ตทั้งหมด "ก่อน vs หลังจาก" โฆษณา :)
ทิม

นี่เป็นตัวอย่างที่ดี แต่ไม่คิดว่ามันจะโน้มน้าวเขาเพราะข้อมูลของเรามีความสัมพันธ์เชิงบวกก่อนที่จะเรียงลำดับ การเรียงลำดับเพียง "ตอกย้ำ" ความสัมพันธ์ (แม้ว่าจะมีความไม่ถูกต้อง)
ผู้ใช้เอง

17
@arbitraryuser: ดีเรียงข้อมูลจะเสมอแสดงเป็นบวก (ดีที่ไม่ใช่เชิงลบ) ความสัมพันธ์ไม่ว่าสิ่งที่ถ้ามีความสัมพันธ์ข้อมูลเดิมได้ หากคุณรู้ว่าข้อมูลต้นฉบับมีความสัมพันธ์เชิงบวกอยู่เสมอนั่นก็คือ "แก้ไขโดยไม่ได้ตั้งใจ" - แต่ทำไมทำไมต้องตรวจสอบความสัมพันธ์ถ้าคุณรู้ว่ามันมีอยู่และเป็นบวกอยู่แล้ว การทดสอบผู้จัดการของคุณกำลังทำงานอยู่เหมือน "เครื่องตรวจจับคุณภาพอากาศ" ที่มักจะบอกว่า "ตรวจจับอากาศที่ระบายได้" - มันทำงานได้อย่างสมบูรณ์แบบตราบใดที่คุณไม่เคยเข้าไปในสถานที่ที่ไม่มีอากาศถ่ายเท
Ilmari Karonen

2
@arbitraryuser อีกตัวอย่างหนึ่งที่คุณอาจพบว่า persuasuve คือการใช้ x = 0: 50 และ y = 0: -50 ซึ่งเป็นเส้นที่สมบูรณ์แบบที่มีความชัน -1 หากคุณจัดเรียงความสัมพันธ์จะกลายเป็นเส้นที่สมบูรณ์แบบพร้อมความชัน 1 หากความจริงก็คือตัวแปรของคุณแตกต่างกันไปในการต่อต้านที่สมบูรณ์แบบและคุณกำหนดนโยบายตามการรับรู้ที่ผิดของคุณว่าพวกเขาแตกต่างกันในข้อตกลงที่สมบูรณ์แบบ ทำสิ่งที่ผิด
John Rauser

99

สัญชาตญาณของคุณถูกต้อง: ข้อมูลที่เรียงลำดับอย่างอิสระไม่มีความหมายที่เชื่อถือได้เนื่องจากอินพุตและเอาต์พุตถูกแม็พแบบสุ่มกับอีกแบบหนึ่งแทนที่จะเป็นความสัมพันธ์ที่สังเกตได้

มีโอกาส (ดี) ที่การถดถอยของข้อมูลที่เรียงลำดับจะดูดี แต่มันไม่มีความหมายในบริบท

ตัวอย่างที่ใช้งานง่าย:สมมติว่าชุดข้อมูลสำหรับประชากรบางส่วน กราฟของข้อมูลที่ไม่มีการเจือปนอาจมีลักษณะเหมือนฟังก์ชันลอการิทึมหรือกำลังไฟฟ้า: อัตราการเจริญเติบโตเร็วขึ้นสำหรับเด็กที่ช้าสำหรับวัยรุ่นในภายหลังและ "asymptotically" เข้าใกล้ความสูงสูงสุดของเด็กและผู้ใหญ่(X=age,Y=height)

ถ้าเราเรียงลำดับตามลำดับจากน้อยไปมากกราฟอาจจะเป็นเส้นตรงเกือบทั้งหมด ดังนั้นฟังก์ชั่นการทำนายก็คือคนเราจะสูงขึ้นไปตลอดชีวิต ฉันจะไม่เดิมพันเงินกับอัลกอริทึมการทำนายนั้น x,y


25
+ 1 - แต่ฉันจะวาง "หลัก" และเน้น "ไร้ความหมาย" อีกครั้ง
whuber

12
โปรดทราบว่า OP หมายถึงการเรียงลำดับข้อมูลอย่างอิสระเมื่อเทียบกับการสับมัน นี่เป็นความแตกต่างที่ละเอียดอ่อน แต่สำคัญเนื่องจากเกี่ยวข้องกับสิ่งที่ "สัมพันธภาพ" ที่สังเกตเห็นจะเห็นหลังจากใช้การดำเนินการที่กำหนดไว้
พระคาร์ดินัล

3
ฉันสับสนโดยตัวอย่างที่คุณเพิ่ม ถ้าคืออายุและคือความสูงแล้วทั้งสองตัวแปรจะถูกเรียงลำดับแล้ว: ไม่มีใครอายุหรือความสูงลดลงเลย ดังนั้นการเรียงลำดับจะไม่มีผลกระทบใด ๆ เลย Cc ถึง @JakeWestfall ซึ่งแสดงความคิดเห็นว่าเขาชอบตัวอย่างนี้ คุณสามารถอธิบาย? yxy
อะมีบา

12
@amoeba ชุดข้อมูลเล็ก ๆ น้อย ๆ : วัยรุ่นโดยเฉลี่ย, ช่วงกลางทศวรรษที่ 30 ของเอ็นบีเอ, หญิงวัยกลางคนโดยเฉลี่ย หลังจากเรียงลำดับอัลกอริธึมการทำนายว่าเก่าที่สุดคือสูงที่สุด
d0rmLife

1
@ amoeba ฉันเห็นว่ามันสามารถตีความได้อย่างไรฉันจะชี้แจง
d0rmLife

40

ที่จริงขอให้นี้จริงๆที่เห็นได้ชัดและง่าย สมมติว่าฉันทำการทดลองที่ฉันวัดปริมาณน้ำ 1 ลิตรในภาชนะมาตรฐานและฉันดูปริมาณน้ำที่เหลืออยู่ในภาชนะเป็นฟังก์ชันของเวลาการสูญเสียน้ำเนื่องจากการระเหย:t ฉันViti

ทีนี้สมมติว่าฉันได้รับการวัดต่อไปนี้ในชั่วโมงและลิตรตามลำดับ: เห็นได้ชัดว่าข้อมูลนี้มีความสัมพันธ์กันอย่างสมบูรณ์แบบ (และสมมุติ) แต่ถ้าฉันต้องเรียงลำดับเวลาและการวัดปริมาตรฉันจะได้รับ และข้อสรุปจากชุดข้อมูลที่เรียงลำดับนี้ก็คือเมื่อเวลาเพิ่มขึ้นปริมาตรของน้ำเพิ่มขึ้นและยิ่งกว่านั้นเริ่มจากน้ำ 1 ลิตรคุณจะได้รับหลังจากรอ 5 ชั่วโมงมากกว่าน้ำ1 ลิตร มันไม่น่าทึ่งใช่ไหม ไม่เพียง แต่เป็นข้อสรุปตรงข้ามกับสิ่งที่ข้อมูลต้นฉบับกล่าว แต่ยังแนะนำให้เราค้นพบฟิสิกส์ใหม่! (ti,Vi)

(0,1.0),(1,0.9),(2,0.8),(3,0.7),(4,0.6),(5,0.5).
(0,0.5),(1,0.6),(2,0.7),(3,0.8),(4,0.9),(5,1.0).

5
ตัวอย่างที่ใช้งานง่ายดี! ยกเว้นบรรทัดสุดท้าย ด้วยข้อมูลดั้งเดิมเราจะได้ปริมาณที่เป็นลบหลังจากเวลาผ่านไปซึ่งเป็นฟิสิกส์ใหม่เช่นกัน คุณไม่สามารถคาดการณ์ความถดถอยได้
Jongsma

22

มันเป็นศิลปะที่แท้จริงและใช้ความเข้าใจอย่างแท้จริงของจิตวิทยาเพื่อให้สามารถโน้มน้าวใจคนบางคนถึงความผิดพลาดของวิถีทางของพวกเขา นอกจากตัวอย่างที่ดีเยี่ยมข้างต้นแล้วบางครั้งกลยุทธ์ที่มีประโยชน์ยังแสดงให้เห็นว่าความเชื่อของบุคคลนั้นนำไปสู่ความไม่สอดคล้องกับตัวเอง หรือลองวิธีนี้ ค้นหาสิ่งที่เจ้านายของคุณเชื่อมั่นอย่างยิ่งเช่นวิธีที่บุคคลปฏิบัติงานในภารกิจ Y ไม่มีความสัมพันธ์กับคุณลักษณะ X ที่พวกเขามี แสดงให้เห็นว่าวิธีการของเจ้านายของคุณจะส่งผลให้ข้อสรุปของความสัมพันธ์ที่แข็งแกร่งระหว่าง X และ Y. ใช้ประโยชน์จากความเชื่อทางการเมือง / เชื้อชาติ / ศาสนา

ความไม่ปลอดภัยของใบหน้าควรจะเพียงพอแล้ว ช่างเป็นอะไรที่ดื้อรั้น ค้นหางานที่ดีขึ้นในระหว่างนี้ โชคดี.


12

อีกตัวอย่างหนึ่ง ลองนึกภาพว่าคุณมีสองตัวแปรหนึ่งตัวเชื่อมต่อกับการกินช็อคโกแลตและอีกอันหนึ่งเชื่อมโยงกับความเป็นอยู่โดยรวม คุณมีสองตัวอย่างและข้อมูลของคุณมีลักษณะดังนี้:

chocolateno happinessno chocolatehappiness

อะไรคือความสัมพันธ์ของช็อคโกแลตและความสุขตามตัวอย่างของคุณ? และตอนนี้เปลี่ยนลำดับของหนึ่งในคอลัมน์ - ความสัมพันธ์หลังจากการดำเนินการนี้คืออะไร?

ปัญหาเดียวกันสามารถเข้าหาแตกต่างกัน สมมติว่าคุณมีกลุ่มตัวอย่างที่ใหญ่กว่าโดยมีบางกรณีและคุณวัดตัวแปรต่อเนื่องได้สองอย่าง: ปริมาณการบริโภคช็อกโกแลตต่อวัน (หน่วยเป็นกรัม) และความสุข (ลองจินตนาการว่าคุณมีวิธีวัดปริมาณ) หากคุณสนใจถ้าพวกเขาเกี่ยวข้องคุณสามารถวัดความสัมพันธ์หรือใช้แบบจำลองการถดถอยเชิงเส้น แต่บางครั้งในกรณีเช่นนี้ผู้คนแบ่งขั้วหนึ่งตัวแปรและใช้เป็นปัจจัยการจัดกลุ่มที่มีการทดสอบ (นี่ไม่ใช่สิ่งที่ดีที่สุดและไม่ใช่N ttวิธีการแนะนำ แต่ให้ฉันใช้มันเป็นตัวอย่าง) ดังนั้นคุณแบ่งตัวอย่างออกเป็นสองกลุ่ม: ด้วยการบริโภคช็อกโกแลตสูงและการบริโภคช็อกโกแลตต่ำ ถัดไปคุณเปรียบเทียบความสุขโดยเฉลี่ยในทั้งสองกลุ่ม ลองจินตนาการว่าจะเกิดอะไรขึ้นถ้าคุณจัดเรียงตัวแปรความสุขโดยไม่ขึ้นกับตัวแปรการจัดกลุ่ม: ทุกกรณีที่มีความสุขสูงจะไปกลุ่มบริโภคช็อกโกแลตสูงและกรณีความสุขต่ำทั้งหมดจะจบลงในกลุ่มบริโภคช็อคโกแลตต่ำ - ความรู้สึกใด ๆ สิ่งนี้สามารถอนุมานได้อย่างง่ายดายหากคุณนึกว่าแทนที่จะใช้สองกลุ่มสำหรับการบริโภคช็อกโกแลตคุณมีกลุ่มดังกล่าวหนึ่งกลุ่มสำหรับผู้เข้าร่วมแต่ละกลุ่ม (สังเกตว่าการทดสอบเกี่ยวข้องกับการถดถอย)Nt

ในการถดถอยแบบ bivariate หรือสหสัมพันธ์เราสนใจในความสัมพันธ์แบบคู่ระหว่างค่า th แต่ละค่าของและค่า th ของการเปลี่ยนลำดับของการสังเกตจะทำลายความสัมพันธ์นี้ หากคุณเรียงลำดับตัวแปรทั้งสองซึ่งสิ่งนี้จะทำให้พวกเขามีความสัมพันธ์เชิงบวกมากกว่ากันเนื่องจากมันจะเป็นกรณีที่หากตัวแปรตัวใดตัวหนึ่งเพิ่มขึ้นตัวอื่น ๆ ก็จะเพิ่มขึ้นเช่นกันX ฉันYiXiY

โปรดสังเกตว่าบางครั้งเราสนใจเปลี่ยนลำดับของกรณีเราทำในวิธีการสุ่มตัวอย่างใหม่ ตัวอย่างเช่นเราสามารถสุ่มสลับการสังเกตได้หลายครั้งเพื่อเรียนรู้บางอย่างเกี่ยวกับการแจกแจงโมฆะของข้อมูลของเรา (ข้อมูลของเราจะเป็นอย่างไรถ้าไม่มีความสัมพันธ์แบบคู่) และต่อไปเราสามารถเปรียบเทียบได้ว่าข้อมูลจริงของเราดีกว่าการสุ่ม สับ สิ่งที่ผู้จัดการของคุณทำในสิ่งที่ตรงกันข้าม - เขาจงใจบังคับให้การสังเกตการณ์มีโครงสร้างเทียมที่ไม่มีโครงสร้างอะไรนำไปสู่ความสัมพันธ์ปลอม


8

ตัวอย่างง่ายๆที่ผู้จัดการของคุณอาจเข้าใจ:

สมมติว่าคุณมี Coin Y และ Coin X และคุณพลิกแต่ละครั้ง 100 ครั้ง จากนั้นคุณต้องการทำนายว่าการรับหัวด้วย Coin X (IV) สามารถเพิ่มโอกาสในการรับหัวด้วย Coin Y (DV) ได้หรือไม่

หากไม่มีการเรียงลำดับความสัมพันธ์จะไม่เกิดขึ้นเนื่องจากผลลัพธ์ของ Coin X ไม่ควรส่งผลกระทบต่อผลลัพธ์ของ Coin Y ด้วยการเรียงลำดับความสัมพันธ์จะสมบูรณ์แบบเกือบ

การสรุปว่าคุณมีโอกาสที่ดีที่จะได้รับเหรียญพลิกหากคุณพลิกหัวด้วยเหรียญที่แตกต่างกันอย่างไร


1
ต้องการการแปลสำหรับสกุลเงินใด ๆ ยกเว้นสกุลเงินที่คุณสมมติ (ฉันรู้ว่ามันเป็นการคัดค้านเล็กน้อยและง่ายต่อการแก้ไขปัญหาใด ๆ แต่บางครั้งก็คุ้มค่าที่เน้นว่านี่เป็นเวทีระหว่างประเทศ)
Nick Cox

8

เทคนิคนี้น่าทึ่งจริงๆ ฉันค้นหาความสัมพันธ์ทุกประเภทที่ฉันไม่เคยสงสัย ตัวอย่างเช่นฉันจะไม่สงสัยเลยว่าตัวเลขที่ปรากฏในลอตเตอรี่ลอตเตอรี่ซึ่งเป็น CLAIMED เป็นแบบสุ่มจริง ๆ แล้วมีความสัมพันธ์อย่างมากกับราคาเปิดของหุ้น Apple ในวันเดียวกัน! ฉันคิดว่าเรากำลังจะทำเงินในครั้งใหญ่ :)

> powerball_last_number = scan()
1: 69 66 64 53 65 68 63 64 57 69 40 68
13: 
Read 12 items
> #Nov. 18, 14, 11, 7, 4
> #Oct. 31, 28, 24, 21, 17, 14, 10
> #These are powerball dates.  Stock opening prices 
> #are on same or preceding day.
> 
> appl_stock_open = scan()
1: 115.76  115.20 116.26  121.11  123.13 
6: 120.99  116.93  116.70  114.00  111.78
11: 111.29  110.00
13: 
Read 12 items
> hold = lm(appl_stock_open ~ powerball_last_number)
> summary(hold)


Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)           112.08555    9.45628  11.853 3.28e-07 ***
powerball_last_number   0.06451    0.15083   0.428    0.678    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.249 on 10 degrees of freedom
Multiple R-squared:  0.01796,   Adjusted R-squared:  -0.08024 
F-statistic: 0.1829 on 1 and 10 DF,  p-value: 0.6779

อืมดูเหมือนจะไม่มีความสัมพันธ์ที่สำคัญ แต่ใช้เทคนิคใหม่ที่ได้รับการปรับปรุง:

> 
> vastly_improved_regression = lm(sort(appl_stock_open)~sort(powerball_last_number))
> summary(vastly_improved_regression)

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 91.34418    5.36136  17.038 1.02e-08 ***
sort(powerball_last_number)  0.39815    0.08551   4.656    9e-04 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.409 on 10 degrees of freedom
Multiple R-squared:  0.6843,    Adjusted R-squared:  0.6528 
F-statistic: 21.68 on 1 and 10 DF,  p-value: 0.0008998

หมายเหตุ: นี่ไม่ได้หมายถึงการวิเคราะห์อย่างจริงจัง เพียงแค่แสดงให้ผู้จัดการของคุณเห็นว่าพวกเขาสามารถสร้างตัวแปรสองตัวที่เกี่ยวข้องอย่างมีนัยสำคัญหากคุณจัดเรียงทั้งสองอย่าง


6

ตัวอย่างเคาน์เตอร์ที่ดีมากมายที่นี่ ขอผมเพิ่มย่อหน้าเกี่ยวกับหัวใจของปัญหา

คุณกำลังมองหาสัมพันธ์ระหว่างและY_iนั่นหมายความว่าและทั้งมีแนวโน้มที่จะมีขนาดใหญ่สำหรับเดียวกันและขนาดเล็กสำหรับเดียวกันฉันความสัมพันธ์จึงเป็นสมบัติของเชื่อมโยงกับ ,เชื่อมโยงกับและอื่น ๆ โดยการจัดเรียงและอย่างอิสระคุณ (ในกรณีส่วนใหญ่) จะสูญเสียการจับคู่ จะไม่ถูกจับคู่กับอีกต่อไป ดังนั้นความสัมพันธ์ของค่าที่เรียงจะไม่วัดการเชื่อมต่อระหว่างและY ฉัน X Y ฉันฉันX 1 Y 1 X 2 Y 2 X Y X 1 Y 1 X 1 Y 1XiYiXYiiX1Y1X2Y2XYX1Y1X1Y1 ว่าคุณเป็นหลัง

ที่จริงฉันขอเพิ่มย่อหน้าเกี่ยวกับสาเหตุที่ทำให้ "ทำงาน" ด้วย

เมื่อคุณเรียงลำดับรายการทั้งสองลองเรียกรายการที่เรียงลำดับใหม่ ,และอื่น ๆจะเป็นค่าเล็กที่สุดและจะเป็นค่า Y ที่เล็กที่สุด จะเป็นที่ใหญ่ที่สุดและจะเป็นที่ใหญ่ที่สุดYจากนั้นคุณจะค้นหารายการใหม่ถ้าเกิดมูลค่าน้อยและใหญ่ นั่นคือคุณถามว่ามีขนาดเล็กเมื่อมีขนาดเล็กหรือไม่ คือขนาดใหญ่เมื่อมีขนาดใหญ่? แน่นอนคำตอบคือใช่และแน่นอนเราจะได้รับความสัมพันธ์ที่สมบูรณ์แบบเกือบ นั่นบอกอะไรคุณเกี่ยวกับX X X Y X Z X Y Z Y X Y X Z Y Z X 1 Y 1XaXbXaXYaXzXYzYXaYaXzYzX1มีความสัมพันธ์กับไหม เลขที่Y1


6

ที่จริงแล้วการทดสอบที่อธิบายไว้ (เช่นเรียงลำดับค่า X และค่า Y อย่างอิสระและถอยกลับอย่างใดอย่างหนึ่ง) ทดสอบบางสิ่งบางอย่างสมมติว่า (X, Y) จะถูกสุ่มตัวอย่างเป็นคู่ที่เป็นอิสระจากการกระจายของตัวแปร นี่ไม่ใช่การทดสอบสิ่งที่ผู้จัดการของคุณต้องการทดสอบ มันคือการตรวจสอบความเป็นเชิงเส้นของ QQ-plot เปรียบเทียบการกระจายตัวของส่วนต่างของ Xs กับการกระจายตัวเล็กน้อยของ Ys โดยเฉพาะอย่างยิ่ง 'ข้อมูล' จะลดลงใกล้กับเส้นตรงหากความหนาแน่นของ Xs (f (x)) เกี่ยวข้องกับความหนาแน่นของ Ys (g (y)) ด้วยวิธีนี้:

f(x)=g((ya)/b)ab>0


4

แปลกที่ตัวอย่างที่ชัดเจนที่สุดยังคงไม่ปรากฏในคำตอบในรูปแบบที่ง่ายที่สุด

Y=X

Y^X

นี่คือ "การผกผันโดยตรง" ของรูปแบบที่คุณอาจยินดีที่จะค้นหาที่นี่


คุณช่วยอธิบายว่านี่คือตัวอย่างที่ยืนยันได้หรือไม่
whuber

การยืนยันของผู้จัดการที่คุณสามารถ "รับความถดถอยได้ดีขึ้นตลอดเวลา" โดยการเรียงลำดับอินพุตและเอาต์พุตอย่างอิสระ
KT

R2=1

R2

1
R2Y=X

3

คุณพูดถูก ผู้จัดการของคุณจะพบผลลัพธ์ที่ "ดี"! แต่พวกเขาไม่มีความหมาย สิ่งที่คุณได้รับเมื่อคุณจัดเรียงพวกเขาอย่างอิสระคือทั้งสองเพิ่มขึ้นหรือลดลงในทำนองเดียวกันและนี่จะให้รูปร่างที่ดี แต่ตัวแปรทั้งสองได้ถูกแยกออกจากความสัมพันธ์ที่แท้จริงของพวกเขาและโมเดลไม่ถูกต้อง


3

xx2xx2x

การถดถอยเชิงเส้นมักจะสมเหตุสมผลน้อยกว่า (มีข้อยกเว้นให้ดูคำตอบอื่น ๆ ); แต่เรขาคณิตของก้อยและการกระจายของข้อผิดพลาดจะบอกคุณว่าห่างไกลจากการกระจายตัวที่คล้ายกัน


2

ฉันมีสัญชาตญาณง่าย ๆ ว่าเหตุใดจึงเป็นความคิดที่ดีถ้าฟังก์ชันเป็นเสียงเดียว :

x1,x2,,xnxi<xi+1f:yi=f(xi)+εiεi

εi=f(xi+δ)f(xi)
δ{Δ,Δ+1,Δ1,Δ}ΔNΔ=0Δ=n

f

εi

ป.ล. : ฉันพบว่ามันน่าประหลาดใจที่คำถามง่าย ๆ ที่เห็นได้ชัดสามารถนำไปสู่วิธีการคิดแบบมาตรฐานใหม่ที่น่าสนใจ กรุณาขอบคุณเจ้านาย!


1
xi+δi+δ<1i+δ>n

2

สมมติว่าคุณมีจุดเหล่านี้เป็นวงกลม 5 คุณคำนวณความสัมพันธ์ดังนี้

import pandas as pd
s1 = [(-5, 0), (-4, -3), (-4, 3), (-3, -4), (-3, 4), (0, 5), (0, -5), (3, -4), (3, 4), (4, -3), (4, 3), (5, 0)]
df1 = pd.DataFrame(s1, columns=["x", "y"])
print(df1.corr())

   x  y
x  1  0
y  0  1

จากนั้นคุณเรียงลำดับค่า x และ y และทำสหสัมพันธ์อีกครั้ง:

s2 = [(-5, -5), (-4, -4), (-4, -4), (-3, -3), (-3, -3), (0, 0), (0, 0), (3, 3), (3, 3), (4, 4), (4, 4), (5, 5)]
df2 = pd.DataFrame(s2, columns=["x", "y"])
print(df2.corr())

   x  y
x  1  1
y  1  1

โดยการจัดการนี้คุณเปลี่ยนชุดข้อมูลที่มีความสัมพันธ์ 0.0 เป็นหนึ่งที่มีความสัมพันธ์ 1.0 นั่นเป็นปัญหา


1

ให้ฉันเล่น Devil's Advocate ที่นี่ ฉันคิดว่ามีคำตอบมากมายที่สร้างความเชื่อมั่นว่าขั้นตอนของเจ้านายผิดพลาดไป ในขณะเดียวกันฉันขอเสนอตัวอย่างที่แสดงให้เห็นว่าเจ้านายอาจเห็นผลลัพธ์ได้ดีขึ้นด้วยการเปลี่ยนแปลงที่ผิดพลาดนี้

ฉันคิดว่าการยอมรับว่าขั้นตอนนี้อาจ "ทำงาน" สำหรับเจ้านายสามารถเริ่มต้นการโต้แย้งที่โน้มน้าวใจมากขึ้น: แน่นอนว่ามันใช้ได้ แต่ภายใต้สถานการณ์โชคดีเหล่านี้ที่มักจะไม่ถือ ถ้าอย่างนั้นเราก็สามารถแสดงได้เช่นเดียวกับคำตอบที่ได้รับการยอมรับอย่างดีเยี่ยมว่ามันจะแย่แค่ไหนเมื่อเราไม่โชคดี ซึ่งเป็นส่วนใหญ่เวลา ในการแยกแสดงให้เห็นเจ้านายว่าไม่ดีมันสามารถจะอาจจะไม่ชักชวนให้เขาเพราะเขาอาจได้เห็นกรณีที่มันไม่ปรับปรุงสิ่งและตัวเลขว่าอาร์กิวเมนต์แฟนซีของเราจะต้องมีข้อบกพร่องอยู่ที่ไหนสักแห่ง

ฉันพบข้อมูลนี้ทางออนไลน์และดูเหมือนว่าการถดถอยได้รับการปรับปรุงโดยการเรียงลำดับของ X และ Y ที่เป็นอิสระเพราะ: a) ข้อมูลมีความสัมพันธ์เชิงบวกอย่างมากและ b) OLS ไม่ได้ทำงานได้ดีมาก (สูงมาก) - ค่าใช้จ่าย) ค่าผิดปกติ ความสูงและน้ำหนักมีความสัมพันธ์กับ 0.19 โดยมีค่ารวม, 0.77 โดยไม่รวมค่าที่ไม่รวมและ 0.78 ที่มี X และ Y เรียงลำดับอย่างอิสระ

x <- read.csv ("https://vincentarelbundock.github.io/Rdatasets/csv/car/Davis.csv", header=TRUE)

plot (weight ~ height, data=x)

lm1 <- lm (weight ~ height, data=x)

xx <- x
xx$weight <- sort (xx$weight)
xx$height <- sort (xx$height)

plot (weight ~ height, data=xx)

lm2 <- lm (weight ~ height, data=xx)

plot (weight ~ height, data=x)
abline (lm1)
abline (lm2, col="red")

ป้อนคำอธิบายรูปภาพที่นี่

plot (x$height, x$weight)
points (xx$height, xx$weight, col="red")

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นสำหรับฉันแล้วรูปแบบการถดถอยของชุดข้อมูลนี้ได้รับการปรับปรุงโดยการเรียงลำดับแบบอิสระ (เส้นสีดำเทียบกับเส้นสีแดงในกราฟแรก) และมีความสัมพันธ์ที่มองเห็นได้ (สีดำกับสีแดงในกราฟที่สอง) เนื่องจากชุดข้อมูลเฉพาะ มีความสัมพันธ์สูง (ในเชิงบวก) และมีค่าผิดประเภทที่เป็นอันตรายต่อการถดถอยมากกว่าการสับที่เกิดขึ้นเมื่อคุณเรียงลำดับ x และ y อย่างอิสระ

อีกครั้งการไม่พูดว่าการเรียงลำดับอย่างอิสระทำอะไรที่สมเหตุสมผลโดยทั่วไปและนั่นก็เป็นคำตอบที่ถูกต้องที่นี่ แค่ว่าเจ้านายอาจเห็นอะไรแบบนี้ที่เกิดขึ้นกับการทำงานภายใต้สถานการณ์ที่เหมาะสม


1
ดูเหมือนว่าบังเอิญที่คุณได้มาถึงสัมประสิทธิ์สหสัมพันธ์ที่คล้ายกัน ตัวอย่างนี้ไม่แสดงให้เห็นถึงสิ่งใด ๆ เกี่ยวกับความสัมพันธ์ระหว่างข้อมูลดั้งเดิมและข้อมูลที่เรียงลำดับอย่างอิสระ
whuber

2
@whuber: แล้วกราฟที่สองล่ะ? ฉันรู้สึกว่าถ้าข้อมูลต้นฉบับมีความสัมพันธ์กันสูงการเรียงลำดับข้อมูลอาจสับเปลี่ยนค่าเพียงเล็กน้อยโดยทั่วไปจะรักษาความสัมพันธ์ดั้งเดิม +/- ไว้ ด้วยค่าผิดปกติสองสามอย่างสิ่งต่าง ๆ ได้รับการจัดเรียงใหม่มากขึ้น แต่ ... ขออภัยฉันไม่มีเลขที่สับไปได้ไกลกว่านั้น
Wayne

1
ฉันคิดว่าสัญชาตญาณที่คุณแสดงนั้นถูกต้องเวย์น ตรรกะของคำถาม - ในขณะที่ฉันตีความมัน - เกี่ยวข้องกับสิ่งที่คุณสามารถพูดเกี่ยวกับข้อมูลต้นฉบับที่ขึ้นอยู่กับการกระจายของตัวแปรที่เรียงลำดับเพียงอย่างเดียว คำตอบคือไม่มีอะไรมากไปกว่าสิ่งที่คุณสามารถอนุมานได้จากการแจกแจงแบบแยกส่วน (univariate) ประเด็นก็คือจุดสีแดงในกราฟที่สองของคุณนั้นไม่เพียง แต่สอดคล้องกับข้อมูลที่คุณแสดง แต่ยังรวมถึงการเรียงสับเปลี่ยนอื่น ๆทางดาราศาสตร์ของข้อมูลเหล่านั้นเป็นจำนวนมหาศาล- และคุณไม่มีทางรู้ว่าการเรียงสับเปลี่ยนนั้นเป็นอย่างไร อันที่ถูกต้อง.
whuber

2
@ โฮเบอร์ฉันคิดว่าความแตกต่างที่สำคัญที่นี่คือ OP กล่าวว่ามันจะต้อง "ทำลาย" ข้อมูลอย่างสมบูรณ์ คำตอบที่ได้รับการยอมรับของคุณจะแสดงรายละเอียดว่ากรณีนี้เป็นอย่างไร คุณไม่สามารถส่งข้อมูลด้วยวิธีนี้ได้และมีความคิดใด ๆ หากผลลัพธ์นั้นสมเหตุสมผล แต่ก็เป็นความจริงที่ผู้จัดการสามารถจัดการกับตัวอย่างเช่นตัวอย่างของฉัน (ตัวนับ) และพบว่าการแปลงที่เข้าใจผิดนี้ช่วยปรับปรุงผลลัพธ์ได้จริง ดังนั้นเราจึงสามารถตกลงกันได้ว่าผู้จัดการถูกเข้าใจผิดอย่างลึกซึ้ง แต่ก็อาจจะโชคดีทีเดียว - และในกรณีที่โชคดีก็ใช้งานได้
เวย์น

@whuber: ฉันได้แก้ไขคำแนะนำของฉันในแบบที่ฉันคิดว่าทำให้เกี่ยวข้องกับการสนทนา ฉันคิดว่าการยอมรับว่ากระบวนการของเจ้านายอาจทำงานให้เขาได้อย่างไรอาจเป็นขั้นตอนแรกในการโต้แย้งที่โน้มน้าวใจมากขึ้นซึ่งทำให้เกิดประสบการณ์ของหัวหน้า สำหรับการพิจารณาของคุณ.
Wayne

-7

หากเขาเลือกตัวแปรไว้ล่วงหน้าว่าเป็นเสียงเดียวจริง ๆ แล้วมันค่อนข้างแข็งแกร่ง Google "โมเดลเชิงเส้นที่ไม่เหมาะสม" และ "Robin Dawes" หรือ "Howard Wainer" Dawes และ Wainer พูดถึงวิธีการเลือกค่าสัมประสิทธิ์ John Cook มีคอลัมน์สั้น ๆ ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ )


4
สิ่งที่ Cook พูดถึงในการโพสต์บล็อกนั้นไม่เหมือนกับการจัดเรียง x และ y แยกจากกันและจากนั้นปรับโมเดลการถดถอยให้เหมาะสมกับตัวแปรที่เรียงลำดับ
gung

4
สิ่งที่หัวหน้าของ OP กำลังทำคือไม่ "ทำนาย [วัน] โดย FInverse (G (x)) โดยที่ F และ G เป็น ecdfs ของ Y และ X" คุณสามารถดูขั้นตอนในรหัสในคำตอบของฉัน
gung

4
คุณสามารถ 1. เพิ่มการอ้างอิงไปยังกระดาษเฉพาะโดย Dawes และ / หรือ Wainer, 2. ชี้แจงว่ามันเกี่ยวข้องกับกระบวนการเรียงลำดับของเจ้านายได้อย่างไร? หรือเป็นประเด็นที่ว่าถ้าค่าสัมประสิทธิ์ไม่สำคัญมากเท่ากับเครื่องหมายนั้นถูกต้องและเครื่องหมายนั้นถูกต้องตามสมมติฐานแล้วมันไม่สำคัญว่ากระบวนการของเจ้านายให้ค่าแปลกสำหรับสัมประสิทธิ์?
Juho Kokkala

2
1. การอ้างอิง: - Dawes, RM "ความงามที่แข็งแกร่งของโมเดลเชิงเส้นที่ไม่เหมาะสมในการตัดสินใจ" อาเมอร์ จิตวิทยา หมายเลข 34 7 (1979): 571. - Wainer, H. "การประมาณค่าสัมประสิทธิ์ในแบบจำลองเชิงเส้น: มันไม่ได้ทำให้ไร้สาระเลย" วิญญาณ. วัว. หมายเลข 83 2 (1976): 213. - Dawes, RM, & Corrigan, B. "โมเดลเชิงเส้นในการตัดสินใจ" วิญญาณ. Bull., 81 95-106 (1974) 2. ทั้ง Dawes และ Wainer แสดงว่าด้วยข้อมูลจริงและปัญหาการทำนายที่แท้จริงทำนายอนาคต Y จาก X ด้วยการเบี่ยงเบนจากค่าเฉลี่ยหรือจากการจับคู่ที่ใช้งานได้ค่อนข้างดีและนี่ค่อนข้าง ไวต่อความลาดชัน
Bill Raynor

2
การอ้างอิงและคำอธิบายเหล่านี้จะดีกว่าในคำตอบของคุณแทนที่จะฝังไว้ในความคิดเห็น
Scortchi

-8

ฉันคิดเกี่ยวกับมันและคิดว่ามีโครงสร้างบางอย่างที่นี่ตามสถิติการสั่งซื้อ ฉันตรวจสอบแล้วและดูเหมือนว่าผู้จัดการของ Mo จะไม่ดังอย่างที่คิด

ค่าสัมประสิทธิ์สหสัมพันธ์สถิติการสั่งซื้อเป็นการวัดแบบใหม่ของสมาคมด้วยการประยุกต์ใช้ในการวิเคราะห์ทางชีวสถิติ

http://www.researchgate.net/profile/Weichao_Xu/publication/3320558_Order_Statistics_Correlation_Coefficient_as_a_Novel_Association_Measurement_With_Applications_to_Biosignal_Analysis/links/0912f507ed6f94a3c6000000.pdf

เราเสนอค่าสัมประสิทธิ์สหสัมพันธ์ใหม่ตามสถิติการสั่งซื้อและความไม่เท่าเทียมกันในการจัดเรียงใหม่ สัมประสิทธิ์ที่เสนอนั้นแสดงถึงการประนีประนอมระหว่างสัมประสิทธิ์เชิงเส้นของเพียร์สันกับสัมประสิทธิ์การจัดอันดับสองแบบคือสเปียร์แมนและโรเคนสกอลล์ การพิสูจน์ทางทฤษฎีแสดงให้เห็นว่าสัมประสิทธิ์ของเรามีคุณสมบัติพื้นฐานเช่นเดียวกับสัมประสิทธิ์คลาสสิคทั้งสาม การศึกษาเชิงทดลองโดยใช้แบบจำลองสี่ตัวและชีวประวัติหกตัวแสดงว่าสัมประสิทธิ์ของเรานั้นดีกว่าสัมประสิทธิ์อันดับสองเมื่อวัดความสัมพันธ์เชิงเส้น ในขณะที่มันสามารถตรวจจับความสัมพันธ์ที่ไม่เชิงเส้นเดียวเช่นค่าสัมประสิทธิ์สองระดับ การวิเคราะห์ทางสถิติอย่างกว้างขวางยังแนะนำว่าสัมประสิทธิ์ใหม่ของเรามีความทนทานต่อเสียงรบกวนที่ดีกว่าความลำเอียงเล็ก ๆ


14
นี่ไม่ใช่สิ่งที่คำถามอธิบาย เมื่อข้อมูลถูกแทนที่ด้วยสถิติการสั่งซื้อคู่ของข้อมูลจะยังคงเชื่อมต่อเหมือนเดิม คำถามอธิบายการดำเนินการที่ทำลายการเชื่อมต่อเหล่านั้นกำจัดข้อมูลทั้งหมดเกี่ยวกับการกระจายข้อต่อ
whuber

ไม่จำเป็น. เป็นไปได้ที่จะสร้าง (หรือเกิดขึ้น) ชุดข้อมูลที่การเรียงลำดับแบบอิสระไม่ทำลายข้อมูลทั้งหมดเกี่ยวกับความน่าจะเป็นร่วม
Daniel

5
โปรดให้ตัวอย่างที่ชัดเจนเกี่ยวกับการอ้างสิทธิ์ของคุณเพราะเป็นเรื่องยากที่จะเห็นว่าสิ่งเหล่านี้เป็นไปได้ในทางคณิตศาสตร์แม้แต่ในทางปฏิบัติ
whuber

@whuber: โปรดดูคำตอบใหม่ของฉันซึ่งมีชุดข้อมูลจริงที่ตรงกับคำถามของคุณ ... ฉันคิดว่า
Wayne
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.