ข้อผิดพลาดที่ควรหลีกเลี่ยงเมื่อเปลี่ยนข้อมูล?


15

ฉันได้รับความสัมพันธ์เชิงเส้นตรงที่แข็งแกร่งระหว่างตัวแปรและหลังจากเปลี่ยนการตอบสนองเป็นสองเท่า แบบจำลองคือ แต่ฉันเปลี่ยนเป็น ปรับปรุงจาก. 19 เป็น. 76XYYXYXXR2

เห็นได้ชัดว่าฉันทำการผ่าตัดที่เหมาะสมกับความสัมพันธ์นี้ ทุกคนสามารถพูดถึงข้อผิดพลาดในการทำเช่นนี้เช่นอันตรายจากการเปลี่ยนแปลงมากเกินไปหรือการละเมิดหลักการทางสถิติที่เป็นไปได้หรือไม่?


1
จากสิ่งที่คุณได้จากพีชคณิตเพียงอย่างเดียวมันมีลักษณะเช่นเดียวYX2 2 คุณสามารถโพสต์ข้อมูลหรือแสดงกราฟได้หรือไม่ มีเหตุผลทางวิทยาศาสตร์ที่คาดหวังY=0เมื่อX=0หรือไม่
Nick Cox

1
@NickCox: ฉันคิดว่าYXเป็นสัญลักษณ์ที่แปลกใหม่สำหรับ ; บางที OP กำลังพูด R มากกว่าคณิตศาสตร์ (บางสิ่งที่ท้อแท้แน่นอน) EY=β0+β1X
Scortchi - Reinstate Monica

@Scortchi ฉันกลัวว่าคุณพูดถูก การดูข้อมูลจะช่วยได้ทั้งสองทาง
Nick Cox

ในกรณีนี้ 0 X จะหมายถึง 0 Y เนื่องจาก Y กำลังขับรถเสียชีวิตและ X คือ KM ทั้งหมดซึ่งขับเคลื่อนโดยไดรเวอร์ทั้งหมด
Info5ek

2
@AaronHall สมการไม่จำเป็นต้องไร้ประโยชน์เสมอไปเนื่องจาก (คูณกลับด้วยXมันคือY=β0X+β1X+Xϵซึ่งอาจเป็นโมเดลที่มีเหตุผลในบางสถานการณ์) อย่างไรก็ตามR2ในรูปแบบของสมการที่ให้ไว้ในคำถามนั้นไม่ได้ใช้อะไรมากมายคุณไม่สามารถเปรียบเทียบกับสิ่งที่ติดตั้งในระดับที่แตกต่างกันได้ (บังเอิญถ้านั่นคือ downvote ของคุณในคำตอบของฉันคำอธิบายของสิ่งที่คุณคิดว่าผิดในคำตอบจะเป็นประโยชน์)
Glen_b

คำตอบ:


20

คุณไม่สามารถเปรียบเทียบก่อนและหลังได้เพราะความแปรปรวนพื้นฐานในYนั้นแตกต่างกัน ดังนั้นคุณจะไม่รู้สึกสบายใจเลยว่าการเปลี่ยนแปลงในR 2นั้นแท้จริงแล้ว นั่นบอกคุณไม่มีค่าในการเปรียบเทียบทั้งสองรุ่นR2YR2

ทั้งสองรุ่นมีความแตกต่างกันในหลายวิธีดังนั้นพวกเขาจึงหมายถึงสิ่งที่แตกต่างกัน - พวกเขาถือว่าสิ่งที่แตกต่างกันมากเกี่ยวกับรูปร่างของความสัมพันธ์และความแปรปรวนของคำผิดพลาด (เมื่อพิจารณาในแง่ของความสัมพันธ์ระหว่างและX ) ดังนั้นหากคุณสนใจที่จะสร้างแบบจำลองY (ถ้าYนั้นมีความหมาย) ให้สร้างแบบจำลองที่ดีสำหรับสิ่งนั้น หากคุณสนใจทำโมเดลYXYY (/Yมีความหมาย) สร้างโมเดลที่ดีสำหรับสิ่งนั้น ถ้าYมีความหมายแล้วสร้างโมเดลที่ดีสำหรับสิ่งนั้น แต่เปรียบเทียบโมเดลการแข่งขันใด ๆ R2ในการตอบสนองที่แตกต่างกันก็ไม่ได้เทียบเคียงY/XR2

หากคุณเพียงแค่ลองความสัมพันธ์ที่แตกต่างกันโดยหวังว่าจะได้พบกับการเปลี่ยนแปลงที่มีค่าสูง- หรือการวัดอื่น ๆ ของ 'ความพอดี' - คุณสมบัติของการอนุมานใด ๆ ที่คุณอาจต้องการดำเนินการจะได้รับผลกระทบจากการดำรงอยู่ของ กระบวนการค้นหานั้นR2

การประมาณจะมีแนวโน้มที่จะเอนเอียงจากศูนย์ข้อผิดพลาดมาตรฐานจะเล็กเกินไปค่า p จะเล็กเกินไปช่วงความเชื่อมั่นแคบเกินไป แบบจำลองของคุณโดยเฉลี่ยดูเหมือนจะ 'ดีเกินไป' (ในแง่ที่ว่าพฤติกรรมนอกตัวอย่างของพวกเขาจะน่าผิดหวังเมื่อเทียบกับพฤติกรรมในตัวอย่าง)

เพื่อหลีกเลี่ยงการ overfitting ชนิดนี้คุณต้องถ้าเป็นไปได้ที่จะทำแบบจำลองการระบุและการประเมินในส่วนย่อยที่แตกต่างกันของข้อมูล (และการประเมินรูปแบบในหนึ่งในสาม) หากคุณทำซ้ำขั้นตอนนี้ในหลาย ๆ "แยก" ของข้อมูลที่สุ่มคุณจะได้รับความรู้สึกที่ดีขึ้นของผลการทำซ้ำของคุณ

มีบทความจำนวนมากที่นี่มีประเด็นที่เกี่ยวข้องในประเด็นเหล่านี้: มันอาจจะคุ้มค่าที่จะลองใช้การค้นหาบางอย่าง

(หากคุณมีเหตุผลที่ดีมาก่อนในการเลือกการแปลงเฉพาะนั่นเป็นปัญหาที่แตกต่างกัน แต่การค้นหาพื้นที่ของการเปลี่ยนแปลงเพื่อค้นหาสิ่งที่เหมาะกับการดำเนินการกับปัญหาประเภท 'data snooping')


ขอบคุณสำหรับคำตอบของเกลน เหตุผลที่ฉันทำการเปลี่ยนแปลงครั้งนี้เพราะมันเป็นสิ่งเดียวที่ไม่ได้ให้ความลำเอียงแก่ฉัน ฉันลองใช้มาตรฐาน y / x, log (y), sqrt (y) และการรวมกันของสิ่งเหล่านั้น ทั้งหมดส่งผลให้พล็อตที่เหลือลาดชัน หลังจากทำสองขั้นตอนการแปลงฉันได้รับสุ่มปรากฏเหลือ อย่างไรก็ตามคุณระบุว่ารูปแบบนี้อาจไม่เป็นทางการสำหรับข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างเนื่องจากฉันอาจมีความเหมาะสมกับข้อมูลมากเกินไปใช่ไหม?
Info5ek

ใช่ แต่มันเป็นปัญหากับรูปแบบของข้อมูลจำเพาะรุ่นใด ๆ เมื่อดูข้อมูลดังนั้นจึงเกิดขึ้นมากมาย ในหลาย ๆ สถานการณ์มันเป็นเรื่องยากที่จะหลีกเลี่ยงซึ่งเป็นจุดที่การแยกตัวอย่างสามารถเข้ามาได้ (การตรวจสอบข้ามสามารถเป็นเครื่องมือที่มีประโยชน์สำหรับสถานการณ์เช่นนี้)
Glen_b

มันจะมีประโยชน์ในการทราบสาเหตุของการโหวต เกิดอะไรขึ้นกับคำตอบ? บางทีมันสามารถปรับปรุงได้ (ถ้ามันไม่สามารถปรับปรุงได้ทำไมต้อง downvote)
Glen_b

1
@Glen_b: ยุ่งยากในการตรวจสอบขั้นตอนที่ไม่ถูกต้องแม้ว่าในแต่ละขั้นตอนคุณจะต้องทำซ้ำขั้นตอนการดูการวินิจฉัยคิดการเปลี่ยนแปลงอีกครั้งเมื่อคุณไม่ชอบพวกเขาพยายามอย่างนั้นเป็นต้น
Scortchi - Reinstate Monica

1
@Scortchi ใช่ถ้าการแปลงไม่ได้ถูกเลือกจากกลุ่มที่รู้จักของผู้สมัครด้วยกฎง่ายๆบางอย่างมันอาจเป็นไปไม่ได้
Glen_b -Reinstate Monica

16

มีปัญหาใหญ่กว่าปัญหาที่ระบุโดย @Glen_b

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

และฉันได้รับ 0.49 และ P-ค่าที่5.5 × 10 - 16R25.5×1016

คุณมีทั้งสองข้างของสมการX


2
ไม่แน่ใจว่าเป็นปัญหาที่แตกต่างจากการไม่มีเหตุผลที่ดีมาก่อนเพื่อแสดงแบบจำลองทางเดียวมากกว่าอีกแบบ ถ้าคุณปล่อยให้ &Z=W=YXจากนั้นคุณก็บอกได้ว่าแบบจำลองแรก (YX) มีZ2ทั้งสองข้างของสมการ Z=XYXZ2
Scortchi - Reinstate Monica

4
หาก & Zมีเสียงรบกวนแบบสุ่มการถอยYบนXจะทำให้เกิดความสัมพันธ์ที่ดี ดังนั้นความไม่สมดุลที่ติดป้ายว่าการถดถอยหนึ่งลวงตามากกว่าอีกอย่างหนึ่งโดยไม่พิจารณาว่าตัวแปรหมายถึงอะไร? สิ่งนี้ถูกถกเถียงกันระหว่าง Pearson & Yule ( Aldrich (1995) ) และฉันกับ Yule: สิ่งที่เกเรไม่ได้มีความสัมพันธ์กัน แต่เป็นการอ้างถึงความสัมพันธ์เชิงสาเหตุตามความสัมพันธ์นั้น WZYX
Scortchi - Reinstate Monica

1
ใช่ แต่นี่ถดถอยเริ่มต้นด้วย X และวายไม่ได้สำคัญว่าที่ตัวแปรเพื่อที่จะพูด, ตัวแปร?
Peter Flom - Reinstate Monica

2
ไม่เห็นว่าทำไมมันควรยกเว้นตราบเท่าที่ @Glen_b ชี้ให้เห็นในประโยคแรกของเขาหากเป้าหมายของคุณคือการคาดการณ์ดังนั้นค่าสัมประสิทธิ์สูงของการกำหนดแบบจำลองสำหรับWคืออะไรที่ไม่ควรพลาด และแน่นอนถ้าคุณมีความคิดที่ชัดเจนเกี่ยวกับลักษณะข้อผิดพลาดแบบหนึ่งแบบจำลองจะง่ายกว่าอีกแบบหนึ่ง YW
Scortchi - Reinstate Monica

4
คุณยกประเด็นที่ดีเกี่ยวกับ W & Z, @Scortchi แต่สำหรับฉันแล้วมันสำคัญกับสิ่งที่คุณพิจารณาว่าตัวแปรที่คุณสนใจคืออะไรและตัวแปรใดที่คุณสร้างขึ้นเพื่อให้ได้แบบจำลองที่ดีขึ้น ซึ่งเป็นตัวแปรที่แท้จริงจะถูกกำหนดโดยความหมายของ X ฯลฯ ในบริบทของคำถามสำคัญ ฉันอนุมานจากข้อความที่ OP ต้องการเข้าใจความสัมพันธ์ b / t X & Y และสร้าง W & Z เพื่อปรับปรุงแบบจำลองให้เหมาะสม เช่นในกรณีที่เป็นรูปธรรมนี้ดูเหมือนว่าปีเตอร์จะถูกต้องคุณไม่สามารถพยายามปรับปรุงแบบจำลองของคุณโดยการวาง X ลงบนทั้งสองด้าน
gung - Reinstate Monica

4

มีสององค์ประกอบในตัวอย่างของ @ Peter ซึ่งอาจเป็นประโยชน์ในการคลี่คลาย:

(1) โมเดลข้อมูลจำเพาะผิดพลาด รุ่นต่างๆ

yi=β0+β1xi+εi(1)

&

wi=γ0+γ1zi+ζi(2)

ที่ &zi=wi=yixiทั้งคู่ไม่เป็นความจริง หากคุณแสดงอีกครั้งในแง่ของการตอบสนองของผู้อื่นพวกเขาจะกลายเป็นไม่เชิงเส้นในพารามิเตอร์ที่มีข้อผิดพลาด heteroskedasticzi=xi

wi=β0zi2+β1+εizi2(1)

yi=(γ0xi+γ1xi+ζixi)2(2)

ถ้าสมมุติให้เป็นตัวแปรสุ่มแบบเกาส์ซึ่งเป็นอิสระจากX แสดงว่าเป็นกรณีพิเศษของรุ่น 1 ซึ่งβ 1 = 0และคุณไม่ควรใช้รุ่น 2 แต่ถ้าWถือว่าเป็นสุ่มแบบเกาส์ ตัวแปรอิสระของZคุณไม่ควรใช้โมเดล 1 การตั้งค่าใด ๆ สำหรับโมเดลหนึ่งแทนที่จะเป็นอีกโมเดลนั้นต้องมาจากทฤษฎีที่สำคัญหรือความเหมาะสมของข้อมูลYXβ1=0WZ

(2) การเปลี่ยนแปลงของการตอบสนอง หากคุณรู้ว่า & Xเป็นตัวแปรสุ่มแบบเกาส์อิสระทำไมความสัมพันธ์ระหว่างW & Zยังคงทำให้คุณประหลาดใจหรือคุณจะเรียกมันว่าปลอม ความคาดหวังตามเงื่อนไขของWสามารถประมาณด้วยวิธีเดลต้า:YXWZW

EYx=EYzβ0+VarY8β03/2z

มันย่อมเป็นหน้าที่ของZz

ติดตามผ่านตัวอย่าง ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่

yxwzwzzw

Aldrich (2005), "สหสัมพันธ์แท้และเกเรใน Pearson และเทศกาลคริสต์มาส", วิทยาศาสตร์สถิติ , 10 , 4ให้มุมมองทางประวัติศาสตร์ที่น่าสนใจในประเด็นเหล่านี้


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.