เส้นตรงในแนวทแยงในส่วนที่เหลือเทียบกับพล็อตค่าติดตั้งสำหรับการถดถอยหลายครั้ง


11

ฉันกำลังสังเกตรูปแบบแปลก ๆ ที่เหลืออยู่สำหรับข้อมูลของฉัน: ป้อนคำอธิบายรูปภาพที่นี่

[แก้ไข] นี่คือพล็อตการถดถอยบางส่วนสำหรับตัวแปรสองตัว:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] เพิ่มแผนการของ PP http://i.imgur.com/pCKFA.png

การกระจายดูเหมือนจะทำได้ดี (ดูด้านล่าง) แต่ฉันไม่มีเงื่อนงำที่เส้นตรงนี้อาจมาจาก ความคิดใด ๆ ป้อนคำอธิบายรูปภาพที่นี่

[อัพเดท 31.07]

มันกลับกลายเป็นว่าคุณพูดถูกฉันมีหลายกรณีที่จำนวนทวีตซ้ำเป็น 0 อย่างแน่นอนและ 15 รายนี้ส่งผลให้มีรูปแบบที่เหลือแปลก ๆ

ส่วนที่เหลือดูดีขึ้นมากในขณะนี้: http://i.imgur.com/XGas9.png

ฉันได้รวมการถดถอยบางส่วนเข้ากับเส้นเหลือง http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


คุณสามารถเพิ่มบรรทัดที่ติดตั้งลงบนข้อมูลต้นฉบับได้หรือไม่?
MånsT

นอกจากนี้คำบรรยายของตัวเลขยังบอกด้วยว่า "ชุมชน: อะนิเมะ" และ "ชุมชน: โหราศาสตร์" ซึ่งดูเหมือนจะบ่งบอกว่าแผนการเหล่านี้มาจากชุดข้อมูลที่แตกต่างกัน ...
MånsT

ฉันจำได้ว่าเห็นรูปแบบประเภทนี้ในส่วนที่เหลือของฉันเมื่อตัวแปรตามของฉันมีการจัดหมวดหมู่หรือ 'ไม่ต่อเนื่องเพียงพอ'
King

ฉันได้เพิ่มพล็อต PP ที่เหมาะสมและพล็อตบางส่วนของสอง IV
plotti

คำตอบ:


23

ดูเหมือนว่าในบางช่วงย่อยตัวแปรตามของคุณเป็นค่าคงที่หรือขึ้นอยู่กับตัวทำนายเชิงเส้น มามีตัวแปรที่เกี่ยวข้องกันสองตัวคือ X และ Y (ขึ้นอยู่กับ Y) Scatterplot อยู่ทางซ้าย

ป้อนคำอธิบายรูปภาพที่นี่

กลับมาเป็นตัวอย่างในความเป็นไปได้แรก ("คงที่") บันทึกค่า Y ทั้งหมดจากต่ำสุดถึง -0.5 เป็นค่าเดียว -1 (ดูภาพที่อยู่ตรงกลาง) ถอยหลัง Y บน X และกระจายพล็อตส่วนที่เหลือนั่นคือหมุนรูปภาพกลางเพื่อให้บรรทัดการทำนายเป็นแนวนอนในขณะนี้ มันคล้ายกับภาพของคุณหรือไม่


6
นั่นคือสถิติทางนิติวิทยาศาสตร์ที่ดีที่สุด! +1 ที่ยิ่งใหญ่
Michael R. Chernick

มันกลับกลายเป็นว่าคุณพูดถูกฉันมีหลายกรณีที่จำนวนทวีตซ้ำเป็น 0 อย่างแน่นอนและ 15 รายนี้ส่งผลให้มีรูปแบบที่เหลือแปลก ๆ i.imgur.com/XGas9.png
plotti

4

ไม่น่าแปลกใจที่คุณไม่เห็นรูปแบบในฮิสโตแกรมรูปแบบแปลก ๆ มีช่วงของฮิสโตแกรมค่อนข้างน้อยและแสดงถึงจุดข้อมูลเพียงไม่กี่จุดในแต่ละถัง คุณจำเป็นต้องค้นหาว่าจุดใดเป็นจุดข้อมูลเหล่านั้นและดูที่จุดนั้น คุณสามารถใช้ค่าที่คาดการณ์และส่วนที่เหลือเพื่อค้นหาได้ง่ายพอ เมื่อคุณพบค่าเริ่มตรวจสอบว่าทำไมค่าเหล่านั้นอาจจะพิเศษ

ต้องบอกว่ารูปแบบเฉพาะนี้มีความพิเศษเพราะมันยาว หากคุณดูพล็อตส่วนที่เหลือของคุณอย่างละเอียดและพล็อตควอไทล์ของคุณคุณจะเห็นมันซ้ำ แต่มันเป็นลำดับที่เล็กกว่า บางทีมันอาจเป็นแค่ความผิดปกติ หรือบางทีมันอาจเป็นรูปแบบที่ซ้ำ แต่คุณจะต้องค้นหาว่ามันอยู่ที่ไหนในข้อมูลดิบและตรวจสอบเพื่อที่จะมีความหวังในการทำความเข้าใจกับมัน

เพื่อให้ความช่วยเหลือแก่คุณพล็อตต่อเนื่องของควอไทล์แนะนำให้คุณมีเศษซากที่เหมือนกัน เป็นไปได้ว่าอาจเป็นข้อผิดพลาดในการเขียนโค้ด ฉันสามารถสร้างสิ่งที่คล้ายกันใน R กับ ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

สังเกตจุดแบนราบสองจุดในบรรทัด อย่างไรก็ตามดูเหมือนว่าจะซับซ้อนกว่านั้นเนื่องจากมีความหมายว่าเศษซากที่เหมือนกันกำลังเข้าสู่ช่วงของการทำนาย


3

Rดูเหมือนว่าคุณกำลังใช้ ถ้าเป็นเช่นนั้นทราบว่าคุณสามารถระบุจุดบน scatterplot ใช้? ระบุ ฉันคิดว่ามีหลายสิ่งที่เกิดขึ้นที่นี่ ก่อนอื่นคุณมีจุดที่มีอิทธิพลมากในพล็อตของLN_RT_vol_in ~ LN_AT_vol_in(ที่เน้นอยู่) ที่ประมาณ (.2, 1.5) นี่น่าจะเป็นค่ามาตรฐานที่ประมาณ -3.7 ผลกระทบของจุดนั้นจะทำให้เส้นการถดถอยราบเรียบแนวนอนมากกว่าเส้นที่สูงขึ้นอย่างรวดเร็วซึ่งคุณจะได้รับ ผลกระทบของสิ่งนี้คือสิ่งที่เหลืออยู่ของคุณจะถูกหมุนทวนเข็มนาฬิกาเทียบกับตำแหน่งที่พวกมันจะอยู่ในresidual ~ predictedพล็อต (อย่างน้อยเมื่อคิดในแง่ของโควาเรียต

อย่างไรก็ตามสิ่งที่เหลืออยู่อย่างชัดเจนที่คุณเห็นจะยังคงอยู่ที่นั่นเพราะมันมีอยู่ในที่ใดก็ตามในคลาวด์ 3 มิติของข้อมูลต้นฉบับของคุณ พวกเขาอาจจะหายากในทั้งสองแปลงแปลง คุณสามารถใช้ฟังก์ชัน ident () เพื่อช่วยและคุณยังสามารถใช้แพ็คเกจrglเพื่อสร้างแผนการกระจายแบบไดนามิก 3 มิติที่คุณสามารถหมุนได้อย่างอิสระด้วยเมาส์ของคุณ อย่างไรก็ตามโปรดทราบว่าค่าคงที่เส้นตรงทั้งหมดต่ำกว่า 0 ตามค่าที่คาดการณ์ไว้และมีค่าต่ำกว่า 0 ค่าเหลือ (กล่าวคือพวกมันอยู่ต่ำกว่าเส้นถดถอยสมพอดี); ที่ให้คำแนะนำที่ดีแก่การมอง ดูอีกครั้งที่พล็อตของคุณLN_RT_vol_in ~ LN_AT_vol_inฉันคิดว่าฉันเห็นพวกเขา มีกลุ่มของจุดที่ค่อนข้างเป็นเส้นตรงวิ่งไปตามแนวทแยงมุมและทางซ้ายจากประมาณ (-.01, -1.00) ที่ขอบล่างของคลาวด์ของจุดในภูมิภาคนั้น ฉันสงสัยว่าเป็นประเด็นที่น่าสงสัย

กล่าวอีกนัยหนึ่งว่าที่เหลือมีลักษณะเช่นนั้นเพราะมันเป็นอย่างนั้นอยู่ในพื้นที่ข้อมูลแล้ว โดยพื้นฐานแล้วนี่คือสิ่งที่ @ttnphns แนะนำ แต่ฉันไม่คิดว่ามันคงที่ในมิติดั้งเดิมใด ๆ - มันคงที่ในมิติที่เป็นมุมกับแกนดั้งเดิมของคุณ ฉันเห็นด้วยกับ @MichaelChernick เพิ่มเติมว่าความตรงที่เห็นได้ชัดในพล็อตที่เหลือนั้นอาจไม่เป็นอันตราย แต่ข้อมูลของคุณนั้นไม่ปกติมากนัก อย่างไรก็ตามมันค่อนข้างปกติและดูเหมือนว่าคุณมีข้อมูลที่เหมาะสมดังนั้น CLT อาจครอบคลุมคุณ แต่คุณอาจต้องการบูตในกรณีนี้ ในที่สุดฉันจะกังวลว่า 'ค่าผิดปกติ' กำลังผลักดันผลลัพธ์ของคุณ แข็งแกร่งวิธีการอาจจะสมควรได้รับ


1
ประโยคนี้ของคุณit's a constant in a dimension at an angle to your original axesสามารถเปรียบเทียบกับฉันis exactly linearly dependent on the predictor(s)ได้หรือคุณหมายถึงบางสิ่งที่แตกต่าง
ttnphns

@ttnphns ฉันพลาดคำตอบส่วนหนึ่งของคุณเมื่อฉันอ่านมันเลย ฉันเห็น "ค่าคงที่" และเห็นคะแนนในพล็อตของคุณและนั่นคือสิ่งที่ฉันเอาไป ใช่ "มันเป็นค่าคงที่ในมิติ ... " มีความหมายเหมือนกันเชิงตรรกะ w / "ขึ้นอยู่กับว่าเป็นเชิงเส้น ... " ตอนนี้ฉันรู้แล้วว่าประเด็นหลักของฉันส่วนใหญ่เหมือนกับของคุณ (+1) ถึงแม้ว่าฉันคิดว่าประเด็นอื่น ๆ ของฉัน (ซึ่งเป็นข้อมูลที่น่าจะเป็นผู้กระทำผิดกลยุทธ์ R แนวทางที่แข็งแกร่ง ฯลฯ ) ยังคงมีส่วนร่วมในการอภิปราย
gung - Reinstate Monica

แน่นอนว่าคำตอบของคุณมีส่วนช่วยฉันมาก
ttnphns

1

ฉันไม่จำเป็นต้องบอกว่าฮิสโตแกรมนั้นโอเค การซ้อนภาพที่เหมาะสมที่สุดตามปกติบนฮิสโตแกรมนั้นอาจเป็นการหลอกลวงและฮิสโทแกรมของคุณอาจไวต่อตัวเลือกความกว้างของถังขยะ พล็อตความน่าจะเป็นปกติดูเหมือนจะบ่งบอกว่ามีการเบี่ยงเบนจากปกติและดูฮิสโตแกรมที่สายตาของฉันดูเหมือนจะเบ้เล็กน้อย (ความถี่ที่สูงขึ้นในถังขยะ [0, + 0.5] เมื่อเปรียบเทียบกับ [-0.5,0]) และ kurtosis รุนแรง (มีความถี่มากเกินไปในช่วง [-4, -3.5] และ [2.5, 3])

เกี่ยวกับรูปแบบที่คุณเห็นมันอาจมาจากการเลือกสำรวจผ่าน scatterplot ดูเหมือนว่าหากคุณตามล่าคุณจะพบสองหรือสามบรรทัดขึ้นไปเกือบจะขนานกับเส้นที่คุณเลือก ฉันคิดว่าคุณกำลังอ่านเรื่องนี้มากเกินไป แต่ความไม่เป็นปรกตินั้นเป็นข้อกังวลที่แท้จริง คุณมีค่าผิดปกติที่ใหญ่มากขนาดหนึ่งซึ่งมีค่าเหลืออยู่เกือบ -4 ส่วนที่เหลือเหล่านี้มาจากกำลังสองน้อยที่สุดหรือไม่? ฉันยอมรับว่ามันอาจจะเป็นความสว่างที่จะมองไปที่เส้นที่พอดีกับพล็อตกระจายของข้อมูล


ฉันได้เพิ่มพล็อตบางส่วนของทั้งสอง IV เพื่อให้ความกระจ่างเกี่ยวกับเรื่องนี้มากขึ้น
ล็อตติ

1
ฉันต้องการที่จะเห็นสิ่งพื้นฐานที่สุดคือเส้นที่พอดีซึ่งวิ่งผ่านพล็อตกระจายของข้อมูล
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.