ฉันสามารถลบตัวแปรทำนายหนึ่งในสองตัวที่มีความสัมพันธ์เชิงเส้นสูงได้หรือไม่?


18

ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันฉันมีตัวแปรหลายตัวที่มีความสัมพันธ์สูง ( และρ = 0.989สำหรับตัวแปร 2 คู่ที่อยู่ในแบบจำลองของฉัน)ρ=0.978ρ=0.989

เหตุผลบางส่วนของตัวแปรที่มีความสัมพันธ์อย่างมากเป็นเพราะหนึ่งในตัวแปรที่ใช้ในการคำนวณตัวแปรอื่น

ตัวอย่าง:

และ E = V DB=V/3000E=VD

และ Eมี ρ = 0.989BEρ=0.989

เป็นไปได้ไหมที่ฉันจะ "ทิ้ง" หนึ่งในตัวแปร

คำตอบ:


26

ทั้ง B และ E นั้นได้มาจาก V. B และ E นั้นไม่ชัดเจนว่าเป็นตัวแปร "อิสระ" อย่างแท้จริงจากกันและกัน ตัวแปรพื้นฐานที่สำคัญจริงๆที่นี่คือ V. คุณน่าจะไม่สนใจทั้ง B และ E ในกรณีนี้และเก็บ V ไว้เท่านั้น

ในสถานการณ์ทั่วไปมากขึ้นเมื่อคุณมีตัวแปรอิสระสองตัวที่มีความสัมพันธ์สูงมากคุณควรลบตัวแปรตัวใดตัวหนึ่งออกไปเพราะคุณพบปัญหาความไม่ลงรอยกันหลายค่าและค่าสัมประสิทธิ์การถดถอยของตัวแบบการถดถอยที่เกี่ยวข้อง นอกจากนี้ในภาษาอังกฤษแบบธรรมดาหากมีตัวแปรสองตัวที่มีความสัมพันธ์กันสูงพวกเขาจะให้ข้อมูลที่เหมือนกันกับตัวแบบการถดถอยของคุณ แต่เมื่อรวมทั้งสองอย่างเข้าด้วยกันคุณกำลังทำให้โมเดลอ่อนแอลง คุณไม่ได้เพิ่มข้อมูลที่เพิ่มขึ้น แต่คุณกำลังสร้างแบบจำลองของคุณด้วยเสียงรบกวน ไม่ใช่สิ่งที่ดี

วิธีหนึ่งที่คุณสามารถเก็บตัวแปรที่มีความสัมพันธ์สูงภายในแบบจำลองของคุณคือใช้แทนการถดถอยแบบจำลองการวิเคราะห์ส่วนประกอบหลัก (PCA) PCA รุ่นต่างๆถูกสร้างขึ้นเพื่อกำจัดความหลากหลายทางชีวภาพ การแลกเปลี่ยนคือคุณท้ายด้วยสองหรือสามองค์ประกอบหลักในรูปแบบของคุณที่มักจะเป็นเพียงการสร้างทางคณิตศาสตร์และไม่สามารถเข้าใจได้ในแง่ตรรกะ PCA มักถูกละทิ้งเป็นวิธีเมื่อใดก็ตามที่คุณต้องนำเสนอผลลัพธ์ของคุณไปยังผู้ชมภายนอกเช่นการจัดการผู้ควบคุมกฎและอื่น ๆ โมเดล PCA สร้างกล่องดำที่เป็นความลับที่ท้าทายมากที่จะอธิบาย


1
(+1) สำหรับคำอธิบายของ PCA
steffen

1
ขอบคุณนี่เป็นคำอธิบายที่ดีมาก ฉันเคยได้ยินและอ่านเกี่ยวกับ PCA แล้ว แต่นี่เป็นโครงการสุดท้ายสำหรับหลักสูตรบัณฑิตศึกษา "การถดถอย" ที่ฉันเรียนและอาจารย์แค่ต้องการให้เราใช้ LR โดยไม่คำนึงถึงฉันขอขอบคุณคำอธิบาย PCA และอาจจะใช้มันเพื่อความสนุก
TheCloudlessSky

3
ในบางสถานการณ์คำแนะนำในคำตอบนี้จะไม่ทำงาน ตัวอย่างเช่นถ้าความสัมพันธ์ที่แท้จริงคือ Y = B + E = V / 3000 + V * D จากนั้นตัวแปรที่เกิดขึ้นจะมีความสัมพันธ์สูงเนื่องจากช่วงของ V และ D ในชุดข้อมูล - ซึ่งเป็นอุบัติเหตุที่บริสุทธิ์ (หรืออาจจะเป็น) - ในขณะที่การทิ้งหนึ่งใน B หรือ E จะส่งผลให้รูปแบบที่ไม่ถูกต้อง กล่าวโดยย่อว่า "การพึ่งพา" ไม่ใช่เหตุผลที่ถูกต้องสำหรับการลบตัวแปรบางตัวออกจากแบบจำลอง รวมถึงตัวแปรที่ต้องพึ่งพาอย่างยิ่งไม่จำเป็นต้อง "ลดลง" โมเดล PCA ไม่ใช่ทางออกเสมอไป
whuber

@whuber ฉันไม่แน่ใจว่าฉันเห็นด้วยกับความคิดเห็นของคุณ ฉันคิดว่า "การพึ่งพา" โดยทั่วไปเป็นเหตุผลที่ใช้ได้จริงในการลบตัวแปรบางตัวออกจากตัวแบบการถดถอย มิฉะนั้นค่าสัมประสิทธิ์การถดถอยของคุณจะไม่น่าเชื่อถือ ในตัวอย่างที่คุณใช้ซึ่งอาจเป็นปัญหาสำหรับการถดถอยวิธีแก้ปัญหาง่ายๆอย่างหนึ่งคือการใช้นิพจน์ทั้งหมด (V / 3000 + V * D) เป็นตัวแปรเดียว
Sympa

3
โดยทั่วไปหากโมเดลคือ beta1 * (V / 3000) + beta2 * (V D) คุณไม่สามารถทำได้: กล่าวอีกนัยหนึ่งข้อเสนอแนะของคุณจะถือว่าคุณรู้ถึงข้อ จำกัด เชิงเส้นในหมู่ค่าสัมประสิทธิ์ มันเป็นความจริงที่สัมประสิทธิ์การถดถอยสามารถมี * VIFs ที่ค่อนข้างใหญ่หรือข้อผิดพลาดมาตรฐาน แต่ด้วยข้อมูลที่เพียงพอ - หรือจากการสังเกตที่เลือกมาอย่างดี - การประมาณการจะเชื่อถือได้เพียงพอ ดังนั้นเราจึงเห็นมีปัญหาและแน่นอนผมเห็นด้วยกับวิธีการแก้ปัญหาของคุณเป็นหนึ่งในหลายทางเลือกที่จะต้องพิจารณา ฉันไม่เห็นด้วยว่ามันเป็นเรื่องทั่วไปและจำเป็นตามที่คุณต้องการ
whuber

7

นี่คือคำตอบจากมุมมองของผู้เรียนรู้กลไกแม้ว่าฉันกลัวว่าฉันจะถูกนักสถิติที่แท้จริงตีมัน

เป็นไปได้ไหมที่ฉันจะ "ทิ้ง" หนึ่งในตัวแปร

คำถามคือประเภทของโมเดลที่คุณต้องการใช้ในการทำนาย มันขึ้นอยู่กับ ...

  • แบบจำลองกับตัวทำนายที่สัมพันธ์กันสามารถ เช่นแม้ว่า NaiveBayes ในทางทฤษฎีจะมีปัญหากับตัวแปรที่มีความสัมพันธ์ แต่การทดลองแสดงให้เห็นว่ามันยังสามารถทำงานได้ดี
  • ตัวแบบดำเนินการกับตัวแปรตัวทำนายอย่างไร เช่นความแตกต่างระหว่าง B และ V จะถูกทำให้เป็นมาตรฐานในการประมาณความหนาแน่นของความน่าจะเป็นอาจจะเหมือนกันสำหรับ E และ V ขึ้นอยู่กับความแปรปรวนของ D (ดังที่รู้สึกสบายใจแล้ว)
  • ชุดค่าผสมการใช้งานใดของ B และ E (หนึ่ง, ไม่มี, ทั้งคู่) ให้ผลลัพธ์ที่ดีที่สุด, ประเมินโดย crossvalidation ที่มีสติ + การทดสอบในชุดโฮลด์เอ้าท์?

บางครั้งเราเรียนรู้กลไกของเครื่องแม้กระทั่งทำการเพิ่มประสิทธิภาพทางพันธุกรรมเพื่อค้นหาชุดเลขคณิตที่ดีที่สุดของชุดการทำนาย


7

B คือการแปลงเชิงเส้นของ V. E หมายถึงการมีปฏิสัมพันธ์ระหว่าง V และ D คุณได้พิจารณาระบุรูปแบบที่เป็น Y = Intercept + V + D + V: D หรือไม่ ตามที่ @ euphoria83 แนะนำดูเหมือนว่ามีการเปลี่ยนแปลงเล็กน้อยใน D ดังนั้นจึงอาจไม่สามารถแก้ปัญหาของคุณได้ อย่างไรก็ตามอย่างน้อยก็ควรทำให้การมีส่วนร่วมอย่างอิสระของ V และ D ชัดเจน ตรวจสอบให้แน่ใจว่าได้จัดวางทั้ง V และ D ไว้ที่กึ่งกลางแล้ว


4
+1: คำแนะนำนี้ไม่เพียง แต่เป็นแนวทางที่ดีในการแก้ไขปัญหาเท่านั้น แต่ยังแสดงให้เห็นว่าการทิ้งตัวแปรไม่ได้เป็นแนวทางที่ถูกต้องเสมอ (หรือแม้แต่ดี) ในการแก้ปัญหาความไม่ลงรอยกัน
whuber

0

ถ้า D ไม่ใช่ค่าคงที่ B และ E นั้นจะเป็นตัวแปรที่ต่างกันสองตัวอย่างมีประสิทธิภาพเนื่องจากความแปรปรวนใน D ความสัมพันธ์ที่สูงบ่งบอกว่า D นั้นมีค่าคงที่ในทางปฏิบัติตลอดข้อมูลการฝึกอบรม หากเป็นเช่นนั้นคุณสามารถละทิ้ง B หรือ E


1
Well D เองเป็นอีกสมการที่คำนวณโดยตัวแปรอื่น ๆ :D=n12* * * *ยังไม่มีข้อความ2n2. สิ่งนี้ยังคงใช้หรือไม่?
TheCloudlessSky

หากคุณละทิ้ง B หรือ E และปฏิบัติต่อพวกเขาอย่างเสมอภาคคุณก็ยืนยันว่า V คือสิ่งที่สำคัญจริงๆ หากเป็นกรณีนี้คุณควรรักษา B ในโมเดลไว้ดีกว่าเพราะการตีความนั้นชัดเจน นอกจากนี้หากคุณรักษา E แต่ D จริง ๆ แล้วมีความแปรปรวนที่ จำกัด ความถูกต้องของการตีความผลลัพธ์ของคุณจะยิ่งน่าสงสัย (มากกว่าปกติ) สำหรับค่าที่แตกต่างของ D.
russellpierce
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.