คุณจะรับมือกับการประมาณค่าไม่เสถียรในการถดถอยเชิงเส้นด้วยค่าความหลากหลายหลายค่าได้สูงโดยไม่ต้องทิ้งตัวแปรอย่างไร


13

ความมั่นคงเบต้าในการถดถอยเชิงเส้นที่มีความหลากหลายสูง?

สมมุติว่าในการถดถอยเชิงเส้นตัวแปรและมีความหลากหลายเชิงเส้นสูง (ความสัมพันธ์มีค่าประมาณ 0.9)x 2x1x2

เรามีความกังวลเกี่ยวกับค่าสัมประสิทธิ์ความมั่นคงดังนั้นเราจึงต้องปฏิบัติต่อความหลากหลายเชิงซ้อนβ

วิธีแก้ปัญหาหนังสือเรียนคือการทิ้งหนึ่งในตัวแปร

แต่เราไม่ต้องการสูญเสียข้อมูลที่เป็นประโยชน์เพียงแค่ทิ้งตัวแปร

ข้อเสนอแนะใด ๆ


5
คุณได้ลองใช้รูปแบบการทำให้เป็นมาตรฐาน (เช่นการถดถอยสัน) หรือไม่?
Néstor

คำตอบ:


11

คุณสามารถลองใช้วิธีการถดถอยริดจ์ในกรณีที่เมทริกซ์สหสัมพันธ์ใกล้เคียงกับเอกพจน์ (เช่นตัวแปรที่มีความสัมพันธ์สูง) มันจะช่วยให้คุณประเมินแข็งแกร่งβ

คำถามเดียวก็คือวิธีการเลือก regularization พารามิเตอร์\ไม่ใช่ปัญหาง่ายๆ แต่ฉันแนะนำให้ลองใช้ค่าที่แตกต่างกันλ

หวังว่านี่จะช่วยได้!


2
การตรวจสอบข้ามเป็นสิ่งปกติที่ต้องทำเพื่อเลือก ;-) λ
Néstor

แน่นอน (+1 สำหรับคำตอบและความคิดเห็นของ Nestors) และหากคุณทำการคำนวณใน "รูปแบบบัญญัติ" (โดยใช้การสลายตัว eigen ของคุณสามารถค้นหาเพื่อลดข้อผิดพลาดการตรวจสอบข้ามแบบลาออกหนึ่งครั้ง โดยวิธีการของนิวตันมากอย่างง่าย.λXTXλ
Dikran กระเป๋า

ขอบคุณมาก! บทช่วยสอน / บันทึกย่อเกี่ยวกับวิธีการทำเช่นนั้นรวมถึงการตรวจสอบข้ามใน R หรือไม่?
Luna

ตรวจสอบบทที่ 3 ในหนังสือเล่มนี้: stanford.edu/~hastie/local.ftp/Springer/ESLII_print5.pdf การดำเนินการของการถดถอยของสันจะทำใน R โดยผู้เขียนบางคน (Google เป็นเพื่อนของคุณ!)
Néstor

2
คุณสามารถใช้lm.ridgeรูทีนในแพ็คเกจ MASS หากคุณผ่านช่วงของค่าสำหรับเช่นการโทรคุณจะได้รับสถิติการตรวจสอบความถูกต้องไขว้ทั่วไปและสามารถพล็อตค่ากับ : เพื่อเลือกค่าต่ำสุด λλfoo <- lm.ridge(y~x1+x2,lambda=seq(0,10,by=0.1))fooλplot(foo$GCV~foo$lambda)
jbowman

10

มีวิธีการเฉพาะกิจหนึ่งอย่างที่ฉันเคยใช้มาก่อน ฉันไม่แน่ใจว่าขั้นตอนนี้มีชื่อ แต่มันสมเหตุสมผลหรือไม่

สมมติว่าเป้าหมายของคุณคือให้พอดีกับโมเดล

Yi=β0+β1Xi+β2Zi+εi

โดยที่ตัวทำนายสองตัว - - มีความสัมพันธ์สูง ในขณะที่คุณได้ชี้ให้เห็นการใช้พวกเขาทั้งในรูปแบบเดียวกันสามารถทำสิ่งแปลกที่จะประมาณการค่าสัมประสิทธิ์และ -values อีกทางเลือกหนึ่งคือเพื่อให้พอดีกับรูปแบบ pXi,Zip

Zi=α0+α1Xi+ηi

แล้วที่เหลือจะ uncorrelated กับและสามารถในความรู้สึกบางอย่างที่จะคิดว่าเป็นส่วนหนึ่งของที่ไม่ได้วิทยสัมพันธ์เชิงเส้นกับx_iจากนั้นคุณสามารถดำเนินการให้พอดีกับโมเดลX ฉันZ ฉันX ฉันηiXiZiXi

Yi=θ0+θ1Xi+θ2ηi+νi

ซึ่งจะจับเอฟเฟกต์ทั้งหมดของโมเดลแรก (และแน่นอนจะมีเหมือนกันทุกประการกับโมเดลแรก) แต่ตัวทำนายไม่ได้ collinear อีกต่อไปR2

แก้ไข: OP ได้ขอคำอธิบายว่าทำไมส่วนที่เหลือไม่มีคำจำกัดความมีตัวอย่างสหสัมพันธ์ของศูนย์กับตัวทำนายเมื่อคุณละเว้นการดักเหมือนที่ทำเมื่อรวมการสกัดกั้น นี่นานเกินไปที่จะโพสต์ในความคิดเห็นดังนั้นฉันจึงทำการแก้ไขที่นี่ การได้มานี้ไม่ได้ให้ความกระจ่างเป็นพิเศษ (น่าเสียดายที่ฉันไม่สามารถหาข้อโต้แย้งที่สมเหตุสมผลได้) แต่มันแสดงให้เห็นว่า OP ต้องการอะไร :

เมื่อตัดถูกละไว้ในการถดถอยเชิงเส้นอย่างง่าย ,ดังนั้น2} ความสัมพันธ์ตัวอย่างระหว่างและนั้นเป็นสัดส่วนกับโดยที่แสดงถึงค่าเฉลี่ยตัวอย่างของปริมาณภายใต้แถบ ตอนนี้ฉันจะแสดงสิ่งนี้ไม่จำเป็นต้องเท่ากับศูนย์β^=xiyixi2ei=yixixiyixi2xiei

xe¯x¯e¯
¯

ก่อนอื่นเรามี

xe¯=1n(xiyixi2xiyixi2)=xy¯(1xi2xi2)=0

แต่

x¯e¯=x¯(y¯x¯xy¯x2¯)=x¯y¯x¯2xy¯x2¯

ดังนั้นเพื่อให้และที่จะมีความสัมพันธ์ที่ตัวอย่างของว่า 0 เราต้องจะเป็น0นั่นคือเราต้องการeixix¯e¯0

y¯=x¯xy¯x2¯

ซึ่งไม่ได้ถือโดยทั่วไปสำหรับสองชุดโดยพลการของข้อมูล yx,y


สิ่งนี้ทำให้ฉันนึกถึงแผนการถดถอยบางส่วน
Andy W

3
ฟังดูคล้ายกับการแทนที่ด้วยองค์ประกอบหลัก (X,Z)
whuber

3
สิ่งหนึ่งที่ฉันมีอยู่ในใจก็คือ PCA จะทำให้ง่ายกว่าตัวแปรสองตัว อีกข้อหนึ่งคือปฏิบัติกับและแบบสมมาตรในขณะที่ข้อเสนอของคุณปรากฏขึ้นโดยไม่ตั้งใจเพื่อแยกตัวแปรเหล่านี้ออกหนึ่งตัว อีกแนวคิดหนึ่งคือ PCA มีวิธีการรักษาวินัยเพื่อลดจำนวนของตัวแปร (แม้ว่าเราจะต้องระมัดระวังเกี่ยวกับเรื่องนี้เพราะองค์ประกอบหลักขนาดเล็กอาจมีความสัมพันธ์สูงกับตัวแปรตาม) XZ
whuber

1
สวัสดีมาโครขอบคุณสำหรับการพิสูจน์ที่ยอดเยี่ยม ใช่ตอนนี้ฉันเข้าใจแล้ว เมื่อเราพูดถึงตัวอย่างความสัมพันธ์ระหว่าง x และส่วนที่เหลือก็ต้องใช้คำว่า intercept term เพื่อให้ความสัมพันธ์ตัวอย่างเป็น 0 ในทางกลับกันเมื่อเราพูดถึง orthogonality ระหว่าง x และส่วนที่เหลือมันไม่จำเป็นต้องใช้คำว่า intercept ที่จะรวมสำหรับ orthogonality ที่จะถือ
Luna

1
@ Luna ฉันไม่เห็นด้วยกับการใช้สันเขาถดถอย - นี่เป็นสิ่งที่เกิดขึ้นกับฉันเป็นครั้งแรก (ฉันตอบก่อนที่จะถูกแนะนำ) สิ่งหนึ่งที่ฉันสามารถพูดได้คือการประเมินการถดถอยของสันเขานั้นมีความลำเอียงดังนั้นในบางแง่มุมคุณกำลังประเมินปริมาณ (หด) ที่แตกต่างกันเล็กน้อยเล็กน้อยกว่าที่คุณใช้กับการถดถอยแบบธรรมดาทำให้การตีความสัมประสิทธิ์อาจท้าทาย alludes ถึง) สิ่งที่ฉันได้อธิบายไว้ที่นี่ต้องการเพียงความเข้าใจเกี่ยวกับการถดถอยเชิงเส้นพื้นฐานเท่านั้นและอาจดึงดูดความสนใจได้มากกว่า
มาโคร

4

ฉันชอบคำตอบทั้งสองข้อที่ให้ไว้จนถึงตอนนี้ ขอผมเพิ่มบางอย่าง

ตัวเลือกอื่นคือคุณสามารถรวมตัวแปรได้ สิ่งนี้ทำได้โดยการทำให้มาตรฐานทั้งคู่ (เช่นเปลี่ยนเป็นคะแนน z) หาค่าเฉลี่ยจากนั้นปรับโมเดลของคุณด้วยตัวแปรคอมโพสิตเท่านั้น นี่จะเป็นวิธีการที่ดีเมื่อคุณเชื่อว่าพวกเขาเป็นสองมาตรการที่แตกต่างกันของโครงสร้างพื้นฐานเดียวกัน ในกรณีนี้คุณมีการวัดสองแบบที่ปนเปื้อนด้วยความผิดพลาด มูลค่าที่แท้จริงน่าจะเป็นสำหรับตัวแปรที่คุณต้องการจริงๆความสนใจอยู่ระหว่างพวกเขาจึงเฉลี่ยพวกเขาให้ประมาณการที่แม่นยำยิ่งขึ้น คุณกำหนดมาตรฐานให้อยู่ในระดับเดียวกันก่อนเพื่อให้ปัญหาที่ระบุไม่ทำให้เกิดการปนเปื้อนผลลัพธ์ (เช่นคุณไม่ต้องการเฉลี่ยค่าการวัดอุณหภูมิหลายค่าหากบางคนเป็นฟาเรนไฮต์และบางคนเป็นเซลเซียส) แน่นอนหากพวกเขาอยู่ในระดับเดียวกัน (เช่นการสำรวจความคิดเห็นสาธารณะที่มีความสัมพันธ์สูงหลายรายการ) คุณสามารถข้ามขั้นตอนนั้นได้ หากคุณคิดว่าหนึ่งในตัวแปรของคุณอาจมีความแม่นยำมากกว่าตัวแปรอื่นคุณสามารถทำค่าเฉลี่ยถ่วงน้ำหนัก (อาจใช้ส่วนกลับของข้อผิดพลาดในการวัด)

หากตัวแปรของคุณเป็นเพียงการวัดที่แตกต่างกันของโครงสร้างเดียวกันและมีความสัมพันธ์กันมากพอคุณก็สามารถโยนทิ้งได้โดยไม่ต้องสูญเสียข้อมูลมากนัก เป็นตัวอย่างฉันอยู่ในสถานการณ์จริงครั้งหนึ่งที่ฉันต้องการใช้ covariate เพื่อดูดซับความแปรปรวนข้อผิดพลาดและเพิ่มพลัง แต่ที่ฉันไม่สนใจ covariate นั้น - มันไม่ได้เกิดขึ้นอย่างมีนัยสำคัญ ผมมีหลายตัวเลือกที่มีอยู่และทุกคนมีความสัมพันธ์กับแต่ละอื่น ๆR>โดยทั่วไปฉันเลือกหนึ่งตัวโดยการสุ่มและเลื่อนไปมาและมันก็ใช้ได้ดี ฉันสงสัยว่าฉันจะสูญเสียพลังในการเผาผลาญอิสรภาพพิเศษสององศาถ้าฉันรวมคนอื่นด้วยเช่นกันโดยใช้กลยุทธ์อื่น แน่นอนฉันสามารถรวมพวกมันได้ แต่ทำไมต้องกังวล? r>.98อย่างไรก็ตามสิ่งนี้ขึ้นอยู่อย่างยิ่งกับความจริงที่ว่าตัวแปรของคุณมีความสัมพันธ์กันเพราะเป็นสองรุ่นที่ต่างกันในสิ่งเดียวกัน หากมีเหตุผลที่แตกต่างกันซึ่งสัมพันธ์กันนี่อาจไม่เหมาะสมทั้งหมด

ตามที่อธิบายไว้ฉันขอแนะนำให้คุณคิดเกี่ยวกับสิ่งที่อยู่ข้างหลังตัวแปรที่เกี่ยวข้องของคุณ นั่นคือคุณต้องมีทฤษฎีว่าทำไมพวกเขามีความสัมพันธ์สูงมากในการทำงานที่ดีที่สุดในการเลือกกลยุทธ์ที่จะใช้ นอกเหนือจากการวัดที่แตกต่างกันของตัวแปรแฝงเดียวกันความเป็นไปได้อื่น ๆ ก็คือห่วงโซ่เชิงสาเหตุ (เช่น ) และสถานการณ์ที่ซับซ้อนมากขึ้นซึ่งตัวแปรของคุณเป็นผลมาจากแรงหลายสาเหตุซึ่งบางส่วนเป็น เหมือนกันสำหรับทั้งคู่ บางทีกรณีที่รุนแรงที่สุดคือตัวแปรตัวระงับซึ่ง @whuber อธิบายไว้ในความคิดเห็นของเขาด้านล่าง ตัวอย่างเช่นคำแนะนำของ @ Macro สมมติว่าคุณสนใจเป็นหลักและสงสัยเกี่ยวกับการมีส่วนร่วมเพิ่มเติมของX1X2YXZ หลังจากคิดเป็นผลงานของดังนั้นคิดเกี่ยวกับสาเหตุที่ตัวแปรของคุณมีความสัมพันธ์และสิ่งที่คุณต้องการที่จะรู้ว่าจะช่วยให้คุณตัดสินใจ (เช่นหรือ ) ควรจะถือว่าเป็นและZกุญแจสำคัญคือการใช้ความเข้าใจด้านทฤษฎีเพื่อแจ้งทางเลือกของคุณ Xx1x2XZ

ฉันยอมรับว่าการถดถอยของสันเขานั้นดีกว่าเนื่องจากช่วยให้คุณใช้ตัวแปรที่คุณตั้งใจไว้ในตอนแรกและมีแนวโน้มที่จะให้ผลของเบต้าที่ใกล้เคียงกับค่าที่แท้จริงของพวกเขา (แม้ว่าพวกเขาจะมีอคติ - ดูที่นี่หรือที่นี่สำหรับข้อมูลเพิ่มเติม ) อย่างไรก็ตามฉันคิดว่ายังมีข้อเสียสองประการที่อาจเกิดขึ้น: มันซับซ้อนกว่า (ต้องมีความซับซ้อนทางสถิติมากขึ้น) และแบบจำลองที่เกิดขึ้นนั้นยากต่อการตีความในความคิดของฉัน

ฉันรวบรวมว่าบางทีวิธีการที่ดีที่สุดอาจเป็นแบบจำลองสมการเชิงโครงสร้าง นั่นเป็นเพราะมันจะช่วยให้คุณกำหนดความสัมพันธ์ที่แน่นอนที่คุณเชื่อว่าเป็นการทำงานรวมถึงตัวแปรแฝง อย่างไรก็ตามฉันไม่รู้ว่า SEM ดีพอที่จะพูดอะไรเกี่ยวกับที่นี่นอกเหนือจากพูดถึงความเป็นไปได้ (ฉันยังสงสัยด้วยว่ามันจะเกินกำลังในสถานการณ์ที่คุณอธิบายด้วยเพื่อนร่วมทีมเพียงสองคน)


4
เรื่องจุดแรก: Let เวกเตอร์มีช่วงของค่าและปล่อยให้เวกเตอร์มีค่าขนาดเล็กไม่มีความสมบูรณ์ด้วยเพื่อให้มีความสัมพันธ์อย่างมากกับX_1ชุดอี ในการถดถอยของเทียบกับหรือคุณจะไม่เห็นผลลัพธ์ที่สำคัญหรือสำคัญ ในการถดถอยของกับและคุณจะได้รับมากแบบที่ดีเพราะYดังนั้นหากคุณเลือกหรือ e X 1 X 2 = X 1 + e X 1 Y = e Y X 1 X 2 Y X 1 X 2 Y = X 2 - X 1 X 1 X 1 X 2X1eX1X2=X1+eX1Y=eYX1X2YX1X2Y=X2X1X1X2คุณจะต้องสูญเสียข้อมูลทั้งหมดเกี่ยวกับหลัก ดังนั้น "ความสัมพันธ์สูง" ไม่ได้หมายความว่า "มีข้อมูลที่เทียบเท่ากับ " YYY
whuber

ขอบคุณมาก Gung! ไตรมาสที่ 1 ทำไมวิธีนี้จึงใช้งานได้: "สิ่งนี้ทำโดยการทำให้ทั้งสองมาตรฐาน (เช่นเปลี่ยนเป็นคะแนน z) เฉลี่ยพวกมันแล้วปรับโมเดลของคุณให้มีตัวแปรคอมโพสิตเท่านั้น" ไตรมาสที่ 2 เหตุใดการถดถอยของ Ridge จึงดีกว่า ไตรมาสที่ 3 ทำไม SEM ถึงดีกว่า มีใครช่วยส่องแสงไฟนี้หน่อยได้ไหม? ขอบคุณ!
Luna

สวัสดีลูน่าดีใจที่ได้ช่วย ฉันจะแก้ไขสิ่งนี้อีกครั้งจริง ๆ ; @whuber ถูกต้องมากกว่าที่ฉันเคยรู้ ฉันจะพยายามเพิ่มเติมเพื่อช่วย w / คำถามเพิ่มเติมของคุณ แต่จะใช้เวลามากดังนั้นอาจใช้เวลาสักครู่ เราจะดูว่ามันไปอย่างไร
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.