สมมติว่าฉันต้องการถอยหลังเทียบกับมาตรฐานแต่ฉันต้องการสารละลายที่กระจัดกระจาย หลังจากการถดถอยทำไมไม่ทิ้งค่าสัมประสิทธิ์ที่มีขนาดน้อยที่สุด?
สำหรับบันทึกฉันเคยได้ยินและมักจะใช้วิธีการ LARS และ LASSO ฉันแค่อยากรู้ว่าทำไมวิธีการด้านบนใช้ไม่ได้
สมมติว่าฉันต้องการถอยหลังเทียบกับมาตรฐานแต่ฉันต้องการสารละลายที่กระจัดกระจาย หลังจากการถดถอยทำไมไม่ทิ้งค่าสัมประสิทธิ์ที่มีขนาดน้อยที่สุด?
สำหรับบันทึกฉันเคยได้ยินและมักจะใช้วิธีการ LARS และ LASSO ฉันแค่อยากรู้ว่าทำไมวิธีการด้านบนใช้ไม่ได้
คำตอบ:
จะไม่มีปัญหาหากเป็น orthonormal อย่างไรก็ตามความเป็นไปได้ของความสัมพันธ์ที่แข็งแกร่งระหว่างตัวแปรอธิบายควรให้เราหยุดชั่วคราว
เมื่อคุณพิจารณาการตีความทางเรขาคณิตของการถดถอยกำลังสองน้อยสุดตัวอย่างของคู่ต่อสู้นั้นกลับมาได้ง่าย เอาไปบอกค่าสัมประสิทธิ์การกระจายเกือบปกติแล้วX 2นั้นเกือบขนานกัน Let X 3พ.ศ. ฉากกับระนาบที่สร้างขึ้นโดยX 1และX 2 เราสามารถจินตนาการYที่ส่วนใหญ่อยู่ในทิศทางX 3แต่ถูกแทนที่ด้วยจำนวนเล็กน้อยจากจุดกำเนิดในระนาบX 1 , X 2 เพราะX 1และเกือบขนานกันส่วนประกอบในระนาบนั้นอาจมีค่าสัมประสิทธิ์จำนวนมากทำให้เราต้องวาง X 3ซึ่งจะเป็นความผิดพลาดครั้งใหญ่
รูปทรงเรขาคณิตสามารถสร้างขึ้นใหม่ด้วยการจำลองเช่นดำเนินการโดยการR
คำนวณเหล่านี้:
set.seed(17)
x1 <- rnorm(100) # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1 # Almost parallel to x1
x3 <- rnorm(100) # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005 # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e
summary(lm(y ~ x1 + x2 + x3)) # The full model
summary(lm(y ~ x1 + x2)) # The reduced ("sparse") model
ความแปรปรวนของนั้นใกล้เคียงกับ1ที่เราสามารถตรวจสอบค่าสัมประสิทธิ์ของความพอดีเป็นพร็อกซี่สำหรับค่าสัมประสิทธิ์มาตรฐาน ในแบบจำลองเต็มรูปแบบค่าสัมประสิทธิ์เท่ากับ 0.99, -0.99 และ 0.1 (สำคัญมากทั้งหมด) โดยมีขนาดเล็กที่สุด (ไกล) ที่เกี่ยวข้องกับX 3โดยการออกแบบ ข้อผิดพลาดมาตรฐานที่เหลือคือ 0.00498 ในรูปแบบที่ลดลง ("กระจัดกระจาย") ข้อผิดพลาดมาตรฐานที่เหลือที่ 0.09803 นั้นใหญ่กว่า20เท่า: เพิ่มขึ้นอย่างมากสะท้อนการสูญเสียข้อมูลเกือบทั้งหมดเกี่ยวกับYจากการลดตัวแปรด้วยค่าสัมประสิทธิ์มาตรฐานที่เล็กที่สุด R 2ได้ลดลงจาก0.9975เกือบเป็นศูนย์ ค่าสัมประสิทธิ์ไม่มีความหมายที่ดีกว่าระดับ
เมทริกซ์ scatterplot เปิดเผยทั้งหมด:
ความสัมพันธ์ที่แข็งแกร่งระหว่างและyชัดเจนจากการจัดตำแหน่งเชิงเส้นของจุดในมุมขวาล่าง ความสัมพันธ์ที่ไม่ดีระหว่างx 1กับyและx 2และyนั้นชัดเจนจากการกระจายแบบวงกลมในแผงอื่น ๆ อย่างไรก็ตามค่าสัมประสิทธิ์มาตรฐานที่เล็กที่สุดเป็นx 3มากกว่าที่จะx 1หรือx 2
ดูเหมือนกับฉันว่าถ้าค่าสัมประสิทธิ์โดยประมาณอยู่ใกล้ 0 และข้อมูลจะถูกทำให้เป็นมาตรฐานว่าการทำนายจะไม่ได้รับบาดเจ็บโดยการละทิ้งตัวแปร แน่นอนว่าถ้าสัมประสิทธิ์ไม่มีนัยสำคัญทางสถิติก็ดูเหมือนว่าจะไม่มีปัญหา แต่สิ่งนี้จะต้องทำอย่างระมัดระวัง IV อาจมีความสัมพันธ์และการลบออกอาจทำให้สัมประสิทธิ์ของผู้อื่นเปลี่ยนได้ สิ่งนี้จะเป็นอันตรายมากขึ้นถ้าคุณเริ่มการเปลี่ยนแปลงหลายตัวแปรด้วยวิธีนี้ ขั้นตอนการเลือกเซ็ตย่อยได้รับการออกแบบมาเพื่อหลีกเลี่ยงปัญหาดังกล่าวและใช้เกณฑ์ที่เหมาะสมสำหรับการรวมและไม่รวมตัวแปร ถ้าคุณถาม Frank Harrell เขาจะผิดขั้นตอน คุณพูดถึง LARS และ LASSO ซึ่งเป็นสองวิธีที่ทันสมัยมาก แต่ยังมีคนอื่นอีกมากมายรวมถึงเกณฑ์ข้อมูลที่เปิดโปงการแปรผันของตัวแปรมากเกินไป
หากคุณลองขั้นตอนการเลือกชุดย่อยที่ได้รับการศึกษาอย่างรอบคอบด้วยวรรณกรรมจำนวนมากเกี่ยวกับเรื่องนี้คุณอาจจะพบว่ามันจะนำไปสู่การแก้ปัญหาที่ reoves ตัวแปรที่มีค่าสัมประสิทธิ์ขนาดเล็กโดยเฉพาะอย่างยิ่งหากพวกเขาล้มเหลวในการทดสอบ