การเลือกจำนวนขององค์ประกอบหลักที่กระจัดกระจายเพื่อรวมไว้ในการถดถอย


9

ไม่มีใครมีประสบการณ์กับวิธีการเลือกจำนวนขององค์ประกอบหลักที่กระจัดกระจายเพื่อรวมไว้ในแบบจำลองการถดถอยหรือไม่?


ฉันไม่เคยมีประสบการณ์แบบนั้นมาก่อน แต่ฉันคิดว่าการตรวจสอบไขว้จะเป็นวิธีการที่ดีอย่างหนึ่ง (เช่นเคย)
อะมีบา

คำตอบ:


4

ในขณะที่ฉันไม่มีความเข้าใจอย่างถ่องแท้เกี่ยวกับคำถามของคุณ แต่ฉันพบบทความวิจัยบางเรื่องซึ่งอาจเป็นที่สนใจของคุณ นั่นคือแน่นอนถ้าผมเข้าใจอย่างถูกต้องว่าคุณกำลังพูดคุยเกี่ยวกับPCA เบาบาง , ถดถอยองค์ประกอบหลักและหัวข้อที่เกี่ยวข้อง ในกรณีนี้นี่คือเอกสาร:


1
ฉันไม่รู้เกี่ยวกับข้อมูลอ้างอิงทั้งหมดเหล่านี้ พวกเขาดีมาก - ขอบคุณ
Frank Harrell

@ FrankHarrell: คุณยินดีมาก! ดีใจที่ฉันสามารถช่วย
Aleksandr Blekh

1

ผลการตรวจสอบความถูกต้องไขว้ถูกใช้เพื่อกำหนดจำนวนมิติที่เหมาะสมที่สุดสำหรับพื้นที่ LSI มิติน้อยเกินไปไม่ได้ใช้ประโยชน์จากพลังการทำนายของข้อมูล ในขณะที่มีหลายมิติมากเกินไป รูปที่ 4 แสดงการกระจายของข้อผิดพลาดเฉลี่ยสำหรับรุ่นที่มีขนาด LSI แตกต่างกัน โมเดลที่มีช่องว่าง LSI สี่มิติให้ทั้งจำนวนข้อผิดพลาดเฉลี่ยน้อยที่สุดและจำนวนข้อผิดพลาดเฉลี่ยน้อยที่สุดดังนั้นโมเดลสุดท้ายจึงถูกสร้างโดยใช้พื้นที่ LSI สี่มิติ

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

ฉันสามารถโพสต์สำเนาได้หากคุณไม่ได้เป็นสมาชิกของ ieee

นี่คือจากกระดาษที่ฉันเขียนในระดับปริญญาตรี ฉันมีปัญหาที่ฉันต้องตัดสินใจว่าจะใช้มิติข้อมูลจำนวนเท่าใด (Latent Semantic Indexing คล้ายกับ PCA) เพื่อใช้ในโมเดลการถดถอยโลจิสติกของฉัน สิ่งที่ฉันทำคือเลือกตัวชี้วัด (เช่นอัตราความผิดพลาดเมื่อใช้ความน่าจะเป็นที่ตั้งค่าสถานะเป็น. 5) และดูการกระจายตัวของอัตราความผิดพลาดนี้สำหรับรุ่นต่างๆที่ผ่านการฝึกอบรมในมิติที่แตกต่างกัน ฉันเลือกรุ่นที่มีอัตราความผิดพลาดต่ำที่สุด คุณสามารถใช้เมตริกอื่น ๆ เช่นพื้นที่ใต้เส้นโค้ง ROC

คุณสามารถใช้บางอย่างเช่นการถดถอยแบบขั้นตอนเพื่อเลือกจำนวนมิติสำหรับคุณ การถดถอยแบบไหนที่คุณ preforming โดยเฉพาะ?

คุณหมายถึงอะไรโดย sparse btw?


PC ที่กระจัดกระจายเป็นตัวอย่างเช่น L1 (lasso) -Palized PCA ใน PCA ธรรมดาเรามักจะสามารถป้อนคำตามลำดับของการเปลี่ยนแปลงที่อธิบาย ด้วยสิ่งที่กระจัดกระจาย PCA ค่อนข้างเอาแน่เอานอนไม่ได้ดังนั้นการเลือกอาจยากกว่า
Frank Harrell

คำถามนั้นเกี่ยวกับองค์ประกอบหลักที่กระจัดกระจายและคำตอบนี้ (ดีเท่าที่เป็น) ไม่ได้ตอบทั้งหมดดังนั้น -1
อะมีบา

การถดถอยแบบขั้นตอนที่เลือกส่วนประกอบตามการเชื่อมโยงกับจะส่งผลให้เกิดการ overfitting เว้นแต่ฟังก์ชันการลงโทษพิเศษจะรวมอยู่ Y
Frank Harrell

@ FrankHarrell ที่อาจเกิดขึ้นได้ แต่มีแนวโน้มที่จะเกิดขึ้นน้อยลงหากคุณใช้ AIC แทน R-squared
Andrew Cassidy

@ amoeba ฉันสับสน ... ไม่ฉันไม่ได้พูดถึง "sparse" ส่วนหนึ่งของความคิดเห็นหลัก แต่คุณได้ทำข้อเสนอแนะเดียวกันเพื่อใช้การตรวจสอบข้ามในความคิดเห็น?
Andrew Cassidy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.