แน่นอนว่าไม่มีการรับประกันว่าส่วนประกอบหลักด้านบน (พีซี) มีพลังการทำนายได้มากกว่าตัวแปรปรวนต่ำ
ตัวอย่างโลกแห่งความจริงสามารถพบได้ที่นี่ไม่ใช่กรณีและมันเป็นเรื่องง่ายที่จะสร้างตัวอย่างเทียมที่เช่นพีซีที่เล็กที่สุดเท่านั้นที่มีความสัมพันธ์กับเลยy
หัวข้อนี้มีการพูดคุยกันมากมายในฟอรัมของเราและในกรณีที่ไม่มีโชค (อย่างโชคร้าย) ของกระทู้ที่ชัดเจนฉันสามารถให้ลิงค์หลายอย่างที่ให้ชีวิตจริงและตัวอย่างเทียม:
และหัวข้อเดียวกัน แต่ในบริบทของการจำแนก:
แต่ในทางปฏิบัติพีซีด้านบนมักจะมักจะมีอำนาจการทำนายมากขึ้นกว่าคนที่ต่ำแปรปรวนและนอกจากนี้ยังใช้เครื่องคอมพิวเตอร์ชั้นนำเท่านั้นที่สามารถให้ผลผลิตอำนาจการพยากรณ์ดีกว่าการใช้เครื่องคอมพิวเตอร์ทั้งหมด
ในสถานการณ์ที่มีตัวทำนายจำนวนมากและจุดข้อมูลค่อนข้างน้อยn (เช่นเมื่อp ≈ npnp≈nหรือแม้แต่ ) การถดถอยปกติจะเหมาะสมและจำเป็นต้องทำให้เป็นมาตรฐาน การวิเคราะห์องค์ประกอบหลัก (PCR) สามารถมองได้ว่าเป็นวิธีหนึ่งในการทำให้การถดถอยเป็นปกติและมีแนวโน้มที่จะให้ผลลัพธ์ที่เหนือกว่า ยิ่งไปกว่านั้นมันมีความสัมพันธ์อย่างใกล้ชิดกับการถดถอยของสันเขาซึ่งเป็นวิธีมาตรฐานในการทำให้เป็นมาตรฐานการหดตัว ในขณะที่การใช้สันเขาถดถอยเป็นความคิดที่ดีกว่า PCR มักจะทำงานได้ดีพอสมควร ดูเหตุใดการหดตัวจึงทำงาน สำหรับการสนทนาทั่วไปเกี่ยวกับการแลกเปลี่ยนความเอนเอียงอคติและการหดตัวจะเป็นประโยชน์อย่างไรp>n
ในวิธีหนึ่งสามารถพูดได้ว่าทั้งการถดถอยสันและ PCR สมมติว่าข้อมูลส่วนใหญ่เกี่ยวกับนั้นมีอยู่ในพีซีขนาดใหญ่ของXและสมมติฐานนี้มักรับประกันyX
ดูคำตอบในภายหลังโดย @cbeleites (+1) สำหรับการอภิปรายเกี่ยวกับว่าทำไมสมมติฐานนี้มักจะเป็นประกัน (และยังนี้กระทู้ใหม่: คือการลดมิติมักจะมีประโยชน์สำหรับการจำแนกประเภท?สำหรับความคิดเห็นเพิ่มเติมบางส่วน)
Hastie และคณะ ในองค์ประกอบของการเรียนรู้ทางสถิติ (ส่วน 3.4.1) แสดงความคิดเห็นเกี่ยวกับเรื่องนี้ในบริบทของการถดถอยของสันเขา:
[T] เขาเป็นเอกพจน์ค่าน้อย [... ] สอดคล้องกับทิศทางในพื้นที่คอลัมน์ของมีความแปรปรวนขนาดเล็กและการถดถอยสันริดทิศทางของเหล่านี้มากที่สุด [... ] การถดถอยของสันป้องกันความแปรปรวนสูงที่อาจเกิดขึ้นจากการไล่ระดับสีโดยประมาณในทิศทางสั้น ๆ ข้อสันนิษฐานโดยนัยก็คือการตอบสนองจะมีแนวโน้มที่จะแตกต่างกันมากที่สุดในทิศทางของความแปรปรวนสูงของอินพุต สิ่งนี้มักจะเป็นข้อสันนิษฐานที่สมเหตุสมผลเนื่องจากตัวทำนายมักจะถูกเลือกสำหรับการศึกษาเพราะมันแตกต่างกันไปตามตัวแปรการตอบสนองX
ดูคำตอบของฉันในหัวข้อต่อไปนี้เพื่อดูรายละเอียด:
บรรทัดล่าง
สำหรับปัญหาที่มีมิติสูงการประมวลผลล่วงหน้าด้วย PCA (หมายถึงการลดขนาดและรักษาเฉพาะพีซียอดนิยม) สามารถมองเห็นได้ว่าเป็นวิธีหนึ่งในการทำให้เป็นมาตรฐานและมักจะปรับปรุงผลลัพธ์ของการวิเคราะห์ที่ตามมา แต่ไม่มีการรับประกันว่าสิ่งนี้จะได้ผลและมักจะมีวิธีการทำให้เป็นมาตรฐานที่ดีขึ้น