องค์ประกอบความแปรปรวนต่ำใน PCA พวกเขาเป็นเพียงแค่เสียงรบกวนหรือไม่ มีวิธีทดสอบหรือไม่


18

ฉันกำลังพยายามตัดสินใจว่าจะรักษาส่วนประกอบของ PCA หรือไม่ มี gazillion ของเกณฑ์ขึ้นอยู่กับขนาดของค่าเฉพาะที่อธิบายและเปรียบเทียบเช่นที่นี่หรือที่นี่

อย่างไรก็ตามในใบสมัครของฉันฉันรู้ว่า eigenvalue ขนาดเล็ก (est) จะมีขนาดเล็กเมื่อเทียบกับ eigenvalue ขนาดใหญ่ (st) และเกณฑ์ตามขนาดจะปฏิเสธคนที่มีขนาดเล็ก นี่ไม่ใช่สิ่งที่ฉันต้องการ สิ่งที่ฉันสนใจ: มีวิธีการใดที่รู้จักกันซึ่งคำนึงถึงองค์ประกอบที่สอดคล้องกันจริงของค่าลักษณะเฉพาะขนาดเล็กในแง่: มันเป็นเสียง "เพียง" จริง ๆ ตามนัยในตำราทั้งหมดหรือมีบางสิ่งที่มีศักยภาพ เหลือดอกเบี้ย ถ้าเป็นเสียงรบกวนให้เอาออกหรือเก็บไว้โดยไม่คำนึงถึงขนาดของค่าลักษณะเฉพาะ

มีการสุ่มหรือการทดสอบการกระจายสำหรับส่วนประกอบใน PCA ที่ฉันหาไม่พบหรือไม่? หรือใครรู้เหตุผลที่จะเป็นความคิดที่โง่?

ปรับปรุง

ฮิสโทแกรม (สีเขียว) และการประมาณค่าปกติ (สีน้ำเงิน) ของส่วนประกอบในสองกรณีการใช้งาน: ครั้งหนึ่งอาจเป็นเสียงจริง, ครั้งหนึ่งอาจไม่ใช่เสียง "แค่" (ใช่, ค่ามีขนาดเล็ก แต่อาจไม่สุ่ม) ค่าเอกพจน์ที่ใหญ่ที่สุดคือ ~ 160 ในทั้งสองกรณีค่าที่เล็กที่สุดนั่นคือค่าเอกพจน์นี้คือ 0.0xx - เล็กเกินไปสำหรับวิธีการตัดค่าใด ๆ

สิ่งที่ฉันกำลังมองหาคือวิธีที่จะทำให้เป็นระเบียบนี้ ...

อาจเป็นเสียง "เพียงแค่" จริงๆ อาจไม่ใช่เสียงรบกวน แต่อาจมีบิตที่น่าสนใจ


2
การทดสอบจำนวนมากที่คุณอ้างถึงมีคุณสมบัติตรงตามที่คุณต้องการ: พวกเขาพยายามแยกแยะ "สัญญาณรบกวน" จาก "สัญญาณ"
whuber

2
ฉันเพิ่งได้รับความสนใจในคำถามที่คล้ายกัน แต่ในสถานการณ์ที่เฉพาะเจาะจงเมื่อคุณมีการวัดหลายครั้งสำหรับแต่ละจุดข้อมูล ดูการเลือกจำนวนขององค์ประกอบ PCA เมื่อหลายตัวอย่างสำหรับแต่ละจุดข้อมูลที่มีอยู่ อาจจะใช้กับกรณีของคุณเช่นกัน?
อะมีบาพูดว่า Reinstate Monica

การใช้การทดสอบแบบกระจายบนพีซีเพื่อตัดสินใจว่าเสียงแบบสุ่มของพวกเขาเป็นแนวคิดที่น่าสนใจมาก (ที่ฉันไม่เคยเห็นมาก่อน); มีการทำสิ่งที่คล้ายกันใน ICA ซึ่งจะค้นหาส่วนประกอบที่ไม่ใช่แบบเกาส์ที่มากที่สุดโดยเฉพาะ ทำ PCA แล้วละทิ้งส่วนประกอบที่มี "เกาส์เซียนเกินไป" มีรสชาติของ ICA และอาจใช้งานได้จริง!
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


20

วิธีหนึ่งในการทดสอบการสุ่มขององค์ประกอบหลักขนาดเล็ก (PC) คือการปฏิบัติต่อมันเหมือนเป็นสัญญาณแทนที่จะเป็นเสียงรบกวน: พยายามที่จะทำนายตัวแปรอื่น ๆ ที่น่าสนใจด้วย นี้เป็นหลักหลักถดถอยส่วนประกอบ (PCR)

R2MSE

  • แบบจำลองทางวิศวกรรมเคมีที่ใช้พีซี 1, 3, 4, 6, 7 และ 8 จาก 9 ทั้งหมด( Smith & Campbell, 1980 )
  • แบบจำลองมรสุมที่ใช้พีซี 8, 2 และ 10 (เรียงตามลำดับความสำคัญ) จากทั้งหมด 10 ( Kung & Sharif, 1980 )
  • แบบจำลองทางเศรษฐกิจโดยใช้พีซี 4 และ 5 จาก 6 (Hill, Fomby, & Johnson, 1977)

พีซีในตัวอย่างด้านบนมีการกำหนดหมายเลขตามขนาดค่านิยมของค่าที่กำหนดไว้ Jolliffe (1982)อธิบายถึงรูปแบบคลาวด์ซึ่งองค์ประกอบสุดท้ายมีส่วนมากที่สุด เขาสรุป:

ตัวอย่างข้างต้นแสดงให้เห็นว่าไม่จำเป็นต้องค้นหาข้อมูลที่คลุมเครือหรือแปลกประหลาดเพื่อให้องค์ประกอบหลักสองสามชิ้นสุดท้ายมีความสำคัญในการถดถอยองค์ประกอบหลัก แต่ดูเหมือนว่าตัวอย่างดังกล่าวอาจใช้กันทั่วไปในทางปฏิบัติ ฮิลล์และคณะ (1977) ให้การอภิปรายอย่างละเอียดและมีประโยชน์ของกลยุทธ์สำหรับการเลือกองค์ประกอบหลักที่ควรฝังไว้ตลอดไปความคิดของการเลือกขึ้นอยู่กับขนาดของความแปรปรวน น่าเสียดายที่เรื่องนี้ดูเหมือนจะไม่เกิดขึ้นและอาจเป็นความคิดที่แพร่หลายมากขึ้นกว่าเมื่อ 20 ปีก่อน

SS

(พี-1)Y

X

ฉันเป็นหนี้คำตอบนี้สำหรับ @Scortchi ซึ่งแก้ไขความเข้าใจผิดของฉันเกี่ยวกับการเลือกพีซีใน PCRด้วยความเห็นที่เป็นประโยชน์มากซึ่งรวมถึง: " Jolliffe (2010)ทบทวนวิธีการเลือกพีซี" เอกสารอ้างอิงนี้อาจเป็นสถานที่ที่ดีในการค้นหาแนวคิดเพิ่มเติม

อ้างอิง

- Gunst, RF, & Mason, RL (1977) การประมาณค่าแบบเอนเอียงในการถดถอย: การประเมินโดยใช้ข้อผิดพลาดกำลังสองเฉลี่ย วารสารสมาคมอเมริกันสถิติ 72 (359), 616–628
- Hadi, AS, & Ling, RF (1998) หมายเหตุบางข้อควรระวังในการใช้การถดถอยส่วนประกอบหลัก นักสถิติชาวอเมริกัน 52 (1), 15–19 แปลจากhttp://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf
- Hawkins, DM (1973) ในการตรวจสอบการถดถอยทางเลือกโดยการวิเคราะห์องค์ประกอบหลัก สถิติประยุกต์, 22 (3), 275–286
- Hill, RC, Fomby, TB, & Johnson, SR (1977) บรรทัดฐานการเลือกชิ้นส่วนสำหรับการถดถอยส่วนประกอบหลักการสื่อสารในสถิติ - ทฤษฎีและวิธีการ, 6 (4), 309–334
- Hotelling, H. (1957) ความสัมพันธ์ของวิธีการทางสถิติหลายตัวแปรที่ใหม่กว่าเพื่อการวิเคราะห์ปัจจัย วารสารจิตวิทยาสถิติอังกฤษ, 10 (2), 69–79
- แจ็คสัน, อี (1991) คู่มือการใช้งาน A ถึงองค์ประกอบหลัก นิวยอร์ก: ไวลีย์
- Jolliffe, IT (1982) หมายเหตุเกี่ยวกับการใช้องค์ประกอบหลักในการถดถอย สถิติประยุกต์, 31 (3), 300–303 แปลจากhttp://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf
- Jolliffe, IT (2010)การวิเคราะห์องค์ประกอบหลัก (ฉบับที่ 2) สปริงเกอร์
- Kung, EC และ Sharif, TA (1980) การพยากรณ์การถดถอยของการเริ่มต้นของฤดูมรสุมฤดูร้อนของอินเดียที่มีสภาพอากาศตอนบนมาก่อน วารสารอุตุนิยมวิทยาประยุกต์, 19 (4), 370–380 แปลจากhttp://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf
- Lott, WF (1973) ชุดที่ดีที่สุดของข้อ จำกัด องค์ประกอบหลักในการถดถอยอย่างน้อยกำลังสอง การสื่อสารในสถิติ - ทฤษฎีและวิธีการ, 2 (5), 449–464
- Mason, RL, & Gunst, RF (1985) การเลือกส่วนประกอบหลักในการถดถอย สถิติและความน่าจะเป็นจดหมาย, 3 (6), 299–301
- Massy, ​​WF (1965) การถดถอยองค์ประกอบหลักในการวิจัยเชิงสถิติเชิงสำรวจ วารสารสมาคมสถิติอเมริกัน 60 (309), 234–256 แปลจากhttp://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf
- Smith, G. , & Campbell, F. (1980) คำติชมของวิธีการถดถอยแบบสัน วารสารสมาคมสถิติอเมริกัน, 75 (369), 74–81 แปลจากhttps://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf


4
... และไม่มีการรับประกันใด ๆ เลยว่าเอฟเฟกต์ที่คุณต้องการในการแก้ปัญหาของคุณนั้นใหญ่กว่าเอฟเฟกต์อื่น ๆ ซึ่งเป็นเพียงเสียงรบกวน ปัญหาที่อยู่ในมือ ฉันเห็นข้อมูลที่ความแปรปรวน 95% เป็นเสียงรบกวนเนื่องจากผลกระทบทางกายภาพบางอย่าง ...
cbeleites รองรับ Monica

3
การตรวจสอบที่ดีมาก แต่ (ขออภัยที่จะต้องพูดซ้ำอีก) ก้าวไปสู่ Hadi & Ling การเลือกพีซีเพื่อรักษาความถดถอยบนพื้นฐานของความสัมพันธ์ที่แข็งแกร่งกับการตอบสนองเป็นอันตรายเช่นเดียวกับการเลือกตัวพยากรณ์ดั้งเดิมตามความสัมพันธ์ที่แข็งแกร่งกับการตอบสนอง การตรวจสอบไขว้เป็นสิ่งจำเป็น & การหดตัวดีกว่า โดยส่วนตัวแล้วฉันต้องการใช้ PCA อย่างรอบคอบพร้อมกับความรู้ในเนื้อหาสาระเพื่อเป็นแนวทางในการลดข้อมูลของผู้ทำนายตาบอดต่อการตอบสนองเช่นการใช้พีซีกลุ่มแรกของกลุ่มผู้ทำนายที่วัดสิ่งเดียวกันหรือกำหนดโดยการจัดกลุ่มตัวแปร
Scortchi - Reinstate Monica

2
+1 (นานมาแล้ว) กับคำตอบนี้ แต่หลังจากที่ตรวจสอบหัวข้อนี้ตอนนี้ฉันต้องบอกว่าคำตอบนี้ไม่ตอบคำถามเดิมเกือบทั้งหมด: OP ถามว่าใครสามารถใช้การทดสอบแบบกระจายบนส่วนประกอบเพื่อตัดสิน การสุ่มของพวกเขา ดูความคิดเห็นล่าสุดของฉันไปที่ OP
อะมีบาพูดว่า Reinstate Monica

2

การเพิ่มคำตอบของ @Nick Stauner เมื่อคุณจัดการกับการจัดกลุ่มย่อยของพื้นที่ทำงาน PCA มักจะเป็นวิธีที่ไม่ดี

เมื่อใช้ PCA คนส่วนใหญ่กังวลเกี่ยวกับค่าลักษณะเฉพาะที่มีค่าสูงสุดซึ่งแสดงถึงทิศทางที่ข้อมูลถูก 'ยืดออก' มากที่สุด หากข้อมูลของคุณประกอบด้วยซับสเปซขนาดเล็ก PCA จะเพิกเฉยต่อพวกเขาอย่างจริงจังเนื่องจากไม่ได้มีส่วนทำให้เกิดความแปรปรวนของข้อมูลโดยรวม

ดังนั้นไอเก็ตขนาดเล็กจึงไม่ใช่เสียงที่บริสุทธิ์เสมอไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.