การเลือกรุ่น PCA โดยใช้ AIC (หรือ BIC)


12

ฉันต้องการใช้ Akaike Information Criterion (AIC) เพื่อเลือกจำนวนปัจจัยที่เหมาะสมในการแยก PCA ปัญหาเดียวคือฉันไม่แน่ใจว่าจะกำหนดจำนวนพารามิเตอร์ได้อย่างไร

พิจารณาเมทริกซ์ที่หมายถึงจำนวนของตัวแปรและจำนวนของการสังเกตเช่นว่าขวา) ตั้งแต่เมทริกซ์ความแปรปรวนเป็นสมมาตรแล้วประมาณการความน่าจะเป็นสูงสุดของสามารถกำหนดจำนวนของพารามิเตอร์ใน AIC เท่ากับ{2}X N T X N ( 0 , Σ ) Σ N ( N + 1 )T×NXNTXN(0,Σ)ΣN(N+1)2

อีกวิธีหนึ่งใน PCA คุณสามารถแยกeigenvectorและค่าลักษณะเฉพาะของแรกเรียกพวกเขาและแล้วคำนวณ โดยที่เป็นความแปรปรวนที่เหลือโดยเฉลี่ย โดยการนับของฉันถ้าคุณมีปัจจัยแล้วคุณจะพารามิเตอร์ใน ,พารามิเตอร์ในและพารามิเตอร์ใน{2}Σ β Λ Σ = β Λ β ' F + ฉันσ 2 R σ 2 RΛ N β 1 σ 2 RfΣβfΛf

Σ=βfΛfβf+Iσr2
σr2ffΛfNfβf1σr2

วิธีนี้ถูกต้องหรือไม่ ดูเหมือนว่ามันจะนำไปสู่พารามิเตอร์มากกว่าวิธีโอกาสสูงสุดเป็นจำนวนของปัจจัยที่เพิ่มขึ้นไปยังไม่มีข้อความN


1
Nfเกินจำนวนพารามิเตอร์: มีความซ้ำซ้อนเนื่องจากความจริงที่ว่า eigenvector เป็น orthogonal ร่วมกัน
whuber

10
eigenvector แรกมีพารามิเตอร์ฟรีเงื่อนไข orthogonality จำกัด eigenvector ที่สองให้กับ orthogonal hyperspace เป็นครั้งแรกที่ต้องการเพียงพารามิเตอร์แต่ละไอเจนิคที่ต่อเนื่องต้องการพารามิเตอร์น้อยกว่าหนึ่งพารามิเตอร์ก่อนหน้านี้ ที่ขีด จำกัด ของ eigenvector คุณละทิ้ง (เพราะตอนนี้มันเป็นศูนย์), ให้ =พารามิเตอร์ใน toto,สอดคล้องกับพารามิเตอร์ตัวแรกของคุณ นับ. NN1Nσr2N+(N1)++1N(N+1)/2
whuber

1
@ A.Donda สถานการณ์ที่คลุมเครือ: สมมติว่าคุณได้ระบุหลายหลากของแต่ละค่าลักษณะเฉพาะและว่าหลายหลากเหล่านี้คือกับอนุญาตให้ PCA ค้นหาการเปลี่ยนแปลงมุมฉากเราจะได้พารามิเตอร์เพื่อตรวจสอบ แต่ความคงตัวของแต่ละ eigenspace เป็นกลุ่มฉากในมิติแต่ละรายการจะกำจัดโดยปล่อยให้พารามิเตอร์สำหรับการหมุน ค่าลักษณะเฉพาะจัดหาพารามิเตอร์ที่เหลือ n1,n2,,ns,N.N(N1)/2ni.ni(ni1)/2
N(N1)/2i=1sni(ni1)/2
s
whuber

1
(ฉันควรเพิ่มว่าการประยุกต์ใช้การนับนี้สำหรับคำถามที่น่าสงสัยที่: PCA ใช้ทุกพารามิเตอร์แม้ว่ามันอาจจะเกิดขึ้นพบว่าค่าลักษณะเฉพาะของหลายหลากที่สูงขึ้นบางส่วนและในเกือบทุกชุดจริงใด ๆ . มันจะไม่ได้รับทวีคูณมากกว่าต่อไป)1N(N1)/21
whuber

1
@whuber ขอบคุณ! คำถามของฉันถูกกระตุ้นโดยสถานการณ์ที่ฉันประเมินเมทริกซ์ความแปรปรวนร่วมภายใต้ข้อ จำกัด ของค่าลักษณะเฉพาะ
A. Donda

คำตอบ:


5

ผลงานของ Minka ( ตัวเลือกมิติอัตโนมัติสำหรับ PCA , 2000) และ Tipping & Bishop ( การวิเคราะห์องค์ประกอบหลักที่น่าจะเป็น ) เกี่ยวกับมุมมองที่น่าจะเป็นของ PCA อาจให้กรอบงานที่คุณสนใจงานของ Minka likelihoodโดยที่คือมิติข้อมูลแฝงของชุดข้อมูลของคุณโดยใช้ Laplace Approve ตามที่ระบุไว้อย่างชัดเจน: " ความเรียบง่ายของวิธีการของ Laplace คือการประมาณ BIC "k Dlogp(D|k)kD

เห็นได้ชัดว่านี่เป็นมุมมองแบบเบย์ของปัญหาของคุณที่ไม่ได้ขึ้นอยู่กับเกณฑ์ทฤษฎีข้อมูล (KL-divergence) ที่ AIC ใช้

เกี่ยวกับคำถาม "การกำหนดหมายเลข 'ของพารามิเตอร์ดั้งเดิมฉันคิดว่าความคิดเห็นของ @ whuber นั้นมีสัญชาตญาณที่ถูกต้อง


ฉันเล่นกับ AIC กับ AICc กับ matrices สุ่มที่มีขนาดต่างกัน AICc ดูเหมือนจะทำงานได้ดีขึ้น ข้อมูลอ้างอิงเหล่านั้นดูดี แต่ฉันยังไม่มีโอกาสย่อย
จอห์น

6

การเลือกจำนวนองค์ประกอบที่ "เหมาะสม" ใน PCA สามารถดำเนินการได้อย่างสวยงามด้วยการวิเคราะห์แบบขนานของฮอร์น (PA) เอกสารแสดงให้เห็นว่าเกณฑ์นี้มีประสิทธิภาพสูงกว่ากฎของหัวแม่มือเช่นเกณฑ์ข้อศอกหรือกฎของไกเซอร์อย่างสม่ำเสมอ แพ็คเกจ R "paran" มีการใช้งาน PA ที่ต้องใช้การคลิกเมาส์เพียงไม่กี่ครั้ง

แน่นอนว่าคุณมีองค์ประกอบจำนวนเท่าใดขึ้นอยู่กับเป้าหมายของการลดข้อมูล หากคุณเพียงต้องการรักษาความแปรปรวนที่ "มีความหมาย" PA จะให้การลดที่เหมาะสมที่สุด หากคุณต้องการลดการสูญเสียข้อมูลของข้อมูลต้นฉบับให้น้อยที่สุดคุณควรเก็บส่วนประกอบไว้ให้เพียงพอเพื่อครอบคลุมความแปรปรวนที่อธิบายได้ 95% สิ่งนี้จะเก็บส่วนประกอบได้มากกว่า PA อย่างเห็นได้ชัดแม้ว่าจะมีชุดข้อมูลมิติสูงการลดขนาดจะยังคงมีความสำคัญ

หมายเหตุสุดท้ายเกี่ยวกับ PCA ว่าเป็นปัญหา "การเลือกรุ่น" ฉันไม่เห็นด้วยกับคำตอบของปีเตอร์ มีเอกสารจำนวนมากที่ปรับรูปแบบ PCA เป็นปัญหาการถดถอยเช่น Sparse PCA, Sparse Probabilistic PCA หรือ ScotLASS ในโซลูชัน PCA แบบอิงโมเดลการโหลดเป็นพารามิเตอร์ที่สามารถตั้งค่าเป็น 0 โดยมีเงื่อนไขการลงโทษที่เหมาะสม สันนิษฐานว่าในบริบทนี้มันจะเป็นไปได้ในการคำนวณสถิติประเภท AIC หรือ BIC สำหรับรูปแบบภายใต้การพิจารณา

วิธีการนี้อาจรวมถึงรูปแบบในทางทฤษฎีเช่นพีซีสองเครื่องไม่ จำกัด (การโหลดทั้งหมดไม่เป็นศูนย์) เมื่อเทียบกับรุ่นที่ PC1 ไม่ จำกัด และ PC2 มีการโหลดทั้งหมดเป็น 0 ซึ่งจะเทียบเท่ากับการอนุมานว่า PC2 ซ้ำซ้อน ในภาพรวม

ข้อมูลอ้างอิง (PA) :

  • Dinno, A. (2012) paran: การทดสอบส่วนประกอบ / ปัจจัยหลักของฮอร์น แพ็คเกจ R เวอร์ชั่น 1.5.1 http://CRAN.R-project.org/package=paran
  • Horn JL 1965 เหตุผลและการทดสอบจำนวนปัจจัยในการวิเคราะห์ปัจจัย Psychometrika 30: 179–185
  • Hubbard, R. & Allen SJ (1987) การเปรียบเทียบเชิงประจักษ์ของวิธีทางเลือกสำหรับการสกัดส่วนประกอบหลัก วารสารวิจัยธุรกิจ, 15 , 173-190
  • Zwick, WR & Velicer, WF 1986. เปรียบเทียบกฎห้าข้อเพื่อกำหนดจำนวนส่วนประกอบที่ต้องเก็บ ประกาศทางจิตวิทยา 99 : 432–442

ยินดีต้อนรับสู่เว็บไซต์ @BenM จากคำตอบของคุณฉันคิดว่าการมีคุณรอบ ๆ ตัวคุณเป็นเรื่องที่ดี คำถามหนึ่งคุณทราบว่าตำแหน่งเหล่านี้ได้รับการยอมรับเป็นอย่างดีคุณสามารถเขียนรายชื่อตัวแทนที่ผู้อ่านที่สนใจสามารถหารายละเอียดเพิ่มเติมได้หรือไม่?
gung - Reinstate Monica

-1

AIC ถูกออกแบบมาสำหรับการเลือกรุ่น นี่ไม่ใช่ปัญหาการเลือกรุ่นจริง ๆ และบางทีคุณน่าจะเลือกวิธีอื่นดีกว่า อีกทางเลือกหนึ่งคือการระบุเปอร์เซ็นต์ความแปรปรวนทั้งหมดที่อธิบาย (เช่นบอกว่า 75%) และหยุดเมื่อเปอร์เซ็นต์ถึง 75% ถ้ามันเคยทำ


1
ฉันกำลังเลือกระหว่างรุ่นที่แตกต่างกันตามจำนวนปัจจัย (รุ่นที่มี 1 ปัจจัยเทียบกับรุ่นที่มี 2 ฯลฯ ) ปัญหาที่มีร้อยละของความแปรปรวนส่วนใหญ่คือมันไม่สนใจค่าใช้จ่ายในการประมาณค่า eigenvector เพิ่มเติมโดยเฉพาะอย่างยิ่งเมื่อจำนวนการสังเกตมีค่าน้อยกว่าจำนวนของตัวแปร AIC เหมาะสมกับแนวทาง PCA ที่น่าจะเป็น
จอห์น

3
Michael คุณช่วยอธิบายได้อย่างแม่นยำว่าทำไมนี่ไม่ใช่ปัญหาการเลือกรูปแบบ? ดูเหมือนว่า John ได้กำหนดสูตรไว้อย่างชัดเจนว่าเป็นหนึ่งเดียว
whuber

@whuber แบบจำลองทางสถิติคืออะไร สำหรับฉันแล้วการตัดสินใจจำนวนส่วนประกอบหลักที่ใช้เพื่อแสดง x% ของความแปรปรวนในตัวแปร Y ไม่ได้เลือกรูปแบบ ฉันไม่คิดว่าส่วนประกอบหลักเป็นพารามิเตอร์ของโมเดล
Michael R. Chernick

2
พิจารณา 2D เวกเตอร์วาด IID จากSigma) เราสามารถ parameterizeในแง่ของความแปรปรวนสองและความสัมพันธ์\ซ้อนอยู่ในรุ่นนี้จะเป็นรุ่น 1 ตอนนี้เรายังสามารถกำหนดค่าพารามิเตอร์ในแง่ของมุมขององค์ประกอบหลักตัวแรกและค่าลักษณะเฉพาะขององค์ประกอบเหล่านั้น ซ้อนอยู่ในนี้จะเป็นรูปแบบ 0 ทั้งสองมุมมองทดสอบความสัมพันธ์ที่สมบูรณ์แบบ (collinearity); พวกเขาใช้การกำหนดพารามิเตอร์ที่แตกต่างกัน หากคุณอนุญาตเป็นรุ่นแรกคุณต้องอนุญาตเป็นรุ่นที่สอง N ( 0 , Σ ) Σ σ 2 ฉัน ρ | ρ | = 1 θ λ 1λ 2 λ 2 = 0XiN(0,Σ)Σσi2ρ|ρ|=1θλ1λ2λ2=0
whuber

-3

AIC ไม่เหมาะสมที่นี่ คุณไม่ได้เลือกระหว่างรุ่นที่มีพารามิเตอร์ต่างกัน - ส่วนประกอบหลักไม่ใช่พารามิเตอร์

มีหลายวิธีในการตัดสินใจเกี่ยวกับจำนวนของปัจจัยหรือส่วนประกอบจากการวิเคราะห์ปัจจัยหรือการวิเคราะห์องค์ประกอบหลัก - การทดสอบหินกรวด, eigenvalue> 1 ฯลฯ แต่การทดสอบจริงเป็นสิ่งสำคัญ: ปัจจัยอะไรที่ทำให้รู้สึก ? ดูปัจจัยพิจารณาน้ำหนักพิจารณาว่าสิ่งใดเหมาะสมที่สุดกับข้อมูลของคุณ

เช่นเดียวกับสิ่งอื่น ๆ ในสถิตินี่ไม่ใช่สิ่งที่สามารถเป็นแบบอัตโนมัติได้อย่างง่ายดาย


4
หาก "ส่วนประกอบหลักไม่ใช่พารามิเตอร์" ดังนั้นFortiori ที่ไม่มีค่าสัมประสิทธิ์ของสามารถเป็นพารามิเตอร์ได้เช่นกัน (เพราะถูกกำหนดโดยส่วนประกอบหลักทั้งหมดอย่างสมบูรณ์) นี่คือการทำให้งงงวย ΣΣΣ
whuber

1
@whuber พารามิเตอร์ของเมทริกซ์ความแปรปรวนร่วมอาจ แต่ไม่ใช่พารามิเตอร์โมเดล ฉันเข้าข้างปีเตอร์กับสิ่งนี้
Michael R. Chernick

3
Peter คุณสร้างความแตกต่างอะไรระหว่าง "พารามิเตอร์โมเดล" และ "พารามิเตอร์"? ฉันไม่ได้ตระหนักถึงสิ่งเหล่านี้ดังนั้นฉันขอขอบคุณที่เรียนรู้เกี่ยวกับสิ่งนี้ หากจุดประสงค์ของคุณคือหาคำอธิบายที่น่าพิศวงเกี่ยวกับความแปรปรวนร่วมหลายตัวแปรพวกเขาไม่ได้เป็นพารามิเตอร์ "model" หรือไม่?
whuber

3
ปีเตอร์งานชิ้นนี้ได้ทำภายใต้ชื่อของ "โมเดลระดับต่ำ" แอปพลิเคชันรวมถึงการวิเคราะห์สเปกตรัมของอนุกรมเวลาการวางนัยทั่วไปเชิงพื้นที่ของมันและเส้นโค้ง ในกรณีอนุกรมเวลาเช่นลำดับของการสังเกตสามารถสรุปได้โดยองค์ประกอบอนุกรมฟูริเยร์โดยใช้เครื่องจักรและแนวคิดเดียวกันกับ PCA: หนึ่งยังคง eigenvectors (เช่นคลื่นไซน์และโคไซน์) สอดคล้องกับ ค่าลักษณะเฉพาะที่ใหญ่ที่สุด (นั่นคือแอมพลิจูดหรือพลังของคลื่น) « nnmn
whuber

1
ขอบคุณสำหรับข้อมูล. อนุกรมเวลาเป็นส่วนหนึ่งของสถิติที่ฉันรู้เพียงเล็กน้อย
Peter Flom - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.