การเลือกจำนวนส่วนประกอบหลักที่จะเก็บไว้


10

วิธีการหนึ่งที่แนะนำให้ฉันคือดูพล็อตหินกรวดและตรวจสอบ "ข้อศอก" เพื่อกำหนดจำนวนพีซีที่ถูกต้องที่จะใช้ แต่ถ้าพล็อตไม่ชัดเจน R มีการคำนวณเพื่อกำหนดจำนวนหรือไม่?

fit <- princomp(mydata, cor=TRUE)

3
ไม่ใช่ว่าฉันรู้ ก่อนอื่นถ้าคุณอ้างถึง "ค่าลักษณะเฉพาะเหนือ 1 กฎของหัวแม่มือ" หรือที่เรียกว่ากฎของ Kayser คุณอาจจะพบว่าจำนวนของพีซีที่ตอบสนองต่อสิ่งนี้ แม่นยำมากขึ้นที่พล็อตหินกรวดของคุณ ประการที่สองการวิเคราะห์แบบขนานเป็นวิธีที่ดีกว่าในการกำหนดจำนวนขององค์ประกอบ ดูที่psyหรือpsychแพคเกจในโปรแกรม R และSPSS, SAS และ MATLAB สำหรับการกำหนดจำนวนส่วนประกอบและปัจจัย การใช้การวิเคราะห์แบบขนานและการทดสอบ MAP ของ Velicerโดยทั่วไป
chl

คำตอบ:


10

บทความต่อไปนี้: การเก็บรักษาส่วนประกอบในการวิเคราะห์องค์ประกอบหลักพร้อมกับการประยุกต์ใช้ข้อมูล cDNA microarrayโดย Cangelosi และ Goriely ให้ภาพรวมที่ค่อนข้างดีของกฎมาตรฐานของหัวแม่มือในการตรวจสอบจำนวนขององค์ประกอบในการศึกษา (พล็อต Scree สัดส่วนสัดส่วนความแปรปรวนทั้งหมดอธิบายกฎค่าลักษณะเฉพาะเฉลี่ยไดอะแกรมบันทึกค่าคุณลักษณะเฉพาะ ฯลฯ ) ส่วนใหญ่มีความตรงไปตรงมาในการนำไปใช้ใน R

โดยทั่วไปถ้าพล็อตหินกรวดของคุณไม่สามารถสรุปได้อย่างมากคุณเพียงแค่ต้อง "เลือกพิษของคุณ" ไม่มีข้อมูลถูกหรือผิดสำหรับข้อมูลใด ๆ เช่นเดียวกับในความเป็นจริงจำนวนพีซีที่ใช้จริงขึ้นอยู่กับความเข้าใจของปัญหา ชุดข้อมูลเพียงชุดเดียวที่คุณสามารถ "รู้" ได้จริง ๆ คือมิติข้อมูลที่คุณสร้างขึ้นเอง :-) ส่วนประกอบหลักในตอนท้ายของวันให้การสลายตัวที่ดีที่สุดของข้อมูลภายใต้ตัวชี้วัด RSS (ที่เป็นผลพลอยได้คุณจะได้รับแต่ละองค์ประกอบเพื่อเป็นตัวแทนของโหมดหลักของการเปลี่ยนแปลง) และรวมถึงหรือยกเว้นจำนวนองค์ประกอบที่กำหนด กำหนดการรับรู้ของคุณเกี่ยวกับมิติของปัญหาของคุณ

ตามความชอบส่วนตัวฉันชอบแนวทางของ Minka ในการเลือกมิติอัตโนมัติสำหรับ PCAซึ่งขึ้นอยู่กับการตีความความน่าจะเป็นของ PCA แต่หลังจากนั้นคุณจะเข้าสู่เกมที่พยายามสร้างแบบจำลองความน่าจะเป็นของข้อมูลของคุณสำหรับมิติข้อมูลที่กำหนด (ลิงก์มีรหัส Matlab หากคุณต้องการติดตามเหตุผลนี้)

พยายามทำความเข้าใจข้อมูลของคุณให้มากขึ้น เช่น. คุณเชื่อจริง ๆ ว่า 99.99% ของชุดรูปแบบข้อมูลของคุณเป็นเพราะค่าความแปรปรวนร่วมของแบบจำลองของคุณหรือไม่ หากไม่ใช่อาจเป็นไปได้ว่าคุณไม่จำเป็นต้องรวมส่วนข้อมูลที่มีสัดส่วนของความแปรปรวนทั้งหมดเพียงเล็กน้อย คุณคิดว่าในความเป็นจริงส่วนประกอบสะท้อนถึงรูปแบบที่ต่ำกว่าเกณฑ์ของความแตกต่างที่สังเกตเห็นได้หรือไม่ นั่นอาจหมายความว่ามีความเกี่ยวข้องเพียงเล็กน้อยในการรวมองค์ประกอบนั้นเข้ากับการวิเคราะห์ของคุณ

โชคดีและตรวจสอบข้อมูลของคุณอย่างระมัดระวัง (การพล็อตพวกมันทำให้เกิดสิ่งมหัศจรรย์ด้วย)


คุณช่วยชี้ไปที่รหัส MATLAB ฉันไม่สามารถหาได้
mrgloom

ฉันคิดว่าฉันพบมันresearch.microsoft.com/en-us/um/people/minka/papers/pca
mrgloom

Yeap! นั่นคือลิงค์ที่ฉันอ้างถึง
usεr11852

ฉันสงสัยว่าวิธีการของ Minka ถูกนำไปใช้ใน R หรือไม่? สมมติว่าพีซีที่สำคัญที่สุดได้รับการพิจารณาในการศึกษาด้วยวิธีการต่าง ๆ เรารู้ว่าสิ่งเหล่านี้ควรเป็นส่วนสัญญาณของข้อมูล คุณรู้หรือไม่หากมีข้อ จำกัด ในความแปรปรวน% ที่พีซีเหล่านี้อธิบายด้านล่างซึ่งถือว่าเป็น No-Go เพื่อการวิเคราะห์เพิ่มเติม การอ้างอิงใด ๆ จะได้รับการชื่นชมมาก
ปริญญาเอก

6

มีงานต่อมาที่ดีมากในปัญหานี้ในไม่กี่ปีที่ผ่านมาตั้งแต่คำถามนี้ถูกถามและตอบ ฉันขอแนะนำกระดาษต่อไปนี้โดย Gavish และ Donoho: เกณฑ์ที่เหมาะสมที่สุดสำหรับค่าเอกพจน์คือ 4 / sqrt (3)

ผลลัพธ์ของพวกเขานั้นขึ้นอยู่กับการวิเคราะห์แบบอะซิมโทติค (เช่นมีวิธีการแก้ปัญหาที่ดีที่สุดเนื่องจากเมทริกซ์ข้อมูลของคุณมีขนาดใหญ่มาก) แต่พวกเขาแสดงผลลัพธ์เชิงตัวเลขที่น่าประทับใจที่แสดงขั้นตอนที่เหมาะสมที่สุด รุ่น

โดยพื้นฐานแล้วขั้นตอนที่ดีที่สุดจะลดลงเพื่อประมาณเสียงซึ่งถูกเพิ่มเข้าไปในแต่ละองค์ประกอบของเมทริกซ์ จากนี้คุณจะคำนวณเกณฑ์และลบส่วนประกอบหลักที่มีค่าเอกฐานอยู่ต่ำกว่าเกณฑ์ สำหรับเมทริกซ์จตุค่าคงที่สัดส่วน 4 / sqrt (3) จะปรากฏขึ้นตามที่แนะนำในชื่อเรื่อง:n × nσn×n

λ=4σn3

พวกเขายังอธิบายถึงกรณีที่ไม่ใช่ตารางในกระดาษ พวกเขามีรหัสเสริมที่ดี (ใน MATLAB) ที่นี่ แต่อัลกอริทึมจะง่ายต่อการใช้ใน R หรือที่อื่น ๆ : https://purl.stanford.edu/vg705qn9070

คำเตือน:

  • หากคุณมีข้อมูลที่ขาดหายไปฉันไม่แน่ใจว่าจะทำงานได้
  • หากคุณลักษณะแต่ละอย่างในชุดข้อมูลของคุณมีขนาดของเสียงรบกวนที่แตกต่างกันฉันไม่แน่ใจว่าวิธีนี้จะใช้งานได้ (แม้ว่าการฟอกสีฟันอาจทำได้โดยใช้สมมติฐานนี้)
  • จะน่าสนใจเพื่อดูว่าผลลัพธ์ที่คล้ายกันมีไว้สำหรับปัจจัยเมทริกซ์ระดับต่ำอื่น ๆ (เช่นการแยกตัวประกอบแบบเมทริกซ์ที่ไม่เป็นลบ)

+1 ว้าวเอกสารนี้ดูน่าสนใจมาก ขอบคุณมากที่พูดถึงมัน
อะมีบา

4

ปัญหาเกี่ยวกับเกณฑ์ของ Kaiser (ค่าลักษณะเฉพาะทั้งหมดมากกว่าหนึ่ง) คือจำนวนของปัจจัยที่แยกออกมานั้นโดยปกติแล้วประมาณหนึ่งในสามของจำนวนรายการหรือตาชั่งในแบตเตอรี่โดยไม่คำนึงว่าปัจจัยเพิ่มเติมหลายอย่างเป็นเสียงรบกวนหรือไม่ การวิเคราะห์แบบขนานและเกณฑ์หินกรวดมักเป็นขั้นตอนที่แม่นยำยิ่งขึ้นในการกำหนดจำนวนของปัจจัยที่จะแยก (ตามตำราดั้งเดิมโดย Harmon และ Ledyard Tucker รวมถึงงานล่าสุดโดย Wayne Velicer

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.