วิธีการหนึ่งที่แนะนำให้ฉันคือดูพล็อตหินกรวดและตรวจสอบ "ข้อศอก" เพื่อกำหนดจำนวนพีซีที่ถูกต้องที่จะใช้ แต่ถ้าพล็อตไม่ชัดเจน R มีการคำนวณเพื่อกำหนดจำนวนหรือไม่?
fit <- princomp(mydata, cor=TRUE)
วิธีการหนึ่งที่แนะนำให้ฉันคือดูพล็อตหินกรวดและตรวจสอบ "ข้อศอก" เพื่อกำหนดจำนวนพีซีที่ถูกต้องที่จะใช้ แต่ถ้าพล็อตไม่ชัดเจน R มีการคำนวณเพื่อกำหนดจำนวนหรือไม่?
fit <- princomp(mydata, cor=TRUE)
คำตอบ:
บทความต่อไปนี้: การเก็บรักษาส่วนประกอบในการวิเคราะห์องค์ประกอบหลักพร้อมกับการประยุกต์ใช้ข้อมูล cDNA microarrayโดย Cangelosi และ Goriely ให้ภาพรวมที่ค่อนข้างดีของกฎมาตรฐานของหัวแม่มือในการตรวจสอบจำนวนขององค์ประกอบในการศึกษา (พล็อต Scree สัดส่วนสัดส่วนความแปรปรวนทั้งหมดอธิบายกฎค่าลักษณะเฉพาะเฉลี่ยไดอะแกรมบันทึกค่าคุณลักษณะเฉพาะ ฯลฯ ) ส่วนใหญ่มีความตรงไปตรงมาในการนำไปใช้ใน R
โดยทั่วไปถ้าพล็อตหินกรวดของคุณไม่สามารถสรุปได้อย่างมากคุณเพียงแค่ต้อง "เลือกพิษของคุณ" ไม่มีข้อมูลถูกหรือผิดสำหรับข้อมูลใด ๆ เช่นเดียวกับในความเป็นจริงจำนวนพีซีที่ใช้จริงขึ้นอยู่กับความเข้าใจของปัญหา ชุดข้อมูลเพียงชุดเดียวที่คุณสามารถ "รู้" ได้จริง ๆ คือมิติข้อมูลที่คุณสร้างขึ้นเอง :-) ส่วนประกอบหลักในตอนท้ายของวันให้การสลายตัวที่ดีที่สุดของข้อมูลภายใต้ตัวชี้วัด RSS (ที่เป็นผลพลอยได้คุณจะได้รับแต่ละองค์ประกอบเพื่อเป็นตัวแทนของโหมดหลักของการเปลี่ยนแปลง) และรวมถึงหรือยกเว้นจำนวนองค์ประกอบที่กำหนด กำหนดการรับรู้ของคุณเกี่ยวกับมิติของปัญหาของคุณ
ตามความชอบส่วนตัวฉันชอบแนวทางของ Minka ในการเลือกมิติอัตโนมัติสำหรับ PCAซึ่งขึ้นอยู่กับการตีความความน่าจะเป็นของ PCA แต่หลังจากนั้นคุณจะเข้าสู่เกมที่พยายามสร้างแบบจำลองความน่าจะเป็นของข้อมูลของคุณสำหรับมิติข้อมูลที่กำหนด (ลิงก์มีรหัส Matlab หากคุณต้องการติดตามเหตุผลนี้)
พยายามทำความเข้าใจข้อมูลของคุณให้มากขึ้น เช่น. คุณเชื่อจริง ๆ ว่า 99.99% ของชุดรูปแบบข้อมูลของคุณเป็นเพราะค่าความแปรปรวนร่วมของแบบจำลองของคุณหรือไม่ หากไม่ใช่อาจเป็นไปได้ว่าคุณไม่จำเป็นต้องรวมส่วนข้อมูลที่มีสัดส่วนของความแปรปรวนทั้งหมดเพียงเล็กน้อย คุณคิดว่าในความเป็นจริงส่วนประกอบสะท้อนถึงรูปแบบที่ต่ำกว่าเกณฑ์ของความแตกต่างที่สังเกตเห็นได้หรือไม่ นั่นอาจหมายความว่ามีความเกี่ยวข้องเพียงเล็กน้อยในการรวมองค์ประกอบนั้นเข้ากับการวิเคราะห์ของคุณ
โชคดีและตรวจสอบข้อมูลของคุณอย่างระมัดระวัง (การพล็อตพวกมันทำให้เกิดสิ่งมหัศจรรย์ด้วย)
มีงานต่อมาที่ดีมากในปัญหานี้ในไม่กี่ปีที่ผ่านมาตั้งแต่คำถามนี้ถูกถามและตอบ ฉันขอแนะนำกระดาษต่อไปนี้โดย Gavish และ Donoho: เกณฑ์ที่เหมาะสมที่สุดสำหรับค่าเอกพจน์คือ 4 / sqrt (3)
ผลลัพธ์ของพวกเขานั้นขึ้นอยู่กับการวิเคราะห์แบบอะซิมโทติค (เช่นมีวิธีการแก้ปัญหาที่ดีที่สุดเนื่องจากเมทริกซ์ข้อมูลของคุณมีขนาดใหญ่มาก) แต่พวกเขาแสดงผลลัพธ์เชิงตัวเลขที่น่าประทับใจที่แสดงขั้นตอนที่เหมาะสมที่สุด รุ่น
โดยพื้นฐานแล้วขั้นตอนที่ดีที่สุดจะลดลงเพื่อประมาณเสียงซึ่งถูกเพิ่มเข้าไปในแต่ละองค์ประกอบของเมทริกซ์ จากนี้คุณจะคำนวณเกณฑ์และลบส่วนประกอบหลักที่มีค่าเอกฐานอยู่ต่ำกว่าเกณฑ์ สำหรับเมทริกซ์จตุค่าคงที่สัดส่วน 4 / sqrt (3) จะปรากฏขึ้นตามที่แนะนำในชื่อเรื่อง:n × n
พวกเขายังอธิบายถึงกรณีที่ไม่ใช่ตารางในกระดาษ พวกเขามีรหัสเสริมที่ดี (ใน MATLAB) ที่นี่ แต่อัลกอริทึมจะง่ายต่อการใช้ใน R หรือที่อื่น ๆ : https://purl.stanford.edu/vg705qn9070
คำเตือน:
ปัญหาเกี่ยวกับเกณฑ์ของ Kaiser (ค่าลักษณะเฉพาะทั้งหมดมากกว่าหนึ่ง) คือจำนวนของปัจจัยที่แยกออกมานั้นโดยปกติแล้วประมาณหนึ่งในสามของจำนวนรายการหรือตาชั่งในแบตเตอรี่โดยไม่คำนึงว่าปัจจัยเพิ่มเติมหลายอย่างเป็นเสียงรบกวนหรือไม่ การวิเคราะห์แบบขนานและเกณฑ์หินกรวดมักเป็นขั้นตอนที่แม่นยำยิ่งขึ้นในการกำหนดจำนวนของปัจจัยที่จะแยก (ตามตำราดั้งเดิมโดย Harmon และ Ledyard Tucker รวมถึงงานล่าสุดโดย Wayne Velicer
psy
หรือpsych
แพคเกจในโปรแกรม R และSPSS, SAS และ MATLAB สำหรับการกำหนดจำนวนส่วนประกอบและปัจจัย การใช้การวิเคราะห์แบบขนานและการทดสอบ MAP ของ Velicerโดยทั่วไป