ขนาดตัวอย่างขั้นต่ำสำหรับ PCA หรือ FA เมื่อเป้าหมายหลักคือการประมาณการเพียงไม่กี่องค์ประกอบ?


27

ถ้าฉันมีชุดข้อมูลที่มีการสังเกตและตัวแปรp (มิติ) และโดยทั่วไปnมีขนาดเล็ก ( n = 12 - 16 ) และpอาจอยู่ในช่วงตั้งแต่ขนาดเล็ก ( p = 4 - 10 ) ถึงอาจใหญ่กว่ามาก ( p = 30 - 50 )npnn=1216pp=410p=3050

ฉันจำได้ว่าเรียนรู้ว่าควรใหญ่กว่าpเพื่อเรียกใช้การวิเคราะห์องค์ประกอบหลัก (PCA) หรือการวิเคราะห์ปัจจัย (FA) แต่ดูเหมือนว่านี่อาจไม่เป็นเช่นนั้นในข้อมูลของฉัน โปรดทราบว่าเพื่อจุดประสงค์ของฉันฉันไม่ค่อยสนใจองค์ประกอบหลักใด ๆ ที่ผ่านมา PC2np

คำถาม:

  1. กฎของหัวแม่มือสำหรับขนาดตัวอย่างขั้นต่ำคืออะไรเมื่อ PCA ใช้งานได้และเมื่อใด
  2. มันเป็นเรื่องที่เคยตกลงที่จะใช้เครื่องคอมพิวเตอร์ครั้งแรกไม่กี่แม้ว่าหรือn < P ?n=pn<p
  3. มีการอ้างอิงเกี่ยวกับเรื่องนี้หรือไม่?
  4. มันเป็นสิ่งสำคัญถ้าเป้าหมายหลักของคุณคือการใช้ PC1 และอาจเป็นไปได้ว่า PC2:

    • เพียงแค่กราฟิกหรือ
    • เป็นตัวแปรสังเคราะห์แล้วใช้ในการถดถอย

ฉันจำได้ว่าอ่านเกี่ยวกับแนวทางประเภทนี้เกี่ยวกับการวิเคราะห์ปัจจัย คุณสนใจใน PCA นั้นหรือไม่? นอกจากนี้คำตอบอาจขึ้นอยู่กับประเภทของข้อมูลที่คุณติดต่อด้วยคุณมีเขตข้อมูลของแอปพลิเคชันที่เฉพาะเจาะจงหรือไม่?
งานกาลา

1
ขอบคุณ Gael สำหรับความคิดเห็นและการอ้างอิงด้านล่าง ตอนนี้ฉันเหลือต้องทราบความแตกต่างระหว่าง FA และ PCA :)
Patrick

3
คำถามนี้ได้รับการปฏิบัติอย่างกว้างขวางในเว็บไซต์นี้ดูเช่นstats.stackexchange.com/questions/1576/…และstats.stackexchange.com/questions/612/…
Gala

คำตอบ:


21

คุณสามารถวัดได้ว่าขนาดตัวอย่างของคุณ "ใหญ่พอ" อาการหนึ่งของขนาดตัวอย่างที่เล็กเกินไปคือความไม่แน่นอน

1


ขอบคุณ cbeleites คุณคิดว่าการบูตสแตรปจะให้ข้อมูลมากเกินไปโดยมีค่าต่ำสุดเท่ากับ 16 หรือไม่? เพื่อทำความเข้าใจฉันจะมองหาความเสถียรโดยการใช้ PCA จำนวนมากโดยปล่อยให้ไซต์หนึ่ง ๆ หมดไปในแต่ละครั้ง
Patrick

n

23

xx520np

ภาพรวมค่อนข้างละเอียดพร้อมการอ้างอิงจำนวนมากสามารถดูได้ที่http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis

p>nn>100pมีความจำเป็น พวกเขายังพบว่าหากจำนวนของปัจจัยพื้นฐานยังคงเหมือนเดิมมีตัวแปรมากขึ้น (และไม่น้อยกว่านั้นตามนัยโดยแนวทางตามอัตราส่วนการสังเกตการณ์ต่อตัวแปร) อาจนำไปสู่ผลลัพธ์ที่ดีขึ้นด้วยตัวอย่างเล็ก ๆ ของการสังเกต

การอ้างอิงที่เกี่ยวข้อง:

  • Mundfrom, DJ, Shaw, DG, & Ke, TL (2005) คำแนะนำขนาดตัวอย่างขั้นต่ำสำหรับการดำเนินการวิเคราะห์ปัจจัย วารสารการทดสอบระหว่างประเทศ, 5 (2), 159-168
  • นักเทศน์, KJ, & MacCallum, RC (2002) การวิเคราะห์ปัจจัยเชิงสำรวจในการวิจัยพันธุศาสตร์พฤติกรรม: การกู้คืนปัจจัยด้วยขนาดตัวอย่างที่เล็ก พันธุศาสตร์พฤติกรรม, 32 (2), 153-161
  • de Winter, JCF, Dodou, D. , & Wieringa, PA (2009) การวิเคราะห์ปัจจัยเชิงสำรวจด้วยกลุ่มตัวอย่างขนาดเล็ก การวิจัยพฤติกรรมหลายตัวแปร, 44 (2), 147-181

5
(+1) นี่เป็นอีกกระดาษหนึ่งที่ใช้การจำลองและชุดข้อมูลจริงที่แสดงให้เห็นว่ากฎ N / p กฎของหัวแม่มือไม่ทำงานได้ดีนักในทางปฏิบัติ - การควบคุมสำหรับเกณฑ์คุณภาพต่าง ๆ - เป็นฟังก์ชันของจำนวนปัจจัยและจำนวนรายการ (และเลือกครึ่งความกว้างของ Cronbach's alpha 95% CI ตามสูตรของ Feldt) ในระดับจิตเวช: ข้อกำหนดขนาดตัวอย่างสำหรับ การตรวจสอบภายในของเครื่องชั่งจิตเวช Int J วิธีจิตเวช Res 2011 ธันวาคม; 20 (4): 235-49
chl

1

pp12np

ความเท่าเทียมกันสามารถเห็นได้ด้วยวิธีนี้: แต่ละขั้นตอน PCA คือปัญหาการปรับให้เหมาะสม เราพยายามค้นหาทิศทางที่แสดงความแปรปรวนมากที่สุด เช่น:

max(aiTΣai)

σ

ภายใต้ข้อ จำกัด :

aiTai=1

aiTaj=0
j<i

Σσ

การ n = p นั้นเทียบเท่าหรือมากกว่าในการเดาค่าที่มีเพียงสองข้อมูล ... มันไม่น่าเชื่อถือ

2np


kk(p1)+(p2)++(pk)pkp(p1)/2
whuber

ประเด็นก็คือคุณกำลังคำนวณ (pk) ค่าสัมประสิทธิ์ของ eigenvectors จาก p (p-1) / 2 ค่าสัมประสิทธิ์ของเมทริกซ์ สำหรับเมทริกซ์แบบสุ่มฉันไม่คิดว่าจะมีวิธี "ข้าม" สัมประสิทธิ์การคำนวณค่า eigenvector / eigenvalues
lcrmorin

แน่ใจว่ามี: อัลกอริทึมปกติค้นหาค่าลักษณะเฉพาะและค่าลักษณะเฉพาะหนึ่งครั้งจากค่าลักษณะเฉพาะที่ใหญ่ที่สุดลง นอกจากนี้นี่ไม่ใช่ปัญหาการคำนวณ แต่เป็นหนึ่งในการนับจำนวนของค่าประมาณ - ถ้าฉันไม่ได้อ่านคำตอบของคุณ?
whuber

1

ฉันหวังว่านี่อาจเป็นประโยชน์:

สำหรับ FA และ PCA

'' วิธีการที่อธิบายในบทนี้ต้องการตัวอย่างจำนวนมากเพื่อหาวิธีแก้ไขปัญหาที่มีเสถียรภาพ สิ่งที่ถือว่าขนาดตัวอย่างที่เพียงพอนั้นค่อนข้างซับซ้อน จนกระทั่งเมื่อเร็ว ๆ นี้นักวิเคราะห์ใช้กฎง่ายๆเช่น "การวิเคราะห์ปัจจัยต้องใช้ 5-10 ครั้งในวิชาหลาย ๆ เรื่อง" การศึกษาล่าสุดแนะนำว่าขนาดตัวอย่างที่ต้องการขึ้นอยู่กับจำนวนของปัจจัยจำนวนตัวแปรที่เกี่ยวข้องกับแต่ละปัจจัยและวิธีการ ชุดของปัจจัยอธิบายความแปรปรวนในตัวแปรได้ดี (Bandalos และ Boehm-Kaufman, 2009) ฉันจะออกไปที่ขาและพูดว่าถ้าคุณมีการสังเกตหลายร้อยครั้งคุณอาจจะปลอดภัย "

อ้างอิง:

Bandalos, DL และ MR Boehm-Kaufman 2552. “ ความเข้าใจผิดที่พบบ่อยสี่อย่างในการวิเคราะห์ปัจจัยเชิงสำรวจ”ในตำนานทางสถิติและระเบียบวิธีและตำนานเมือง, แก้ไขโดย CE Lance และ RJ Vandenberg, 61–87 นิวยอร์ก: เลดจ์

จาก "R in Action" โดย Robert I. Kabacoff หนังสือที่ให้ข้อมูลพร้อมคำแนะนำที่ดีครอบคลุมการทดสอบทางสถิติเกือบทั้งหมด


2
ดูเหมือนว่าคุณเพิ่งจะเสียบหนังสือและจัดทำบางจุดใหม่ก่อนตามแหล่งข้อมูลทุติยภูมิหรือตติยภูมิ มันดูไม่ค่อยมีประโยชน์เท่าไหร่ อย่างน้อยคุณสามารถให้ข้อมูลอ้างอิงฉบับเต็มสำหรับ Bandalos และ Boehm-Kaufman, 2009 ได้หรือไม่?
งานเลี้ยง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.