อะไรคือสมมติฐานของการวิเคราะห์ปัจจัย?


11

ฉันต้องการตรวจสอบว่าฉันเข้าใจการวิเคราะห์ตัวประกอบ [คลาสสิคเชิงเส้น] (FA) โดยเฉพาะอย่างยิ่งสมมติฐานที่สร้างขึ้นก่อนหน้านี้ (และหลังจากนั้น) FA

ข้อมูลบางส่วนควรมีความสัมพันธ์เริ่มแรกและมีความสัมพันธ์เชิงเส้นที่เป็นไปได้ระหว่างกัน หลังจากทำการวิเคราะห์ปัจจัยข้อมูลจะถูกกระจายตามปกติ (การกระจายตัวแบบ bivariate สำหรับแต่ละคู่) และไม่มีความสัมพันธ์ระหว่างปัจจัย (ทั่วไปและจำเพาะ) และไม่มีความสัมพันธ์ระหว่างตัวแปรจากปัจจัยหนึ่งและตัวแปรจากปัจจัยอื่น ๆ

ถูกต้องหรือไม่

คำตอบ:


12

สมมติฐานข้อมูลอินพุตของ linear FA (ฉันไม่ได้พูดถึงที่นี่เกี่ยวกับสมมติฐาน / คุณสมบัติภายในของโมเดล FAหรือเกี่ยวกับการตรวจสอบคุณภาพของผลลัพธ์ที่เหมาะสม)

  1. เครื่องชั่ง (ช่วงเวลาหรืออัตรา) ตัวแปร นั่นหมายถึงรายการต่าง ๆ เป็นมาตรการต่อเนื่องหรือมีแนวคิดเป็นต่อเนื่องในขณะที่วัดในเชิงปริมาณโดยไม่ต่อเนื่อง ไม่มีข้อมูลลำดับในเชิงเส้น FA ( อ่าน ) ข้อมูลไบนารีควรหลีกเลี่ยง (ดูนี้ , นี้ ) เอฟเอคัเชิงเส้นสมมติว่าปัจจัยร่วมกันและเป็นเอกลักษณ์แฝงอยู่อย่างต่อเนื่อง ดังนั้นตัวแปรที่สังเกตเห็นซึ่งโหลดควรจะต่อเนื่องเช่นกัน
  2. ความสัมพันธ์เชิงเส้น Linear FA อาจดำเนินการตามเมทริกซ์ความสัมพันธ์ประเภท SSCP : ความสัมพันธ์แบบเพียร์สัน, ความแปรปรวนร่วม, โคไซน์และอื่น ๆ (แม้ว่าบางวิธี / การใช้งานอาจ จำกัด ความสัมพันธ์เพียร์สันเท่านั้น) โปรดทราบว่าสิ่งเหล่านี้เป็นผลิตภัณฑ์เชิงเส้นพีชคณิตทั้งหมด แม้ว่าขนาดของสัมประสิทธิ์ความแปรปรวนร่วมจะสะท้อนมากกว่าเชิงเส้นตรงในความสัมพันธ์การสร้างแบบจำลองในเชิงเส้น FA เป็นเส้นตรงในธรรมชาติแม้ว่าจะมีการใช้ความแปรปรวนร่วม: ตัวแปรเป็นการรวมกันเชิงเส้นของปัจจัยและทำให้เป็นเส้นตรงเป็นนัยในการเชื่อมโยงผลลัพธ์ หากคุณเห็น / คิดว่าการเชื่อมโยงที่ไม่เป็นเชิงเส้นเหนือกว่า - อย่าใช้ FA เชิงเส้นหรือพยายามทำให้เป็นเชิงเส้นก่อนโดยการแปลงข้อมูล และอย่ายึดเชิงเส้นของ FA กับ Spearman หรือ Kendall correlations (Pt. 4 ตรงนั้น )
  3. ไม่มีค่าผิดปกติ - เช่นเดียวกับวิธีการที่ไม่ติดไฟ เพียร์สันมีความสัมพันธ์และการเชื่อมโยงประเภท SSCP ที่คล้ายกันนั้นมีความอ่อนไหวต่อค่าผิดปกติดังนั้นระวัง
  4. สมเหตุสมผลความสัมพันธ์ที่มีอยู่สูง FA คือการวิเคราะห์ความสัมพันธ์ - การใช้ประโยชน์เมื่อความสัมพันธ์ทั้งหมดหรือเกือบทั้งหมดอ่อนแอ - ไม่มีประโยชน์ อย่างไรก็ตามอะไรคือ "สหสัมพันธ์สูงพอสมควร" ขึ้นอยู่กับสาขาวิชา นอกจากนี้ยังมีคำถามที่น่าสนใจและแตกต่างกันไม่ว่าจะมากสูงสัมพันธ์ควรจะได้รับการยอมรับ (ผลของพวกเขาใน PCA, ตัวอย่างเช่นมีการกล่าวถึงที่นี่ ) เพื่อทดสอบทางสถิติหากข้อมูลที่ไม่ได้ทำการทดสอบแบบไม่กลมกลืนของบาร์ตเลตสามารถใช้งานได้
  5. ความสัมพันธ์บางส่วนมีความอ่อนแอและปัจจัยที่สามารถกำหนดพอ FA สันนิษฐานว่าปัจจัยทั่วไปมากกว่าการโหลดคู่ของรายการที่มีความสัมพันธ์กัน ในความเป็นจริงมีคำแนะนำไม่ให้แยกปัจจัยที่โหลดอย่างเหมาะสมน้อยกว่า 3 รายการใน FA แบบสำรวจ และใน FA ที่ยืนยันแล้วมีเพียง 3+ เท่านั้นที่รับประกันโครงสร้างที่ระบุ ปัญหาทางเทคนิคของการดึงข้อมูลที่เรียกว่ากรณีของเฮย์วู้ดเป็นหนึ่งในเหตุผลที่อยู่เบื้องหลังสถานการณ์น้อยเกินไปที่มีอยู่เพียงไม่กี่รายการ Kaiser-Meyer-Olkin ( KMO ) "การวัดความเพียงพอของการสุ่มตัวอย่าง" ประเมินว่าคุณมีความสัมพันธ์ที่อ่อนแอเพียงบางส่วนในข้อมูลที่สัมพันธ์กับความสัมพันธ์ทั้งหมดได้อย่างไร สามารถคำนวณได้สำหรับทุกรายการและสำหรับเมทริกซ์สหสัมพันธ์ทั้งหมด
  6. ไม่มีพหุ FA model ถือว่าทุกรายการล้วน แต่มีปัจจัยเฉพาะและปัจจัยเหล่านั้นเป็นมุมฉาก ดังนั้น 2 รายการจะต้องกำหนดระนาบ 3 รายการ - พื้นที่ 3 มิติและอื่น ๆ : pเวกเตอร์ที่มีความสัมพันธ์กันจะต้องครอบคลุมพื้นที่ p-dim เพื่อรองรับ p ที่เป็นองค์ประกอบเฉพาะของพวกเขาในแนวตั้งฉาก ดังนั้นไม่มีความแปลกประหลาดสำหรับเหตุผลทางทฤษฎี (และด้วยเหตุนี้โดยอัตโนมัติโดยไม่พูดและดีกว่า) ไม่อนุญาตให้มีความสัมพันธ์แบบหลายจุดที่สมบูรณ์แต่ แต่มันอาจทำให้เกิดปัญหาการคำนวณในขั้นตอนวิธี FA ส่วนใหญ่ ( ดูเพิ่มเติม)1n observations > p variablesn>>p
  7. การกระจาย โดยทั่วไป linear FA ไม่ต้องการความปกติของข้อมูลอินพุต การแจกแจงเบ้ปานกลางค่อนข้างยอมรับได้ Bimodality ไม่ได้เป็นข้อบ่งชี้ในทางตรงกันข้าม ความเป็นจริงจะถือว่าเป็นปัจจัยที่ไม่ซ้ำกันในแบบจำลอง (ซึ่งทำหน้าที่เป็นข้อผิดพลาดในการถดถอย) - แต่ไม่ใช่สำหรับปัจจัยทั่วไปและข้อมูลอินพุต ( ดูเพิ่มเติม) ยังคงปกติหลายตัวแปรของข้อมูลที่สามารถต้องเป็นเพิ่มเติมสมมติฐานโดยวิธีการของบางส่วนสกัด (กล่าวคือความน่าจะเป็นสูงสุด) และโดยการดำเนินการทดสอบ asymptotic บาง

1วิธี ULS / minres ของ FA สามารถทำงานร่วมกับเมทริกซ์สหสัมพันธ์เอกพจน์และไม่ใช่ psd ได้ แต่ในทางทฤษฎีการวิเคราะห์แบบนี้ค่อนข้างน่าสงสัยสำหรับฉัน


คุณช่วยอ่านบทความนี้ดูต่างออกไปหน่อยได้ไหม
WhiteGirl

ถ้าBinary data should also be avoidedวิธีการวิเคราะห์ปัจจัยอื่น ๆ เราสามารถทำbinary dataอะไรได้บ้าง
kittygirl

ถึง ttnphns ฉันสังเกตว่าคุณไม่ได้พูดถึงว่าข้อมูลนั้นถือว่าเป็นเรื่องปกติและทางออนไลน์อื่น ๆ ระบุว่าไม่จำเป็นต้องมีกฎเกณฑ์ คำถามของฉันคือถ้าตัวแปรแฝงถือว่าเป็นเรื่องปกติและการสังเกตถูกจำลองเป็นผลรวมถ่วงน้ำหนักของปัจจัยซึ่งสิ่งนี้ไม่ได้หมายความถึงการแจกแจงแบบปกติในการสังเกตการณ์หรือไม่? (ฉันขอโทษฉันแน่ใจว่านี่เป็นคำถามที่โง่)
user2957945

@ user2957945 ย่อหน้า 7 พูดถึงความปกติ ข้อสันนิษฐานทั่วไปนั้นเป็นสิ่งจำเป็นสำหรับวิธีการสกัดตัวประกอบและสำหรับการทดสอบทางสถิติบางอย่างที่มาพร้อมกับการวิเคราะห์ตัวประกอบ สำหรับคำถามของคุณ: ใช่หากมีการกระจายปัจจัยตามปกติและข้อผิดพลาดตามปกติเช่นกันนั่นจะหมายถึงตัวแปรรายการก็เป็นปกติเช่นกัน
ttnphns

อ่าขอบคุณ @ttnphns; ขอโทษที่รบกวนคุณ - ฉันไม่รู้ว่าฉันจะพลาดได้อย่างไร ขอบคุณที่คุณช่วย.
user2957945

9

ส่วนใหญ่แล้วการวิเคราะห์ปัจจัยจะดำเนินการโดยไม่มีการทดสอบทางสถิติใด ๆ มันเป็นอัตนัยและตีความมากกว่าวิธีการเช่นการถดถอยแบบจำลองสมการโครงสร้างและอื่น ๆ และโดยทั่วไปคือการทดสอบแบบอนุมานที่มาพร้อมกับสมมติฐาน: เพื่อให้ค่าpและช่วงความเชื่อมั่นถูกต้องจะต้องพบกับสมมติฐานเหล่านั้น

ทีนี้ถ้าวิธีการเลือกจำนวนปัจจัยถูกกำหนดให้เป็นวิธีความน่าจะเป็นสูงสุดแล้วก็มีข้อสันนิษฐานที่จะไปกับสิ่งนี้: ตัวแปรที่ป้อนเข้าสู่การวิเคราะห์ปัจจัยจะมีการแจกแจงแบบปกติ

การที่ตัวแปรอินพุตจะมีค่าสหสัมพันธ์ที่ไม่เป็นศูนย์นั้นเป็นข้อสันนิษฐานประเภทหนึ่งที่ปราศจากความจริงผลลัพธ์การวิเคราะห์ปัจจัยจะไร้ประโยชน์ (อาจ) ไร้ประโยชน์: ไม่มีปัจจัยใดที่จะปรากฏเป็นตัวแปรแฝงที่อยู่ด้านหลังชุดตัวแปรอินพุตบางชุด

เท่าที่มี "ไม่มีความสัมพันธ์ระหว่างปัจจัย (ร่วมกันและเฉพาะเจาะจง) และไม่มีความสัมพันธ์ระหว่างตัวแปรจากปัจจัยหนึ่งและตัวแปรจากปัจจัยอื่น ๆ " สิ่งเหล่านี้ไม่ใช่ข้อสันนิษฐานในระดับสากลที่นักวิเคราะห์ปัจจัยทำแม้ในบางครั้งสภาพ (หรือประมาณ) ของมัน) อาจเป็นที่น่าพอใจ หลังเมื่อมันถือมันเป็นที่รู้จักกันในนาม

มีเงื่อนไขอื่นที่บางครั้งจะถือว่าเป็น "สมมติฐาน": ว่าศูนย์ความสัมพันธ์ (วานิลลา) - ความสัมพันธ์ระหว่างตัวแปรอินพุตไม่ได้ล้นมือด้วยความสัมพันธ์บางส่วนที่มีขนาดใหญ่ สิ่งนี้หมายความว่าความสัมพันธ์ควรมีความแข็งแกร่งสำหรับการจับคู่และอ่อนแอสำหรับผู้อื่น มิฉะนั้นผลลัพธ์จะเป็น "เต็มไปด้วยโคลน" สิ่งนี้เกี่ยวข้องกับความปรารถนาของโครงสร้างที่เรียบง่ายและจริง ๆ แล้วสามารถประเมินได้ (แม้ว่าจะไม่ใช่ "ทดสอบ" อย่างเป็นทางการ) โดยใช้สถิติ Kaiser-Meyer-Olkin หรือ KMO ค่า KMO ที่อยู่ใกล้กับ. 8 หรือ. 9 มักถือว่ามีแนวโน้มมากสำหรับผลลัพธ์การวิเคราะห์ปัจจัยที่ให้ข้อมูลขณะที่ KMO ที่อยู่ใกล้กับ. 5 หรือ. 6 นั้นมีแนวโน้มน้อยกว่ามากและผู้ที่อยู่ด้านล่าง. 5


ที่ฉันอ่านว่าการวิเคราะห์ปัจจัยที่เริ่มต้นด้วยความสัมพันธ์บางอย่างกับตัวแปรและเราพยายามที่จะทำให้ความสัมพันธ์นี้มากขึ้นและชัดเจนมากขึ้น
Sihem

1
หลังจากการประยุกต์ใช้การวิเคราะห์ปัจจัยหากเราใช้การหมุนมุมฉากเราจะมั่นใจได้ว่าไม่มีความสัมพันธ์ระหว่างปัจจัย
Sihem

2

ข้อสมมติฐานการวิเคราะห์ปัจจัยที่สำรวจมีดังนี้:
•ช่วงเวลาหรือระดับอัตราส่วนของการวัด
•การสุ่มตัวอย่าง
•ความสัมพันธ์ระหว่างตัวแปรสังเกตเป็นเส้นตรง
•กระจายปกติ (แต่ละตัวแปรสังเกต)
•ไม่ bivariate กระจายปกติ (คู่ของตัวแปรสังเกตแต่ละคน)
•หลายตัวแปรปกติ
เหนือจากไฟล์ SAS

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.