ในการใช้งานของการหมุนเฉียงหลังจาก PCA

9

แพ็คเกจทางสถิติหลายอย่างเช่น SAS, SPSS และ R ช่วยให้คุณสามารถทำการหมุนตัวประกอบต่อไปนี้ PCA

ทำไมการหมุนจึงจำเป็นหลังจาก PCA
ทำไมคุณถึงใช้การหมุนแบบเอียงหลังจาก PCA เนื่องจากเป้าหมายของ PCA คือการสร้างมิติมุมฉาก

pca factor-analysis factor-rotation

ฉันถามคำถามที่แสดงให้เห็นถึงความจำเป็นของการหมุนตัวประกอบหลังจาก PCA เนื่องจาก PCA ให้ผลลัพธ์แบบเอนเอียง ดูstats.stackexchange.com/questions/6575/…

— mbaitoff

8

ฉันคิดว่ามีความคิดเห็นหรือมุมมองที่แตกต่างกันเกี่ยวกับ PCA แต่โดยทั่วไปเรามักจะคิดว่ามันเป็นเทคนิคการลด (คุณลดพื้นที่ฟีเจอร์ของคุณให้เล็กลงและมักจะ "อ่าน" ได้มากขึ้นโดยให้คุณดูแล ข้อมูลเมื่อจำเป็น) หรือวิธีสร้างปัจจัยแฝงหรือมิติที่มีส่วนสำคัญของการกระจายระหว่างบุคคล (ที่นี่ "บุคคล" หมายถึงหน่วยสถิติที่รวบรวมข้อมูลซึ่งอาจเป็นประเทศผู้คน ฯลฯ ) ในทั้งสองกรณีเราสร้างชุดค่าผสมเชิงเส้นของตัวแปรดั้งเดิมที่อธิบายถึงความแปรปรวนสูงสุด (เมื่อฉายบนแกนหลัก) ภายใต้ข้อ จำกัด ของ orthogonality ระหว่างสององค์ประกอบหลัก ทีนี้สิ่งที่ได้อธิบายไว้คือ algebrical หรือทางคณิตศาสตร์ล้วนๆและเราไม่คิดว่ามันเป็นแบบจำลอง (สร้าง) ตรงข้ามกับสิ่งที่กระทำในประเพณีการวิเคราะห์ปัจจัย . ฉันชอบการแนะนำของ William Revelle ในหนังสือคู่มือของเขาเกี่ยวกับpsychometrics ที่ใช้โดยใช้ R (บทที่ 6) ถ้าเราต้องการวิเคราะห์โครงสร้างของเมทริกซ์สหสัมพันธ์แล้ว

วิธีแรก [วิธี PCA] เป็นแบบจำลองที่ใกล้เคียงกับเมทริกซ์สหสัมพันธ์ในแง่ของผลคูณของส่วนประกอบที่แต่ละส่วนประกอบเป็นผลรวมเชิงเส้นถ่วงน้ำหนักของตัวแปรแบบจำลองที่สอง [การวิเคราะห์ปัจจัย] ยังเป็นตัวประมาณของเมทริกซ์สหสัมพันธ์โดย ผลิตภัณฑ์ของสองปัจจัย แต่ปัจจัยในเรื่องนี้ถูกมองว่าเป็นสาเหตุมากกว่าเป็นผลมาจากตัวแปร

กล่าวอีกนัยหนึ่งด้วย PCA คุณจะแสดงองค์ประกอบแต่ละตัว (ปัจจัย) เป็นการรวมกันเชิงเส้นของตัวแปรในขณะที่ FA เหล่านี้เป็นตัวแปรที่แสดงเป็นการรวมเชิงเส้นของปัจจัยต่างๆ เป็นที่ทราบกันดีว่าทั้งสองวิธีโดยทั่วไปจะให้ผลลัพธ์ที่ค่อนข้างคล้ายกัน (ดูเช่น Harman, 1976 หรือ Catell, 1978) โดยเฉพาะอย่างยิ่งในกรณี "อุดมคติ" ที่เรามีบุคคลจำนวนมากและปัจจัยอัตราส่วนที่ดี: ตัวแปร (โดยทั่วไปจะแตกต่างกันไป ระหว่าง 2 ถึง 10 ขึ้นอยู่กับผู้แต่งที่คุณพิจารณา!) นี่เป็นเพราะการประมาณ diagonals ในเมทริกซ์สหสัมพันธ์ (ดังที่ทำใน FA และองค์ประกอบเหล่านี้รู้จักกันในนามของชุมชน) ความแปรปรวนข้อผิดพลาดจะถูกกำจัดออกจากเมทริกซ์แฟคเตอร์ นี่คือเหตุผลที่มักใช้ PCA เป็นวิธีการเปิดเผยปัจจัยแฝงหรือโครงสร้างทางจิตวิทยาแทน FA ที่พัฒนาขึ้นในศตวรรษที่ผ่านมา แต่เมื่อเราดำเนินการในลักษณะนี้เรามักต้องการตีความโครงสร้างปัจจัยที่เกิดขึ้นได้ง่ายขึ้น (หรือเมทริกซ์รูปแบบที่เรียกว่า) จากนั้นก็มีเคล็ดลับที่มีประโยชน์ในการหมุนแกนแฟกทอเรียลเพื่อให้เราเพิ่มภาระการโหลดของตัวแปรสูงสุดให้กับปัจจัยเฉพาะหรือมาถึง "โครงสร้างอย่างง่าย" การใช้การหมุนมุมฉาก (เช่น VARIMAX) เรารักษาความเป็นอิสระของปัจจัยต่างๆ ด้วยการหมุนในแนวเฉียง (เช่น OBLIMIN, PROMAX) เราจะแยกมันและปัจจัยที่ได้รับอนุญาตให้มีความสัมพันธ์ เรื่องนี้ได้รับการถกเถียงกันอย่างมากในวรรณคดีและนำนักเขียนบางคน (ไม่ใช่ psychometricians แต่ในช่วงต้นของปี 1960 statisticians

แต่ประเด็นก็คือวิธีการหมุนได้รับการพัฒนาในบริบทของวิธี FA และตอนนี้ใช้เป็นประจำกับ PCA ฉันไม่คิดว่าสิ่งนี้ขัดแย้งกับการคำนวณอัลกอริธึมของส่วนประกอบหลัก: คุณสามารถหมุนแกนแฟคทอเรียลในแบบที่คุณต้องการได้โปรดจำไว้ว่าเมื่อความสัมพันธ์ (โดยการหมุนเอียง) มีความสัมพันธ์กัน

PCA มีการใช้เป็นประจำเมื่อพัฒนาแบบสอบถามใหม่ถึงแม้ว่า FA อาจเป็นวิธีที่ดีกว่าในกรณีนี้เพราะเราพยายามแยกปัจจัยที่มีความหมายซึ่งคำนึงถึงข้อผิดพลาดในการวัดบัญชีและความสัมพันธ์อาจถูกศึกษาด้วยตนเอง (เช่นการแยกรูปแบบผลลัพธ์ เมทริกซ์เราจะได้แบบจำลองปัจจัยอันดับสอง) แต่ PCA ยังใช้สำหรับตรวจสอบโครงสร้างแฟคทอเรียลของโครงสร้างที่ผ่านการตรวจสอบแล้ว นักวิจัยไม่ได้เกี่ยวกับ FA กับ PCA จริง ๆ เมื่อพูดถึง 500 คนที่ได้รับการขอให้จัดทำแบบสอบถาม 60 ข้อเพื่อหาค่าเฉลี่ยห้าส่วน (นี่คือกรณีของNEO-FFIตัวอย่างเช่น) และฉันคิดว่ามันถูกต้องเพราะในกรณีนี้เราไม่ค่อยสนใจในการระบุรูปแบบการสร้างหรือแนวคิด (คำว่า "ตัวแทน" ถูกใช้ที่นี่เพื่อบรรเทาปัญหาค่าความแปรปรวนของการวัด )

ตอนนี้เกี่ยวกับการเลือกวิธีการหมุนและทำไมผู้เขียนบางคนโต้แย้งการใช้การหมุนมุมฉากอย่างเข้มงวดฉันต้องการอ้างอิง Paul Kline อย่างที่ฉันทำเพื่อตอบคำถามต่อไปนี้FA: การเลือกเมทริกซ์การหมุนตาม "โครงสร้างแบบง่าย เกณฑ์” ,

(... ) ในโลกแห่งความเป็นจริงมันไม่สมเหตุสมผลที่จะคิดว่าปัจจัยที่เป็นปัจจัยกำหนดพฤติกรรมที่สำคัญจะมีความสัมพันธ์กัน - P. Kline หน่วยสืบราชการลับ มุมมอง Psychometric , 1991, p. 19

ฉันจึงสรุปได้ว่าขึ้นอยู่กับวัตถุประสงค์ของการศึกษาของคุณ (คุณต้องการเน้นรูปแบบหลักของเมทริกซ์สหสัมพันธ์ของคุณหรือคุณพยายามที่จะให้การตีความที่สมเหตุสมผลของกลไกพื้นฐานที่อาจทำให้คุณสังเกตเมทริกซ์สหสัมพันธ์ดังกล่าว ) คุณพร้อมที่จะเลือกวิธีที่เหมาะสมที่สุด: สิ่งนี้ไม่ได้เกี่ยวข้องกับการสร้างชุดค่าผสมเชิงเส้น แต่เป็นวิธีที่คุณต้องการตีความพื้นที่แฟคทอเรียลที่เกิดขึ้น

อ้างอิง

Harman, HH (1976) การวิเคราะห์ปัจจัยสมัยใหม่ . ชิคาโกสำนักพิมพ์มหาวิทยาลัยชิคาโก
Cattell, RB (1978) การใช้วิทยาศาสตร์ของการวิเคราะห์องค์ประกอบ นิวยอร์ก Plenum
Kline, P. (1991) สติปัญญา Psychometric ดู เลดจ์

— CHL
แหล่งที่มา

4

ปัญหาเกี่ยวกับมิติมุมฉากคือส่วนประกอบไม่สามารถตีความได้ ดังนั้นในขณะที่การหมุนเฉียง (เช่นขนาด nonorthogonal) เป็นเทคนิคที่ไม่พึงพอใจเช่นการหมุนบางครั้งช่วยเพิ่มการตีความขององค์ประกอบที่เกิดขึ้น

4

คะแนนพื้นฐาน

การหมุนสามารถทำให้การตีความองค์ประกอบชัดเจนขึ้น
การหมุนแบบเอียงมักทำให้เกิดความรู้สึกเชิงทฤษฎีมากกว่า เช่นตัวแปรสังเกตสามารถอธิบายได้ในแง่ขององค์ประกอบที่มีความสัมพันธ์น้อย

ตัวอย่าง

10 ทดสอบความสามารถในการวัดทั้งหมดด้วยวาจาการวัดและความสามารถในการวัดเชิงพื้นที่ การทดสอบทั้งหมดมีความสัมพันธ์กัน แต่การเชื่อมโยงกันภายในวาจาหรือในการทดสอบเชิงพื้นที่นั้นมากกว่าแบบทดสอบ PCA ที่เป็นทางเลือกอาจเกี่ยวข้องกับส่วนประกอบที่มีความสัมพันธ์สองส่วนคือคำพูดและเชิงพื้นที่ ทฤษฎีและการวิจัยแสดงให้เห็นว่าความสามารถสองอย่างนี้มีความสัมพันธ์กัน ดังนั้นการหมุนแบบเอียงทำให้เกิดความรู้สึกทางทฤษฎี

— Jeromy Anglim
แหล่งที่มา