วิธีการคำนวณคะแนนองค์ประกอบ / องค์ประกอบ
หลังจากชุดความคิดเห็นฉันตัดสินใจในที่สุดในการออกคำตอบ (ขึ้นอยู่กับความคิดเห็นและอื่น ๆ ) มันเกี่ยวกับการคำนวณคะแนนองค์ประกอบใน PCA และคะแนนปัจจัยในการวิเคราะห์ปัจจัย
ปัจจัย / คะแนนองค์ประกอบได้รับจากโดยที่เป็นตัวแปรที่วิเคราะห์แล้ว ( กึ่งกลางหากการวิเคราะห์ PCA / ตัวประกอบขึ้นอยู่กับความแปรปรวนร่วมหรือมาตรฐาน zหากเป็นไปตามความสัมพันธ์) เป็นปัจจัย / องค์ประกอบค่าสัมประสิทธิ์คะแนน (หรือน้ำหนัก) เมทริกซ์ น้ำหนักเหล่านี้สามารถประมาณได้อย่างไรXBF^= X BXB
เอกสาร
R - p x p
เมทริกซ์ของความสัมพันธ์ของตัวแปร (รายการ) หรือความแปรปรวนร่วมแล้วแต่จำนวนใดจะนำมาวิเคราะห์ปัจจัย
AP - p x m
เมทริกซ์ของปัจจัย / องค์ประกอบแรง สิ่งเหล่านี้อาจเป็นภาระหลังจากการแยก (มักจะเขียนแทน ) โดยที่ latents เป็น orthogonal หรือในทางปฏิบัติเช่นนั้นหรือ loadings หลังจากการหมุน orthogonal หรือเฉียง หากการหมุนเอียงมันจะต้องเป็นการโหลดลวดลายA
ค - m x m
เมทริกซ์ของสหสัมพันธ์ระหว่างปัจจัย / ส่วนประกอบหลังจากการหมุนแบบเอียง หากไม่มีการหมุนหรือการหมุนมุมฉากนี่คือเมทริกซ์เอกลักษณ์
=PCP'=PP'R^ - p x p
เมทริกซ์ที่ลดลงของความสัมพันธ์ที่ทำซ้ำ / โควาเรียส, (สำหรับการแก้ปัญหามุมฉาก) มันมีชุมชนอยู่ในแนวทแยง= P C P'= P P'
R คุณ2ยู2 - p x p
เมทริกซ์แนวทแยงของความเป็นเอกลักษณ์ (เอกลักษณ์ + = องค์ประกอบเส้นทแยงมุมของ ) ฉันใช้ "2" เป็นตัวห้อยที่นี่แทนตัวยก ( ) เพื่อความสะดวกในการอ่านในสูตรRยู2
= R + U 2R* * * * - p x p
เมทริกซ์เต็มรูปแบบของการผลิตซ้ำความสัมพันธ์ / covariances,U_2= R^+ คุณ2
M M M + = ( M ′ M ) - 1 M ′M+ - pseudoinverse ของเมทริกซ์บางตัว ; ถ้าเต็มอันดับ,M'MMM+= ( M'ม. )- 1M'
M p o w e r H K H ′ = M M p o w e r = H K p o w e r H ′Mp o w e r - สำหรับเมทริกซ์สมมาตรแบบจัตุรัสบางส่วนกำลังเพิ่มจำนวนให้กับ eigendecomposingยกระดับค่าลักษณะเฉพาะให้เป็นพลังงานและเขียนกลับ:H'Mp o w e rH K H'= MMp o w e r= H Kp o w e rH'
วิธีการคำนวณปัจจัย / คะแนนส่วนประกอบ
วิธีการที่นิยม / ดั้งเดิมนี้บางครั้งเรียกว่า Cattell's เป็นเพียงค่าเฉลี่ย (หรือข้อสรุป) ของรายการที่ถูกโหลดด้วยปัจจัยเดียวกัน ศาสตร์ก็จะมีจำนวนการตั้งค่าน้ำหนักในการคำนวณคะแนน\ มีวิธีการหลักสามเวอร์ชัน: 1) ใช้การโหลดตามที่เป็น 2) แบ่งขั้ว (1 = โหลด, 0 = ไม่โหลด); 3) ใช้การโหลดตามที่เป็น แต่การโหลดแบบ zero-off จะน้อยกว่าขีด จำกัด บางอย่างF = X BB = PF^= X B
บ่อยครั้งที่มีวิธีการนี้เมื่อรายการอยู่ในหน่วยสเกลเดียวกันค่าจะใช้เพียงดิบ แม้ว่าจะไม่ทำลายตรรกะของแฟคตอริ่งเราก็ควรใช้เมื่อป้อนแฟคตอริ่ง - มาตรฐาน (= การวิเคราะห์ความสัมพันธ์) หรือศูนย์กลาง (= การวิเคราะห์ความแปรปรวนร่วม)XXX
ข้อเสียเปรียบหลักของวิธีการหยาบในการคำนวณคะแนน / องค์ประกอบองค์ประกอบในมุมมองของฉันคือมันไม่ได้อธิบายถึงความสัมพันธ์ระหว่างรายการที่โหลด หากรายการที่โหลดโดยปัจจัยมีความสัมพันธ์อย่างแน่นหนาและอีกรายการหนึ่งมีความแข็งแกร่งมากกว่าอีกรายการหนึ่งจะถือว่าเป็นรายการที่อายุน้อยกว่าและมีน้ำหนักน้อยกว่า วิธีการกลั่นทำ แต่วิธีหยาบไม่สามารถทำได้
แน่นอนว่าคะแนนคร่าวๆนั้นง่ายต่อการคำนวณเพราะไม่จำเป็นต้องใช้เมทริกซ์ผกผัน ข้อดีของวิธีการแบบหยาบ (อธิบายว่าทำไมยังคงใช้กันอย่างแพร่หลายทั้งๆที่มีคอมพิวเตอร์ว่าง) คือมันให้คะแนนซึ่งมีความเสถียรมากกว่าจากตัวอย่างต่อตัวอย่างเมื่อการสุ่มตัวอย่างไม่เหมาะ (ในแง่ของความเป็นตัวแทนและขนาด) หรือรายการสำหรับ การวิเคราะห์ไม่ได้เลือกอย่างดี การอ้างอิงกระดาษหนึ่งฉบับ "วิธีคะแนนรวมอาจเป็นที่ต้องการมากที่สุดเมื่อเครื่องชั่งที่ใช้ในการเก็บรวบรวมข้อมูลต้นฉบับนั้นยังไม่ได้ทดสอบและสำรวจโดยมีหลักฐานความน่าเชื่อถือหรือความถูกต้องเพียงเล็กน้อยหรือไม่มีเลย" นอกจากนี้ก็ไม่จำเป็นต้องที่จะเข้าใจ "ปัจจัย" จำเป็นต้องเป็นสาระสำคัญที่แฝง univariate เป็นรูปแบบการวิเคราะห์ปัจจัยที่จำเป็นต้องได้ ( ดู , ดู) ยกตัวอย่างเช่นคุณสามารถใช้แนวคิดเป็นปัจจัยในการรวบรวมปรากฏการณ์ - จากนั้นจึงสรุปผลรวมของมูลค่ารายการที่สมเหตุสมผล
วิธีการคำนวณคะแนนคอมพิวเตอร์ / คะแนนส่วนประกอบ
วิธีการเหล่านี้เป็นแพ็คเกจการวิเคราะห์ปัจจัยที่ทำ พวกเขาประมาณโดยวิธีการต่างๆ ในขณะที่การโหลดหรือเป็นค่าสัมประสิทธิ์ของชุดค่าผสมเชิงเส้นเพื่อทำนายตัวแปรตามปัจจัย / ส่วนประกอบ,เป็นค่าสัมประสิทธิ์ในการคำนวณปัจจัย / คะแนนองค์ประกอบจากตัวแปรA P BBAPB
คะแนนที่คำนวณผ่านถูกปรับอัตราส่วน: มีความแปรปรวนเท่ากับหรือใกล้เคียง 1 (มาตรฐานหรือใกล้มาตรฐาน) ไม่ใช่ความแปรปรวนของปัจจัยที่แท้จริง (ซึ่งเท่ากับผลรวมของการโหลดโครงสร้างกำลังสองดูเชิงอรรถ 3 ที่นี่ ) ดังนั้นเมื่อคุณต้องการให้คะแนนปัจจัยด้วยความแปรปรวนของปัจจัยที่แท้จริงของคูณคะแนน (มีมาตรฐานพวกเขาเพื่อ st.dev. 1) โดยตารางรากของความแปรปรวนที่B
คุณอาจจะรักษาจากการวิเคราะห์ที่ทำเพื่อให้สามารถที่จะคำนวณคะแนนสำหรับข้อสังเกตมาใหม่X นอกจากนี้อาจใช้ในการชั่งน้ำหนักรายการที่มีสเกลของแบบสอบถามเมื่อเครื่องชั่งถูกพัฒนาจากหรือตรวจสอบโดยการวิเคราะห์ปัจจัย (Squared) ค่าสัมประสิทธิ์ของสามารถตีความได้ว่าเป็นการมีส่วนร่วมของรายการกับปัจจัย ค่าสัมประสิทธิ์สามารถเป็นมาตรฐานได้เช่นสัมประสิทธิ์การถดถอยคือมาตรฐาน (โดยที่ ) เพื่อเปรียบเทียบการมีส่วนร่วมของรายการที่แตกต่างกันX B B β = b σ i t e mBXBB σfactor=1β=bσitemσฉa c t o rσฉa c t o r= 1
ดูตัวอย่างที่แสดงการคำนวณที่ทำใน PCA และใน FA รวมถึงการคำนวณคะแนนจากเมทริกซ์สัมประสิทธิ์คะแนน
คำอธิบายทางเรขาคณิตของแรง's (ตามพิกัดตั้งฉาก) และคะแนนสัมประสิทธิ์ ' s (พิกัดลาด) ในการตั้งค่า PCA จะนำเสนอในภาพสองภาพแรกที่นี่ขaข
ตอนนี้ถึงวิธีการกลั่น
ซึ่งวิธีการ
การคำนวณใน PCAB
เมื่อแยกส่วนประกอบโหลดแล้ว แต่ไม่หมุนโดยที่คือเมทริกซ์แนวทแยงที่ประกอบด้วยค่าลักษณะเฉพาะ สูตรนี้มีจำนวนเพียงการหารแต่ละคอลัมน์ของโดยค่าเฉพาะที่เกี่ยวข้อง - ความแปรปรวนของส่วนประกอบ L AB = A L- 1Lm
A
เท่า+)' สูตรนี้ยังใช้สำหรับส่วนประกอบ (โหลด) ที่หมุนได้มุมฉาก (เช่น varimax) หรือเอียงB = ( P+)'
วิธีการบางอย่างที่ใช้ในการวิเคราะห์ปัจจัย (ดูด้านล่าง) หากใช้ภายใน PCA ให้ผลลัพธ์เหมือนกัน
คะแนนตัวแทนคำนวณมีความแปรปรวน 1 และพวกเขามีค่ามาตรฐานที่แท้จริงของส่วนประกอบ
สิ่งที่อยู่ในการวิเคราะห์ข้อมูลทางสถิติเรียกว่าเมทริกซ์สัมประสิทธิ์ส่วนประกอบหลักและถ้าคำนวณจากเมทริกซ์การโหลดแบบสมบูรณ์และไม่หมุนอย่างไรก็ตามในวรรณคดีการเรียนรู้ของเครื่องมักจะระบุว่าเมทริกซ์ไวท์เทนนิ่ง (PCA-based) และส่วนประกอบหลัก ได้รับการยอมรับว่าเป็นข้อมูล "ขาวขึ้น"Bp x p
การคำนวณในการวิเคราะห์ปัจจัยทั่วไปB
ซึ่งแตกต่างจากคะแนนองค์ประกอบปัจจัยคะแนนมีความไม่แน่นอน ; เป็นเพียงการประมาณค่าจริงที่ไม่ทราบค่าของปัจจัยต่างๆ นี่เป็นเพราะเราไม่รู้จักคุณค่าของชุมชนหรือเอกลักษณ์ในระดับเคส - เนื่องจากปัจจัยที่แตกต่างจากองค์ประกอบคือตัวแปรภายนอกที่แยกออกจากรายการประจักษ์และมีการกระจายของพวกเขาเอง ซึ่งเป็นสาเหตุของการที่คะแนนปัจจัยกำหนด โปรดทราบว่าปัญหาที่กำหนดไม่ได้ขึ้นอยู่กับเหตุผลอย่างเป็นอิสระเกี่ยวกับคุณภาพของการแก้ปัญหาปัจจัย: เท่าใดปัจจัยเป็นจริง (ตรงกับที่แฝงสิ่งที่สร้างข้อมูลในประชากร) เป็นปัญหาอื่นกว่าคะแนนของผู้ตอบแบบสอบถามเป็นจริง ของปัจจัยสกัด)F
เนื่องจากคะแนนปัจจัยเป็นการประมาณวิธีการทางเลือกในการคำนวณมีอยู่และแข่งขัน
การถดถอยหรือวิธีการของThurstone หรือ Thompson ของการประเมินคะแนนปัจจัยจะได้รับโดย , ที่S = P Cเป็นเมทริกซ์ของการโหลดโครงสร้าง (สำหรับการแก้ปัญหาปัจจัยมุมฉากเรารู้A = P = S ) รากฐานของวิธีการถดถอยอยู่ในเชิงอรรถ1B = R- 1P C = R- 1SS = P CA = P = S1
บันทึก. สูตรนี้สำหรับสามารถใช้ได้กับ PCA ด้วย: จะให้ใน PCA ผลลัพธ์เดียวกันกับสูตรที่อ้างถึงในส่วนก่อนหน้าB
ใน FA (ไม่ใช่ PCA) คะแนนปัจจัยที่คำนวณด้วยการถดถอยจะไม่ปรากฏว่า "ได้มาตรฐาน" - จะมีความแปรปรวนไม่ใช่ 1 แต่เท่ากับของการถดถอยคะแนนเหล่านี้ด้วยตัวแปร ค่านี้สามารถตีความได้ว่าระดับของการกำหนดปัจจัย (ค่าที่ไม่รู้จักจริง) โดยตัวแปร - R-Square ของการทำนายของปัจจัยที่แท้จริงโดยพวกเขาและวิธีการถดถอยเพิ่มมัน - ความถูกต้องของการคำนวณ คะแนน รูปที่2แสดงรูปทรงเรขาคณิต (โปรดทราบว่าSS R อีกรัมRSSr e gR( n - 1 )2จะเท่ากับความแปรปรวนของคะแนนสำหรับวิธีการกลั่นใด ๆ แต่สำหรับวิธีการถดถอยเท่านั้นที่ปริมาณจะเท่ากับสัดส่วนของการตัดสินใจของ f ที่แท้จริง ค่าโดย f. คะแนน.)SSr e gR( n - 1 )
เป็นตัวแปรของวิธีการถดถอยหนึ่งอาจใช้แทนRในสูตร มันรับประกันว่าในการวิเคราะห์ปัจจัยที่ดีRและR ∗จะคล้ายกันมาก อย่างไรก็ตามเมื่อพวกเขาไม่ได้โดยเฉพาะอย่างยิ่งเมื่อจำนวนปัจจัยที่น้อยกว่าจำนวนประชากรที่แท้จริงวิธีการผลิตคะแนนอคติที่แข็งแกร่ง และคุณไม่ควรใช้วิธีการ "ทำซ้ำ R ถดถอย" กับ PCAR* * * *RRR* * * *m
วิธีการของ PCAหรือที่เรียกว่า Horst's (Mulaik) หรือวิธีการแปรปรวนในอุดมคติ (ized) (Harman) นี่คือวิธีการถดถอยกับRในสถานที่ของRในสูตรของมัน มันสามารถแสดงให้เห็นได้อย่างง่ายดายว่าสูตรนั้นจะลดลงเหลือB = ( P + ) ′ (และใช่เราจริง ๆ ไม่จำเป็นต้องรู้Cด้วย) คะแนนปัจจัยจะถูกคำนวณราวกับว่าพวกเขาเป็นคะแนนองค์ประกอบR^RB = ( P+)'ค
[ป้าย "อุดมคติตัวแปร" มาจากความจริงที่ว่าตั้งแต่ตามปัจจัยหรือองค์ประกอบรูปแบบส่วนคาดการณ์ของตัวแปรคือX = F P 'มันตามF = ( P + ) ' Xแต่เราแทนXสำหรับที่ไม่รู้จัก (เหมาะ) Xเพื่อประเมินFเป็นคะแนนF ; ดังนั้นเราจึง "ทำให้เป็นอุดมคติ" X ]X^= F P'F = ( P+)'X^XX^FF^X
โปรดทราบว่าวิธีนี้ไม่ได้ผ่านการให้คะแนนองค์ประกอบ PCA สำหรับคะแนนปัจจัยเนื่องจากการโหลดที่ใช้ไม่ใช่การโหลดของ PCA แต่เป็นการวิเคราะห์ปัจจัย '; เฉพาะที่วิธีการคำนวณคะแนนสะท้อนว่าใน PCA
วิธีบาร์ตเลต นี่ 2 วิธีนี้พยายามที่จะย่อขนาดให้น้อยที่สุดสำหรับผู้ตอบแบบสอบถามทุกคนแตกต่างกันไปตามปัจจัยเฉพาะ ("ข้อผิดพลาด") ความแปรปรวนของคะแนนปัจจัยทั่วไปที่เป็นผลลัพธ์จะไม่เท่ากันและอาจเกิน 1B'= ( P'ยู- 12P )- 1P'ยู- 12p
วิธี Anderson-Rubinได้รับการพัฒนาเป็นการดัดแปลงจากรุ่นก่อนหน้า 2 ความแตกต่างของคะแนนจะเป็น 1 อย่างแน่นอนอย่างไรก็ตามวิธีนี้มีไว้สำหรับการแก้ปัญหาปัจจัยมุมฉากเท่านั้น (สำหรับการแก้ปัญหาแบบเฉียงมันจะให้คะแนนแบบมุมฉาก)B'= ( P'ยู- 12R U- 12P )- 1 / 2P'ยู- 12
วิธี McDonald-Anderson-รูบิน แมคโดนัลด์ได้ขยายแอนเดอร์สัน - รูบินไปยังโซลูชั่นด้านปัจจัยเอียง อันนี้กว้างกว่าทั่วไป ด้วยปัจจัยมุมฉากมันลดลงจริง ๆ กับ Anderson-Rubin บางแพ็คเกจอาจใช้วิธีการของ McDonald ในขณะที่เรียกมันว่า "Anderson-Rubin" สูตรคือ: ที่GและHจะได้รับในSVD ( R 1 / 2 U - 1 2 P C 1 / 2 )B = R- 1 / 2G H'ค1 / 2GH ' (ใช้เฉพาะคอลัมน์แรกใน Gเท่านั้น)svd ( R1 / 2ยู- 12P C1 / 2) = G Δ H'm
G
วิธีการสีเขียวของ ใช้สูตรเดียวกับแมคโดนั-Anderson-รูบิน แต่และHจะคำนวณเป็น: SVD ( R - 1 / 2 P C 3 / 2 ) = G Δ H ' (ใช้เฉพาะคอลัมน์แรกในGแน่นอน) วิธีการสีเขียวไม่ได้ใช้ข้อมูล commulalities (หรือไม่ซ้ำกัน) มันเข้าใกล้และมาบรรจบกันกับวิธีการ McDonald-Anderson-Rubin เนื่องจากชุมชนที่แท้จริงของตัวแปรนั้นมีความเท่าเทียมกันมากขึ้นเรื่อย ๆ และหากนำไปใช้กับการโหลดของ PCA Green จะส่งกลับคะแนนองค์ประกอบเช่นวิธีดั้งเดิมของ PCAGHsvd ( R- 1 / 2P C3 / 2) = G Δ H'm
G
วิธี Krijnen et al, วิธีนี้เป็นลักษณะทั่วไปที่รองรับทั้งสองก่อนหน้านี้โดยสูตรเดียว มันอาจจะไม่เพิ่มคุณสมบัติใหม่หรือคุณสมบัติใหม่ที่สำคัญดังนั้นฉันจึงไม่พิจารณา
เปรียบเทียบระหว่างวิธีการกลั่น
วิธีการถดถอยช่วยเพิ่มความสัมพันธ์ระหว่างคะแนนปัจจัยและค่าจริงที่ไม่รู้จักของปัจจัยนั้น (เช่นเพิ่มความถูกต้องทางสถิติสูงสุด) แต่คะแนนจะค่อนข้างลำเอียงและพวกเขาค่อนข้างสัมพันธ์กันอย่างไม่ถูกต้องระหว่างปัจจัยต่างๆ นี่เป็นค่าประมาณกำลังสองน้อยที่สุด
วิธีการของ PCAนั้นเป็นกำลังสองน้อยที่สุด แต่มีความถูกต้องทางสถิติน้อยกว่า มันคำนวณได้เร็วกว่า พวกเขาไม่ได้ใช้บ่อยในการวิเคราะห์ปัจจัยในปัจจุบันเนื่องจากคอมพิวเตอร์ (ในPCAวิธีนี้เป็นแบบดั้งเดิมและเหมาะสมที่สุด)
คะแนนของบาร์ตเลตต์เป็นการประมาณค่าที่เป็นกลางโดยไม่ต้องคำนึงถึงค่าปัจจัย คะแนนจะถูกคำนวณเพื่อให้สัมพันธ์อย่างถูกต้องกับค่าจริงที่ไม่รู้จักของปัจจัยอื่น ๆ (เช่นไม่มีความสัมพันธ์กับพวกเขาในการแก้ปัญหามุมฉากเป็นต้น) อย่างไรก็ตามพวกเขายังอาจมีความสัมพันธ์ที่ไม่ถูกต้องกับคะแนนปัจจัย
คำนวณสำหรับปัจจัยอื่น ๆ สิ่งเหล่านี้เป็นค่าประมาณความเป็นไปได้สูงสุด (ภายใต้กฎเกณฑ์หลายตัวแปรของสมมติฐาน )X
แอนเดอร์สัน - รูบิน / แมคโดนัลด์ - แอนเดอร์สัน - รูบินและคะแนนของกรีนเรียกว่าการรักษาความสัมพันธ์เพราะถูกคำนวณให้สัมพันธ์อย่างถูกต้องกับคะแนนปัจจัยจากปัจจัยอื่น ๆ ความสัมพันธ์ระหว่างคะแนนปัจจัยเท่ากับความสัมพันธ์ระหว่างปัจจัยในการแก้ปัญหา (เช่นในการแก้ปัญหามุมฉากตัวอย่างเช่นคะแนนจะถูก uncorrelated อย่างสมบูรณ์แบบ) แต่คะแนนจะค่อนข้างลำเอียงและความถูกต้องอาจมีน้อย
ตรวจสอบตารางนี้ด้วย:
[หมายเหตุสำหรับผู้ใช้ SPSS: หากคุณกำลังทำวิธีการแยกPCA ("ส่วนประกอบหลัก") แต่ขอคะแนนตัวประกอบอื่นนอกเหนือจากวิธี "ถดถอย" โปรแกรมจะไม่สนใจคำขอและจะคำนวณคะแนน "ถดถอย" แทน (ซึ่งแน่นอน คะแนนองค์ประกอบ).]
อ้างอิง
Grice, James W. การคำนวณและการประเมินผลคะแนนปัจจัย // วิธีการทางจิตวิทยาปี 2001 ฉบับที่ 6, หมายเลข 4, 430-450
DiStefano, Christine และคณะ ความเข้าใจและการใช้คะแนนปัจจัย // การประเมินเชิงปฏิบัติ, การวิจัยและประเมินผล, เล่มที่ 14, ฉบับที่ 20
ten Berge, Jos MFet al. ผลลัพธ์ใหม่บางอย่างเกี่ยวกับวิธีการทำนายปัจจัยรักษาความสัมพันธ์คะแนน / พีชคณิตเชิงเส้นและการประยุกต์ 289 (1999) 311-318
Mulaik, Stanley A. ฐานรากของการวิเคราะห์ปัจจัย, รุ่นที่ 2, 2009
Harman, Harry H. การวิเคราะห์ปัจจัยสมัยใหม่รุ่นที่ 3, 1976
Neudecker, Heinz เกี่ยวกับการทำนายความแปรปรวนร่วมที่ดีที่สุดแบบเลียนแบบโดยไม่ลำเอียงของคะแนนปัจจัย // SORT 28 (1) มกราคม - มิถุนายน 2547, 27-36
1F= b1X1+ b2X2s1s2F
s1= b1R11+ b2R12
s2= b1R12+ b2R22
RXs = R bFขRs
2