การสร้างดัชนีเดียวจากองค์ประกอบหลักหรือปัจจัยหลายประการที่เก็บรักษาไว้จาก PCA / FA


15

ฉันใช้การวิเคราะห์ส่วนประกอบหลัก (PCA) เพื่อสร้างดัชนีที่จำเป็นสำหรับการวิจัยของฉัน คำถามของฉันคือวิธีที่ฉันควรสร้างดัชนีเดียวโดยใช้ส่วนประกอบหลักที่คงไว้ซึ่งคำนวณผ่าน PCA

ตัวอย่างเช่นฉันตัดสินใจที่จะเก็บส่วนประกอบหลัก 3 ชิ้นหลังจากใช้ PCA และฉันคำนวณคะแนนสำหรับส่วนประกอบหลักทั้งสามนี้ วิธีที่เหมาะสมในการสร้างดัชนีเดียวจากคะแนนทั้งสามนี้คืออะไร?

  • การเพิ่ม 3 คะแนนที่คำนวณนั้นมีค่าคอมโพสิตหรือไม่
  • หรือโดยเฉลี่ย 3 คะแนนเพื่อให้มีค่าเช่นนี้?
  • หรือฉันควรจะรักษาองค์ประกอบหลักแรก (ที่แข็งแกร่งที่สุด) เท่านั้นและใช้คะแนนเป็นดัชนี?

อีกวิธีหนึ่งสามารถใช้การวิเคราะห์ปัจจัย (FA) แต่คำถามเดียวกันยังคงอยู่: วิธีการสร้างดัชนีเดียวตามคะแนนหลายปัจจัย?


4
พีซีไม่เกี่ยวข้องกับคำนิยาม ดังนั้นในฐานะที่เป็นตัวแปรพวกเขาจะไม่ทำซ้ำข้อมูลของกันและกันในทางใดทางหนึ่ง นั่นหมายความว่าไม่มีเหตุผลที่จะสร้างค่าเดียว (ตัวแปรประกอบ) จากพวกเขา หรือบางครั้งการคูณพวกเขาอาจกลายเป็นที่สนใจบางที - แต่ไม่รวมหรือหาค่าเฉลี่ย
ttnphns

3
ฉันเห็นด้วยกับ @ttnphns: สองตัวเลือกแรกของคุณไม่สมเหตุสมผลนักและความพยายามทั้งหมดของการ "รวม" คอมพิวเตอร์สามเครื่องไว้ในดัชนีเดียวดูเหมือนว่าเข้าใจผิด ใช้พีซีเครื่องที่ 1 เป็นดัชนีของคุณหรือใช้วิธีการที่แตกต่างกันโดยสิ้นเชิง
อะมีบาพูดว่า Reinstate Monica

2
@ttnphns ไม่เกี่ยวข้องกันไม่เป็นอิสระ อาจมีข้อมูลซ้ำซ้อนในพีซีทุกเครื่องไม่ใช่เชิงเส้น
คาดเดา

1
@amoeba ขอบคุณสำหรับการเตือน ผมร่างรุ่นสำหรับแท็กและข้อความที่ตัดตอนมาที่stats.stackexchange.com/tags/valuation/info
whuber

1
@ttnphns คุณจะพิจารณาการโพสต์คำตอบที่นี่ตามความคิดเห็นของคุณข้างต้นหรือไม่ ฉันเพิ่งเริ่มให้รางวัลที่นี่เพราะคำถามที่หลากหลายปรากฏขึ้นและเราไม่สามารถปิดมันซ้ำซ้อนได้เพราะไม่มีคำตอบที่น่าพอใจ
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


11

คำตอบนี้ไม่ได้ตั้งใจทางคณิตศาสตร์และมุ่งเน้นไปที่นักจิตวิทยาที่ไม่ใช่นักสถิติ (พูด) ที่ถามว่าเขาอาจรวม / คะแนนเฉลี่ยของปัจจัยต่าง ๆ เพื่อให้ได้คะแนน "คอมโพสิตดัชนี" สำหรับผู้ตอบแบบสอบถามแต่ละคน

การรวมหรือคะแนนเฉลี่ยของตัวแปรบางตัวถือว่าเป็นตัวแปรที่อยู่ในมิติเดียวกันและใช้วัดได้ (ในคำถามนี้ "ตัวแปร" คือคะแนนองค์ประกอบหรือปัจจัยซึ่งไม่เปลี่ยนแปลงสิ่งต่าง ๆ เนื่องจากเป็นตัวอย่างของตัวแปร)

ป้อนคำอธิบายรูปภาพที่นี่

จริง ๆ (รูปที่ 1) ผู้ตอบแบบสอบถาม 1 และ 2 อาจถูกมองว่าผิดปรกติอย่างเท่าเทียมกัน (เช่นเบี่ยงเบนจาก 0 สถานที่ตั้งของศูนย์ข้อมูลหรือจุดกำเนิดของมาตราส่วน) ทั้งคู่มีคะแนนเฉลี่ยเท่ากันและ( 1.2 + 0.4 ) / 2 = 0.8 ค่า. 8นั้นถูกต้องตามขอบเขตของ atypicality สำหรับการสร้างX + Yเช่นเดียวกับXและY(0.8+0.8)/2=0.8(1.2+0.4)/2=0.80.8X+YXYแยกต่างหาก ตัวแปรที่สัมพันธ์กันซึ่งมีมิติเดียวสามารถมองเห็นได้ว่าเป็นการวัดซ้ำของคุณสมบัติเดียวกันและความแตกต่างหรือไม่เท่ากันของคะแนนของพวกเขาเป็นข้อผิดพลาดแบบสุ่ม ดังนั้นจึงเป็นเรื่อง warranded ผลรวม / เฉลี่ยคะแนนตั้งแต่ข้อผิดพลาดแบบสุ่มที่คาดว่าจะยกเลิกกันออกอื่น ๆในเอสพีอีในเอสพีอี

ไม่เช่นนั้นหากและYไม่สัมพันธ์กันมากพอที่จะเห็น "มิติ" เดียวกัน ในตอนนั้นค่าเบี่ยงเบน / ความผิดปรกติของผู้ตอบถูกถ่ายทอดโดยระยะทางแบบยุคลิดจากจุดกำเนิด (รูปที่ 2)XY

ป้อนคำอธิบายรูปภาพที่นี่

ระยะทางนั้นแตกต่างกันสำหรับผู้ตอบที่ 1 และ 2: และ0.82+0.821.131.22+0.421.26X=0.8Y=-0.8X=0Y=0 0นั่นเป็นเรื่องจริงสำหรับคุณ

WXXผม+WYYผมXYWXWYมีการตั้งค่าคงที่สำหรับผู้ตอบแบบสอบถามทั้งหมด i ซึ่งเป็นสาเหตุของข้อบกพร่อง ในการเชื่อมโยงค่าเบี่ยงเบนแบบ bivariate ของผู้ถูกตอบ - ในวงกลมหรือวงรี - น้ำหนักต้องขึ้นอยู่กับคะแนนของเขา ระยะทางแบบยุคลิดที่พิจารณาก่อนหน้านี้จริง ๆ แล้วเป็นตัวอย่างของผลรวมน้ำหนักดังกล่าวที่มีน้ำหนักขึ้นอยู่กับค่า และถ้าหากมันเป็นสิ่งสำคัญสำหรับคุณที่จะรวมความแปรปรวนที่ไม่เท่ากันของตัวแปร (เช่นขององค์ประกอบหลักเช่นในคำถาม) คุณอาจคำนวณระยะทางแบบยุคลิดแบบถ่วงน้ำหนักระยะทางที่จะพบได้ในรูปที่ 2 หลังจากวงกลมยาว

|0.8|+|0.8|=1.6|1.2|+|0.4|=1.6X=0.8Y=-0.81.60 0

(คุณอาจอุทาน "ฉันจะทำให้คะแนนข้อมูลทั้งหมดเป็นบวกและคำนวณผลรวม (หรือค่าเฉลี่ย) ด้วยความรู้สึกผิดชอบชั่วดีตั้งแต่ฉันเลือก Manhatten distance" แต่โปรดคิดว่า - คุณมีสิทธิ์ที่จะย้ายที่มาได้อย่างอิสระหรือไม่ ตัวอย่างเช่นถูกแยกภายใต้เงื่อนไขข้อมูลที่มีศูนย์กลางอยู่ที่ค่าเฉลี่ยซึ่งทำให้รู้สึกดีแหล่งกำเนิดอื่น ๆ จะผลิตส่วนประกอบ / ปัจจัยอื่น ๆ ที่มีคะแนนอื่น ๆ ไม่ส่วนใหญ่เวลาที่คุณไม่สามารถเล่นกับแหล่งกำเนิด - สถานที่ ของ "ผู้ตอบทั่วไป" หรือ "ลักษณะระดับศูนย์" - ในขณะที่คุณอยากเล่น)

เพื่อสรุปถ้าเป้าหมายของการสร้างคอมโพสิตนั้นสะท้อนถึงตำแหน่งผู้ตอบที่สัมพันธ์กันบางอย่าง "ศูนย์" หรือสถานทีทั่วไป แต่ตัวแปรแทบจะไม่มีความสัมพันธ์เลยระยะทางเชิงพื้นที่จากแหล่งกำเนิดนั้นและไม่ได้หมายถึง (หรือผลรวม) หรือไม่เลือกควรเลือก

ค่าเฉลี่ย (ผลรวม) จะสมเหตุสมผลถ้าคุณตัดสินใจที่จะดูตัวแปร (uncorrelated) เป็นโหมดทางเลือกเพื่อวัดสิ่งเดียวกัน ด้วยวิธีนี้คุณจงใจละเลยลักษณะที่แตกต่างของตัวแปร กล่าวอีกนัยหนึ่งคุณจงทิ้งรูปที่ 2 ไว้ในความโปรดปรานของรูปที่ 1: คุณ "ลืม" ว่าตัวแปรนั้นมีความเป็นอิสระ จากนั้น - ทำผลรวมหรือค่าเฉลี่ย ตัวอย่างเช่นคะแนนใน "วัสดุสวัสดิการ" และ "สวัสดิการด้านอารมณ์" อาจเป็นคะแนนเฉลี่ยเช่นเดียวกันกับคะแนน "spatial IQ" และ "verbal IQ" เช่นเดียวกัน ประเภทนี้ในทางปฏิบัติอย่างหมดจดคอมโพสิตแบบ satistically ที่ไม่ผ่านการอนุมัติเรียกว่าดัชนีแบตเตอรี่ (กลุ่มของการทดสอบหรือแบบสอบถามที่ใช้วัดสิ่งที่ไม่เกี่ยวข้องหรือสิ่งที่มีความสัมพันธ์กันซึ่งเราเรียกว่า "แบตเตอรี่") ดัชนีแบตเตอรี่มีเหตุผลถ้าคะแนนมีทิศทางเดียวกัน (เช่นทั้งความมั่งคั่งและสุขภาพทางอารมณ์จะเห็นว่าเป็นขั้ว "ดีกว่า") ประโยชน์ของการตั้งค่าเฉพาะกิจแบบแคบมี จำกัด

หากตัวแปรอยู่ในระหว่างความสัมพันธ์ - พวกเขามีความสัมพันธ์กันอย่างมาก แต่ก็ยังไม่เพียงพอที่จะเห็นพวกเขาว่าเป็นสิ่งที่ซ้ำซ้อนทางเลือกของกันและกันเรามักจะรวมค่าของพวกเขาในลักษณะถ่วงน้ำหนัก จากนั้นน้ำหนักเหล่านี้ควรได้รับการออกแบบอย่างระมัดระวังและควรสะท้อนความสัมพันธ์นี้หรืออย่างนั้น ตัวอย่างเช่นสิ่งที่เราทำโดยใช้วิธี PCA หรือการวิเคราะห์ปัจจัย (FA) ที่เราคำนวณคะแนนองค์ประกอบ / ปัจจัยพิเศษเป็นพิเศษ หากตัวแปรของคุณเป็นองค์ประกอบหรือคะแนนปัจจัยอยู่แล้ว (เช่นคำถาม OP ที่นี่แล้ว) และตัวแปรเหล่านี้มีความสัมพันธ์กัน (เนื่องจากการหมุนแบบเอียง) คุณอาจให้พวกเขา (หรือเมทริกซ์โหลดโดยตรง) ไปยัง PCA / FA ลำดับที่สอง น้ำหนักและรับพีซีลำดับที่สอง / ปัจจัยที่จะให้บริการ "ดัชนีคอมโพสิต" สำหรับคุณ

แต่ถ้าคะแนนองค์ประกอบ / ปัจจัยของคุณไม่มีความสัมพันธ์หรือมีความสัมพันธ์กันอ่อนไม่มีเหตุผลทางสถิติที่จะไม่รวมคะแนนเหล่านั้นอย่างตรงไปตรงมาหรือผ่านน้ำหนักที่อนุมาน ใช้ระยะทางแทน ปัญหาเกี่ยวกับระยะทางคือมันเป็นแง่บวกอยู่เสมอ: คุณสามารถพูดได้ว่าผู้ตอบผิดปกติมากน้อยเพียงใด แต่ไม่สามารถพูดได้ว่าเขาเป็น "เหนือ" หรือ "ต่ำกว่า" แต่นี่คือราคาที่คุณต้องจ่ายสำหรับการเรียกร้องดัชนีเดี่ยวจากพื้นที่หลายลักษณะ หากคุณต้องการความเบี่ยงเบนและลงชื่อเข้าใช้ในพื้นที่ดังกล่าวฉันจะบอกว่าคุณเร่งด่วนเกินไป

ในประเด็นสุดท้าย OP ถามว่ามันถูกต้องหรือไม่ที่จะใช้คะแนนของหนึ่งตัวแปรที่แข็งแกร่งที่สุดในส่วนที่เกี่ยวกับความแปรปรวน - องค์ประกอบหลักที่ 1 ในกรณีนี้ - เป็นพร็อกซีเท่านั้นสำหรับ "ดัชนี" มันทำให้รู้สึกว่าเครื่องคอมพิวเตอร์ที่เป็นมากแข็งแรงกว่าเครื่องคอมพิวเตอร์ส่วนที่เหลือ แม้ว่าจะมีคนถามแล้วว่า "ถ้ามันแข็งแกร่งกว่านี้ทำไมคุณไม่ดึง / เก็บไว้ แต่เพียงผู้เดียว"


0

การสร้างดัชนีคอมโพสิตใช้ PCA จากซีรีส์ครั้งที่เชื่อมโยงไปยังhttp://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf

ในบทความนั้นในหน้า 19 ผู้เขียนกล่าวถึงวิธีการสร้างดัชนีที่ไม่ได้มาตรฐาน (NSI) โดยใช้สัดส่วนของความแปรปรวนที่อธิบายโดยแต่ละปัจจัยต่อการเปลี่ยนแปลงทั้งหมดที่อธิบายโดยปัจจัยที่เลือก NSI นี้ถูกทำให้เป็นมาตรฐาน


6
ส่วนในหน้า 19 ทำสิ่งที่น่าสงสัยและเป็นปัญหาในการเพิ่มแอปเปิ้ลและส้มที่อะมีบาและฉันเตือนไว้ในความคิดเห็นด้านบน การรวมตัวแปรที่ไม่เกี่ยวข้องในหนึ่งดัชนีแทบไม่มีความหมายทางสถิติใด ๆ
ttnphns

1
บางครั้งเราเพิ่มการสร้าง / ตาชั่ง / การทดสอบที่ไม่เกี่ยวข้องและวัดสิ่งต่าง ๆ นั่นคือดัชนีแบตเตอรี่ (การทดสอบที่ถือว่าแตกต่างกันมาก / ไม่มีความเกี่ยวข้องเรียกว่า "แบตเตอรี่") ดัชนีแบตเตอรี่อาจมีความรู้สึกในทางปฏิบัติบางอย่างแม้ว่ามันจะเกือบขาดความหมายทางสถิติตามที่ได้กล่าวไว้ในความคิดเห็นก่อนหน้า
ttnphns

ดูยังมีคำถามstats.stackexchange.com/q/236786/3277
ttnphns

-1 เนื่องจากสิ่งที่เขียนข้างต้น
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.