PCA เกี่ยวกับสหสัมพันธ์หรือความแปรปรวนร่วม: PCA ที่สัมพันธ์กันนั้นสมเหตุสมผลหรือไม่? [ปิด]


32

ในการวิเคราะห์องค์ประกอบหลัก (PCA) เราสามารถเลือกเมทริกซ์ความแปรปรวนร่วมหรือเมทริกซ์สหสัมพันธ์เพื่อค้นหาส่วนประกอบ (จาก eigenvectors ที่เกี่ยวข้อง) สิ่งเหล่านี้ให้ผลลัพธ์ที่แตกต่าง (การโหลด PC และคะแนน) เนื่องจาก eigenvector ระหว่างเมทริกซ์ทั้งสองไม่เท่ากัน ความเข้าใจของฉันคือว่าสิ่งนี้เกิดจากความจริงที่ว่าเวกเตอร์ข้อมูลดิบและมาตรฐานไม่สามารถเกี่ยวข้องผ่านการแปลงมุมฉาก ศาสตร์คณิตศาสตร์, การฝึกอบรมที่คล้ายกัน (เช่นที่เกี่ยวข้องโดยการเปลี่ยนแปลงมุมฉาก) มีค่าลักษณะเดียวกัน แต่ไม่จำเป็นต้อง eigenvectors เดียวกันZXZ

สิ่งนี้ทำให้เกิดความยุ่งยากในใจของฉัน:

  1. PCA เข้าท่าจริงหรือไม่ถ้าคุณได้คำตอบที่ต่างกันสองชุดสำหรับชุดข้อมูลเริ่มต้นเดียวกันทั้งคู่พยายามทำสิ่งเดียวกัน (= ค้นหาทิศทางของความแปรปรวนสูงสุด)

  2. เมื่อใช้วิธีเมทริกซ์สหสัมพันธ์ตัวแปรแต่ละตัวจะถูกทำให้เป็นมาตรฐาน (ย่อส่วน) โดยค่าเบี่ยงเบนมาตรฐานของตนเองก่อนที่จะคำนวณพีซี ถ้าเช่นนั้นข้อมูลจะถูกปรับขนาด / บีบอัดให้แตกต่างกันไปก่อนแล้วยังคงเหมาะสมหรือไม่ที่จะหาทิศทางของความแปรปรวนสูงสุด ฉันรู้ว่า PCA ที่ใช้ความสัมพันธ์นั้นสะดวกมาก (ตัวแปรมาตรฐานไม่มีมิติดังนั้นจึงสามารถเพิ่มการผสมเชิงเส้นของพวกเขาข้อดีอื่น ๆ ยังขึ้นอยู่กับลัทธิปฏิบัตินิยม) แต่มันถูกต้องหรือไม่

สำหรับฉันแล้วดูเหมือนว่า PCA ที่ใช้ความแปรปรวนร่วมเป็นสิ่งเดียวที่ถูกต้องอย่างแท้จริง (แม้ว่าความแปรปรวนของตัวแปรจะแตกต่างกันอย่างมาก) และเมื่อใดก็ตามที่ไม่สามารถใช้เวอร์ชันนี้ได้

ฉันรู้ว่ามีหัวข้อนี้: PCA ในความสัมพันธ์หรือความแปรปรวนร่วม? - แต่ดูเหมือนว่าจะมุ่งเน้นเฉพาะในการหาวิธีแก้ปัญหาในทางปฏิบัติซึ่งอาจหรืออาจจะไม่ใช่วิธีที่ถูกต้องเกี่ยวกับพีชคณิต


4
ฉันจะซื่อสัตย์และบอกคุณว่าฉันเลิกอ่านคำถามของคุณในบางจุด PCA เข้าท่า ใช่ผลลัพธ์อาจแตกต่างกันไปขึ้นอยู่กับว่าคุณเลือกใช้ความสัมพันธ์หรือเมทริกซ์ความแปรปรวน / แปรปรวนร่วมหรือไม่ PCA ที่ใช้ความสัมพันธ์นั้นเป็นที่ต้องการหากตัวแปรของคุณถูกวัดในสเกลที่แตกต่างกัน แต่คุณไม่ต้องการให้สิ่งนี้ครอบงำผลลัพธ์ ลองนึกภาพถ้าคุณมีชุดของตัวแปรที่มีค่าตั้งแต่ 0 ถึง 1 แล้วบางส่วนที่มีค่ามาก (พูดค่อนข้างเช่น 0 ถึง 1,000) ความแปรปรวนขนาดใหญ่ที่เกี่ยวข้องกับตัวแปรกลุ่มที่สองจะมีอิทธิพล
แพทริค

4
แต่นั่นเป็นกรณีที่มีเทคนิคอื่น ๆ อีกมากมายเช่นกันและฉันคิดว่าจุดของ Patrick นั้นสมเหตุสมผล นอกจากนี้ยังเป็นเพียงความคิดเห็นไม่จำเป็นต้องก้าวร้าว โดยทั่วไปการพูดทำไมคุณคิดว่าควรมีวิธีการแก้ไขพีชคณิตที่ถูกต้องในการแก้ปัญหา
Gala

5
บางทีคุณกำลังคิดถึง PCA ในทางที่ผิด: มันเป็นเพียงการเปลี่ยนแปลงดังนั้นจึงไม่มีคำถามว่ามันถูกหรือผิดหรืออาศัยสมมติฐานเกี่ยวกับตัวแบบข้อมูลซึ่งแตกต่างจากการพูดการถดถอยหรือการวิเคราะห์ปัจจัย
Scortchi - Reinstate Monica

5
ประเด็นสำคัญของเรื่องนี้ดูเหมือนว่าจะอยู่บนความเข้าใจผิดว่ามาตรฐานทำงานอย่างไรและ PCA ทำงานอย่างไร สิ่งนี้เป็นที่เข้าใจได้เนื่องจากความเข้าใจที่ดีของ PCA ต้องใช้การมองเห็นของรูปร่างที่มีมิติสูงกว่า ฉันขอยืนยันว่าคำถามนี้เช่นเดียวกับคำถามอื่น ๆ ที่อิงกับความเข้าใจผิดบางประการจึงเป็นคำถามที่ดีและควรจะเปิดอยู่เพราะคำตอบสามารถเปิดเผยความจริงที่หลายคนอาจไม่เคยชื่นชมมาก่อน
whuber

6
PCA ไม่ "เรียกร้อง" อะไร ผู้คนอ้างสิทธิ์เกี่ยวกับ PCA และในความเป็นจริงแล้วมันใช้แตกต่างกันมากขึ้นอยู่กับข้อมูล การใช้งานเหล่านี้บางอย่างอาจไร้สาระหรือน่าสงสัย แต่ดูเหมือนจะไม่แจ่มชัดมากนักเมื่อคิดว่าเทคนิคที่แตกต่างกันเพียงอย่างเดียวจะต้องเป็น“ การแก้ไขพีชคณิต” ที่ไม่มีการอ้างอิงถึงบริบทหรือเป้าหมายของการวิเคราะห์
Gala

คำตอบ:


29

ฉันหวังว่าการตอบคำถามสองข้อของคุณจะทำให้คุณกังวลใจ:

  1. เมทริกซ์สหสัมพันธ์เป็นเมทริกซ์ความแปรปรวนร่วมของข้อมูลที่ได้มาตรฐาน (เช่นไม่ได้อยู่กึ่งกลางเท่านั้น นั่นคือเมทริกซ์ความแปรปรวนร่วม (ราวกับว่า) ของชุดข้อมูลอื่นที่แตกต่างกัน ดังนั้นจึงเป็นเรื่องธรรมดาและไม่ควรรบกวนคุณว่าผลลัพธ์จะแตกต่างกัน
  2. ใช่มันสมเหตุสมผลแล้วที่จะหาทิศทางของความแปรปรวนสูงสุดกับข้อมูลที่ได้มาตรฐาน - พวกมันคือทิศทางของ - ดังนั้นจึงต้องพูด - "สหสัมพันธ์" ไม่ใช่ "ความแปรปรวนร่วม"; นั่นคือหลังจากผลของความแปรปรวนที่ไม่เท่ากัน - ของตัวแปรดั้งเดิม - ต่อรูปร่างของคลาวด์ข้อมูลหลายตัวแปรนั้นถูกนำออกไป

เพิ่มข้อความและรูปภาพถัดไปโดย @whuber (ฉันขอบคุณเขาและดูความคิดเห็นของฉันด้านล่าง)

นี่คือตัวอย่างสองมิติที่แสดงว่าทำไมยังคงเหมาะสมที่จะค้นหาแกนหลักของข้อมูลที่ได้มาตรฐาน (แสดงทางด้านขวา) โปรดทราบว่าในพล็อตมือขวาเมฆยังคงมี "รูปร่าง" แม้ว่าความแปรปรวนตามแกนพิกัดจะเท่ากันทุกประการ (ถึง 1.0) ในทำนองเดียวกันในมิติที่สูงกว่าคลาวด์จุดที่เป็นมาตรฐานจะมีรูปร่างที่ไม่เป็นทรงกลมแม้ว่าความแปรปรวนตามแนวแกนทั้งหมดจะเท่ากัน (1.0) แกนหลัก (ที่มีค่าลักษณะเฉพาะที่สอดคล้องกัน) อธิบายรูปร่างนั้น อีกวิธีหนึ่งในการทำความเข้าใจนี้คือการบันทึกว่าการลดขนาดและการเลื่อนที่เกิดขึ้นเมื่อกำหนดมาตรฐานของตัวแปรเกิดขึ้นเฉพาะในทิศทางของแกนพิกัดเท่านั้นและไม่ได้อยู่ในทิศทางหลัก

รูป

สิ่งที่เกิดขึ้นที่นี่เป็นเรื่องง่ายและชัดเจนในเชิงเรขาคณิตว่ามันจะเป็นการยืดลักษณะนี้เป็น "การทำงานของกล่องดำ": ตรงกันข้ามมาตรฐานและ PCA เป็นสิ่งพื้นฐานที่สุดและกิจวัตรที่เราทำกับข้อมูลตามลำดับ เข้าใจพวกเขา


อย่างต่อเนื่องโดย @ttnphns

เมื่อใดที่ผู้คนต้องการทำ PCA (หรือการวิเคราะห์ปัจจัยหรือการวิเคราะห์ประเภทอื่น ๆ ที่คล้ายกัน) ในความสัมพันธ์ (เช่นในตัวแปรมาตรฐาน z) แทนที่จะทำบนความแปรปรวนร่วม (เช่นตัวแปรกึ่งกลาง)?

  1. เมื่อตัวแปรเป็นหน่วยการวัดที่แตกต่างกัน นั่นชัดเจน
  2. เมื่อเราต้องการให้การวิเคราะห์สะท้อนความสัมพันธ์เชิงเส้นเพียงอย่างเดียว เพียร์สันrไม่เพียง แต่ความแปรปรวนร่วมระหว่างตัวแปร (ตัวแปร = 1) ที่ยังไม่เปิดเผย ทันใดนั้นก็เป็นการวัดความแข็งแกร่งของความสัมพันธ์เชิงเส้นในขณะที่ค่าสัมประสิทธิ์ความแปรปรวนร่วมปกติเปิดกว้างสำหรับความสัมพันธ์แบบเชิงเส้นและแบบโมโนโพนิก
  3. เมื่อต้องการให้สมาคมสะท้อนความเบี่ยงเบนร่วมแบบสัมพัทธ์ (จากค่าเฉลี่ย) มากกว่าความเบี่ยงเบนร่วมแบบดิบ สหสัมพันธ์ขึ้นอยู่กับการแจกแจงการแพร่กระจายของพวกเขาในขณะที่ความแปรปรวนร่วมจะขึ้นอยู่กับระดับการวัดเดิม หากฉันต้องวิเคราะห์โปรไฟล์ของผู้ป่วยจิตเวชที่ประเมินโดยนักจิตแพทย์ 'ในแบบสอบถามทางคลินิกบางรายการที่ประกอบด้วยรายการประเภท Likert ฉันต้องการความแปรปรวนร่วม เนื่องจากมืออาชีพไม่คาดว่าจะบิดเบือนระดับการให้คะแนนอย่างแท้จริง ในทางกลับกันถ้าฉันต้องวิเคราะห์ตนเองของผู้ป่วยด้วยแบบสอบถามเดียวกันฉันอาจเลือกสหสัมพันธ์ เนื่องจากการประเมินของฆราวาสคาดว่าจะสัมพันธ์กับ "คนอื่น", "ส่วนใหญ่" "การเบี่ยงเบนที่อนุญาต" loupe ที่ "ลดขนาด" หรือ "เหยียด" ระดับคะแนนสำหรับหนึ่ง

1
1. ขออภัย แต่สิ่งนี้รบกวนจิตใจคุณมาก สำหรับบุคคลภายนอกการกำหนดมาตรฐานคือการใช้งานกล่องดำซึ่งเป็นส่วนหนึ่งของการกำหนดข้อมูลล่วงหน้าของ PCA (เช่นเดียวกับใน ICA) เขาต้องการคำตอบเดียวสำหรับข้อมูลอินพุต (ดิบ) โดยเฉพาะอย่างยิ่งถ้าเกี่ยวข้องกับข้อมูลทางกายภาพ (มิติ) ซึ่งเอาต์พุต PCA จำเป็นต้องตีความทางกายภาพ (เช่นในแง่ของตัวแปรที่ไม่ได้มาตรฐาน) เช่นกัน
Lucozade

1
การแก้ไขครั้งล่าสุดของคุณดูเหมือนจะเป็นการยืนยันอีกครั้งว่า "PCA ที่ใช้ความแปรปรวนร่วมเป็นสิ่งเดียวที่ถูกต้องอย่างแท้จริง" ในขณะที่การตอบสนองทั้งหมดอยู่ในสาระสำคัญ "ไม่; วิธีคิดที่ผิดเกี่ยวกับเรื่องนี้และนี่คือสาเหตุ" เป็นเรื่องยากที่จะทราบว่าคุณคาดหวังที่จะคัดท้ายการสนทนากับความขัดแย้งที่รุนแรง
Nick Cox

4
@ Lucozade: ฉันสับสนเกี่ยวกับคำอธิบายใบสมัครของคุณ: - PCA จะแนะนำอะไรได้อย่างไร คุณวัดประสิทธิภาพได้อย่างไร ในทำนองเดียวกันสำหรับความคิดเห็นล่าสุดของคุณ: - ที่ดีที่สุดสำหรับอะไร
Scortchi - Reinstate Monica

5
@Lucozade: แน่นอนโปรดฟังสิ่งที่ Scortchi กล่าวว่าคุณดูเหมือนจะไล่ล่าผี PCA เป็นรูปแบบพิเศษของการหมุนข้อมูลในอวกาศ มันมักจะทำสิ่งที่ดีที่สุดกับข้อมูลอินพุต ภาวะที่กลืนไม่เข้าคายไม่ออกของ cov-corr เป็นสิ่งที่ใช้งานได้จริงซึ่งมีรากฐานมาจากการประมวลผลข้อมูลล่วงหน้าและถูกแก้ไขในระดับนั้นไม่ใช่ระดับ PCA
ttnphns

1
@Lucozade: มันจะเป็นความเห็นของฉัน (ไม่ใช่ผู้เชี่ยวชาญ) ตามการตอบกลับของคุณกับฉันว่าในความต้องการเฉพาะของคุณคุณมีสิทธิ์ที่จะต้องการ PCA ที่ใช้ cov อีกครั้งตัวแปรของคุณจะเหมือนกันทั้งในแง่ของข้อมูล / ประเภทการวัด (ประเภทเครื่องเดียวกันและข้อมูลทั้งหมดเป็นโวลต์) สำหรับฉันตัวอย่างของคุณชัดเจนว่าเป็นกรณีที่ cov-PCA ถูกต้อง แต่โปรดทราบว่านี่ไม่ใช่กรณีเสมอไปและฉันคิดว่านี่เป็นจุดสำคัญของเรื่องนี้ในขณะที่เธรด (ตัวเลือกของ cor v. cov เป็นกรณีเฉพาะและต้องการ จะถูกกำหนดโดยบุคคลที่เข้าใจข้อมูล & แอปพลิเคชันดีที่สุด) ขอให้โชคดีกับการวิจัยของคุณ!
แพทริค

6

การพูดจากมุมมองเชิงปฏิบัติ - อาจไม่เป็นที่นิยมที่นี่ - ถ้าคุณมีข้อมูลที่วัดได้ในระดับที่แตกต่างกันให้ไปด้วยความสัมพันธ์ ('UV scaling' ถ้าคุณเป็นนักเคมี) แต่ถ้าตัวแปรอยู่ในระดับเดียวกันและขนาดของพวกมันสำคัญ (เช่นด้วยข้อมูลทางสเปกโทรสโกปี) จากนั้นความแปรปรวนร่วม (อยู่ตรงกลางข้อมูลเท่านั้น) เหมาะสมกว่า PCA เป็นวิธีการที่ขึ้นอยู่กับขนาดและการเปลี่ยนแปลงการบันทึกสามารถช่วยให้ข้อมูลเบ้สูง

ในความเห็นที่ต่ำต้อยของฉันจากการประยุกต์ใช้เคมีบำบัดมา 20 ปีคุณต้องทดลองสักเล็กน้อยและดูว่าอะไรดีที่สุดสำหรับข้อมูลประเภทของคุณ ในตอนท้ายของวันคุณต้องสามารถทำซ้ำผลลัพธ์ของคุณและพยายามพิสูจน์ความสามารถในการสรุปของคุณ วิธีที่คุณได้รับมักจะมีกรณีของการทดลองและข้อผิดพลาด แต่สิ่งที่สำคัญคือสิ่งที่คุณทำคือเอกสารและทำซ้ำได้


4
วิธีปฏิบัติที่ดูเหมือนว่าคุณจะสนับสนุนที่นี่จะลดลงถึง - เมื่อทั้งโควาเรียสและสหสัมพันธ์มีการรับประกัน - "ลองทั้งคู่และดูว่าอะไรดีที่สุด" ท่าทางเชิงประจักษ์อันบริสุทธิ์นั้นปกปิดความจริงที่ว่าตัวเลือกใด ๆ ไปพร้อมกับสมมติฐานหรือกระบวนทัศน์ของตนเองเกี่ยวกับความเป็นจริงที่นักวิจัยควรทราบล่วงหน้าแม้ว่าเขาจะเข้าใจว่าเขาชอบหนึ่งในนั้นโดยพลการก็ตาม การเลือก "สิ่งที่ดีที่สุด" คือการใช้ความรู้สึกมีความสุขคือนาร์มาเนีย
ttnphns

-2

ฉันมีเวลาที่จะไปเป็นคำอธิบายฟูลเลอร์ของรายละเอียดและเทคนิคด้านการทดลองที่ผมอธิบายไม่และชี้แจงเกี่ยวกับกรมธรรม์ (แนะนำให้ประสิทธิภาพการทำงานที่ดีที่สุด) อีกครั้งจะเบี่ยงเบนความสนใจเราออกไปจากปัญหาที่แท้จริงซึ่งเป็นเรื่องเกี่ยวกับสิ่งที่ประเภทของการป้อนข้อมูล PCA สามารถ (ไม่) / ควร (ไม่) ที่จะรับ PCA ดำเนินการโดยการรวมกันเชิงเส้นของตัวเลข (ค่าของตัวแปร) แน่นอนว่าวิชาหนึ่งสามารถเพิ่มหมายเลขใด ๆ ก็ได้ (จริงหรือซับซ้อน) แต่ถ้าพวกเขาได้รับการปรับขนาดใหม่ก่อนการแปลง PCA การรวมกันเชิงเส้นของพวกเขา (และด้วยเหตุนี้ถึงกระบวนการขยายสูงสุด) ยังคงมีความหมายที่จะใช้งานหรือไม่? ถ้าแต่ละตัวแปร1 / s 1 ) + ( x 2xผมs2(x1/s1)+(x2/s2)=(x1+x2)/sx1+x2s1s2องศา ดูเหมือนว่ามีจุดเล็ก ๆ น้อย ๆ ในการเพิ่มความแปรปรวนของชุดค่าผสมเชิงเส้นให้ได้มากที่สุด ในกรณีดังกล่าว PCA ให้วิธีแก้ปัญหาสำหรับชุดข้อมูลที่แตกต่างกันโดยแต่ละตัวแปรจะถูกปรับขนาดแตกต่างกัน หากคุณไม่ได้มาตรฐานหลังจากนั้น (เมื่อใช้ corr_PCA) แสดงว่าอาจใช้ได้และจำเป็น แต่ถ้าคุณเพียงแค่ใช้ raw corr_PCA solution อย่างที่เป็นอยู่และหยุดอยู่แค่นั้นคุณก็จะได้คำตอบทางคณิตศาสตร์ แต่ไม่ได้เกี่ยวข้องกับข้อมูลทางกายภาพ หลังจากที่ไม่ได้มาตรฐานจากนั้นดูเหมือนว่าจะได้รับคำสั่งให้เป็นขั้นต่ำ (นั่นคือ 'แกนที่ unstretching' โดยการเบี่ยงเบนมาตรฐานแบบผกผัน) cov_PCA อาจถูกใช้เพื่อเริ่มต้นด้วย หากคุณยังอ่านอยู่ตอนนี้ฉันประทับใจ! สำหรับตอนนี้ฉันจบด้วยการอ้างอิงจากหนังสือของ Jolliffe, p. 42 ซึ่งเป็นส่วนที่เกี่ยวข้องกับฉัน:'จะต้องไม่ถูกลืมอย่างไรก็ตามพีซีแบบเมทริกซ์ความสัมพันธ์นั้นเมื่อแสดงอีกครั้งในแง่ของตัวแปรดั้งเดิมยังคงเป็นฟังก์ชันเชิงเส้นของ x ซึ่งจะทำให้เกิดความแปรปรวนสูงสุดเมื่อเทียบกับตัวแปรมาตรฐานและไม่เกี่ยวข้องกับตัวแปรดั้งเดิม' หากคุณคิดว่าฉันกำลังตีความสิ่งนี้หรือความหมายของมันอย่างไม่ถูกต้องข้อความที่ตัดตอนมานี้อาจเป็นจุดสนใจที่ดีสำหรับการสนทนาต่อไป


3
มันช่างน่าขบขันที่คำตอบของคุณเองซึ่งสอดคล้องกับทุกสิ่งที่คนที่นี่พยายามสื่อถึงคุณยังคงไม่มั่นคงสำหรับคุณ คุณยังคงโต้แย้งThere seems little pointใน PCA ในความสัมพันธ์ ถ้าคุณต้องการอยู่ใกล้กับข้อมูลดิบ ("ข้อมูลทางกายภาพ" ในขณะที่คุณเรียกมันอย่างประหลาด) คุณไม่ควรใช้สหสัมพันธ์เนื่องจากข้อมูลเหล่านั้นสอดคล้องกับข้อมูลอื่น ("บิดเบือน")
ttnphns

2
(ต่อ) สถานะการอ้างอิงของ Jolliffe ว่าพีซีที่ได้รับจากความสัมพันธ์จะเป็นตัวของตัวเองและไม่สามารถเปลี่ยน "ย้อนกลับ" ไปเป็นพีซีบนพันธมิตรที่มีความแปรปรวนได้แม้ว่าคุณจะสามารถแสดงมันเป็นชุดเชิงเส้นของตัวแปรดั้งเดิมได้ ดังนั้น Jolliffe จึงเน้นความคิดที่ว่าผลลัพธ์ PCA นั้นขึ้นอยู่กับประเภทของการประมวลผลก่อนที่ใช้และไม่มีพีซี "ของจริง", "ของแท้" หรือ "สากล" ...
ttnphns

2
(ต่อ) และในความเป็นจริงหลายบรรทัดด้านล่าง Jolliffe พูดถึง "ฟอร์ม" อีกอันของ PCA - PCA บนX'Xเมทริกซ์ แบบฟอร์มนี้แม้จะใกล้เคียงกับข้อมูลดั้งเดิมมากกว่า cov-PCA เพราะไม่มีการจัดกึ่งกลางของตัวแปร และผลลัพธ์มักจะแตกต่างกันอย่างมาก คุณสามารถทำ PCA บนโคไซน์ได้เช่นกัน คนทำ PCA ในเมทริกซ์ SSCPทุกรุ่นแม้ว่าจะมีการแปรปรวนร่วมหรือมีการเชื่อมโยงกันบ่อยที่สุด
ttnphns

3
ภายใต้คำตอบนี้เป็นข้อสันนิษฐานโดยนัยว่าหน่วยที่ข้อมูลถูกวัดมีความหมายที่แท้จริง ในกรณีนี้เราอาจเลือกที่จะวัดความยาวในอังสตรอมม์พาร์เซกหรืออะไรก็ได้และเวลาเป็น picoseconds หรือพันปีโดยไม่เปลี่ยนความหมายของข้อมูลหนึ่งส่วนน้อย การเปลี่ยนแปลงที่เกิดขึ้นจากความแปรปรวนร่วมเป็นสหสัมพันธ์เป็นเพียงการเปลี่ยนแปลงของหน่วย (ซึ่งโดยวิธีการนั้นมีความอ่อนไหวเป็นพิเศษต่อข้อมูลภายนอก) สิ่งนี้ชี้ให้เห็นว่าปัญหานี้ไม่ใช่ความแปรปรวนร่วมกับความสัมพันธ์ แต่เป็นการหาวิธีที่มีประโยชน์ในการแสดงข้อมูลสำหรับการวิเคราะห์
whuber

3
@ttnphns ฉันจะติดโดย "เพียงแค่" ขอบคุณ ไม่ว่าจะมีนัยยะหรือไม่ "ลึกซึ้ง" ความจริงก็ยังคงอยู่ที่การกำหนดมาตรฐานของตัวแปรอย่างแท้จริงคือการแสดงออกของค่านิยมเลียนแบบ: การเปลี่ยนแปลงในหน่วยของการวัด ความสำคัญของการสังเกตนี้อยู่ที่ความหมายของคำกล่าวอ้างที่ปรากฏในหัวข้อนี้ซึ่งสิ่งที่โดดเด่นที่สุดคือ "PCA ที่ใช้ความแปรปรวนร่วมเป็นสิ่งเดียวที่ถูกต้องอย่างแท้จริง" ความคิดของความถูกต้องใด ๆ ที่ว่าในท้ายที่สุดขึ้นอยู่บนหลักโดยพลแง่มุมของข้อมูล - วิธีการที่เราเขียนพวกเขาลง - ไม่สามารถได้รับสิทธิ
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.