PCA และการวิเคราะห์สารบรรณที่เกี่ยวข้องกับ Biplot


38

Biplot มักใช้เพื่อแสดงผลลัพธ์ของการวิเคราะห์องค์ประกอบหลัก (และเทคนิคที่เกี่ยวข้อง) เป็นรูปแบบการกระจายแบบสองทางหรือแบบซ้อนทับซึ่งแสดงการโหลดส่วนประกอบและคะแนนส่วนประกอบพร้อมกัน ฉันได้รับแจ้งจาก @amoeba วันนี้ว่าเขาได้รับคำตอบจากความคิดเห็นของฉันไปยังคำถามที่ถามเกี่ยวกับวิธีการสร้าง / ปรับขนาดพิกัด biplot; และคำตอบของเขาพิจารณาหลายวิธีในรายละเอียดบางอย่าง และ @amoeba ถามว่าฉันจะแบ่งปันประสบการณ์ของฉันกับ biplot หรือไม่

ประสบการณ์ของฉัน (ทั้งทางทฤษฎีและโดยการทดลอง) ถึงแม้จะค่อนข้างเรียบง่าย nevetherless เน้นสองสิ่งที่ไม่ได้รับการยอมรับบ่อย: (1) biplot ควรจัดเป็นเทคนิคการวิเคราะห์มากกว่า scatterplot ในเครือ (2) PCA การวิเคราะห์การติดต่อ (และเทคนิคอื่น ๆ ที่รู้จักกันดี) เป็นกรณีเฉพาะของ biplot หรืออย่างน้อยพวกเขาทั้งคู่เกือบจะเป็นแฝด หากคุณสามารถทำ biplot คุณสามารถทำอีกสอง

คำถามของฉันคือคุณ: พวกเขาเชื่อมต่อ (PCA, CA, Biplot) ได้อย่างไร? ได้โปรดแบ่งปันความคิดของคุณ ในขณะที่ฉันกำลังโพสต์บัญชีของตัวเองเกี่ยวกับเรื่องนี้ ฉันอยากจะขอให้เพิ่มคำตอบและพูดอย่างมีวิจารณญาณ


ว้าว! ฉันไม่ได้คาดหวังเช่นหัวข้อใหญ่เมื่อฉันขอความคิดเห็น :) ขอบคุณ +1 สำหรับการเริ่มการสนทนาที่น่าสนใจ ในขณะที่ฉันยังย่อยคำตอบของคุณให้ฉันชี้แจง: โดยบอกว่าฉันให้คำตอบ "แยก" จากความคิดเห็นของคุณคุณหมายถึงว่าฉันขยายออกหรือว่าฉันไม่เห็นด้วย? ฉันไม่ได้ตั้งใจที่จะต่อต้าน
อะมีบาพูดว่า Reinstate Monica

ฉันหมายถึง "เริ่มจากและพัฒนา [บัญชีของตัวเอง]" ไม่ฉันไม่เห็นการคัดค้าน (แม้ว่าฉันต้องการการคัดค้านจากผู้เชี่ยวชาญเช่นคุณ)
ttnphns

คำตอบ:


40

SVD

Xr×X=ยูR×RSR×V×'ม. [ม.นาที(R,)]X(ม.)ม.XX(ม.)=ยูR×ม.Sม.×ม.V×ม.'ยู=ยูR×ม., ,m}V=V×ม.S=Sม.×ม.

ค่าเอกพจน์และสแควร์สของพวกเขาค่าลักษณะเฉพาะแทนมาตราส่วนหรือที่เรียกว่าความเฉื่อยของข้อมูล ซ้าย eigenvectorsเป็นพิกัดของแถวของข้อมูลไปยังแกนหลักในขณะที่ eigenvectorsเป็นพิกัดของคอลัมน์ของข้อมูลบนแกนแฝงเดียวกัน สเกลทั้งหมด (ความเฉื่อย) ถูกเก็บไว้ในดังนั้นพิกัดและจะถูกทำให้เป็นมาตรฐาน (คอลัมน์ SS = 1)SU m V S U Vยูม.VSยูV

การวิเคราะห์องค์ประกอบหลักโดย SVD

ใน PCA มีการตกลงที่จะพิจารณาแถวของเป็นการสังเกตแบบสุ่ม (ซึ่งสามารถมาหรือไป) แต่เพื่อพิจารณาคอลัมน์ของเป็นจำนวนมิติหรือตัวแปรคงที่ ดังนั้นจึงเป็นเรื่องที่เหมาะสมและสะดวกในการลบผลกระทบของจำนวนแถว (และแถวเท่านั้น) ในผลลัพธ์โดยเฉพาะอย่างยิ่งในค่าลักษณะเฉพาะโดย svd - การสลายตัวของแทนX หมายเหตุที่ตรงนี้เพื่อ Eigen-การสลายตัวของ ,เป็นขนาดของกลุ่มตัวอย่าง (บ่อยครั้งส่วนใหญ่ที่มีพันธมิตรร่วม - เพื่อทำให้พวกเขาไม่มีอคติ - เราต้องการหารด้วยแต่มันเป็นความแตกต่างเล็กน้อย)XX Z = X / XZ=X/RXX'X/RRnR-1

การทวีคูณของโดยค่าคงที่ได้รับผลกระทบเพียง ; และยังคงเป็นพิกัดปกติของหน่วยของแถวและคอลัมน์XSยูV

จากที่นี่และทุกที่ด้านล่างเรากำหนดใหม่ ,และตามที่กำหนดโดย svd ของไม่ใช่ของ ; เป็นเวอร์ชันปกติของและการทำให้เป็นมาตรฐานแตกต่างกันไปตามประเภทการวิเคราะห์SยูVZXZX

โดยการคูณเรานำค่าเฉลี่ยกำลังสองในคอลัมน์ของถึง 1 เนื่องจากว่าแถวเป็นกรณีสุ่มให้เรามันเป็นตรรกะ เราได้รับจึงสิ่งที่เรียกว่าใน PCA มาตรฐานหรือมาตรฐานคะแนนองค์ประกอบหลักของการสังเกต * เราไม่ได้ทำสิ่งเดียวกันกับเพราะตัวแปรเป็นเอนทิตีคงที่ยูR=ยู* * * *UUVยูยู* * * *V

จากนั้นเราสามารถมอบให้กับทุกแถวความเฉื่อยเพื่อให้ได้พิกัดแถว unstandardized ยังเรียก PCA ดิบคะแนนองค์ประกอบหลักของการสังเกต: S สูตรนี้เราจะเรียกว่า "ทางตรง" ผลลัพธ์เดียวกันจะถูกส่งคืนโดย ; เราจะติดป้ายกำกับ "ทางอ้อม"ยู* * * *SXV

เราสามารถมอบคอลัมน์ที่มีความเฉื่อยทั้งหมดเพื่อรับพิกัดคอลัมน์ที่ไม่ได้มาตรฐานหรือที่เรียกว่า PCA ในการโหลดองค์ประกอบตัวแปร: [อาจเพิกเฉยต่อการแปลงถ้าเป็นสี่เหลี่ยม] - "ทางตรง" ผลลัพธ์เดียวกันจะถูกส่งกลับโดย - "ทางอ้อม" (คะแนนส่วนประกอบหลักที่ได้มาตรฐานข้างต้นสามารถคำนวณได้จากการโหลดเป็นโดยที่เป็นภาระ)VS'SZ'ยูX ( S - 1 / 2 )X(AS-1/2)A

Biplot

พิจารณา biplot ในแง่ของการวิเคราะห์การลดขนาดด้วยตัวเองไม่ใช่เพียงแค่เป็น "แผนการกระจายคู่" การวิเคราะห์นี้คล้ายกับ PCA ต่างจาก PCA ทั้งแถวและคอลัมน์ต่างได้รับการปฏิบัติแบบสมมาตรเป็นการสังเกตแบบสุ่มซึ่งหมายความว่าXถูกมองว่าเป็นตารางสองทางแบบสุ่มที่มีมิติต่างกัน จากนั้นตามปกติให้เป็นมาตรฐานทั้ง Rและก่อน svd: Z=X/R

หลังจาก svd ให้คำนวณพิกัดแถวมาตรฐานเหมือนกับที่เราทำใน PCA: ยู* * * *=ยูR . ทำสิ่งเดียวกัน (ต่างจาก PCA) ด้วยเวกเตอร์คอลัมน์เพื่อรับพิกัดคอลัมน์มาตรฐาน:V* * * *=V . พิกัดมาตรฐานทั้งแถวและคอลัมน์มีค่าจตุรัส 1

เราอาจมอบให้แถวและ / หรือคอลัมน์ประสานกับความเฉื่อยของค่าลักษณะเฉพาะที่เราทำใน PCA Unstandardizedพิกัดแถว: ยู* * * *S (ทางตรง) Unstandardizedพิกัดคอลัมน์: V* * * *S' (ทางตรง) แล้วทางอ้อมล่ะ? คุณสามารถอนุมานโดยการแทนว่าสูตรทางอ้อมสำหรับพิกัดแถว unstandardized เป็นXV* * * */และพิกัดคอลัมน์ unstandardized เป็นX'ยู* * * */R R

PCA เป็นกรณีเฉพาะของ Biplot จากคำอธิบายข้างต้นคุณอาจได้เรียนรู้ว่า PCA และ biplot แตกต่างกันเพียงวิธีที่พวกเขาทำให้Xเป็นZเป็นปกติซึ่งจะถูกย่อย Biplot ทำให้ปกติโดยทั้งจำนวนแถวและจำนวนคอลัมน์; PCA ทำให้ปกติตามจำนวนแถวเท่านั้น ดังนั้นจึงมีความแตกต่างเล็กน้อยระหว่างสองในการคำนวณ post-svd ถ้าในการทำ biplot คุณตั้ง=1ในสูตรของมันคุณจะได้ผลลัพธ์ PCA อย่างแน่นอน ดังนั้น biplot สามารถถูกมองว่าเป็นวิธีการทั่วไปและ PCA เป็นกรณีเฉพาะของ biplot

[ กลางคอลัมน์ ผู้ใช้บางคนอาจพูดว่า: หยุด แต่ไม่ต้องการ PCA และอันดับแรกของการรวมศูนย์ของคอลัมน์ข้อมูล (ตัวแปร) เพื่ออธิบายความแปรปรวน ? ในขณะที่ biplot อาจไม่อยู่ตรงกลาง? คำตอบของฉัน: มีเพียง PCA-in-narrow-sense ฉันกำลังพูดถึงความรู้สึกเชิงเส้น PCA แบบทั่วไป, PCA ซึ่งอธิบายผลรวมของการเบี่ยงเบนกำลังสองจากจุดกำเนิดที่เลือก คุณอาจเลือกให้เป็นค่าเฉลี่ยของข้อมูล 0 เป็นค่าดั้งเดิมหรืออะไรก็ได้ที่คุณต้องการ ดังนั้นการดำเนินการ "กึ่งกลาง" ไม่ใช่สิ่งที่สามารถแยกความแตกต่าง PCA จาก biplot]

แถวและคอลัมน์แฝง

ใน biplot หรือ PCA คุณสามารถตั้งค่าบางแถวและ / หรือคอลัมน์ให้เป็นแบบพาสซีฟหรือแบบเสริม แถวหรือคอลัมน์แฝงไม่ส่งผลต่อ SVD ดังนั้นจึงไม่มีผลต่อความเฉื่อยหรือพิกัดของแถว / คอลัมน์อื่น ๆ แต่ได้รับพิกัดในพื้นที่ของแกนหลักที่สร้างโดยแถว / คอลัมน์ที่ใช้งานอยู่ (ไม่ใช่ passive)

ในการตั้งค่าบางจุด (แถว / คอลัมน์) ให้เป็นแบบพาสซีฟ (1) กำหนดRและเป็นจำนวนแถวและคอลัมน์ที่ใช้งานเท่านั้น (2) ตั้งค่าเป็นศูนย์แถวและคอลัมน์แฝงในZก่อน svd (3) ใช้วิธี "ทางอ้อม" เพื่อคำนวณพิกัดของแถว / คอลัมน์แบบพาสซีฟเนื่องจากค่า eigenvector จะเป็นศูนย์

ใน PCA เมื่อคุณคำนวณคะแนนส่วนประกอบสำหรับเคสที่เข้ามาใหม่ด้วยความช่วยเหลือของการโหลดที่ได้จากการสังเกตแบบเก่า ( โดยใช้เมทริกซ์สัมประสิทธิ์คะแนน ) คุณทำสิ่งเดียวกันกับการรับเคสใหม่เหล่านี้ใน PCA และทำให้มันอยู่เฉยๆ ในทำนองเดียวกันการคำนวณสหสัมพันธ์ / ความแปรปรวนร่วมของตัวแปรภายนอกบางตัวที่มีคะแนนองค์ประกอบที่ผลิตโดย PCA นั้นเทียบเท่ากับการรับตัวแปรเหล่านั้นใน PCA นั้นและทำให้พวกมันอยู่นิ่งเฉย

การแพร่กระจายแรงเฉื่อยโดยพลการ

คอลัมน์ค่าเฉลี่ยกำลังสอง (MS) ของพิกัดมาตรฐานคือ 1 คอลัมน์ค่าเฉลี่ยกำลังสอง (MS) ของค่าพิกัดไม่เท่ากับมาตรฐานจะเท่ากับความเฉื่อยของแกนหลักที่เกี่ยวข้อง: ความเฉื่อยของค่าลักษณะเฉพาะทั้งหมดถูกบริจาคให้กับ eigenvectors เพื่อสร้างพิกัดที่ไม่เป็นมาตรฐาน

ในbiplot : พิกัดมาตรฐานของแถวยู* * * *มี MS = 1 สำหรับแต่ละแกนหลัก แถวพิกัด unstandardized เรียกว่าแถวเงินต้นพิกัดยู* * * *S=XV* * * */มี MS = สอดคล้องค่าเฉพาะของZZเช่นเดียวกับมาตรฐานคอลัมน์และพิกัดที่ไม่เป็นมาตรฐาน

โดยทั่วไปไม่จำเป็นที่ endows หนึ่งจะประสานกับความเฉื่อยไม่ว่าจะเต็มหรือไม่ก็ตาม อนุญาตให้มีการแพร่กระจายโดยพลการได้ถ้าจำเป็นด้วยเหตุผลบางประการ ให้พี1เป็นสัดส่วนของความเฉื่อยซึ่งไปที่แถว ดังนั้นสูตรทั่วไปของพิกัดแถวคือ: ยู* * * *Sพี1 (ทางตรง) = XV* * * *Sพี1-1/ (ทางอ้อม) ถ้าพี1=0เราจะได้รับพิกัดแถวมาตรฐานในขณะที่พี1=1เราได้รับพิกัดของแถวหลัก

ในทำนองเดียวกันพี2คือสัดส่วนของความเฉื่อยซึ่งไปที่คอลัมน์ ดังนั้นสูตรทั่วไปของพิกัดคอลัมน์คือ: V* * * *Sพี2 (ทางตรง) = X'ยู* * * *Sพี2-1/R (ทางอ้อม) ถ้าพี2=0เราจะได้รับพิกัดคอลัมน์มาตรฐานในขณะที่พี2=1เราจะได้รับพิกัดคอลัมน์หลัก

สูตรทางอ้อมทั่วไปเป็นสากลที่พวกเขาอนุญาตให้คำนวณพิกัด (มาตรฐาน, หลักหรือในระหว่าง) นอกจากนี้สำหรับจุดแฝงถ้ามีใด ๆ

ถ้าพี1+พี2=1พวกเขาบอกว่าแรงเฉื่อยมีการกระจายระหว่างจุดแถวและคอลัมน์ พี1=1,พี2=0คือแถวเงินต้นคอลัมน์มาตรฐาน biplots บางครั้งเรียกว่า "รูปแบบ biplots" หรือ "การเก็บรักษาแถวเมตริก" biplots พี1=0,พี2=1คือแถวมาตรฐานคอลัมน์หลัก biplots มักจะเรียกว่าภายใน PCA วรรณกรรม "แปรปรวน biplots" หรือ "การเก็บรักษาคอลัมน์เมตริก" biplots; พวกเขาแสดงการโหลดตัวแปร ( ซึ่งก็คือ juxtaposed กับพันธมิตร) บวกคะแนนองค์ประกอบมาตรฐานเมื่อนำไปใช้ภายใน PCA

ในการวิเคราะห์การติดต่อ , พี1=พี2=1/2มักจะใช้และถูกเรียกว่า "สมมาตร" หรือ "บัญญัติ" การฟื้นฟูโดยความเฉื่อย - มันช่วย (แม้ว่าใน expence ของความเข้มงวดทางเรขาคณิตแบบยุคลิดบางคน) เปรียบเทียบความใกล้ชิดระหว่างแถวและคอลัมน์จุด อย่างที่เราสามารถทำได้ในแผนที่แฉหลายมิติ

การวิเคราะห์สารบรรณ (แบบจำลองแบบยุคลิด)

การวิเคราะห์การติดต่อสองทาง (= ง่าย) (CA) เป็น biplot ที่ใช้ในการวิเคราะห์ตารางฉุกเฉินสองทางกล่าวคือตารางที่ไม่เป็นลบซึ่งรายการนั้นมีความหมายของความสัมพันธ์ระหว่างแถวและคอลัมน์ เมื่อตารางเป็นความถี่การวิเคราะห์ความสอดคล้องของโมเดลไคสแควร์ถูกนำมาใช้ เมื่อรายการนั้นพูดหมายถึงหรือคะแนนอื่น ๆ จะใช้แบบจำลอง Euclidean ที่เรียบง่ายกว่า

Euclidean model CA เป็นเพียง biplot ที่อธิบายข้างต้นเฉพาะที่ตารางXถูกประมวลผลล่วงหน้าเพิ่มเติมก่อนที่จะเข้าสู่การดำเนินการ biplot โดยเฉพาะอย่างยิ่งค่าจะปกติโดยไม่เพียง แต่Rและแต่ยังตามผลรวมNยังไม่มีข้อความ

การประมวลผลล่วงหน้าประกอบด้วยการจัดกึ่งกลางจากนั้นทำการทำให้เป็นมาตรฐานโดยมวลเฉลี่ย การจัดกึ่งกลางสามารถหลากหลายได้บ่อยที่สุด: (1) อยู่ตรงกลางคอลัมน์ (2) อยู่ตรงกลางของแถว; (3) การจัดกึ่งกลางแบบสองทางซึ่งเป็นการดำเนินการเช่นเดียวกับการคำนวณความถี่ที่เหลือ (4) การจัดกึ่งกลางของคอลัมน์หลังจากปรับผลรวมของคอลัมน์ (5) การจัดกึ่งกลางของแถวหลังจากจัดเรียงผลรวมของแถว การทำให้เป็นมาตรฐานด้วยมวลเฉลี่ยจะถูกหารด้วยค่าเซลล์เฉลี่ยของตารางเริ่มต้น ในขั้นตอนก่อนการประมวลผลแถว / คอลัมน์แฝงถ้ามีอยู่จะถูกทำให้เป็นมาตรฐาน: พวกมันจะอยู่กึ่งกลาง / ทำให้เป็นมาตรฐานโดยค่าที่คำนวณจากแถว / คอลัมน์ที่ใช้งานอยู่

จากนั้น biplot ปกติจะทำบนXประมวลผลล่วงหน้าเริ่มต้นจากZ=X/R

Biplot ถ่วงน้ำหนัก

ลองนึกภาพว่ากิจกรรมหรือความสำคัญของแถวหรือคอลัมน์สามารถเป็นตัวเลขใด ๆ ระหว่าง 0 ถึง 1 และไม่เพียง 0 (เรื่อย ๆ ) หรือ 1 (ใช้งาน) ตามที่ได้กล่าวถึงใน biplot แบบคลาสสิก เราสามารถชั่งน้ำหนักข้อมูลอินพุตโดยน้ำหนักแถวและคอลัมน์เหล่านี้และดำเนินการ biplot ถ่วงน้ำหนัก ด้วย biplot ถ่วงน้ำหนักยิ่งมีน้ำหนักมากเท่าไหร่ยิ่งมีอิทธิพลมากขึ้นก็คือแถวหรือคอลัมน์นั้นเกี่ยวกับผลลัพธ์ทั้งหมด - ความเฉื่อยและพิกัดของจุดทั้งหมดบนแกนหลัก

ผู้ใช้กำหนดน้ำหนักแถวและน้ำหนักคอลัมน์ สิ่งเหล่านี้และสิ่งเหล่านั้นถูกทำให้เป็นมาตรฐานแรกแยกจากกันเพื่อรวมถึง 1 จากนั้นขั้นตอนการทำให้เป็นมาตรฐานคือZผมJ=XผมJWผมWJกับWผมและWJเป็นน้ำหนักของแถว i และ j คอลัมน์ น้ำหนักเท่ากับศูนย์กำหนดแถวหรือคอลัมน์ให้อยู่เฉยๆ

ณ จุดนั้นเราอาจพบว่าบิชอปแบบคลาสสิกเป็นเพียงบิชอปแบบถ่วงน้ำหนักนี้ที่มีน้ำหนักเท่ากัน1/Rสำหรับแถวที่ใช้งานอยู่ทั้งหมดและน้ำหนักเท่ากับ1/สำหรับคอลัมน์ที่ใช้งานอยู่ทั้งหมด Rและจำนวนแถวที่ใช้งานและคอลัมน์ที่ใช้งานอยู่

ดำเนินการ SVD ของZZการดำเนินการทั้งหมดเป็นเช่นเดียวกับใน biplot คลาสสิกที่แตกต่างเพียงอย่างเดียวว่าWผมอยู่ในสถานที่ของ1/RและWJอยู่ในสถานที่ของ1/ C พิกัดแถวมาตรฐาน: ยู* * * *ผม=ยูผม/Wผมและพิกัดคอลัมน์มาตรฐาน:V* * * *J=VJ/WJ . (สิ่งเหล่านี้ใช้สำหรับแถว / คอลัมน์ที่มีน้ำหนักเป็นศูนย์ปล่อยให้เป็น 0 สำหรับผู้ที่มีน้ำหนักเป็นศูนย์และใช้สูตรทางอ้อมด้านล่างเพื่อรับมาตรฐานหรือพิกัดใด ๆ ก็ตาม)

ให้ความเฉื่อยกับพิกัดตามสัดส่วนที่คุณต้องการ (ด้วยพี1=1และพี2=1พิกัดจะไม่เต็มตามมาตรฐานหรือเป็นตัวเงินต้นโดยที่พี1=0และพี2=0พวกมันจะอยู่ในมาตรฐาน) แถว: ยู* * * *Sพี1 (ทางตรง) = X[WJ]V* * * *Sพี1-1 (ทางอ้อม) คอลัมน์: V* * * *Sพี2(ทางตรง) = ([Wผม]X)'ยู* * * *Sพี2-1 (ทางอ้อม) เมทริกซ์ในวงเล็บนี่คือเมทริกซ์ทแยงมุมของคอลัมน์และน้ำหนักแถวตามลำดับ สำหรับคะแนนแบบพาสซีฟ (นั่นคือมีน้ำหนักเป็นศูนย์) เฉพาะวิธีการคำนวณทางอ้อมเท่านั้นที่เหมาะสม สำหรับคะแนน (น้ำหนักบวก) ที่ใช้งานคุณสามารถไปทางใดทางหนึ่ง

PCA เป็นกรณีเฉพาะของ Biplot มาแล้ว เมื่อพิจารณาถึง biplot ที่ไม่มีการถ่วงน้ำหนักก่อนหน้านี้ฉันได้กล่าวถึง PCA และ biplot ว่าเท่ากันความแตกต่างเพียงอย่างเดียวที่ biplot เห็นคอลัมน์ (ตัวแปร) ของข้อมูลเป็นกรณีสุ่มโดยสมมาตรกับการสังเกต (แถว) การขยาย biplot ในขณะนี้ไปยัง biplot ที่มีน้ำหนักมากกว่าทั่วไปเราอาจเรียกร้องมันอีกครั้งโดยสังเกตว่าความแตกต่างเพียงอย่างเดียวคือ (ถ่วงน้ำหนัก) biplot จะทำให้ผลรวมของน้ำหนักคอลัมน์ของข้อมูลอินพุตเท่ากับ 1 และ PCA - ถึงจำนวน ( คอลัมน์ใช้งานอยู่) ดังนั้นนี่คือPCA ที่มีน้ำหนักแนะนำ ผลลัพธ์ของมันจะเป็นสัดส่วนเหมือนกับผลบิชอปน้ำหนัก โดยเฉพาะถ้า คือจำนวนคอลัมน์ที่ใช้งานจากนั้นความสัมพันธ์ต่อไปนี้เป็นจริงสำหรับการชั่งน้ำหนักและการวิเคราะห์ทั้งสองแบบคลาสสิค:

  • ค่าลักษณะเฉพาะของ PCA = ค่าลักษณะเฉพาะของ biplot ;
  • loadings = พิกัดคอลัมน์ภายใต้ "การทำให้เป็นมาตรฐานหลัก" ของคอลัมน์;
  • คะแนนองค์ประกอบที่ได้มาตรฐาน = พิกัดของแถวภายใต้ "มาตรฐานการทำให้เป็นมาตรฐาน" ของแถว;
  • eigenvectors ของ PCA = พิกัดคอลัมน์ภายใต้ "การทำให้เป็นมาตรฐานมาตรฐาน" ของคอลัมน์/ ;
  • คะแนนองค์ประกอบดิบ = พิกัดแถวภายใต้หัวข้อ "การฟื้นฟูหลัก" ของแถว .

การวิเคราะห์สารบรรณ (โมเดล Chi-square)

เทคนิคนี้เป็น biplot แบบถ่วงน้ำหนักซึ่งมีการคำนวณน้ำหนักจากตารางเองแทนที่จะได้รับจากผู้ใช้ ส่วนใหญ่จะใช้ในการวิเคราะห์ข้ามตารางความถี่ biplot นี้จะประมาณโดย euclidean ระยะทางในพล็อตระยะทางไคสแควร์ในตาราง ระยะทางไค - สแควร์เป็นระยะทางคณิตศาสตร์แบบยุคลิดที่มีค่าผกผันผกผันด้วยผลรวมทั้งหมด ฉันจะไม่อธิบายรายละเอียดเพิ่มเติมเกี่ยวกับเรขาคณิต CA รุ่น Chi-square

XWผม=Rผม/ยังไม่มีข้อความwj=Cj/NRiCjN

XZRiCjZ

min(r1,c1)

ดูภาพรวมที่ดีของโมเดลไค - สแควร์ในคำตอบนี้

ภาพประกอบ

นี่คือตารางข้อมูลบางส่วน

 row     A     B     C     D     E     F
   1     6     8     6     2     9     9
   2     0     3     8     5     1     3
   3     2     3     9     2     4     7
   4     2     4     2     2     7     7
   5     6     9     9     3     9     6
   6     6     4     7     5     5     8
   7     7     9     6     6     4     8
   8     4     4     8     5     3     7
   9     4     6     7     3     3     7
  10     1     5     4     5     3     6
  11     1     5     6     4     8     3
  12     0     6     7     5     3     1
  13     6     9     6     3     5     4
  14     1     6     4     7     8     4
  15     1     1     5     2     4     3
  16     8     9     7     5     5     9
  17     2     7     1     3     4     4
  28     5     3     3     9     6     4
  19     6     7     6     2     9     6
  20    10     7     4     4     8     7

Scatterplots คู่หลายตัว (ใน 2 มิติหลักแรก) สร้างขึ้นจากการวิเคราะห์ค่าเหล่านี้ดังนี้ จุดคอลัมน์เชื่อมต่อกับจุดกำเนิดโดย spikes เพื่อเน้นภาพ ไม่มีแถวหรือคอลัมน์แฝงในการวิเคราะห์เหล่านี้

biplot แรกคือผลลัพธ์SVDของตารางข้อมูลที่วิเคราะห์ "ตามสภาพ"; พิกัดคือแถวและคอลัมน์ eigenvector

ป้อนคำอธิบายรูปภาพที่นี่

ด้านล่างนี้เป็นหนึ่งใน biplots ไปได้มาจากPCA PCA ได้ทำกับข้อมูล "ตามที่เป็น" โดยไม่ต้องอยู่ตรงกลางคอลัมน์; อย่างไรก็ตามในขณะที่มันถูกนำมาใช้ใน PCA, การทำให้เป็นมาตรฐานโดยจำนวนแถว (จำนวนของกรณี) ได้ทำในตอนแรก biplot เฉพาะนี้แสดงพิกัดของแถวหลัก (เช่นคะแนนส่วนประกอบดิบ) และพิกัดคอลัมน์หลัก (เช่นการโหลดตัวแปร)

ป้อนคำอธิบายรูปภาพที่นี่

ถัดไปคือbiplot sensu เคร่งครัดo : ตารางถูกทำให้เป็นมาตรฐานในตอนแรกทั้งจำนวนแถวและจำนวนคอลัมน์ การปรับสภาพหลัก (การกระจายความเฉื่อย) ถูกใช้สำหรับพิกัดของแถวและคอลัมน์ - เช่นเดียวกับ PCA ด้านบน โปรดสังเกตความคล้ายคลึงกันกับ PCA biplot: ความแตกต่างเพียงอย่างเดียวคือความแตกต่างในการปรับสภาพเริ่มต้น

ป้อนคำอธิบายรูปภาพที่นี่

จิตารางรูปแบบการติดต่อการวิเคราะห์ biplot ตารางข้อมูลได้รับการประมวลผลล่วงหน้าในลักษณะพิเศษโดยจะรวมการจัดกึ่งกลางแบบสองทางและการทำให้เป็นมาตรฐานโดยใช้ผลรวมเล็กน้อย มันเป็นน้ำหนักสองชั้น ความเฉื่อยแผ่กระจายไปทั่วแถวและพิกัดคอลัมน์แบบสมมาตร - ทั้งคู่อยู่กึ่งกลางระหว่างพิกัด "ตัวหลัก" และ "มาตรฐาน"

ป้อนคำอธิบายรูปภาพที่นี่

พิกัดที่แสดงในสแกตเตอร์แปลงทั้งหมดเหล่านี้:

point      dim1_1   dim2_1   dim1_2   dim2_2   dim1_3   dim2_3   dim1_4   dim2_4
1            .290     .247   16.871    3.048    6.887    1.244    -.479    -.101
2            .141    -.509    8.222   -6.284    3.356   -2.565    1.460    -.413
3            .198    -.282   11.504   -3.486    4.696   -1.423     .414    -.820
4            .175     .178   10.156    2.202    4.146     .899    -.421     .339
5            .303     .045   17.610     .550    7.189     .224    -.171    -.090
6            .245    -.054   14.226    -.665    5.808    -.272    -.061    -.319
7            .280     .051   16.306     .631    6.657     .258    -.180    -.112
8            .218    -.248   12.688   -3.065    5.180   -1.251     .322    -.480
9            .216    -.105   12.557   -1.300    5.126    -.531     .036    -.533
10           .171    -.157    9.921   -1.934    4.050    -.789     .433     .187
11           .194    -.137   11.282   -1.689    4.606    -.690     .384     .535
12           .157    -.384    9.117   -4.746    3.722   -1.938    1.121     .304
13           .235     .099   13.676    1.219    5.583     .498    -.295    -.072
14           .210    -.105   12.228   -1.295    4.992    -.529     .399     .962
15           .115    -.163    6.677   -2.013    2.726    -.822     .517    -.227
16           .304     .103   17.656    1.269    7.208     .518    -.289    -.257
17           .151     .147    8.771    1.814    3.581     .741    -.316     .670
18           .198    -.026   11.509    -.324    4.699    -.132     .137     .776
19           .259     .213   15.058    2.631    6.147    1.074    -.459     .005
20           .278     .414   16.159    5.112    6.597    2.087    -.753     .040
A            .337     .534    4.387    1.475    4.387    1.475    -.865    -.289
B            .461     .156    5.998     .430    5.998     .430    -.127     .186
C            .441    -.666    5.741   -1.840    5.741   -1.840     .635    -.563
D            .306    -.394    3.976   -1.087    3.976   -1.087     .656     .571
E            .427     .289    5.556     .797    5.556     .797    -.230     .518
F            .451     .087    5.860     .240    5.860     .240    -.176    -.325

2
คำถามที่น่าสนใจ (+1) รวมทั้งคำตอบที่ยอดเยี่ยมและครอบคลุม (+1) อย่างไรก็ตามคำตอบของ IMHO นั้นต้องการการช่วยเหลือด้านภาพเพื่อให้เข้าใจถึงคณิตศาสตร์ที่ยิ่งใหญ่ทั้งหมด
Aleksandr Blekh

1
ฉันได้เพิ่มภาพตัวอย่างบางส่วน
ttnphns

2
เยี่ยมมากขอบคุณ! (นั่นไม่ได้บอกว่าฉันเข้าใจทุกอย่าง แต่อย่างน้อยตอนนี้ฉันมีแรงบันดาลใจให้ลอง :-) อีกเล็กน้อย
Aleksandr Blekh
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.