PCA จะทำงานกับชนิดข้อมูลบูลีน (ไบนารี) หรือไม่


38

ฉันต้องการลดมิติของระบบการสั่งซื้อที่สูงขึ้นและจับความแปรปรวนส่วนใหญ่ในฟิลด์ 2 มิติหรือ 1 มิติ ฉันเข้าใจว่าสามารถทำได้ผ่านการวิเคราะห์องค์ประกอบหลักและฉันใช้ PCA ในหลาย ๆ สถานการณ์ อย่างไรก็ตามฉันไม่เคยใช้กับชนิดข้อมูลบูลีนและฉันสงสัยว่ามันมีความหมายที่จะทำ PCA กับชุดนี้หรือไม่ ตัวอย่างเช่นสมมติว่าฉันมีตัวชี้วัดเชิงคุณภาพหรือเชิงพรรณนาและฉันกำหนด "1" หากการวัดนั้นใช้ได้สำหรับมิตินั้นและ "0" หากไม่ใช่ (ข้อมูลไบนารี) ตัวอย่างเช่นสมมติว่าคุณกำลังพยายามเปรียบเทียบคนแคระทั้งเจ็ดในสโนว์ไวท์ เรามี:

Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy และ Happy และคุณต้องการจัดเรียงตามคุณสมบัติและทำตามที่:

(Lactose IntolerantA Honor RollAthleticWealthyDoc1011Dopey0000Bashful1011Grumpy1111Sneezy0110Sleepy1000Happy1100)

ดังนั้นตัวอย่างเช่น Bashful แลคโตสทนไม่ได้และไม่ได้อยู่ในม้วนเกียรติ นี่คือเมทริกซ์สมมุติอย่างหมดจดและเมทริกซ์จริงของฉันจะมีคอลัมน์อธิบายอีกมากมาย คำถามของฉันคือมันจะยังคงเหมาะสมที่จะทำ PCA ในเมทริกซ์นี้เป็นวิธีการค้นหาความคล้ายคลึงกันระหว่างบุคคล?


1
คำถามนี้เป็นคำถาม (เกือบ) ซ้ำกับที่หนึ่ง PCA อาจจะทำในไบนารีข้อมูล / บูล แต่การวิเคราะห์ปัจจัยที่ทำ (รวมทั้ง PCA "ราวกับว่า" มันเป็นเอฟเอ) ในข้อมูลดังกล่าวเป็นปัญหา
ttnphns

1
PCA บนข้อมูลไบนารีเช่นคุณ ("ปัจจุบัน" vs "ขาด") โดยปกติแล้วจะดำเนินการโดยไม่มีการจัดวางตัวแปรเพราะไม่มีเหตุผลที่จะแนะนำแหล่งกำเนิด (จุดอ้างอิง) นอกเหนือจากค่าดั้งเดิม 0 ดังนั้นแทนที่จะเป็นความแปรปรวนร่วม - หรือ PCA ความสัมพันธ์ตามเรามาถึงSSCP- หรือโคไซน์ตามอย่างใดอย่างหนึ่ง การวิเคราะห์ดังกล่าวคล้ายกันมากเกือบเทียบเท่ากับการวิเคราะห์สารบรรณหลายตัว (= การวิเคราะห์ความสม่ำเสมอ) ซึ่งอาจเป็นตัวเลือกสำหรับคุณ
ttnphns

a means of finding the similarity between individuals. แต่งานนี้มีไว้สำหรับการวิเคราะห์กลุ่มไม่ใช่ PCA
ttnphns

คำตอบสั้น ๆ : linear PCA (หากใช้เป็นเทคนิคการลดขนาดและไม่ใช้เทคนิคตัวแปรแฝงเป็นการวิเคราะห์ปัจจัย) สามารถใช้สำหรับมาตราส่วน (เมตริก) หรือข้อมูลไบนารี ไม่ควรใช้ PCA แบบธรรมดา (เชิงเส้น) ด้วยข้อมูลลำดับหรือข้อมูลที่ระบุ - เว้นแต่ว่าข้อมูลเหล่านี้จะเปลี่ยนเป็นเมตริกหรือไบนารี (เช่นดัมมี่) ด้วยวิธีใดวิธีหนึ่ง
ttnphns

@ttnphns PCA สามารถดูเป็นวิธีการจัดกลุ่มตัวแปร นอกจากนี้ PCA และการวิเคราะห์กลุ่มสามารถใช้ในลำดับ
แอนทอน

คำตอบ:


12

ฉันอยากจะแนะนำเทคนิคที่ค่อนข้างเร็ว ๆ นี้สำหรับการดึงโครงสร้างอัตโนมัติจากข้อมูลตัวแปรเด็ดขาด (รวมถึงไบนารี) วิธีการนี้เรียกว่า CorEx จาก Greg van Steeg จาก University of Southern California ความคิดคือการใช้ความคิดของความสัมพันธ์ทั้งหมดขึ้นอยู่กับมาตรการของเอนโทรปี มันน่าสนใจเนื่องจากความเรียบง่ายและไม่มีการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์จำนวนมาก

กระดาษเกี่ยวกับการแสดงลำดับชั้น (ล่าสุดสร้างบนสุดของมาตรการก่อนหน้า) http://arxiv.org/pdf/1410.7404.pdf


1
@AlvinNunez ยินดีต้อนรับ! การใช้งานไพ ธ อนสามารถพบได้ใน GitHub github.com/gregversteeg/CorExง่ายมากในการรับข้อมูลของคุณและดูว่ามีอะไรเกิดขึ้นบ้าง
Vladislavs Dovgalecs

13

คุณยังสามารถใช้การวิเคราะห์สารบรรณหลายรายการ (MCA) ซึ่งเป็นส่วนขยายของการวิเคราะห์องค์ประกอบหลักเมื่อตัวแปรที่จะวิเคราะห์เป็นหมวดหมู่แทนที่จะเป็นเชิงปริมาณ (ซึ่งเป็นกรณีที่มีตัวแปรไบนารีของคุณที่นี่) ดูตัวอย่างHusson และคณะ (2010)หรืออับและวาเลนติน (2007) แพคเกจ R ที่ดีในการดำเนินการเอ็ม (และลำดับชั้นการจัดกลุ่มบนเครื่องพีซี) เป็นFactoMineR


1
คำตอบที่น่าสนใจฉันอยากเห็นด้วย มันจะเป็นทรัพย์สินที่ยอดเยี่ยมหากคุณอธิบายรายละเอียดเกี่ยวกับปรากฏการณ์ของinflation of the feature spaceและทำไมมันจะเกิดขึ้นใน PCA และไม่ใช่ใน MCA
ttnphns

ฉันเข้าใจผิดinflation of the feature spaceปรากฏการณ์ ดูเหมือนว่าจะเข้ามาเล่นเมื่อเปลี่ยนจาก CA ไปเป็น MCA แต่ไม่ใช่ปัญหาของ PCA ฉันจะลบคำตอบของฉันเมื่อคุณอ่านความคิดเห็นนี้ ขอบคุณที่ทำให้ฉันตระหนักว่า
แอนทอน

ฉันไม่คิดว่าคุณต้องลบคำตอบ MCA เป็นหนึ่งในตัวเลือกที่เหมาะสมสำหรับฉันและคำตอบของคุณก็ใช้ได้
ttnphns

ฉันเพิ่มคำตอบกลับเพราะฉันคิดว่า MCA อาจเป็นประโยชน์ที่นี่ แต่ฉันได้ลบการสนทนาเกี่ยวกับอัตราเงินเฟ้อของพื้นที่คุณลักษณะเนื่องจากดูเหมือนว่าไม่เกี่ยวข้อง
Antoine

ผลลัพธ์ของ MCA บนข้อมูลไบนารีแตกต่างจากผลลัพธ์ของ PCoA ด้วยการวัดระยะทางที่เหมาะสมสำหรับข้อมูลไบนารีเช่น Jaccard หรือการจับคู่อย่างง่ายอย่างไร
emudrak

9

หากคุณคิดว่า PCA เป็นเทคนิคสำรวจเพื่อให้คุณเห็นภาพความสัมพันธ์ระหว่างตัวแปร (และในความคิดของฉันนี่เป็นวิธีเดียวที่จะคิดเกี่ยวกับมัน) แล้วใช่ไม่มีเหตุผลที่คุณไม่สามารถใส่เลขฐานสองได้ ตัวแปร ตัวอย่างเช่นนี่คือข้อมูลสองทางของคุณ

ป้อนคำอธิบายรูปภาพที่นี่

ดูเหมือนว่ามีประโยชน์พอสมควร ตัวอย่างเช่นคุณจะเห็นว่า Doc และ Bashful นั้นคล้ายกันมาก HR นั้นค่อนข้างแตกต่างจากตัวแปรอื่น ๆ สามตัว ง่วงนอนและ Sneezy แตกต่างกันมาก ฯลฯ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.