เทคนิคที่ไม่ใช่มุมฉากคล้ายกับ PCA


9

สมมติว่าฉันมีชุดข้อมูลจุด 2D และฉันต้องการตรวจสอบทิศทางของความแปรปรวนสูงสุดในท้องถิ่นของข้อมูลตัวอย่างเช่น:

ป้อนคำอธิบายรูปภาพที่นี่

PCA ไม่ได้ช่วยในสถานการณ์นี้เนื่องจากเป็นการสลายตัวแบบมุมฉากดังนั้นจึงไม่สามารถตรวจจับทั้งสองเส้นที่ฉันระบุเป็นสีน้ำเงินได้ แต่เอาต์พุตอาจมีลักษณะเหมือนเส้นที่แสดงโดยเส้นสีเขียว

กรุณาแนะนำเทคนิคใด ๆ ที่อาจเหมาะสำหรับวัตถุประสงค์นี้ ขอบคุณ


คุณสามารถทำให้ชุดข้อมูลตัวอย่างของคุณพร้อมใช้งานได้หรือไม่ ฉันอยากจะลองบางอย่างให้คุณ ขอแสดงความนับถือ Eric
Eric Melse

คำตอบ:


10

การวิเคราะห์องค์ประกอบอิสระควรจะให้ทางออกที่ดีแก่คุณ มันสามารถย่อยสลายส่วนประกอบที่ไม่ใช่มุมฉาก (เช่นในกรณีของคุณ) โดยสมมติว่าการวัดของคุณเป็นผลมาจากการผสมผสานของตัวแปรอิสระทางสถิติ

มีบทช่วยสอนที่ดีมากมายในอินเทอร์เน็ตและใช้งานได้เงียบ ๆ เพื่อทดลองใช้ (ตัวอย่างเช่นscikitหรือMDP )

ICA ไม่ทำงานเมื่อใด

เช่นเดียวกับอัลกอริธึมอื่น ๆ ICA นั้นเหมาะสมที่สุดเมื่อมีการใช้สมมติฐานที่ได้รับมา รูปธรรม

  1. แหล่งที่มาเป็นอิสระทางสถิติ
  2. ส่วนประกอบอิสระไม่ใช่แบบเกาส์เซียน
  3. เมทริกซ์ผสมกลับด้านได้

ICA ส่งคืนการประมาณค่าของเมทริกซ์การผสมและส่วนประกอบอิสระ

เมื่อแหล่งที่มาของคุณเป็นแบบเกาส์นั้น ICA จะไม่สามารถค้นหาส่วนประกอบได้ ลองนึกภาพคุณมีสององค์ประกอบอิสระและซึ่งเป็นI) จากนั้น x1x2ยังไม่มีข้อความ(0,ผม)

พี(x1,x2)=พี(x1)พี(x2)=12πประสบการณ์(-x12+x222)=12πประสบการณ์-||x||22

โดยที่. เป็นบรรทัดฐานของเวกเตอร์สองมิติ หากพวกมันถูกผสมกับการแปลงฉาก (ตัวอย่างเช่นการหมุน ) เรามีซึ่งหมายความว่าการกระจายความน่าจะไม่เปลี่ยนแปลงภายใต้การหมุน ดังนั้น ICA จึงไม่สามารถหาเมทริกซ์ผสมจากข้อมูลได้||.||R||Rx||=||x||


ใช่มันควรจะเป็น ( scikit-learn.org/stable/auto_examples/decomposition/ ...... ) ขอบคุณมาก! : D
Ahmed

1
นี่อาจกลายเป็นคำตอบที่ลึกมากถ้าคุณบอกมากกว่านี้ โดยเฉพาะอย่างยิ่งตัดสินใจเปรียบเทียบข้อเสนอของ @ Gottfried (PCA กับการหมุนแบบเอียง) กับข้อเสนอของคุณ (ICA) - อะไรคือความแตกต่างและข้อบกพร่องของทั้งสอง
ttnphns

ฉันเห็นว่าคำถามนี้ได้รับคำตอบบางส่วน ตรวจสอบการแก้ไขที่เพิ่มตัวอย่างง่ายๆที่ ICA ไม่ได้ใช้
jpmuc

3

มีขั้นตอนเหมือน PCA สำหรับกรณีที่เรียกว่า "เฉียง" ในซอฟท์แวร์สถิติเช่น SPSS (และอาจเป็นในโคลนฟรีแวร์) PSPP หนึ่งพบว่า "การหมุนวนทางอ้อม" อย่างเท่าเทียมกันและกรณีของพวกเขาที่ชื่อว่า หากฉันเข้าใจสิ่งต่าง ๆ อย่างถูกต้องซอฟต์แวร์พยายาม "จัดรูปแบบ" การโหลดตัวประกอบปัจจัยโดยคำนวณพิกัดของพวกมันอีกครั้งในพื้นที่มุมฉาก euclidean space (ตามตัวอย่างที่แสดงในรูปภาพของคุณ) เป็นพิกัดของพื้นที่ที่แกนไม่ใช่แบบ orthogonal เทคนิคบางอย่างที่รู้จักจากการถดถอยหลายครั้ง ยิ่งกว่านั้นฉันคิดว่ามันใช้งานได้อย่างซ้ำ ๆ และสิ้นเปลืองอิสระอย่างน้อยหนึ่งองศาในการทดสอบทางสถิติของแบบจำลอง

ของ PCA เปรียบเทียบและเอียงหมุนอ้างอิงคู่มือการใช้โปรแกรม SPSS (ที่ IBM-site) สำหรับเฉียง-ผลัดประกอบด้วยสูตรแม้สำหรับการคำนวณ

[อัปเดต] (อัปเดตขออภัยเพิ่งตรวจสอบว่า PSPP ไม่ได้ให้ "การหมุน" ของประเภทเอียง)


1
อืมหลังจากที่ฉันได้อ่านครั้งที่สามฉันพบว่าคำถามของคุณแตกต่างจากเหตุผลการหมุนวนเล็กน้อย: ในคลาวด์ของข้อมูลของคุณไม่ใช่ว่าค่าเฉลี่ยอยู่ที่จุดเริ่มต้น / ว่าข้อมูลไม่ได้อยู่ตรงกลางดังนั้นคุณ อาจมีอย่างอื่นในใจกว่าที่ฉันได้กล่าวไว้ในคำตอบของฉัน หากเป็นกรณีนี้ฉันสามารถลบคำตอบได้ในภายหลัง ...
Gottfried Helms

1
เนื่องจาก "การหมุน" แบบเอียงนั้นเกิดขึ้นภายหลังจาก PCA พวกเขาไม่สามารถ "เห็น" ชนิดของสถานการณ์ที่แสดงในคำถามและดังนั้นจึงดูเหมือนว่าไม่มีความสามารถในการระบุองค์ประกอบทั้งสองมากกว่า PCA เอง
whuber


2

คำตอบอื่น ๆ ได้ให้คำแนะนำที่เป็นประโยชน์เกี่ยวกับเทคนิคที่คุณสามารถพิจารณาได้ แต่ดูเหมือนว่าไม่มีใครชี้ให้เห็นว่าการสันนิษฐานของคุณนั้นผิด: เส้นที่แสดงเป็นสีน้ำเงินในภาพแผนผังของคุณไม่ใช่ความแปรปรวนสูงสุดในท้องถิ่น

หากต้องการดูมันสังเกตเห็นว่าความแปรปรวนในทิศทาง W ได้รับจาก WΣWที่ไหน Σหมายถึงเมทริกซ์ความแปรปรวนร่วมของข้อมูล ในการหาค่าสูงสุดในท้องถิ่นเราจำเป็นต้องใส่อนุพันธ์ของนิพจน์นี้เป็นศูนย์ เช่นW ถูก จำกัด ให้มีความยาวหน่วยเราจำเป็นต้องเพิ่มคำ λ(WW-1) ที่ไหน λเป็นตัวคูณของ Lagrange เราได้รับสมการต่อไปนี้:

ΣW-λW=0

ซึ่งหมายความว่า Wควรเป็นไอเก็คเวกเตอร์ของเมทริกซ์ความแปรปรวนร่วมนั่นคือหนึ่งในพาหะหลัก กล่าวอีกนัยหนึ่ง PCA ให้คุณสูงสุดในพื้นที่ทั้งหมดไม่มีคนอื่น


สวัสดีฉันมีภูมิหลังไม่มากในวิชาคณิตศาสตร์คุณสามารถแนะนำทรัพยากรที่ดีให้ฉันเพื่อเรียนรู้เกี่ยวกับสิ่งที่คุณกล่าวถึงข้างต้นได้หรือไม่? ขอบคุณ
อาเหม็ด

@ อาเหม็ด: ฉันไม่แน่ใจมันขึ้นอยู่กับสิ่งที่คุณรู้อยู่แล้ว ฉันเดาว่าคุณคงต้องการหนังสือเรียนที่ดีเกี่ยวกับพีชคณิตเชิงเส้นและการวิเคราะห์ นี่เป็นสิ่งพื้นฐานที่ค่อนข้างควรครอบคลุมในตำราเรียนที่ดี
อะมีบา
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.