พื้นที่ข้อมูลพื้นที่ผันแปรพื้นที่สังเกตพื้นที่จำลอง (เช่นในการถดถอยเชิงเส้น)


9

สมมติว่าเรามี data matrixซึ่งก็คือ -by-และ label vectorซึ่งก็คือ -by-one ที่นี่แต่ละแถวของเมทริกซ์คือการสังเกตและแต่ละคอลัมน์สอดคล้องกับมิติ / ตัวแปร (สมมติ )XnpYnn>p

แล้วสิ่งที่ไม่data space, variable space, observation space, model spaceหมายความว่าอย่างไร

พื้นที่ที่ถูกขยายโดยเวกเตอร์คอลัมน์, ช่องว่าง(ลดลง) -D เนื่องจากมันมีพิกัดในขณะที่อยู่ในอันดับซึ่งเรียกว่าพื้นที่ว่างเนื่องจากมันถูกขยายโดยตัวแปร-เวกเตอร์? หรือเรียกว่าพื้นที่สังเกตการณ์เนื่องจากแต่ละมิติ / พิกัดสอดคล้องกับการสังเกต?nnp

แล้วเวกเตอร์แถวที่ถูกขยายออกมาล่ะ?


5
คำเหล่านี้ไม่ได้เป็นคำที่รู้จักแพร่หลาย คุณมีข้อมูลอ้างอิงหรือไม่? ถ้าไม่เราอาจคาดเดาในสิ่งที่พวกเขาตั้งใจจะหมายถึง
whuber

1
ฉันไม่มีการอ้างอิง ฉันเคยได้ยินอาจารย์บอกเมื่อไม่นานมานี้
user3813057

3
ฉันค่อนข้างแน่ใจว่าอาจารย์ของคุณได้นิยามคำเหล่านี้ในบางจุด บางทีพวกเขาอาจอยู่ในบันทึกประจำชั้นของคุณ ...
whuber

คำตอบ:


14

คำเหล่านี้ปรากฏในหนังสือบางเล่มเกี่ยวกับสถิติหลายตัวแปร สมมติว่าคุณมีnบุคคลโดยpเมทริกซ์ข้อมูลคุณสมบัติเชิงปริมาณ จากนั้นคุณสามารถพล็อตบุคคลเป็นจุดในพื้นที่ที่แกนเป็นคุณสมบัติ นั่นจะเป็นแผนการกระจายแบบคลาสสิกหรือที่เรียกว่าพล็อตพื้นที่แปรผัน เราบอกว่าเมฆของแต่ละคนครอบคลุมพื้นที่ที่กำหนดโดยคุณสมบัติแกน

คุณสามารถเข้าใจ scatterplot ได้ด้วยคะแนนที่เป็นตัวแปรและแกนของแต่ละคน อย่างแน่นอนก่อนหน้านี้เพียงหัวล้าน ที่จะเป็นเรื่องพื้นที่พล็อต (หรือพื้นที่สังเกตพล็อต) กับตัวแปรทอดมันบุคคลกำหนดมัน

โปรดทราบว่าหาก (บ่อยครั้ง) n>pจากนั้นในกรณีที่สองมีเพียงบางส่วนเท่านั้นที่ไม่ใช่pมิติnข้อมูล นั่นหมายความว่าคุณสามารถและอาจวาดpจุดตัวแปรในpพล็อตมิติ 1 ยิ่งไปกว่านั้นโดยปกติแล้วตัวแปรจุดเชื่อมต่อกับแหล่งกำเนิดและปรากฏเป็นเวกเตอร์ (ลูกศร) เราใช้การแสดงพื้นที่หัวเรื่องเป็นส่วนใหญ่เพื่อแสดงความสัมพันธ์ระหว่างตัวแปรดังนั้นเราจึงวางแกน - วัตถุและแสดงจุดเป็นลูกศรเพื่อความสะดวก1

หากคุณสมบัติ (คอลัมน์ของเมทริกซ์ข้อมูล) อยู่กึ่งกลางก่อนวาดพล็อตเรื่องพื้นที่แล้วโคไซน์ของมุมระหว่างตัวแปรเวกเตอร์เท่ากับเพียร์สันเพียร์สันในขณะที่เวกเตอร์ความยาวเท่ากับบรรทัดฐานของตัวแปร ) หรือค่าเบี่ยงเบนมาตรฐาน (ถ้าหารด้วยdf )

พื้นที่แปรผันและพื้นที่หัวเรื่องเป็นสองด้านของเหรียญเดียวกันพวกมันคือพื้นที่การวิเคราะห์แบบยุคลิดเดียวกัน พวกเขาแบ่งปันคุณสมบัติเดียวกันเช่นค่าลักษณะเฉพาะที่ไม่ใช่ศูนย์และ eigenvectors มันเป็นไปได้ดังนั้นพล็อตทั้งวิชาและตัวแปรเคียงข้างเป็นจุดในพื้นที่ของแกนหลัก (หรือพื้นฐานมุมฉากอื่น ๆ ) ของพื้นที่วิเคราะห์ว่า - พล็อตร่วมกันนี้เรียกว่าbiplot ฉันไม่รู้แน่ชัดว่าคำว่า "data space" หมายถึงอะไร - ถ้ามันหมายถึงบางสิ่งที่เฉพาะเจาะจงฉันก็คิดว่ามันเป็นพื้นที่การวิเคราะห์ทั่วไปที่พื้นที่หัวเรื่องและพื้นที่แปรปรวนเป็นสองส่วน

ป้อนคำอธิบายรูปภาพที่นี่

ลิงก์ท้องถิ่น:

  • ภาพที่แสดงให้เห็นถึงการเป็นตัวแทนพื้นที่เรื่องขององค์ประกอบหลัก (PCA) การถดถอยเชิงเส้นและการวิเคราะห์ปัจจัยอีกถดถอย ที่เปรียบเทียบกับแบบดั้งเดิมพื้นที่ตัวแปร (scatterplot) เป็นตัวแทนของการถดถอยและ PCA
  • คำอธิบายทางทฤษฎีของbiplot หนึ่งการศึกษาด้วยตนเองโครงสร้างของการอธิบายbiplot ใน PCA
  • ดูโพสต์ที่พยายามคิดออกว่าใครสามารถแก้ปัญหา PCA เชิงเรขาคณิตในพล็อตเรื่องพื้นที่ (ปรากฏว่าพีซีกำหนดวงรี แต่จะหาวงรีที่ไม่ซ้ำกันได้อย่างไร)

1ลองจินตนาการว่าคุณมีn=5บุคคลและp=2ตัวแปรแล้วคุณก็สามารถวาด 2 จุดในพื้นที่ 5 มิติได้อย่างน่าอัศจรรย์ จากนั้นคุณสามารถหมุนพื้นที่ย่อยที่กำหนดโดย 2 แกนใด ๆ ในลักษณะที่มันฝังจุด 2 (ซึ่งจะขยายระนาบนั้นจากนี้ไป) หลังจากนั้นคุณวางแกนอีกสามแกน (ขนาด) อย่างปลอดภัยเนื่องจากไม่จำเป็น ตำแหน่งของตัวแปรสองจุดที่สัมพันธ์กันถูกรักษาไว้


2
+1 แต่ฉันไม่แน่ใจว่าความหมายทางคณิตศาสตร์ที่แน่นอนของการบอกว่าตัวแปรและพื้นที่หัวเรื่องคือ "พื้นที่การวิเคราะห์แบบยุคลิดแบบเดียวกัน"
อะมีบา

3
@ amoeba โดยไม่ต้องคำนวณทางคณิตศาสตร์ในคำตอบฉันหวังว่ามันจะมีความโปร่งใสอย่างสังหรณ์ใจ (โดยเฉพาะอย่างยิ่งสำหรับผู้เชี่ยวชาญพีชคณิตเชิงเส้นเช่นคุณ) ยกตัวอย่างเช่นในการสลายตัวตามตัวอักษรเอกพจน์ของเมทริกซ์ข้อมูล (svd ซึ่งเป็นที่ตั้งของ biplot) - ค่าลักษณะเฉพาะและพื้นที่ eigenvectors ด้านซ้ายและขวาเป็นลักษณะใด ไม่ใช่พื้นที่การวิเคราะห์เดียวกันซึ่งสามารถจัดวางได้หลายวิธี - ในนั้นคือ (i) แถวและคอลัมน์เป็นจุดโดยแกนหลักเป็นแกน (ii) แถวเรียงตามคอลัมน์เป็นแกน (iii) คอลัมน์เป็นจุดต่อแถวเป็นแกนหรือไม่
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.