ทำไมส่วนประกอบทั้งหมดของ PLS จึงอธิบายเพียงส่วนหนึ่งของความแปรปรวนของข้อมูลต้นฉบับเท่านั้น


10

ฉันมีชุดข้อมูลซึ่งประกอบด้วยตัวแปร 10 ตัว ฉันวิ่งสี่เหลี่ยมน้อยที่สุดบางส่วน (PLS) เพื่อทำนายตัวแปรการตอบสนองเดียวโดยตัวแปร 10 ตัวเหล่านี้แยกส่วนประกอบ 10 PLS แล้วคำนวณความแปรปรวนของแต่ละองค์ประกอบ จากข้อมูลเดิมฉันได้รวมผลต่างของตัวแปรทั้งหมดซึ่งก็คือ 702

จากนั้นฉันก็แบ่งความแปรปรวนของส่วนประกอบ PLS แต่ละตัวด้วยผลรวมนี้เพื่อให้ได้เปอร์เซ็นต์ของความแปรปรวนที่อธิบายโดย PLS และส่วนประกอบทั้งหมดด้วยกันน่าประหลาดใจเพียงอธิบาย 44% ของความแปรปรวนดั้งเดิม

คำอธิบายของสิ่งนั้นคืออะไร? ไม่ควรจะเป็น 100%


อย่างที่ฉันรู้ในด้านการตอบสนอง (y) สิ่งที่กำหนดจำนวนของส่วนประกอบ PLS คือจำนวนขั้นต่ำของการสังเกต ฉันมีข้อสังเกต 20 ข้อ แต่ในทางกลับกันฉันมีตัวแปรอิสระ 10 ตัวซึ่งทำให้ฉันถูก จำกัด ที่ 10 PLS คำถามของฉันคืออะไรสูตรทั่วไปสำหรับการคำนวณความแปรปรวนที่อธิบายโดยแต่ละองค์ประกอบ (PLS หรือ PCA) คืออะไร
Ress

mathworks.com/help/stats/plsregress.htmlตัวอย่างนี้มีเพียงหนึ่งตัวแปรทางด้าน Y และคำนวณ 10 องค์ประกอบ
Ress

คำตอบ:


12

ผลรวมของความแปรปรวนของส่วนประกอบ PLS ทั้งหมดโดยปกติจะน้อยกว่า 100%

มีหลายรูปแบบของกำลังสองน้อยที่สุด (PLS) สิ่งที่คุณใช้ที่นี่คือการถดถอย PLSของตัวแปรตอบสนอง univariateไปยังหลายตัวแปร ; อัลกอริธึมนี้เป็นที่รู้จักกันในชื่อ PLS1 (ตรงข้ามกับตัวแปรอื่น ๆ ดูRosipal & Kramer, 2006, ภาพรวมและความก้าวหน้าล่าสุดในสี่เหลี่ยมบางส่วนน้อยสำหรับภาพรวมโดยย่อ) PLS1 ต่อมาแสดงให้เห็นว่าเทียบเท่ากับสูตรที่เรียกว่า SIMPLS (ดูข้อมูลเพิ่มเติมที่Jong 1988ใน Rosipal & Kramer) มุมมองที่ได้รับจาก SIMPLS ช่วยให้เข้าใจสิ่งที่เกิดขึ้นใน PLS1XyX

ปรากฎว่าสิ่งที่ PLS1 ทำคือการหาลำดับของโปรเจคเชิงเส้นเช่นนั้น:ti=Xwi

  1. ความแปรปรวนระหว่างและสูงสุดทีฉันyti
  2. น้ำหนักเวกเตอร์ทั้งหมดมีความยาวหน่วย ;wi=1
  3. คอมโพเนนต์ PLS สองตัวใด ๆ (หรือที่เรียกว่าคะแนนเวกเตอร์)และไม่ได้รับการกันtitj

โปรดทราบว่าเวกเตอร์น้ำหนักไม่จำเป็นต้องเป็น (และไม่ใช่) มุมฉาก

ซึ่งหมายความว่าหากประกอบด้วยตัวแปรและคุณพบส่วนประกอบ PLS คุณจะพบพื้นฐานที่ไม่มีมุมฉากพร้อมการคาดการณ์ที่ไม่เกี่ยวข้องในเวกเตอร์พื้นฐาน หนึ่งทางคณิตศาสตร์สามารถพิสูจน์ได้ว่าในสถานการณ์เช่นผลรวมของความแปรปรวนของการคาดการณ์เหล่านี้จะน้อยลงแล้วความแปรปรวนรวมของX พวกมันจะเท่ากันถ้าเวกเตอร์น้ำหนักเป็น orthogonal (เช่นใน PCA) แต่ใน PLS นี่ไม่ใช่กรณีXk=1010X

ฉันไม่รู้เกี่ยวกับหนังสือหรือเอกสารใด ๆที่กล่าวถึงปัญหานี้อย่างชัดเจน แต่ก่อนหน้านี้ฉันได้อธิบายไว้ในบริบทของการวิเคราะห์จำแนกเชิงเส้น (LDA) ที่ให้การคาดการณ์จำนวน uncorrelated กับเวกเตอร์น้ำหนักที่ไม่ใช่หน่วยตั้งฉากดูที่นี่ : สัดส่วนของความแปรปรวนที่อธิบายไว้ใน PCA และ LDA


ขอบคุณและใช่ว่าเหมาะสม ฉันไม่รู้ว่าเวกเตอร์โหลด (น้ำหนัก) ไม่ใช่มุมฉาก ดังนั้นมันจึงไม่จับความแปรปรวนสูงสุดของ X การทำตามตัวอย่าง matlab คุณสามารถช่วยฉันได้อย่างไรว่าฉันจะได้รับค่า "PCTVAR" ทางคณิตศาสตร์ได้อย่างไร?
Ress

ฉันไม่แน่ใจ แต่ฉันสามารถคิดเกี่ยวกับมัน คอลัมน์แรกในPCTVAR(เปอร์เซ็นต์ของความแปรปรวนอธิบายใน X) ไม่สอดคล้องกับการคำนวณของคุณหรือไม่? หรือคุณกำลังถามเกี่ยวกับคอลัมน์ที่สอง (ร้อยละของความแปรปรวนอธิบายใน y)? โดยทั่วไปถ้าคุณต้องการเข้าเรียนคณิตศาสตร์ PLS ฉันขอแนะนำให้คุณเริ่มอ่านบทความโดย Rosipal & Kramer และติดตามลิงก์
อะมีบา
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.