ส่วนที่ 3.5.2 ในองค์ประกอบของการเรียนรู้ทางสถิติมีประโยชน์เพราะทำให้การถดถอยของ PLS ในบริบทที่ถูกต้อง (ของวิธีการปกติอื่น ๆ ) แต่แท้จริงแล้วสั้นมากและทิ้งข้อความสำคัญบางส่วนไว้เป็นแบบฝึกหัด นอกจากนี้ก็จะพิจารณาเฉพาะกรณีของ univariate ขึ้นอยู่กับตัวแปรyY
วรรณกรรมเกี่ยวกับ PLS นั้นมีมากมาย แต่อาจจะค่อนข้างสับสนเพราะมี "รสชาติ" ที่แตกต่างกันมากมายของ PLS: รุ่นที่แยกจากกันด้วย DV y (PLS1) และหลายตัวแปรรุ่นที่มี DVs Y (PLS2) หลายรุ่น การปฏิบัติXและYเท่ากันและไม่สมมาตรรุ่น ("PLS ถดถอย") การรักษาXเป็นอิสระและYเป็นตัวแปรตามรุ่นที่ให้ทางออกทั่วโลกผ่าน SVD และรุ่นที่ต้องมีการยุบซ้ำ คู่ของทิศทาง PLS ฯลฯ ฯลฯ
ทั้งหมดนี้ได้รับการพัฒนาในสาขาเคมีและยังคงตัดการเชื่อมต่อจากวรรณกรรม "หลัก" ทางสถิติหรือการเรียนรู้ด้วยเครื่อง
กระดาษภาพรวมที่ฉันพบว่ามีประโยชน์มากที่สุด (และมีการอ้างอิงเพิ่มเติมอีกมากมาย) คือ:
สำหรับการอภิปรายเชิงทฤษฎีฉันสามารถแนะนำเพิ่มเติมได้:
ไพรเมอร์สั้น ๆ เกี่ยวกับการถดถอย PLS ด้วย univariate (aka PLS1, aka SIMPLS)y
เป้าหมายของการถดถอยคือการประมาณการในรูปแบบเชิงเส้น\ โซลูชัน OLSสนุกกับคุณสมบัติการเพิ่มประสิทธิภาพมากมาย แต่สามารถทนทุกข์ทรมานจากการล้น แท้จริง OLS มองหาที่ทำให้ความสัมพันธ์เป็นไปได้สูงสุดของกับY หากมีจำนวนมากของการพยากรณ์แล้วมันเป็นไปได้เสมอที่จะหาเส้นตรงกันบางอย่างที่เกิดขึ้นจะมีความสัมพันธ์ที่สูงด้วยY นี่จะเป็นสัมพันธภาพปลอมและดังกล่าวมักจะชี้ไปในทิศทางที่อธิบายความแปรปรวนน้อยมากในy = X β + ϵ β = ( X ⊤ X ) - 1 X ⊤ y β X β y y β Xβy=Xβ+ϵβ=(X⊤X)−1X⊤yβX βYYβX. ทิศทางที่อธิบายความแปรปรวนน้อยมากมักจะเป็นคำสั่งที่ "รบกวน" มาก ถ้าเป็นเช่นนั้นแม้ว่าโซลูชัน OLS ของข้อมูลการฝึกอบรมจะทำงานได้อย่างยอดเยี่ยม แต่จากการทดสอบข้อมูลก็จะยิ่งแย่ลงมาก
เพื่อป้องกันการ overfitting เราใช้วิธีการทำให้เป็นมาตรฐานที่บังคับให้ชี้ไปที่ทิศทางของความแปรปรวนสูงใน (ซึ่งเรียกอีกอย่างว่า "การหดตัว" ของ ; ดูทำไมการหดตัวทำงาน ) วิธีหนึ่งดังกล่าวคือการวิเคราะห์องค์ประกอบหลัก (PCR) ที่จะทิ้งทิศทางความแปรปรวนต่ำทั้งหมดเพียงอย่างเดียว อีกวิธี (ดีกว่า) คือการถดถอยของสันเขาซึ่งจะลงโทษทิศทางที่มีความแปรปรวนต่ำได้อย่างราบรื่น อีกวิธีคือ PLS1X ββXβ
PLS1 แทนที่ OLS เป้าหมายของการค้นหาที่เพิ่มความสัมพันธ์ด้วยเป้าหมายทางเลือกในการค้นหามีความยาวเพิ่มความแปรปรวนร่วมสูงสุดอีกครั้งซึ่งมีประสิทธิภาพในการลงโทษทิศทางของการแปรปรวนต่ำcorr ( X β , Y ) β ‖ β ‖ = 1 COV ( X β , Y ) ~ corr ( X β , Y ) ⋅ √βcorr( X β, y )β∥ บีตา∥ = 1
COV( X β, y ) ∼ corr( X β, y ) ⋅ var( X β)-------√,
การค้นหาเช่น (ขอเรียกว่า ) อัตราผลตอบแทนองค์ประกอบ PLS แรก\ เราสามารถค้นหาส่วนประกอบ PLS ที่สอง (และจากนั้นเป็นต้นที่สาม) ที่มีความแปรปรวนร่วมได้สูงสุดกับภายใต้ข้อ จำกัด ของการไม่เกี่ยวข้องกับส่วนประกอบก่อนหน้านี้ทั้งหมด สิ่งนี้จะต้องได้รับการแก้ไขซ้ำ ๆ เนื่องจากไม่มีวิธีแก้ปัญหาแบบปิดสำหรับส่วนประกอบทั้งหมด (ทิศทางของส่วนประกอบแรกนั้นได้รับโดยβ 1 Z 1 = X β 1 ปีβ 1 X ⊤ Y β Z β ฉันβ P L Sββ1Z1= X β1Yβ1X⊤Yถูกทำให้เป็นมาตรฐานถึงความยาวของหน่วย) เมื่อแยกส่วนประกอบที่ต้องการจำนวนมากการถดถอย PLS จะยกเลิกตัวพยากรณ์ดั้งเดิมและใช้ส่วนประกอบ PLS เป็นตัวทำนายใหม่ อัตราผลตอบแทนนี้บางชุดเชิงเส้นของพวกเขาที่สามารถใช้ร่วมกับทุกในรูปแบบสุดท้าย{}βZβผมβP L S
โปรดทราบว่า:
- หากใช้ส่วนประกอบ PLS1 ทั้งหมด PLS จะเทียบเท่า OLS ดังนั้นจำนวนขององค์ประกอบที่ทำหน้าที่เป็นพารามิเตอร์การทำให้เป็นมาตรฐาน: จำนวนที่ต่ำกว่า, การทำให้เป็นมาตรฐานที่แข็งแกร่งยิ่งขึ้น
- ถ้าตัวทำนายนั้นไม่มีความสัมพันธ์และทั้งหมดนั้นมีความแปรปรวนเหมือนกัน (นั่นคือถูกทำให้ขาวขึ้น ) แล้วจะมีองค์ประกอบ PLS1 เพียงองค์ประกอบเดียวเท่านั้นและเทียบเท่า OLSXXX
- น้ำหนักเวกเตอร์และสำหรับจะไม่ได้ไปเป็นมุมฉาก แต่จะให้ผลผลิตส่วนประกอบ uncorrelatedและ\βผมฉัน≠ j zฉัน = X β ฉันz j = X β jβJi≠jzi=Xβizj=Xβj
ทั้งหมดที่ถูกกล่าวว่าฉันไม่ได้ตระหนักถึงข้อได้เปรียบในทางปฏิบัติใด ๆของการถดถอย PLS1 เหนือการถดถอยของสันเขา (ในขณะที่หลังมีข้อดีมากมาย: มันต่อเนื่องและไม่ต่อเนื่องมีวิธีการวิเคราะห์เป็นมาตรฐานมากขึ้น สูตรสำหรับข้อผิดพลาดการตรวจสอบข้ามการลาทิ้งหนึ่งครั้ง ฯลฯ เป็นต้น)
ข้อความจาก Frank & Friedman:
RR, PCR และ PLS มีให้ในส่วนที่ 3 เพื่อใช้งานในลักษณะเดียวกัน เป้าหมายหลักของพวกเขาคือการลดเวกเตอร์สัมประสิทธิ์การแก้ปัญหาให้ห่างจากโซลูชัน OLS ไปยังทิศทางในพื้นที่ทำนายตัวแปรของการแพร่กระจายตัวอย่างขนาดใหญ่ PCR และ PLS ถูกย่อให้หดตัวออกห่างจากทิศทางการแพร่กระจายที่ต่ำกว่า RR ซึ่งให้การหดตัวที่ดีที่สุด ดังนั้น PCR และ PLS จึงตั้งสมมติฐานว่าความจริงมีแนวโน้มที่จะมีการจัดตำแหน่งพิเศษโดยเฉพาะอย่างยิ่งกับทิศทางการแพร่กระจายสูงของการกระจายตัวทำนายตัวแปร (ตัวอย่าง) ผลค่อนข้างน่าแปลกใจคือ PLS (นอกเหนือ) สถานที่เพิ่มขึ้นน่าจะเป็นมวลในสอดคล้องค่าสัมประสิทธิ์เวกเตอร์ที่แท้จริงกับ TH ทิศทางองค์ประกอบหลักที่เคKK คือจำนวนของคอมโพเนนต์ PLS ที่ใช้จริง ๆ แล้วเป็นการขยายโซลูชัน OLS ในทิศทางนั้น
พวกเขายังทำการศึกษาแบบจำลองอย่างกว้างขวางและสรุป (เหมืองที่เน้น):
สำหรับสถานการณ์ที่ครอบคลุมโดยการศึกษาแบบจำลองนี้เราสามารถสรุปได้ว่าวิธีการเอนเอียงทั้งหมด (RR, PCR, PLS และ VSS) ให้การปรับปรุงที่ดีกว่า OLS [... ] ในทุกสถานการณ์ RR ครอบงำวิธีการอื่น ๆ ที่ศึกษาทั้งหมด PLS มักจะทำเช่นเดียวกับ RR และมักจะดีกว่า PCR แต่ไม่มาก
อัปเดต:ในความคิดเห็น @cbeleites (ผู้ที่ทำงานในเคมีบำบัด) แนะนำข้อดีสองประการที่เป็นไปได้ของ PLS มากกว่า RR:
นักวิเคราะห์สามารถคาดเดาได้ล่วงหน้าว่าควรมีส่วนประกอบแฝงอยู่กี่ตัวในข้อมูล สิ่งนี้จะช่วยให้สามารถตั้งค่าความแรงของการทำให้เป็นมาตรฐานได้โดยไม่ต้องทำการตรวจสอบข้าม (และอาจมีข้อมูลไม่เพียงพอที่จะทำ CV ที่เชื่อถือได้) ดังกล่าวเบื้องต้นทางเลือกของอาจจะมีปัญหามากขึ้นใน RRλ
RR ให้ผลผลิตชุดค่าผสมเชิงเส้นหนึ่งชุดเป็นทางออกที่ดีที่สุด ในทางตรงกันข้ามกับ PLS เช่นอัตราผลตอบแทนห้าห้าองค์ประกอบเชิงเส้นรวมกันที่รวมกันแล้วจะคาดการณ์ปีตัวแปรดั้งเดิมที่มีความสัมพันธ์กันอย่างมากมีแนวโน้มที่จะรวมกันเป็นองค์ประกอบ PLS เดียว (เนื่องจากการรวมเข้าด้วยกันจะช่วยเพิ่มคำแปรปรวนที่อธิบายไว้) ดังนั้นจึงอาจเป็นไปได้ที่จะตีความส่วนประกอบ PLS บุคคลที่เป็นปัจจัยแฝงจริงบางอย่างขับรถYการอ้างสิทธิ์คือการตีความฯลฯง่ายขึ้นซึ่งตรงข้ามกับข้อต่อ β ฉัน y y β 1 , β 2 , β P L SβRRβiyyβ1,β2,βPLS. เปรียบเทียบสิ่งนี้กับ PCR โดยที่ใคร ๆ ก็สามารถเห็นว่าเป็นข้อได้เปรียบที่แต่ละองค์ประกอบหลักสามารถตีความและกำหนดความหมายเชิงคุณภาพได้