ทฤษฎีเบื้องหลังการถดถอยกำลังสองน้อยที่สุด


33

ใครสามารถแนะนำการอธิบายที่ดีของทฤษฎีที่อยู่เบื้องหลังการถดถอยกำลังสองน้อยที่สุด (มีให้ทางออนไลน์) สำหรับคนที่เข้าใจ SVD และ PCA? ฉันดูแหล่งข้อมูลออนไลน์มากมายและไม่พบสิ่งใดที่มีการผสมผสานที่ถูกต้องของความแม่นยำและการเข้าถึง

ฉันได้ดูเป็นองค์ประกอบของการเรียนรู้ทางสถิติซึ่งได้รับการแนะนำในความคิดเห็นในคำถามที่ถามเกี่ยวกับการรอการตรวจสอบ , สี่เหลี่ยมอย่างน้อยบางส่วน (PLS) ถดถอยคืออะไรและวิธีการที่แตกต่างจาก OLS? แต่ฉันไม่คิดว่าการอ้างอิงนี้จะทำให้เกิดความยุติธรรมในหัวข้อ (สั้นเกินไปที่จะทำเช่นนั้นและไม่ได้ให้ทฤษฎีเกี่ยวกับเรื่องนี้มากนัก) จากสิ่งที่ฉันได้อ่าน PLS ใช้ประโยชน์จากการรวมกันเชิงเส้นของตัวแปรทำนายที่เพิ่มความแปรปรวนร่วมภายใต้ข้อ จำกัดและz_i ^ Tz_j = 0ถ้าฉัน \ neq j , ที่\ varphi_izi=XφiyTziZ T ฉัน Z J = 0 ฉันเจφ ฉันφi=1ziTzj=0ijφiจะถูกเลือกซ้ำตามลำดับที่พวกเขาเพิ่มความแปรปรวนร่วมสูงสุด แต่หลังจากทั้งหมดที่ฉันอ่านฉันยังคงไม่แน่ใจว่ามันเป็นเรื่องจริงและถ้าเป็นเช่นนั้นวิธีการที่จะดำเนินการ

คำตอบ:


38

ส่วนที่ 3.5.2 ในองค์ประกอบของการเรียนรู้ทางสถิติมีประโยชน์เพราะทำให้การถดถอยของ PLS ในบริบทที่ถูกต้อง (ของวิธีการปกติอื่น ๆ ) แต่แท้จริงแล้วสั้นมากและทิ้งข้อความสำคัญบางส่วนไว้เป็นแบบฝึกหัด นอกจากนี้ก็จะพิจารณาเฉพาะกรณีของ univariate ขึ้นอยู่กับตัวแปรyY

วรรณกรรมเกี่ยวกับ PLS นั้นมีมากมาย แต่อาจจะค่อนข้างสับสนเพราะมี "รสชาติ" ที่แตกต่างกันมากมายของ PLS: รุ่นที่แยกจากกันด้วย DV y (PLS1) และหลายตัวแปรรุ่นที่มี DVs Y (PLS2) หลายรุ่น การปฏิบัติXและYเท่ากันและไม่สมมาตรรุ่น ("PLS ถดถอย") การรักษาXเป็นอิสระและYเป็นตัวแปรตามรุ่นที่ให้ทางออกทั่วโลกผ่าน SVD และรุ่นที่ต้องมีการยุบซ้ำ คู่ของทิศทาง PLS ฯลฯ ฯลฯ

ทั้งหมดนี้ได้รับการพัฒนาในสาขาเคมีและยังคงตัดการเชื่อมต่อจากวรรณกรรม "หลัก" ทางสถิติหรือการเรียนรู้ด้วยเครื่อง

กระดาษภาพรวมที่ฉันพบว่ามีประโยชน์มากที่สุด (และมีการอ้างอิงเพิ่มเติมอีกมากมาย) คือ:

สำหรับการอภิปรายเชิงทฤษฎีฉันสามารถแนะนำเพิ่มเติมได้:


ไพรเมอร์สั้น ๆ เกี่ยวกับการถดถอย PLS ด้วย univariate (aka PLS1, aka SIMPLS)y

เป้าหมายของการถดถอยคือการประมาณการในรูปแบบเชิงเส้น\ โซลูชัน OLSสนุกกับคุณสมบัติการเพิ่มประสิทธิภาพมากมาย แต่สามารถทนทุกข์ทรมานจากการล้น แท้จริง OLS มองหาที่ทำให้ความสัมพันธ์เป็นไปได้สูงสุดของกับY หากมีจำนวนมากของการพยากรณ์แล้วมันเป็นไปได้เสมอที่จะหาเส้นตรงกันบางอย่างที่เกิดขึ้นจะมีความสัมพันธ์ที่สูงด้วยY นี่จะเป็นสัมพันธภาพปลอมและดังกล่าวมักจะชี้ไปในทิศทางที่อธิบายความแปรปรวนน้อยมากในy = X β + ϵ β = ( XX ) - 1 Xy β X β y y β Xβy=Xβ+ϵβ=(XX)1XyβXβyyβX. ทิศทางที่อธิบายความแปรปรวนน้อยมากมักจะเป็นคำสั่งที่ "รบกวน" มาก ถ้าเป็นเช่นนั้นแม้ว่าโซลูชัน OLS ของข้อมูลการฝึกอบรมจะทำงานได้อย่างยอดเยี่ยม แต่จากการทดสอบข้อมูลก็จะยิ่งแย่ลงมาก

เพื่อป้องกันการ overfitting เราใช้วิธีการทำให้เป็นมาตรฐานที่บังคับให้ชี้ไปที่ทิศทางของความแปรปรวนสูงใน (ซึ่งเรียกอีกอย่างว่า "การหดตัว" ของ ; ดูทำไมการหดตัวทำงาน ) วิธีหนึ่งดังกล่าวคือการวิเคราะห์องค์ประกอบหลัก (PCR) ที่จะทิ้งทิศทางความแปรปรวนต่ำทั้งหมดเพียงอย่างเดียว อีกวิธี (ดีกว่า) คือการถดถอยของสันเขาซึ่งจะลงโทษทิศทางที่มีความแปรปรวนต่ำได้อย่างราบรื่น อีกวิธีคือ PLS1X ββXβ

PLS1 แทนที่ OLS เป้าหมายของการค้นหาที่เพิ่มความสัมพันธ์ด้วยเป้าหมายทางเลือกในการค้นหามีความยาวเพิ่มความแปรปรวนร่วมสูงสุดอีกครั้งซึ่งมีประสิทธิภาพในการลงโทษทิศทางของการแปรปรวนต่ำcorr ( X β , Y ) β β = 1 COV ( X β , Y ) ~ corr ( X β , Y ) βcorr(Xβ,y)ββ=1

cov(Xβ,y)corr(Xβ,y)var(Xβ),

การค้นหาเช่น (ขอเรียกว่า ) อัตราผลตอบแทนองค์ประกอบ PLS แรก\ เราสามารถค้นหาส่วนประกอบ PLS ที่สอง (และจากนั้นเป็นต้นที่สาม) ที่มีความแปรปรวนร่วมได้สูงสุดกับภายใต้ข้อ จำกัด ของการไม่เกี่ยวข้องกับส่วนประกอบก่อนหน้านี้ทั้งหมด สิ่งนี้จะต้องได้รับการแก้ไขซ้ำ ๆ เนื่องจากไม่มีวิธีแก้ปัญหาแบบปิดสำหรับส่วนประกอบทั้งหมด (ทิศทางของส่วนประกอบแรกนั้นได้รับโดยβ 1 Z 1 = X β 1 ปีβ 1 XY β Z β ฉันβ P L Sββ1z1=Xβ1yβ1Xyถูกทำให้เป็นมาตรฐานถึงความยาวของหน่วย) เมื่อแยกส่วนประกอบที่ต้องการจำนวนมากการถดถอย PLS จะยกเลิกตัวพยากรณ์ดั้งเดิมและใช้ส่วนประกอบ PLS เป็นตัวทำนายใหม่ อัตราผลตอบแทนนี้บางชุดเชิงเส้นของพวกเขาที่สามารถใช้ร่วมกับทุกในรูปแบบสุดท้าย{}βzβiβPLS

โปรดทราบว่า:

  1. หากใช้ส่วนประกอบ PLS1 ทั้งหมด PLS จะเทียบเท่า OLS ดังนั้นจำนวนขององค์ประกอบที่ทำหน้าที่เป็นพารามิเตอร์การทำให้เป็นมาตรฐาน: จำนวนที่ต่ำกว่า, การทำให้เป็นมาตรฐานที่แข็งแกร่งยิ่งขึ้น
  2. ถ้าตัวทำนายนั้นไม่มีความสัมพันธ์และทั้งหมดนั้นมีความแปรปรวนเหมือนกัน (นั่นคือถูกทำให้ขาวขึ้น ) แล้วจะมีองค์ประกอบ PLS1 เพียงองค์ประกอบเดียวเท่านั้นและเทียบเท่า OLSXXX
  3. น้ำหนักเวกเตอร์และสำหรับจะไม่ได้ไปเป็นมุมฉาก แต่จะให้ผลผลิตส่วนประกอบ uncorrelatedและ\βiฉันj zฉัน = X β ฉันz j = X β jβjijzi=Xβizj=Xβj

ทั้งหมดที่ถูกกล่าวว่าฉันไม่ได้ตระหนักถึงข้อได้เปรียบในทางปฏิบัติใด ๆของการถดถอย PLS1 เหนือการถดถอยของสันเขา (ในขณะที่หลังมีข้อดีมากมาย: มันต่อเนื่องและไม่ต่อเนื่องมีวิธีการวิเคราะห์เป็นมาตรฐานมากขึ้น สูตรสำหรับข้อผิดพลาดการตรวจสอบข้ามการลาทิ้งหนึ่งครั้ง ฯลฯ เป็นต้น)


ข้อความจาก Frank & Friedman:

RR, PCR และ PLS มีให้ในส่วนที่ 3 เพื่อใช้งานในลักษณะเดียวกัน เป้าหมายหลักของพวกเขาคือการลดเวกเตอร์สัมประสิทธิ์การแก้ปัญหาให้ห่างจากโซลูชัน OLS ไปยังทิศทางในพื้นที่ทำนายตัวแปรของการแพร่กระจายตัวอย่างขนาดใหญ่ PCR และ PLS ถูกย่อให้หดตัวออกห่างจากทิศทางการแพร่กระจายที่ต่ำกว่า RR ซึ่งให้การหดตัวที่ดีที่สุด ดังนั้น PCR และ PLS จึงตั้งสมมติฐานว่าความจริงมีแนวโน้มที่จะมีการจัดตำแหน่งพิเศษโดยเฉพาะอย่างยิ่งกับทิศทางการแพร่กระจายสูงของการกระจายตัวทำนายตัวแปร (ตัวอย่าง) ผลค่อนข้างน่าแปลกใจคือ PLS (นอกเหนือ) สถานที่เพิ่มขึ้นน่าจะเป็นมวลในสอดคล้องค่าสัมประสิทธิ์เวกเตอร์ที่แท้จริงกับ TH ทิศทางองค์ประกอบหลักที่เคKK คือจำนวนของคอมโพเนนต์ PLS ที่ใช้จริง ๆ แล้วเป็นการขยายโซลูชัน OLS ในทิศทางนั้น

พวกเขายังทำการศึกษาแบบจำลองอย่างกว้างขวางและสรุป (เหมืองที่เน้น):

สำหรับสถานการณ์ที่ครอบคลุมโดยการศึกษาแบบจำลองนี้เราสามารถสรุปได้ว่าวิธีการเอนเอียงทั้งหมด (RR, PCR, PLS และ VSS) ให้การปรับปรุงที่ดีกว่า OLS [... ] ในทุกสถานการณ์ RR ครอบงำวิธีการอื่น ๆ ที่ศึกษาทั้งหมด PLS มักจะทำเช่นเดียวกับ RR และมักจะดีกว่า PCR แต่ไม่มาก


อัปเดต:ในความคิดเห็น @cbeleites (ผู้ที่ทำงานในเคมีบำบัด) แนะนำข้อดีสองประการที่เป็นไปได้ของ PLS มากกว่า RR:

  1. นักวิเคราะห์สามารถคาดเดาได้ล่วงหน้าว่าควรมีส่วนประกอบแฝงอยู่กี่ตัวในข้อมูล สิ่งนี้จะช่วยให้สามารถตั้งค่าความแรงของการทำให้เป็นมาตรฐานได้โดยไม่ต้องทำการตรวจสอบข้าม (และอาจมีข้อมูลไม่เพียงพอที่จะทำ CV ที่เชื่อถือได้) ดังกล่าวเบื้องต้นทางเลือกของอาจจะมีปัญหามากขึ้นใน RRλ

  2. RR ให้ผลผลิตชุดค่าผสมเชิงเส้นหนึ่งชุดเป็นทางออกที่ดีที่สุด ในทางตรงกันข้ามกับ PLS เช่นอัตราผลตอบแทนห้าห้าองค์ประกอบเชิงเส้นรวมกันที่รวมกันแล้วจะคาดการณ์ปีตัวแปรดั้งเดิมที่มีความสัมพันธ์กันอย่างมากมีแนวโน้มที่จะรวมกันเป็นองค์ประกอบ PLS เดียว (เนื่องจากการรวมเข้าด้วยกันจะช่วยเพิ่มคำแปรปรวนที่อธิบายไว้) ดังนั้นจึงอาจเป็นไปได้ที่จะตีความส่วนประกอบ PLS บุคคลที่เป็นปัจจัยแฝงจริงบางอย่างขับรถYการอ้างสิทธิ์คือการตีความฯลฯง่ายขึ้นซึ่งตรงข้ามกับข้อต่อ β ฉัน y y β 1 , β 2 , β P L SβRRβiyyβ1,β2,βPLS. เปรียบเทียบสิ่งนี้กับ PCR โดยที่ใคร ๆ ก็สามารถเห็นว่าเป็นข้อได้เปรียบที่แต่ละองค์ประกอบหลักสามารถตีความและกำหนดความหมายเชิงคุณภาพได้


1
กระดาษนั่นดูมีประโยชน์ ฉันไม่คิดว่ามันจะบอกได้ว่า PLS มีปริมาณมากเกินไป
Frank Harrell

3
ถูกต้อง @Frank แต่โดยสุจริตเท่าที่ประสิทธิภาพการคาดการณ์เกี่ยวข้องฉันไม่เห็นความรู้สึกมากนักในการทำสิ่งอื่นนอกเหนือจากการถดถอยของสันเขา ความสนใจของฉันใน PLS คือด้านการลดมิติเมื่อทั้งและเป็นหลายตัวแปร ดังนั้นฉันจึงไม่สนใจว่า PLS จะทำงานเป็นเทคนิคการทำให้เป็นมาตรฐานได้อย่างไร (เปรียบเทียบกับวิธีการทำให้เป็นมาตรฐานอื่น ๆ ) เมื่อฉันมีโมเดลเชิงเส้นที่ฉันต้องการทำให้เป็นปกติฉันชอบใช้สันเขา ฉันสงสัยว่าประสบการณ์ของคุณที่นี่คืออะไร YXY
อะมีบาพูดว่า Reinstate Monica

3
ประสบการณ์ของฉันคือสัน (การประมาณค่าความน่าจะเป็นสูงสุดสำหรับการลงโทษแบบสี่เหลี่ยมจัตุรัส) ให้การคาดการณ์ที่เหนือกว่า ฉันคิดว่านักวิเคราะห์บางคนรู้สึกว่า PLS เป็นเทคนิคการลดขนาดในแง่ของการหลีกเลี่ยงการทำให้อ้วนมากเกินไป แต่ฉันรวบรวมว่าไม่ใช่กรณี
Frank Harrell

2
b) ถ้าคุณกำลังจะไปหา a การตีความทางสเปกโทรสโกปีของแบบจำลองนั้นฉันคิดว่ามันง่ายกว่าที่จะดูที่การรับน้ำหนักของ PLS ว่าเป็นสารชนิดใดที่วัดได้ คุณอาจพบว่ามีหนึ่งหรือสองคลาสสสาร / สารในนั้นค่าสัมประสิทธิ์ซึ่งรวมถึงตัวแปรแฝงทั้งหมดจะยากที่จะ interprete เพราะการมีส่วนร่วมทางสเปกตรัมของสารรวมกันมากขึ้น สิ่งนี้มีความโดดเด่นมากกว่าเพราะไม่ใช่กฎการตีความสเปกตรัมทั่วไปที่ใช้ทั้งหมด: แบบจำลอง PLS อาจเลือกแถบของสารบางอย่างในขณะที่ละเว้นผู้อื่น การตีความสเปกตรัม "ปกติ" ใช้วงดนตรีนี้ได้มาก ...
cbeleites รองรับ Monica

2
... มาจากสารนี้หรือสารนั้น หากเป็นสารนี้จะต้องมีวงอื่นนี้ เมื่อความเป็นไปได้ในการตรวจสอบสารเคมีเป็นไปไม่ได้ด้วยตัวแปรแฝง / ภาระ / ค่าสัมประสิทธิ์การตีความสิ่งต่าง ๆ ที่แตกต่างกันและจบลงด้วยตัวแปรแฝงเดียวกันนั้นง่ายกว่าการตีความค่าสัมประสิทธิ์ที่สรุปได้ทุกประเภท "ที่เป็นที่รู้จักกันในรูปแบบ
cbeleites รองรับโมนิก้า

4

ใช่. หนังสือเกี่ยวกับทฤษฎีนิยมของเฮอร์แมนโวลด์: เหตุผลทั่วไปสำหรับการสร้างแบบจำลองทางวิทยาศาสตร์คือการแสดงออกที่ดีที่สุดเพียงครั้งเดียวของ PLS ที่ฉันตระหนักถึงโดยเฉพาะอย่างยิ่งเนื่องจาก Wold เป็นผู้ริเริ่มวิธีการ ไม่ต้องพูดถึงว่ามันเป็นเพียงหนังสือที่น่าสนใจที่จะอ่านและรู้ นอกจากนี้จากการค้นหาใน Amazon จำนวนของการอ้างอิงถึงหนังสือใน PLS ที่เขียนเป็นภาษาเยอรมันนั้นน่าประหลาดใจ แต่อาจเป็นได้ว่าคำบรรยายของหนังสือของ Wold เป็นส่วนหนึ่งของเหตุผลว่า


1
amazon.com/Towards-Unified-Scientific-Models-Methods/dp/นี้ มีความเกี่ยวข้อง แต่ครอบคลุมมากกว่า PLS
kjetil b halvorsen

นั่นเป็นความจริง แต่จุดสนใจหลักของหนังสือเล่มนี้คือการพัฒนาทฤษฎีและการประยุกต์ใช้ PLS ของ Wold
Mike Hunter
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.