"บางส่วน" ในวิธีกำลังสองน้อยที่สุดคืออะไร?

ในการถดถอยสมการกำลังสองน้อยที่สุด (PLSR) หรือการสร้างแบบจำลองสมการเชิงโครงสร้างบางส่วน (PLS-SEM) คำว่า "บางส่วน" หมายถึงอะไร

— Alph
แหล่งที่มา

โปรดทราบว่าจูเนียร์โวลด์คิดว่าชื่อ "บางส่วนอย่างน้อยกำลังสอง" กำลังทำให้เข้าใจผิดและควรถูกเรียกว่า "การฉายภาพลงบนพื้นที่ที่ซ่อนเร้น"

— Momo

@Momo: ใช่ฉันได้อ่านเกี่ยวกับเรื่องนี้แล้ว อย่างไรก็ตามแม้ว่า PLS จะทำให้เข้าใจผิดในระดับหนึ่ง "การฉายภาพลงบนพื้นที่ที่ซ่อนเร้น" นั้นชัดเจนน้อยกว่าและไม่พูดถึงการขาดความสะดวกในการใช้คำในรูปแบบที่เป็นลายลักษณ์อักษร

— Aleksandr Blekh

คำตอบ:

ผมอยากจะตอบคำถามนี้ส่วนใหญ่ขึ้นอยู่กับมุมมองทางประวัติศาสตร์ซึ่งเป็นที่น่าสนใจมาก เฮอร์แมนโวลด์ผู้คิดค้นวิธีกำลังสองน้อยที่สุด (PLS) บางส่วนไม่ได้เริ่มใช้คำว่าPLS (หรือแม้กระทั่งพูดถึงคำบางส่วน ) ทันที ในช่วงเริ่มต้น (2509-2512) เขาเรียกว่าวิธีนี้เป็นNILES - ตัวย่อของคำศัพท์และชื่อของบทความเริ่มต้นของเขาในหัวข้อนี้การประมาณค่าเชิงเส้นโดยซ้ำขั้นตอนน้อยที่สุดสี่เหลี่ยมจัตุรัสตีพิมพ์ในปี 2509

ดังที่เราเห็นกระบวนการที่เรียกว่าบางส่วนในภายหลังนั้นเรียกว่าซ้ำโดยมุ่งเน้นไปที่ลักษณะวนซ้ำของกระบวนการประเมินน้ำหนักและตัวแปรแฝง (LVs) คำว่า "กำลังสองน้อยที่สุด" มาจากการใช้การถดถอยสี่เหลี่ยมน้อยที่สุด (OLS)เพื่อประเมินพารามิเตอร์ที่ไม่รู้จักอื่น ๆ ของแบบจำลอง (Wold, 1980) ดูเหมือนว่าคำว่า"บางส่วน"มีรากฐานอยู่ในขั้นตอนของ NILES ซึ่งนำมาใช้"ความคิดในการแบ่งพารามิเตอร์ของแบบจำลองเป็นชุดย่อยเพื่อให้สามารถประมาณได้ในส่วน" (Sanchez, 2013, p. 216; .

การใช้คำว่า PLS ครั้งแรกเกิดขึ้นในขั้นตอนการประมาณค่าแบบไม่เชิงเส้นไม่เชิงเส้นบางส่วน (NIPALS) ซ้ำซึ่งตีพิมพ์ในช่วงถัดไปของประวัติศาสตร์ PLS - ระยะเวลาการสร้างแบบจำลอง NIPALS 1970 และ 1980 กลายเป็นยุคการสร้างแบบจำลองที่นุ่มนวลเมื่อได้รับอิทธิพลจากวิธี LISREL ของ Karl Joreskog ต่อ SEM, Wold เปลี่ยนวิธีการ NIPALS เป็นแบบจำลองที่อ่อนนุ่ม ) ปี 1990 ช่วงเวลาต่อไปในประวัติศาสตร์ PLS ซึ่ง Sanchez (2013) เรียกช่วงเวลา "ช่องว่าง" ถูกทำเครื่องหมายส่วนใหญ่โดยการลดการใช้งาน โชคดีที่เริ่มต้นจากยุค 2000 ( รวมระยะเวลา) PLS กลับมาอีกครั้งในฐานะวิธีการวิเคราะห์ SEM ยอดนิยมโดยเฉพาะในสาขาสังคมศาสตร์

อัปเดต (เพื่อตอบสนองต่อความคิดเห็นของอะมีบา):

บางทีถ้อยคำของ Sanchez อาจไม่เหมาะกับวลีที่ฉันอ้างถึง ฉันคิดว่า "การประมาณในส่วน" นำไปใช้กับบล็อกแฝง ของตัวแปร ทุ่ง (1980) อธิบายแนวคิดในรายละเอียด
คุณพูดถูกว่า NIPALS นั้นพัฒนามาสำหรับ PCA ความสับสนเกิดขึ้นจากข้อเท็จจริงที่ว่ามีทั้ง PLS เชิงเส้นและไม่เชิงเส้น PLS ฉันคิดว่า Rosipal (2011) อธิบายความแตกต่างได้ดีมาก (อย่างน้อยนี่เป็นคำอธิบายที่ดีที่สุดที่ฉันเคยเห็นมา)

ปรับปรุง 2 (ชี้แจงเพิ่มเติม):

ในการตอบข้อกังวลที่แสดงออกมาในคำตอบของอะมีบาฉันต้องการอธิบายบางสิ่ง ฉันคิดว่าเราจำเป็นต้องแยกแยะการใช้คำว่า "บางส่วน" ระหว่าง NIPALS และ PLS นั่นสร้างคำถามแยกกันสองข้อเกี่ยวกับ 1) ความหมายของ "บางส่วน" ใน NIPALS และ 2) ความหมายของ "บางส่วน" ใน PLS (นั่นคือคำถามดั้งเดิมโดย Phil2014) ในขณะที่ฉันไม่แน่ใจเกี่ยวกับอดีต

ตาม Wold, Sjöströmและ Eriksson (2001)

"บางส่วน" ใน PLS ระบุว่านี่เป็นการถดถอยบางส่วนเนื่องจาก ...

กล่าวอีกนัยหนึ่ง "บางส่วน" เกิดจากข้อเท็จจริงที่ว่าการสลายตัวข้อมูลโดยอัลกอริทึม NIPALS สำหรับ PLS อาจไม่รวมถึงส่วนประกอบทั้งหมดดังนั้น "บางส่วน" ฉันสงสัยว่าเหตุผลเดียวกันนี้ใช้กับ NIPALS โดยทั่วไปหากเป็นไปได้ที่จะใช้อัลกอริทึมกับข้อมูล "บางส่วน" นั่นจะอธิบาย "P" ใน NIPALS

ในแง่ของการใช้คำว่า "ไม่เชิงเส้น" ในความหมาย NIPALS (อย่าสับสนกับPLS ไม่เชิงเส้นซึ่งหมายถึงตัวแปรที่ไม่เป็นเชิงเส้นของวิธี PLS!) ผมคิดว่ามันหมายถึงไม่ได้ไปอัลกอริทึมของตัวเองแต่รูปแบบไม่เชิงเส้นซึ่งสามารถ วิเคราะห์โดยใช้ NIPALS เชิงเส้นถดถอย

อัปเดต 3 (คำอธิบายของ Herman Wold):

ในขณะที่กระดาษ 1969 ของ Herman Wold ดูเหมือนว่าจะเป็นกระดาษที่เร็วที่สุดใน NIPALS ฉันได้พยายามค้นหาเอกสารแรกสุดอีกเล่มหนึ่งในหัวข้อนี้ นั่นคือกระดาษโดย Wold (1974) ที่ "บิดา" ของ PLS นำเสนอเหตุผลของเขาสำหรับการใช้คำว่า "บางส่วน" ในคำนิยาม NIPALS (หน้า 71):

3.1.4 การประเมิน NIPALS: ซ้ำ OLS หากตัวแปรหนึ่งตัวหรือมากกว่าของแบบจำลองแฝงอยู่ความสัมพันธ์ของตัวทำนายจะไม่เพียง แต่พารามิเตอร์ที่ไม่รู้จัก แต่ยังรวมถึงตัวแปรที่ไม่ทราบด้วยผลลัพธ์ที่ทำให้ปัญหาการประมาณค่ากลายเป็นไม่เชิงเส้น ตามที่ระบุใน 3.1 (iii), NIPALS แก้ปัญหานี้โดยกระบวนการวนซ้ำ, พูดด้วยขั้นตอน s = 1, 2, ... แต่ละขั้นตอนเกี่ยวข้องกับการถดถอย OLS จำนวน จำกัด , หนึ่งสำหรับแต่ละตัวทำนายความสัมพันธ์ของตัวแบบ การถดถอยแต่ละครั้งจะให้การประมาณค่าพร็อกซีสำหรับชุดย่อยของพารามิเตอร์ที่ไม่รู้จักและตัวแปรแฝง (ดังนั้นจึงเป็นชื่อบางส่วนกำลังสองน้อยที่สุด) และการประมาณค่าพร็อกซีเหล่านี้จะถูกใช้ในขั้นตอนถัดไปของกระบวนการ

อ้างอิง

Rosipal, R. (2011) ไม่เชิงเส้นกำลังสองน้อยบางส่วน: ภาพรวม ใน Lodhi H. และ Yamanishi Y. ( สหพันธรัฐ ), Chemoinformatics และมุมมองการเรียนรู้ด้วยเครื่องจักรขั้นสูง: วิธีการคำนวณที่ซับซ้อนและเทคนิคการทำงานร่วมกัน , หน้า 169-189 ACCM, IGI Global ดึงข้อมูลจากhttp://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf

Sanchez, G. (2013) การสร้างแบบจำลองเส้นทาง PLS ด้วย R. Berkeley, CA: Trowchez Editions เรียกดูจากhttp://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf

ทุ่ง, H. (1974) การไหลของสาเหตุที่มีตัวแปรแฝง: การแบ่งส่วนของวิธีในแง่ของการสร้างแบบจำลอง NIPALS รีวิวเศรษฐกิจยุโรป, 5 , 67-86 สำนักพิมพ์นอร์ทฮอลแลนด์

ทุ่ง, H. (1980) การสร้างแบบจำลองและการประเมินผลเมื่อความรู้เชิงทฤษฎีมีน้อย: ทฤษฎีและการประยุกต์ของกำลังสองน้อยที่สุดบางส่วน ใน J. Kmenta และ JB Ramsey (Eds.) การประเมินโมเดลเศรษฐมิติหน้า 47-74 นิวยอร์ก: นักวิชาการสื่อมวลชน เรียกดูจากhttp://www.nber.org/chapters/c11693

ทุ่ง, S. , Sjöström, M. , & Eriksson, L. (2001) PLS-regression: เครื่องมือพื้นฐานของเคมีบำบัด เคมีและระบบห้องปฏิบัติการอัจฉริยะ, 58 , 109-130 ดอย: 10.1016 / S0169-7439 (01) 00155-1 สืบค้นจากhttp://www.libpls.net/publication/PLS_basic_2001.pdf

— อเล็กซานเดอร์ Blekh
แหล่งที่มา

@ amoeba: ฉันเชื่อว่าบทความนี้อธิบาย PLS ตรงกันข้ามกับวิธีการอื่น ๆ ด้วยวิธีการทางเทคนิคที่คุณเพิ่งพูดถึง อย่างไรก็ตามโปรดทราบว่าคำอธิบายข้างต้นมุ่งเน้นไปที่การถดถอย PLS ในขณะที่ PLS รวมการวิเคราะห์ระบบหลายคลาส(ดูสไลด์ 10 ในการนำเสนอต่อไปนี้) หมายเหตุด้านเทคนิคเกี่ยวกับสไลด์ 25-29 IMHO ก็มีประโยชน์เช่นกัน นำเสนอ: plsmodeling.com/pls/pls-introduction

— Aleksandr Blekh

@ Aleksandr Blekh: นี่เป็นข้อมูลอ้างอิงที่ดีมาก

— Alph

ว้าวคนให้ชื่อกับช่วงเวลาของประวัติศาสตร์ PLS! ประทับใจ

— อะมีบาพูดว่า Reinstate Monica

อย่างจริงจังแม้ว่าผมมองเป็นหนังสือ Sanchez'es แต่ก็ยังไม่เข้าใจสิ่งที่ NIPALS จะทำอย่างไรกับ"ความคิดของการแยกพารามิเตอร์ของแบบจำลองออกเป็นส่วนย่อยที่เพื่อให้พวกเขาสามารถประมาณในส่วน" แต่เดิม NIPALS แนะนำให้ใช้วิธีการคำนวณส่วนประกอบหลักใช่มั้ย มันค่อนข้างง่าย ฉันไม่เห็น "การแยก" ของพารามิเตอร์ใน "ส่วนย่อย" ที่นั่นดังนั้นฉันจึงไม่รู้ว่า Sanchez กำลังพูดถึงที่นี่ โดยวิธีการที่ฉันไม่เข้าใจ "ไม่เชิงเส้น" ใน NIPALS แน่นอนว่า PCA เป็นเทคนิคเชิงเส้น!

— อะมีบาพูดว่า Reinstate Monica

@amoeba: โปรดดูการปรับปรุงของฉันในการตอบสนองต่อความคิดเห็นของคุณ หวังว่ามันจะช่วย

— Aleksandr Blekh

$X$ $Y$ องค์ประกอบของการเรียนรู้ทางสถิติมาตรา 3.5.2 หรือเช่น Rosipal และเครเมอปี 2005ภาพรวมและความก้าวหน้าล่าสุดในสี่เหลี่ยมอย่างน้อยบางส่วน

อย่างไรก็ตามในอดีตตามที่ @Alksandr อธิบายอย่างชัดเจน (+1), PLS ได้รับการแนะนำโดย Wold ที่ใช้อัลกอริทึม NIPALS ของเขาเพื่อนำไปใช้ NIPALS ย่อมาจาก "ไม่เชิงเส้นที่มีการวนซ้ำบางส่วนกำลังสองน้อย" ดังนั้น P ใน PLS ที่เห็นได้ชัดจาก NIPALS

$\newcommand{\X}{\mathbf X}\X$ $\newcommand{\v}{\mathbf v}\v$ $\newcommand{\p}{\mathbf p}\p$ $\v$ $\p$

$\v = \X^\top \p (\p^\top \p)^{-1}$
$\|\v\|$ $1$
$\p = \X \v (\v^\top \v)^{-1}$

$\v$ $\p$ $\X$

(ทำไมเขาถึงเรียกมันว่า "ไม่เป็นเชิงเส้น" แต่ฉันก็ยังไม่เข้าใจ)

คำนี้ทำให้เข้าใจผิดอย่างน่าทึ่งเพราะถ้านี่เป็น "บางส่วน" ดังนั้นทุกขั้นตอนวิธีการคาดหวัง - สูงสุดก็คือ "บางส่วน" ด้วยเช่นกัน (ในความเป็นจริง NIPALS สามารถถูกมองว่าเป็นรูปแบบดั้งเดิมของ EM ดูRoweis 1998 ) ฉันคิดว่า PLS เป็นผู้สมัครที่ดีสำหรับการประกวดคำศัพท์ที่ทำให้เข้าใจผิดมากที่สุดในเครื่อง อนิจจามันไม่น่าจะเปลี่ยนแปลงแม้จะมีความพยายามของ Wold Jr. (ดูความคิดเห็นของ @ Momo ด้านบน)

— อะมีบาพูดว่า Reinstate Monica
แหล่งที่มา

คุณอาจสนใจคำตอบ UPDATE 2 ของฉันพร้อมคำชี้แจงเพิ่มเติม

— Aleksandr Blekh

ขอบคุณที่ติดตามการสนทนานี้ (เพื่อป้องกันการเข้าใจผิดฉันควรจะบอกว่าฉันไม่ได้พยายามวิพากษ์วิจารณ์คุณ แต่อย่างใด!) ตอนนี้ไปยัง Update2 ของคุณ ทำไมคุณคิดว่าเราควรแยกความหมายของ "บางส่วน" ใน PLS และ NIPALS ฟังดูแปลก ๆ PLS งอกออกมาจากการทำงานกับ NIPALS และสิ่งนี้แสดงให้เห็นว่าชื่อของมันนั้นเป็น "niPaLS" แบบย่อ ดูเหมือนว่าจะได้รับการยืนยันจาก Wold และคณะ 2001 กระดาษว่าคุณจะพบ: "นี้รวมถึงการที่เรียบง่าย แต่มีประสิทธิภาพวิธีการประมาณค่าพารามิเตอร์ในรูปแบบเหล่านี้เรียกว่า NIPALS ม [ ... ] นี้นำในการเปิดไป PLS ย่อสำหรับรุ่นนี้."

— อะมีบาพูดว่า Reinstate Monica

ยินดีที่ได้พบ! แต่ฉันไม่คิดว่าปี 1974 เป็น "กระดาษที่เก่าที่สุดใน NIPALS": มี 1969 กระดาษที่มี NIPALS ในชื่อ (ดูความคิดเห็นก่อนหน้าของฉัน) อย่างไรก็ตามคำพูดนี้ทำให้เข้าใจถึงคำถาม: ถ้าเราพูดถึงตัวอย่างของ NIPALS สำหรับ PCA ของฉัน Wold ก็จะ

v

$\mathbf v$ และ

p

$\mathbf p$ เป็นสองพารามิเตอร์อธิบาย

X

$\mathbf X$ และคำว่า "บางส่วน" หมายถึงแต่ละพารามิเตอร์ที่ได้รับการอัปเดตแยกกันนั่นคือมีการอัปเดตพารามิเตอร์เพียงส่วนเดียวในแต่ละครั้ง! มันเป็นยังไงที่คุณอ่านมัน?

— อะมีบาพูดว่า Reinstate Monica

ที่ดี! ฉันคิดว่าในที่สุดคำถามก็ตอบได้อย่างน่าพอใจ และในที่สุดฉันก็เพิ่มคำตอบของคุณ +1 :-) ฉันได้แก้ไขคำตอบของฉันเพื่อรวมเข้ากับความเข้าใจใหม่นี้ เกี่ยวกับคำตอบของคุณ: เมื่อคุณอธิบายคำว่า "บางส่วน" ในอัปเดต 1 และอัปเดต 2 คุณหมายถึงสิ่งเดียวกันกับที่เราเห็นด้วยหรือไม่? สำหรับฉันดูเหมือนว่าคำตอบของคุณในปัจจุบันจะมีการตีความที่แตกต่างกันหลายอย่าง ...

— อะมีบาพูดว่า Reinstate Monica

ฉันไม่รู้! บางทีมันถูกต้อง คุณสามารถอธิบายรายละเอียดเกี่ยวกับ "โมเดลที่ไม่ใช่เชิงเส้น" ที่สามารถวิเคราะห์ได้โดยใช้ NIPALS และอย่างไร ในทางกลับกันอาจเป็นหัวข้อที่แตกต่างอย่างสิ้นเชิง ฉันเดาว่าประเด็นคือ Wold พัฒนา NIPALS ไม่ให้คำนวณ PCA เพื่อประโยชน์ของตัวเอง แต่มีบางแอปพลิเคชันในใจที่ซึ่งเขาต้องจัดการกับปัญหาที่ไม่เชิงเส้นและทำให้เป็นเชิงเส้นลดลง PCA? ทุกวันนี้คนนำเสนอ NIPALS เป็นอัลกอริธึมง่ายๆในการคำนวณเวกเตอร์เอกพจน์ชั้นนำ แต่บางที Wold จากปี 1969 จะไม่เห็นด้วยกับมุมมองนี้เลย!

— อะมีบาพูดว่า Reinstate Monica