องค์ประกอบหลักด้านบนจะรักษาพลังการคาดการณ์ของตัวแปรตาม (หรือนำไปสู่การทำนายที่ดีกว่า) ได้อย่างไร?


25

สมมติว่าผมทำงานถดถอย X ทำไมโดยการเลือกด้านบนkส่วนประกอบหลักการของXไม่รูปแบบการรักษาอำนาจของตนในการทำนายY ?YXkXY

ผมเข้าใจว่าจากมิติการลดจุด / คุณลักษณะการเลือกมุมมองถ้าเป็น eigenvectors ของเมทริกซ์ความแปรปรวนของXกับด้านบนkค่าลักษณะเฉพาะแล้วX วี1 , X โวลต์ 2 . . X v kเป็นองค์ประกอบหลักkอันดับแรกที่มีความแปรปรวนสูงสุด เราสามารถลดจำนวนฟีเจอร์เป็นkและรักษาพลังการทำนายส่วนใหญ่ไว้ได้ตามที่ฉันเข้าใจv1,v2,...vkXkXv1,Xv2...Xvkkk

แต่ทำไมทำบนส่วนประกอบรักษาอำนาจการพยากรณ์ในY ?kY

ถ้าเราพูดถึงทั่วไป OLS มีเหตุผลที่จะชี้ให้เห็นว่าถ้าไม่มีคุณลักษณะZ ฉันมีความแปรปรวนสูงสุดแล้วZ ฉันมีอำนาจมากที่สุดในการทำนายYYZZiZiY

อัปเดตหลังจากเห็นความคิดเห็น:ฉันเดาว่าฉันเคยเห็นตัวอย่างของการใช้ PCA จำนวนมากเพื่อการลดขนาด ฉันได้รับการสันนิษฐานว่าหมายถึงมิติที่เราเหลืออยู่มีอำนาจการทำนายมากที่สุด มิฉะนั้นแล้วประเด็นของมิติลดลงคืออะไร?


3
คุณถูกต้อง: ไม่มีเหตุผลทางคณิตศาสตร์ที่จะสมมติว่าพีซีอันดับสูงสุดของXKXมีอำนาจการทำนายใด ๆ - เช่นเดียวกับไม่มีเหตุผลทางคณิตศาสตร์ทั่วไปจะคิดว่าชุดของตัวแปรใด ๆมีความสัมพันธ์ใด ๆ ที่ทุกคนจะได้รับY ดูเหมือนว่าคุณอาจอ้างถึงข้อความบางอย่างที่คุณพบ: มันพูดอะไรกันแน่และใครพูดว่า XY
whuber

@ เมื่อฉันเดาว่าฉันมีตัวอย่างของการใช้ PCA สำหรับการลดขนาด ฉันได้รับการสันนิษฐานว่าหมายถึงมิติที่เราเหลืออยู่มีอำนาจการทำนายมากที่สุด มิฉะนั้นนั่นคือจุดลดขนาด?
Vendetta

คำตอบ:


43

แน่นอนว่าไม่มีการรับประกันว่าส่วนประกอบหลักด้านบน (พีซี) มีพลังการทำนายได้มากกว่าตัวแปรปรวนต่ำ

ตัวอย่างโลกแห่งความจริงสามารถพบได้ที่นี่ไม่ใช่กรณีและมันเป็นเรื่องง่ายที่จะสร้างตัวอย่างเทียมที่เช่นพีซีที่เล็กที่สุดเท่านั้นที่มีความสัมพันธ์กับเลยy

หัวข้อนี้มีการพูดคุยกันมากมายในฟอรัมของเราและในกรณีที่ไม่มีโชค (อย่างโชคร้าย) ของกระทู้ที่ชัดเจนฉันสามารถให้ลิงค์หลายอย่างที่ให้ชีวิตจริงและตัวอย่างเทียม:

และหัวข้อเดียวกัน แต่ในบริบทของการจำแนก:


แต่ในทางปฏิบัติพีซีด้านบนมักจะมักจะมีอำนาจการทำนายมากขึ้นกว่าคนที่ต่ำแปรปรวนและนอกจากนี้ยังใช้เครื่องคอมพิวเตอร์ชั้นนำเท่านั้นที่สามารถให้ผลผลิตอำนาจการพยากรณ์ดีกว่าการใช้เครื่องคอมพิวเตอร์ทั้งหมด

ในสถานการณ์ที่มีตัวทำนายจำนวนมากและจุดข้อมูลค่อนข้างน้อยn (เช่นเมื่อp npnpnหรือแม้แต่ ) การถดถอยปกติจะเหมาะสมและจำเป็นต้องทำให้เป็นมาตรฐาน การวิเคราะห์องค์ประกอบหลัก (PCR) สามารถมองได้ว่าเป็นวิธีหนึ่งในการทำให้การถดถอยเป็นปกติและมีแนวโน้มที่จะให้ผลลัพธ์ที่เหนือกว่า ยิ่งไปกว่านั้นมันมีความสัมพันธ์อย่างใกล้ชิดกับการถดถอยของสันเขาซึ่งเป็นวิธีมาตรฐานในการทำให้เป็นมาตรฐานการหดตัว ในขณะที่การใช้สันเขาถดถอยเป็นความคิดที่ดีกว่า PCR มักจะทำงานได้ดีพอสมควร ดูเหตุใดการหดตัวจึงทำงาน สำหรับการสนทนาทั่วไปเกี่ยวกับการแลกเปลี่ยนความเอนเอียงอคติและการหดตัวจะเป็นประโยชน์อย่างไรp>n

ในวิธีหนึ่งสามารถพูดได้ว่าทั้งการถดถอยสันและ PCR สมมติว่าข้อมูลส่วนใหญ่เกี่ยวกับนั้นมีอยู่ในพีซีขนาดใหญ่ของXและสมมติฐานนี้มักรับประกันyX

ดูคำตอบในภายหลังโดย @cbeleites (+1) สำหรับการอภิปรายเกี่ยวกับว่าทำไมสมมติฐานนี้มักจะเป็นประกัน (และยังนี้กระทู้ใหม่: คือการลดมิติมักจะมีประโยชน์สำหรับการจำแนกประเภท?สำหรับความคิดเห็นเพิ่มเติมบางส่วน)

Hastie และคณะ ในองค์ประกอบของการเรียนรู้ทางสถิติ (ส่วน 3.4.1) แสดงความคิดเห็นเกี่ยวกับเรื่องนี้ในบริบทของการถดถอยของสันเขา:

[T] เขาเป็นเอกพจน์ค่าน้อย [... ] สอดคล้องกับทิศทางในพื้นที่คอลัมน์ของมีความแปรปรวนขนาดเล็กและการถดถอยสันริดทิศทางของเหล่านี้มากที่สุด [... ] การถดถอยของสันป้องกันความแปรปรวนสูงที่อาจเกิดขึ้นจากการไล่ระดับสีโดยประมาณในทิศทางสั้น ๆ ข้อสันนิษฐานโดยนัยก็คือการตอบสนองจะมีแนวโน้มที่จะแตกต่างกันมากที่สุดในทิศทางของความแปรปรวนสูงของอินพุต สิ่งนี้มักจะเป็นข้อสันนิษฐานที่สมเหตุสมผลเนื่องจากตัวทำนายมักจะถูกเลือกสำหรับการศึกษาเพราะมันแตกต่างกันไปตามตัวแปรการตอบสนองX

ดูคำตอบของฉันในหัวข้อต่อไปนี้เพื่อดูรายละเอียด:


บรรทัดล่าง

สำหรับปัญหาที่มีมิติสูงการประมวลผลล่วงหน้าด้วย PCA (หมายถึงการลดขนาดและรักษาเฉพาะพีซียอดนิยม) สามารถมองเห็นได้ว่าเป็นวิธีหนึ่งในการทำให้เป็นมาตรฐานและมักจะปรับปรุงผลลัพธ์ของการวิเคราะห์ที่ตามมา แต่ไม่มีการรับประกันว่าสิ่งนี้จะได้ผลและมักจะมีวิธีการทำให้เป็นมาตรฐานที่ดีขึ้น


ขอบคุณสำหรับการรวบรวมข้อมูลอ้างอิงในคำตอบของคุณ นี่คืออีกหนึ่งเมื่อเร็ว ๆ นี้ มีคำตอบด้วยลิงก์เพิ่มเติม
ttnphns

ขอบคุณ @ttnphns! ฉันไม่เห็นโพสต์นั้นเนื่องจากไม่มีแท็ก [pca] (ฉันติดตามอย่างใกล้ชิดเพียงแท็กหนึ่งแท็กเฉพาะ) ที่จริงแล้วฉันรู้สึกไม่พอใจที่มีคอลเลกชั่นหลวม ๆ จำนวน 5-10 ชุดที่เกี่ยวข้องอย่างใกล้ชิดโดยไม่มีคำถามและไม่มีคำตอบที่สมบูรณ์แบบจริงๆ ฉันต้องการที่จะมีกระทู้มาตรฐานหนึ่งหัวข้อที่สามารถใช้สำหรับการอ้างอิงในอนาคต ...
อะมีบากล่าวว่า Reinstate Monica

ฉันได้เพิ่มแท็กในคำถามนั้น คำตอบสารานุกรม "สมบูรณ์แบบ" ในหัวข้อที่น่าสนใจกำลังรอผู้แต่งอยู่ :-) คุณอาจตัดสินใจที่จะเป็นหนึ่ง
ttnphns

ที่เกี่ยวข้องเพิ่มเติม: คำตอบของ onestop สำหรับstats.stackexchange.com/questions/3561/ …
kjetil b halvorsen

11

นอกเหนือจากคำตอบที่มุ่งเน้นไปที่คุณสมบัติทางคณิตศาสตร์แล้วฉันต้องการแสดงความคิดเห็นจากมุมมองเชิงทดลอง

สรุป: กระบวนการสร้างข้อมูลมักจะได้รับการปรับให้เหมาะสมที่สุดในลักษณะที่ทำให้ข้อมูลเหมาะสมสำหรับการวิเคราะห์องค์ประกอบหลัก (PCR) หรือการถดถอยสี่เหลี่ยมจัตุรัสน้อยที่สุด (PLS) บางส่วน


ฉันเป็นนักเคมีวิเคราะห์ เมื่อฉันออกแบบการทดลอง / วิธีการวัด (การถดถอยหรือการจำแนก) บางสิ่งฉันใช้ความรู้เกี่ยวกับแอปพลิเคชันและเครื่องมือที่มีอยู่เพื่อรับข้อมูลที่มีอัตราส่วนสัญญาณต่อสัญญาณรบกวนที่ดีตามงานที่ทำ นั่นหมายถึงข้อมูลที่ฉันสร้างถูกออกแบบมาให้มีความแปรปรวนร่วมสูงกับทรัพย์สินที่น่าสนใจ
สิ่งนี้นำไปสู่โครงสร้างความแปรปรวนที่ความแปรปรวนที่น่าสนใจมีขนาดใหญ่และพีซีในภายหลังจะส่งเสียง (เล็ก) เท่านั้น

ฉันยังต้องการวิธีการที่ให้ข้อมูลซ้ำซ้อนเกี่ยวกับงานในมือเพื่อให้ได้ผลลัพธ์ที่แข็งแกร่งหรือแม่นยำยิ่งขึ้น PCA มุ่งเน้นการวัดช่องทางที่ซ้ำซ้อนลงในพีซีหนึ่งเครื่องซึ่งจะมีความแปรปรวนมากมายและเป็นหนึ่งในพีซีเครื่องแรก

หากมีคนรู้จักที่รู้จักกันซึ่งจะนำไปสู่ความแปรปรวนขนาดใหญ่ที่ไม่สัมพันธ์กับคุณสมบัติที่น่าสนใจฉันมักจะพยายามแก้ไขสิ่งเหล่านี้ให้มากที่สุดเท่าที่จะเป็นไปได้ในระหว่างการประมวลผลข้อมูลล่วงหน้า: ในหลาย ๆ กรณี ลักษณะทางกายภาพหรือเคมีและความรู้นี้แสดงให้เห็นวิธีที่เหมาะสมในการแก้ไขสำหรับคนที่สับสน เช่นฉันวัดรามานสเป็คตร้าภายใต้กล้องจุลทรรศน์ ความเข้มของมันขึ้นอยู่กับความเข้มของแสงเลเซอร์รวมถึงความสามารถในการโฟกัสของกล้องจุลทรรศน์ ทั้งสองนำไปสู่การเปลี่ยนแปลงที่สามารถแก้ไขได้โดยการทำให้เป็นมาตรฐานเช่นสัญญาณที่ทราบว่าคงที่
ดังนั้นผู้มีส่วนร่วมขนาดใหญ่ของความแปรปรวนที่ไม่ได้มีส่วนร่วมในการแก้ปัญหาอาจถูกกำจัดออกก่อนที่ข้อมูลจะเข้าสู่ PCA ทำให้ความแปรปรวนที่มีความหมายส่วนใหญ่ในพีซีเครื่องแรก


ท้ายสุด แต่ไม่ท้ายสุดมีคำทำนายการตอบสนองด้วยตนเองเล็กน้อยที่นี่: เห็นได้ชัดว่า PCR ทำกับข้อมูลที่สันนิษฐานว่าข้อมูลที่มีความแปรปรวนขนาดใหญ่มีเหตุผล ถ้าเช่นฉันคิดว่าอาจมีคนสับสนที่สำคัญที่ฉันไม่รู้ว่าจะแก้ไขอย่างไรฉันจะไปหา PLS ทันทีซึ่งจะดีกว่าที่จะเพิกเฉยต่อการมีส่วนร่วมจำนวนมากที่ไม่ได้ช่วยงานทำนายผล


+1 นี่เป็นส่วนเสริมที่ยอดเยี่ยมขอขอบคุณสำหรับการเข้าร่วมการสนทนา
อะมีบาพูดว่า Reinstate Monica

@ amoeba: ขอบคุณสำหรับคำพูดที่ใจดี เช่นเคยคำตอบของคุณก็ละเอียดมากเช่นกัน ที่จริงแล้วฉันพึ่งคุณที่จะดูแล [pca]!
cbeleites รองรับ Monica

6

PCA บางครั้งใช้เพื่อแก้ไขปัญหาที่เกิดจากตัวแปร collinear เพื่อให้การเปลี่ยนแปลงส่วนใหญ่ในพื้นที่ X ถูกจับโดยองค์ประกอบหลัก K

แต่ปัญหาทางคณิตศาสตร์นี้แน่นอนว่าไม่เหมือนกับการจับความแปรปรวนส่วนใหญ่ทั้งในช่องว่าง X, Y ในลักษณะที่การเปลี่ยนแปลงที่ไม่ได้อธิบายนั้นมีขนาดเล็กที่สุดเท่าที่จะทำได้

สี่เหลี่ยมจัตุรัสที่น้อยที่สุดบางส่วนพยายามทำสิ่งนี้ในแง่หลัง:

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

ตามที่คนอื่น ๆ ชี้ให้เห็นไม่มีการเชื่อมโยงโดยตรงระหว่าง eigenvector k ชั้นนำและพลังการทำนาย โดยการเลือกด้านบนและใช้เป็นพื้นฐานคุณจะยังคงรักษาพลังงานระดับสูง (หรือความแปรปรวนตามแนวแกน)

อาจเป็นไปได้ว่าแกนที่อธิบายความแปรปรวนส่วนใหญ่นั้นมีประโยชน์สำหรับการคาดการณ์ แต่โดยทั่วไปนี่ไม่ใช่กรณี


เมื่อคุณพูดว่า "โดยทั่วไป" คุณหมายถึงโดยทั่วไปในทางปฏิบัติหรือโดยทั่วไปในทางทฤษฎีหรือไม่?
อะมีบากล่าวว่า Reinstate Monica

@amoeba โดยทั่วไปเพราะมันเป็นเรื่องง่ายที่จะสร้างชุดข้อมูลที่ฉายข้อมูลบนแกนความแปรปรวนสูงสุดสูงสุด k ไม่ได้คาดการณ์ / การเลือกปฏิบัติ
Vladislavs Dovgalecs

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.