ทำไมเราถึงหารด้วยค่าเบี่ยงเบนมาตรฐานและไม่ใช่ปัจจัยมาตรฐานอื่น ๆ ก่อนทำ PCA


17

ฉันกำลังอ่านเหตุผลต่อไปนี้ (จากบันทึกหลักสูตร cs229) ว่าทำไมเราแบ่งข้อมูลดิบด้วยค่าเบี่ยงเบนมาตรฐาน:

ป้อนคำอธิบายรูปภาพที่นี่

แม้ว่าฉันจะเข้าใจสิ่งที่คำอธิบายพูด แต่ก็ไม่ชัดเจนสำหรับฉันว่าทำไมการหารด้วยค่าเบี่ยงเบนมาตรฐานจะบรรลุเป้าหมายดังกล่าว มันบอกว่าเพื่อให้ทุกคนอยู่ใน "ระดับ" มากกว่าเดิม อย่างไรก็ตามมันไม่ชัดเจนเลยว่าทำไมการหารด้วยค่าเบี่ยงเบนมาตรฐานจึงทำได้ ชอบมีอะไรผิดปกติกับการหารด้วยความแปรปรวน? ทำไมไม่ลองปริมาณอื่นล่ะ ชอบ ... ผลรวมของค่าสัมบูรณ์? หรือบรรทัดฐานอื่น ๆ ... มีเหตุผลทางคณิตศาสตร์ในการเลือก STD หรือไม่?

การอ้างสิทธิ์ในสารสกัดนี้เป็นข้อความเชิงทฤษฎีที่สามารถได้มา / พิสูจน์ผ่านทางคณิตศาสตร์ (และ / หรือสถิติ) หรือเป็นอีกหนึ่งประโยคที่เราทำเพราะดูเหมือนจะทำงานใน "ฝึกหัด" หรือไม่?

โดยพื้นฐานแล้วเราสามารถให้คำอธิบายทางคณิตศาสตร์อย่างเข้มงวดว่าทำไมสัญชาตญาณนั้นเป็นความจริง หรือถ้าเป็นเพียงการสังเกตเชิงประจักษ์ทำไมเราคิดว่ามันใช้งานได้ทั่วไปก่อนทำ PCA

นอกจากนี้ในบริบทของ PCA นี่คือกระบวนการของการทำให้เป็นมาตรฐานหรือทำให้เป็นมาตรฐานหรือไม่


ความคิดอื่น ๆ ที่ฉันมีที่อาจ "อธิบาย" ทำไม STD:

เนื่องจาก PCA สามารถหาได้จากการเพิ่มความแปรปรวนให้มากที่สุดฉันเดาว่าการหารด้วยปริมาณที่เกี่ยวข้องเช่น STD อาจเป็นหนึ่งในเหตุผลที่เราหารด้วย STD แต่ฉันก็คิดว่าบางทีถ้าเรานิยาม "ความแปรปรวน" กับบรรทัดฐานอื่น ๆจากนั้นเราจะหารด้วย STD ของบรรทัดฐานนั้น (โดยการรูท pth หรือบางอย่าง) แม้ว่ามันจะเป็นเพียงการเดาและฉันไม่ได้ 100% เกี่ยวกับเรื่องนี้ดังนั้นคำถาม ฉันสงสัยว่าถ้าใครรู้อะไรเกี่ยวกับเรื่องนี้1ni=1n(xiμ)p


ฉันเห็นว่าอาจมีคำถามที่เกี่ยวข้อง:

PCA เกี่ยวกับสหสัมพันธ์หรือความแปรปรวนร่วม?

แต่ดูเหมือนว่าจะพูดเพิ่มเติมเกี่ยวกับเวลาที่จะใช้ "สหสัมพันธ์" หรือ "ความแปรปรวนร่วม" แต่ขาดเหตุผลที่เข้มงวดหรือน่าเชื่อถือหรือมีรายละเอียดซึ่งเป็นสิ่งที่ฉันสนใจเป็นหลัก

เหมือนกันสำหรับ:

ทำไมเราต้องทำให้ข้อมูลเป็นปกติก่อนการวิเคราะห์

ที่เกี่ยวข้อง:

ตัวแปร "Normalizing" สำหรับ SVD / PCA


1
มีเหตุผลทางคณิตศาสตร์คือการหารข้อมูล (กึ่งกลาง) โดย SD สำหรับแต่ละตัวแปรจะสร้างชุดข้อมูลที่แปลงแล้วซึ่งเมทริกซ์ความแปรปรวนร่วมนั้นเป็นเพียงเมทริกซ์สหสัมพันธ์ของข้อมูลดั้งเดิม (กึ่งกลาง) หลังจากนั้นเราก็อยู่บนพื้นที่สหสัมพันธ์เมทริกซ์ความแปรปรวนร่วมอีกครั้ง คุณกำลังหาข้อพิสูจน์ว่าการทำให้ข้อมูลเป็นมาตรฐานกลายเป็นเมทริกซ์สหสัมพันธ์ได้อย่างไร?
Silverfish

คำถามไตเติ้ลของคุณจะอ่านราวกับว่าคุณกำลังถามว่าวัตถุประสงค์ของการทำให้เป็นมาตรฐานคืออะไร (ไม่ใช่การทำให้เป็นมาตรฐาน) นี่จะเป็นซ้ำของ "PCA กับสหสัมพันธ์หรือความแปรปรวนร่วม" อย่างไรก็ตามสิ่งที่คุณดูเหมือนจะถามจริงๆคือสาเหตุที่ทำให้การทำมาตรฐานทำได้โดยการหารด้วย STD (ตรงข้ามกับการหารด้วยความแปรปรวนหรือช่วง ฯลฯ ) ถ้าเป็นเช่นนั้นคุณอาจต้องการแก้ไขเพื่อให้คำถามหัวเรื่องมีความแม่นยำมากขึ้นหรือไม่
อะมีบาพูดว่า Reinstate Monica

3
เกี่ยวกับคำศัพท์คำว่า "normalizing" ไม่ใช่คำที่แม่นยำและสามารถอ้างถึงสิ่งต่าง ๆ ได้ ในขณะที่ "การกำหนดมาตรฐาน" หมายถึงการลบค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐานซึ่งเป็นสิ่งที่คุณอ้างถึง
อะมีบาพูดว่า Reinstate Monica

2
ฉันควรเพิ่มว่าฉันคิดว่าคำถามของคุณดีมาก (+1) เราสามารถทำให้ปกติได้โดยการหารด้วยอย่างอื่น ตัวอย่างเช่นค่าเบี่ยงเบนมาตรฐานเป็นตัวชี้วัดที่ไม่แข็งแกร่งมากและสามารถทำให้เข้าใจผิดในการปรากฏตัวของค่าผิดปกติที่แข็งแกร่ง ดังนั้นเราสามารถเลือกที่จะหารด้วยการวัดค่าการกระจายที่แข็งแกร่งแทน (ดูเช่น "ค่าเบี่ยงเบนสัมบูรณ์แบบมัธยฐาน") ไม่มี "คำอธิบายทางคณิตศาสตร์อย่างเข้มงวด" ทำไมการใช้ STD เป็นวิธีที่ดีที่สุดในการทำให้เป็นมาตรฐานและคุณพูดถูกว่าเป็น "แค่การสังเกตเชิงประจักษ์" ซึ่งมันทำงานได้ดี
อะมีบาพูดว่า Reinstate Monica

2
Re "ทำไมไม่หารด้วยความแปรปรวนแทน" - ซึ่งสามารถอธิบายได้อย่างง่ายดายโดยความไม่สอดคล้องของมิติ มันจะให้ผลลัพธ์ที่แปลกถ้าคุณเปลี่ยนหน่วยหนึ่งในตัวแปรที่อยู่ในตัวอย่าง Re "ทำไมไม่หารด้วย MAD" - ถ้าข้อมูลถูกกระจายตามปกติแล้วเนื่องจาก (ในประชากร) MAD เป็นสัดส่วนกับ SD จึงเป็นไปได้ที่จะหารด้วยMAD หลายตัวที่เหมาะสมและได้รับ (ไม่มีประสิทธิภาพ แต่อาจแข็งแกร่ง? ) การประมาณค่าสหสัมพันธ์ นั่นน่าสนใจกว่า
Silverfish

คำตอบ:


11

นี่เป็นคำตอบบางส่วนของ "มันไม่ชัดเจนสำหรับฉันว่าทำไมการหารด้วยค่าเบี่ยงเบนมาตรฐานจะบรรลุเป้าหมายดังกล่าว" โดยเฉพาะอย่างยิ่งทำไมมันถึงนำข้อมูลที่แปลง (มาตรฐาน) มาใช้กับ "มาตราส่วนเดียวกัน" คำถามที่บอกไว้ในประเด็นที่ลึกลงไป (สิ่งใดที่อาจมี "ทำงาน" ซึ่งเชื่อมโยงกับสิ่งที่ "ทำงาน" อาจหมายถึงทางคณิตศาสตร์?) แต่ดูเหมือนว่าอย่างน้อยก็ควรที่จะกล่าวถึงประเด็นที่ตรงไปตรงมามากขึ้นว่าทำไม - กล่าวคือได้รับการกล่าวอ้างในข้อความ

รายการในแถวและคอลัมน์ของเมทริกซ์ความแปรปรวนเป็นความแปรปรวนระหว่างฉันทีเอชและเจทีเอชตัวแปร โปรดสังเกตว่าในแนวทแยงมุมแถวiและคอลัมน์iijithjthiiนี้จะกลายเป็นความแปรปรวนระหว่างและตัวแปรตัวเอง - ซึ่งเป็นเพียงความแปรปรวนของฉันทีเอชตัวแปรithith

ลองเรียกตัวแปร X iและj t hตัวแปรX j ; ฉันจะสมมติว่าสิ่งเหล่านี้มีศูนย์กลางอยู่แล้วเพื่อให้พวกเขามีค่าเฉลี่ยเป็นศูนย์ จำได้ว่าC o v (ithXijthXj

Cov(Xi,Xj)=σXiσXjCor(Xi,Xj)

Zi=XiσXi

Var(Zi)=Var(XiσXi)=1σXi2Var(Xi)=1σXi2σXi2=1

Zjij

Cov(Zi,Zj)=σZiσZjCor(Zi,Zj)=Cor(Zi,Zj)

Cor(Zi,Zj)Cor(Xi,Xj)

Cov(Zi,Zi)=Var(Zi)=1ดังนั้นเส้นทแยงมุมทั้งหมดจึงเต็มไปด้วยเส้นตามที่เราคาดหวัง ในแง่นี้ข้อมูลตอนนี้ "อยู่ในระดับเดียวกัน" - การกระจายขอบควรดูคล้ายกันอย่างน้อยถ้าพวกมันกระจายตามปกติประมาณเริ่มต้นด้วยค่าเฉลี่ยศูนย์และความแปรปรวน (และส่วนเบี่ยงเบนมาตรฐาน) มันไม่ใช่กรณีที่ความแปรปรวนของตัวแปรหนึ่งจะทำให้คนอื่นแปรเปลี่ยน คุณสามารถหารด้วยสเปรดที่แตกต่างกันแน่นอน ความแปรปรวนน่าจะเป็นตัวเลือกที่ไม่ดีเป็นพิเศษเนื่องจากความไม่สอดคล้องกันของมิติ (คิดเกี่ยวกับสิ่งที่จะเกิดขึ้นหากคุณเปลี่ยนหน่วยที่หนึ่งในตัวแปรของคุณอยู่เช่นจากเมตรเป็นกิโลเมตร) บางสิ่งบางอย่างเช่นค่าเบี่ยงเบนสัมบูรณ์แบบมัธยฐาน (หรือค่า MAD หลายค่าที่เหมาะสมหากคุณพยายามที่จะใช้มันเป็นตัวประมาณค่าเบี่ยงเบนมาตรฐาน) อาจจะเหมาะสมกว่า แต่มันจะไม่เปลี่ยนแนวทแยงนั้นเป็นแนวทแยงมุม

ผลที่สุดคือวิธีการที่ทำงานกับเมทริกซ์ความแปรปรวนร่วมของข้อมูลที่ได้มาตรฐานเป็นหลักโดยใช้เมทริกซ์สหสัมพันธ์ของข้อมูลต้นฉบับ คุณต้องการใช้ PCA แบบใดให้ดูPCA เกี่ยวกับสหสัมพันธ์หรือความแปรปรวนร่วม


2
ฉันคิดว่าคำตอบนี้ไม่ได้สัมผัสกับคำถามที่แท้จริง (และไม่สำคัญ) ว่าทำไมส่วนเบี่ยงเบนมาตรฐานจึงถูกนำมาใช้เป็นมาตรวัดการแพร่กระจายและใช้สำหรับการทำให้เป็นมาตรฐาน ทำไมไม่ลองใช้การเบี่ยงเบนสัมบูรณ์แบบมัธยฐานแทนล่ะ จริงอยู่เมทริกซ์ความแปรปรวนร่วมที่เกิดขึ้นจะไม่ใช่เมทริกซ์สหสัมพันธ์ "เริ่มต้น" แต่บางทีมันอาจจะดีกว่าเช่นการประมาณค่าที่แข็งแกร่งของเมทริกซ์สหสัมพันธ์ ดูความคิดเห็นล่าสุดของฉันไปที่ OP
อะมีบาพูดว่า Reinstate Monica

2
@ameoba ในจุด "Medium deep" ความจริงที่ว่าเราได้ความแปรปรวนของเส้นทแยงมุมของเมทริกซ์ความแปรปรวนร่วมแบบใหม่นั้นเป็นสิ่งที่เราหมายถึงโดยการแปลงข้อมูลให้มีตัวแปร "ในระดับเดียวกัน" จากมุมมอง PCA ในประเด็น "ที่ลึกมาก" ที่เกิดขึ้นจากคำถามนี้ฉันไม่แน่ใจว่ามีความแตกต่างกันมากระหว่างการถามว่า "ทำไมเราถึงใช้ความแปรปรวนเป็นมาตรวัดของเราใน PCA" และถามว่า "เพราะเหตุใด PCA จึงเกี่ยวข้องกับความแปรปรวน (co)" - หรืออย่างน้อยก็ว่าทั้งสองประเด็นจะเกี่ยวข้องอย่างใกล้ชิด
Silverfish

1
@ amoeba, ทำไมไม่หารด้วย MAD หรือความแปรปรวนแทน SD เป็นหลัก, คำถามเดียวกับสาเหตุที่แตกต่างกันเลย: นั่นคือทำไมไม่ทำ PCA กับ covariances แทน? ฉันสนับสนุนแนวคิดนี้ในความคิดเห็นก่อนหน้า
ttnphns

1
@ttnphns: หากตัวแปรที่แตกต่างกันมีสเกลที่หาที่เปรียบมิได้อย่างสมบูรณ์ (อุณหภูมิ, ความยาว, น้ำหนัก, ฯลฯ ) ดังนั้นความปรารถนาที่จะทำให้ตัวแปรปกติเป็นที่เข้าใจได้ค่อนข้างดี นั่นเป็นอาร์กิวเมนต์ทั่วไปสำหรับการใช้เมทริกซ์สหสัมพันธ์แทนเมทริกซ์ความแปรปรวนร่วม แต่ถ้าใครบางคนเป็นกังวลเกี่ยวกับค่าผิดปกติฉันไม่เห็นอะไรผิดปกติกับการลบค่ามัธยฐานแทนค่าเฉลี่ยและหารด้วย MAD แทนที่จะเป็น SVD ... ฉันไม่เคยทำมันด้วยตัวเอง แต่ฉันคิดว่ามันฟังดูสมเหตุสมผล
อะมีบาพูดว่า Reinstate Monica

1
@amoeba เชิงเส้น PCA ต้องการเมทริกซ์ที่จะเป็นSSCP ชนิดเมทริกซ์ การแปลงเชิงเส้นของตัวแปรดั้งเดิมรักษาประเภทนี้ แน่นอนคุณสามารถทำการแปลงแบบไม่เชิงเส้นได้เช่นกัน (เช่นการจัดอันดับเพื่อรับ Spearman rho matrix) แต่จากนั้นคะแนนส่วนประกอบและการโหลดจะสูญเสียการเชื่อมต่อโดยตรง (ในแง่ของการย่อขนาดกำลังสองน้อยที่สุด) กับข้อมูล: ตอนนี้แสดงข้อมูลที่แปลงแล้วแทน!
ttnphns

5

ทำไมเราหารด้วยค่าเบี่ยงเบนมาตรฐานมี
อะไรผิดปกติกับการหารด้วยความแปรปรวน?

zและการแจกแจงแบบปกติมาตรฐาน : หากมีการกระจายข้อมูลตามปกติการกำหนดมาตรฐานจะเปลี่ยนเป็นการแจกแจงแบบปกติมาตรฐาน

ดังนั้น: การทำให้เป็นมาตรฐาน (หมายถึงการจัดกึ่งกลาง + การปรับโดยความเบี่ยงเบนมาตรฐาน)สมเหตุสมผลถ้าคุณพิจารณาการแจกแจงแบบปกติมาตรฐานที่สมเหตุสมผลสำหรับข้อมูลของคุณ

ทำไมไม่ลองปริมาณอื่นล่ะ ชอบ ... ผลรวมของค่าสัมบูรณ์? หรือบรรทัดฐานอื่น ๆ ...

ปริมาณอื่น ๆ ที่ใช้ในการ ปรับขนาดข้อมูล แต่ขั้นตอนนี้เรียกว่าการทำให้เป็นมาตรฐานเฉพาะเมื่อมันใช้ค่าเฉลี่ยที่อยู่ตรงกลางและหารด้วยค่าเบี่ยงเบนมาตรฐาน การปรับสเกลเป็นคำทั่วไป

เช่นฉันทำงานกับข้อมูลสเปกโทรสโกปีและรู้ว่าเครื่องตรวจจับของฉันมีความไวขึ้นอยู่กับความยาวคลื่นและอคติ (อิเล็กทรอนิกส์) ดังนั้นฉันสอบเทียบโดยการลบสัญญาณออฟเซ็ต (ว่างเปล่า) และคูณ (หาร) ด้วยปัจจัยการสอบเทียบ

นอกจากนี้ฉันอาจไม่ได้อยู่ตรงกลางกับค่าเฉลี่ย แต่แทนที่จะเป็นค่าพื้นฐานอื่น ๆ เช่นค่าเฉลี่ยของกลุ่มควบคุมแทนที่จะเป็นค่าเฉลี่ยขนาดใหญ่ (โดยส่วนตัวแล้วฉันแทบจะไม่ได้มาตรฐานเลยเพราะความแตกต่างของฉันมีหน่วยทางกายภาพเดียวกันและอยู่ในลำดับความสำคัญเท่ากัน)

ดูเพิ่มเติม: ตัวแปรมักจะถูกปรับ (เช่นมาตรฐาน) ก่อนที่จะสร้างแบบจำลอง - นี่เป็นความคิดที่ดีเมื่อใดและเมื่อใดจึงเป็นสิ่งที่ไม่ดี


+1 ตัวอย่างที่ดีกับข้อมูลสเปกโทรสโกปี โดยวิธีการขอแสดงความยินดีกับการเข้าถึงตัวแทน 10k!
อะมีบาพูดว่า Reinstate Monica

0

ลิงก์นี้ตอบคำถามของคุณอย่างชัดเจนฉันเดาว่า: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html

ฉันพูดชิ้นเล็ก ๆ :

มาตรฐาน Z-score หรือ Min-Max scaling?

“ การปรับมาตรฐานหรือการปรับขนาด Min-Max?” - ไม่มีคำตอบที่ชัดเจนสำหรับคำถามนี้: มันขึ้นอยู่กับแอปพลิเคชันจริงๆ

ตัวอย่างเช่นในการวิเคราะห์การจัดกลุ่มมาตรฐานอาจมีความสำคัญเป็นพิเศษเพื่อเปรียบเทียบความคล้ายคลึงกันระหว่างคุณลักษณะตามการวัดระยะทาง อีกตัวอย่างที่โดดเด่นคือการวิเคราะห์องค์ประกอบหลักซึ่งเรามักจะชอบมาตรฐานมากกว่าการปรับสเกล Min-Max เนื่องจากเราสนใจในส่วนประกอบที่เพิ่มความแปรปรวนสูงสุด (ขึ้นอยู่กับคำถามและถ้า PCA คำนวณส่วนประกอบผ่านเมทริกซ์สหสัมพันธ์แทน เมทริกซ์ความแปรปรวนร่วม แต่มีมากขึ้นเกี่ยวกับ PCA ในบทความก่อนหน้าของฉัน)

อย่างไรก็ตามนี่ไม่ได้หมายความว่าการปรับขนาด Min-Max นั้นไม่มีประโยชน์เลย! แอปพลิเคชั่นยอดนิยมคือการประมวลผลภาพโดยที่ความเข้มของพิกเซลจะต้องถูกทำให้เป็นมาตรฐานเพื่อให้พอดีกับช่วงที่กำหนด (เช่น 0 ถึง 255 สำหรับช่วงสี RGB) นอกจากนี้อัลกอริทึมเครือข่ายประสาททั่วไปต้องการข้อมูลที่อยู่ในระดับ 0-1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.