ทำไมการหดตัวจึงใช้งานได้จริงมีอะไรพิเศษเกี่ยวกับ 0


15

มีการโพสต์ในเว็บไซต์นี้แล้วพูดคุยเกี่ยวกับปัญหาเดียวกัน: ทำไมการหดตัวทำงานอย่างไร

แต่ถึงแม้ว่าคำตอบจะได้รับความนิยม แต่ฉันไม่เชื่อว่าส่วนสำคัญของคำถามจะได้รับการแก้ไข ค่อนข้างชัดเจนว่าการแนะนำอคติบางอย่างในการประมาณค่าช่วยลดความแปรปรวนและอาจปรับปรุงคุณภาพการประมาณค่า อย่างไรก็ตาม:

1) ทำไมความเสียหายที่เกิดขึ้นจากการแนะนำมีอคติน้อยกว่าเมื่อเทียบกับการได้รับความแปรปรวน

2) ทำไมมันใช้งานได้เสมอ? ตัวอย่างเช่นในกรณีของการถดถอยสัน: ทฤษฎีบทการดำรงอยู่

3) อะไรที่น่าสนใจเกี่ยวกับ 0 (ต้นกำเนิด) เห็นได้ชัดว่าเราสามารถหดได้ทุกที่ที่เราชอบ (เช่นตัวประมาณสไตน์ ) แต่มันจะทำงานได้ดีเท่าที่มา?

4) ทำไมรูปแบบการเข้ารหัสสากลที่หลากหลายจึงต้องการบิตที่น้อยลงรอบจุดกำเนิด? มีสมมติฐานเหล่านี้ก็น่าจะเป็นมากขึ้นหรือไม่

คำตอบที่มีการอ้างอิงถึงทฤษฎีบทที่พิสูจน์แล้วหรือผลที่คาดหวัง


@ KarolisKoncevičiusขอบคุณสำหรับการแก้ไขลิงก์! อย่างไรก็ตามขอให้ฉันทราบว่าการแก้ไขภาษาของคุณอาจไม่เป็นประโยชน์มากนักยกเว้นการแก้ไขล่าสุด ดูเหมือนว่าคนอื่น ๆ จะเพิ่มข้อความซ้ำซ้อนและทำให้โพสต์อ่านน้อยลงเล็กน้อย
Richard Hardy

1
3) "อะไรคือสิ่งที่น่าสนใจเกี่ยวกับต้นกำเนิด" คุณเข้าใจคำแถลงนี้อย่างไร หากคุณมีปัจจัยกลุ่ม (เช่นประเทศ) และปัจจัยส่วนบุคคล (เช่นเมือง) การหดตัวจะทำให้ค่าเฉลี่ยของระดับประเทศและจากนั้นเฉพาะค่าเบี่ยงเบนระดับเมืองที่มีข้อมูลเพียงพอที่จะมีค่าสัมประสิทธิ์) - นั่นคือแบบจำลองของคุณถูกผลักไประดับกลุ่ม (ประเทศ) เฉลี่ย (โดยการเพิ่มค่าสัมประสิทธิ์ระดับเมืองเป็นศูนย์) ... และคล้ายกันสำหรับระดับเพิ่มเติมในลำดับชั้น (และหลายลำดับชั้น)
seanv507

คำตอบ:


7

1) ทำไมความเสียหายที่เกิดขึ้นจากการแนะนำมีอคติน้อยกว่าเมื่อเทียบกับการได้รับความแปรปรวน

มันไม่จำเป็นต้องมีมันก็มักจะเป็น การแลกเปลี่ยนนั้นมีค่าหรือไม่นั้นขึ้นอยู่กับฟังก์ชันการสูญเสีย แต่สิ่งที่เราใส่ใจในชีวิตจริงมักจะคล้ายกับข้อผิดพลาดกำลังสอง (เช่นเราใส่ใจมากกว่าหนึ่งข้อผิดพลาดใหญ่กว่าข้อผิดพลาดสองขนาดครึ่งหนึ่ง)

ในฐานะที่เป็นตัวอย่าง - ลองจินตนาการว่าสำหรับการรับเข้าเรียนในวิทยาลัยนั้นเราจะลดคะแนน SAT ของผู้คนลงเล็กน้อยต่อค่าเฉลี่ย SAT สำหรับกลุ่มประชากรของพวกเขา หากทำอย่างถูกต้องสิ่งนี้จะลดความแปรปรวนและความคลาดเคลื่อนกำลังสองเฉลี่ยของการประมาณความสามารถ (บางประเภท) ของบุคคลในขณะที่แนะนำอคติ คนส่วนใหญ่จะ IMHO ยืนยันว่าการแลกเปลี่ยนดังกล่าวไม่สามารถยอมรับได้

2) ทำไมมันใช้งานได้เสมอ?

3) อะไรที่น่าสนใจเกี่ยวกับ 0 (ต้นกำเนิด) เห็นได้ชัดว่าเราสามารถหดตัวได้ทุกที่ที่เราชอบ (เช่นตัวประมาณสไตน์) แต่มันจะทำงานได้ดีเหมือนจุดกำเนิดหรือไม่?

ฉันคิดว่าเป็นเพราะเรามักจะลดค่าสัมประสิทธิ์หรือการประมาณผลกระทบ มีเหตุผลที่เชื่อได้ว่าผลกระทบส่วนใหญ่ไม่ใหญ่โต (ดูตัวอย่างการใช้ของ Andrew Gelman ) วิธีหนึ่งที่จะกล่าวได้ก็คือโลกที่ทุกสิ่งมีอิทธิพลต่อทุกสิ่งที่มีผลกระทบรุนแรงคือโลกที่ไม่อาจคาดเดาได้อย่างรุนแรง เนื่องจากโลกของเราคาดการณ์ได้มากพอที่จะให้เรามีชีวิตยืนยาวและสร้างอารยธรรมกึ่งเสถียรจึงเป็นไปตามผลกระทบส่วนใหญ่ที่ไม่ใหญ่

เนื่องจากเอฟเฟกต์ส่วนใหญ่ไม่ใหญ่จึงเป็นประโยชน์ในการลดขนาดของเอฟเฟกต์ที่ไม่ถูกต้องอย่างไม่ถูกต้องในขณะเดียวกัน

ฉันเชื่อว่านี่เป็นเพียงทรัพย์สินของโลกของเราและคุณอาจสร้างโลกที่สอดคล้องกันซึ่งการหดตัวไม่ได้เกิดขึ้นจริง (ส่วนใหญ่เกิดจากข้อผิดพลาดเฉลี่ยกำลังสองเป็นฟังก์ชันการสูญเสียที่ทำไม่ได้) มันไม่ได้เกิดขึ้นเป็นโลกที่เราอาศัยอยู่

ในทางกลับกันเมื่อเราคิดว่าการหดตัวเป็นการกระจายก่อนหน้านี้ในการวิเคราะห์แบบเบย์มีกรณีที่การหดตัวถึง 0 เป็นอันตรายในทางปฏิบัติ

ตัวอย่างหนึ่งคือสเกลความยาวในกระบวนการแบบเกาส์เซียน (ที่ 0 เป็นปัญหา) คำแนะนำในคู่มือของสแตนคือการใช้งานก่อนหน้าซึ่งทำให้น้ำหนักที่ไม่สำคัญใกล้เคียงกับศูนย์เช่นมีประสิทธิภาพ "ลดขนาด" ค่าเล็ก ๆ ห่างจากศูนย์ ในทำนองเดียวกันนักบวชที่แนะนำสำหรับการกระจายตัวในการกระจายทวินามลบได้อย่างมีประสิทธิภาพหดตัวออกจากศูนย์ สุดท้าย แต่ไม่ท้ายสุดเมื่อใดก็ตามที่การแจกแจงแบบปกติถูกกำหนดด้วยความแม่นยำ (เช่นเดียวกับ INLA) จะมีประโยชน์ในการใช้ inverse-gamma หรือการกระจายก่อนหน้าอื่น ๆ ที่หดตัวออกจากศูนย์

4) ทำไมรูปแบบการเข้ารหัสสากลที่หลากหลายจึงต้องการบิตที่น้อยลงรอบจุดกำเนิด? สมมติฐานเหล่านี้น่าจะเป็นไปได้มากกว่าหรือไม่?

ทีนี้นี่เป็นสิ่งที่ลึกลงไป แต่วิกิพีเดียกล่าวว่าในรูปแบบการเข้ารหัสสากลเราคาดหวัง ( ตามคำนิยาม )สำหรับผลบวกทั้งหมดดังนั้นคุณสมบัตินี้ดูเหมือนจะเป็นผลลัพธ์ที่เรียบง่ายของคำจำกัดความ และไม่เกี่ยวข้องกับการหดตัว (หรือฉันขาดอะไรไป?)P(ผม)P(ผม+1)ผม


1
คำตอบต่อ 1) ดีจริงๆ!
David

เห็นได้ชัดว่าแอนดรูว์เจลแมนมีโมเดลมาตรฐานในใจที่เราคูณค่าสัมประสิทธิ์กับอินพุต นี่ไม่จำเป็นต้องเป็นอย่างนั้น ถ้าเราสัมประสิทธิ์ผกผันเข้ามาในแบบจำลอง? จากนั้น 0 จะระเบิดสิ่งต่างๆ
Cagdas Ozgenc

1
@CowboyTrader ใช่และมีกรณีการใช้งานจริงในโลกที่ 0 เป็นปัญหาและเราหดหาย (เพิ่มในคำตอบ) ดังนั้นฉันเชื่อว่ามันรองรับจุดที่การหดตัวลงสู่ศูนย์เล็กน้อยเป็นเพียงฮิวริสติกที่เกิดขึ้นกับการทำงาน (ในทางปฏิบัติ) บ่อยครั้ง แต่ไม่ใช่ความจริงทางคณิตศาสตร์ขั้นพื้นฐาน
Martin Modrák

1
ขออภัยสำหรับปฏิกิริยาเริ่มต้นของฉัน คำตอบของคุณมีความหมายมากขึ้น โปรดทราบว่าการหดตัวทำงานภายใต้ฟังก์ชั่นการสูญเสียอื่น ๆ ไม่เพียง แต่ภายใต้การสูญเสียกำลังสอง ปัญหาที่แท้จริงของฉันคือทำไมทำไมนรกถึงได้ผลเสมอ สำหรับพารามิเตอร์ค่าเฉลี่ย / ตำแหน่ง 0 น่าจะเป็นหมายเลขเวทย์มนตร์
Cagdas Ozgenc

σ

0

Ridge, lasso และ elastic net นั้นคล้ายคลึงกับวิธี Bayesian โดยมี Priors อยู่ที่ศูนย์ - ดูตัวอย่างเช่นการเรียนรู้เชิงสถิติด้วย Sparsityโดย Hastie, Tibshirani และ Wainwright, ส่วน2.9 Lq Penalties and Bayes Estimates: "นอกจากนี้ยังมีมุมมอง Bayesian ของตัวประมาณเหล่านี้ ... ซึ่งหมายความว่าการประมาณค่าแบบบ่วงเป็นตัวประมาณค่า Bayesian MAP (ค่าสูงสุดสูงสุด) โดยใช้ Laplacian ก่อน "

วิธีหนึ่งในการตอบคำถามของคุณ ( what's so special about zero?) คือเอฟเฟ็กต์ที่เราประเมินนั้นมีค่าเฉลี่ยเป็นศูนย์และพวกเขาก็มีแนวโน้มที่จะเล็ก (กล่าวคือนักบวชของเราควรอยู่กึ่งกลางรอบศูนย์) การประมาณค่าการหดตัวที่มีต่อศูนย์นั้นเหมาะสมที่สุดในความหมายแบบเบย์และการใช้เชือกแบบก้างปลาและสันเขาและมุ้งยืดหยุ่นผ่านเลนส์นั้น


3
การลดขนาดเป็นศูนย์นั้นไม่มีอะไรพิเศษ (ยกเว้นว่าสมการนั้นง่ายกว่าเพราะคุณเพียงแค่คูณผลลัพธ์ด้วยปัจจัยเฉพาะ) คุณสามารถย่อตัวลงสู่จุดอื่นได้เช่นกัน ยิ่งไปกว่านั้นจุดนั้นมาจากมูลค่าที่แท้จริงประสิทธิภาพการหดตัวที่น้อยลง (แต่สำหรับจุดใดก็ตามมีจำนวนการหดตัวที่จะเพิ่มประสิทธิภาพบางอย่าง ... อย่างน้อยสำหรับตัวแปรกระจายแบบเกาส์) ดังนั้นเมื่อผลลัพธ์โดยทั่วไปอยู่ห่างจากศูนย์แล้วการหดตัวเป็นศูนย์จะให้การปรับปรุงเพียงเล็กน้อยเท่านั้น
Sextus Empiricus

1
@MartijnWeterings ชัดเจนว่าการใส่ความจริงไว้ก่อนจะเป็นอุดมคติ (bulls-eye) แต่ทำไมการหดตัวถึง 0 ยังให้การปรับปรุงบ้าง นั่นคือสิ่งที่ฉันเป็น
Cagdas Ozgenc

@CowboyTrader การลดขนาดเป็นค่าใด ๆจะช่วยให้ปรับปรุงได้ นั่นเป็นเหตุผลที่มันใช้งานได้สำหรับ 0 เช่นกัน
Sextus Empiricus

@MartijnWeterings ใช่ แต่ขอบเขตของทฤษฎีการเรียนรู้นั้นค่อนข้างอิงอยู่กับที่มา พวกเขาวางลูกบอล / รูปทรงหลายเหลี่ยม / ฯลฯ อยู่ตรงกลางที่จุดกำเนิด มันเป็นเพียงพิสูจน์ความสะดวกสบาย? MDL ตั้งสมมติฐานการเข้ารหัสเข้ารหัสจำนวนเต็มโดยกำหนด 0 ความยาว codelength ที่สั้นที่สุด มันเป็นเรื่องบังเอิญหรือไม่?
Cagdas Ozgenc

1
ดังนั้นสมมติว่าคุณใช้การถดถอยแบบสันในกรณีที่ตัวแปรทั้งหมดเป็นส่วนหนึ่งของแบบจำลอง (ซึ่งไม่ธรรมดาในทางปฏิบัติ) จริง ๆ แล้วมันจะทำงานได้ไม่ดีนัก บางทีนี่อาจเป็นสิ่งที่เอเดรียนหมายถึง "เอฟเฟ็กต์เป็นศูนย์โดยเฉลี่ยและพวกเขามีแนวโน้มที่จะเล็ก" (ฉันไม่รู้กรณีที่มันเป็นเรื่องจริง แต่มีหลายกรณีในการเรียนรู้ของเครื่องที่เราป้อนจำนวนมาก พารามิเตอร์และที่ที่หลายคนอาจไม่ต้องการดังนั้นผลกระทบส่วนใหญ่จะเป็นศูนย์หรือเล็ก)
Sextus Empiricus
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.