ทำไมความแตกต่างยกกำลังสองจึงใช้กันทั่วไป


14

บ่อยครั้งที่ฉันตรวจสอบวิธีการทางสถิติและแนวคิดใหม่ ๆ ฉันพบความแตกต่างยกกำลังสอง เช่นเดียวกับตัวอย่าง r ของ Pearson ถูกตัดสินโดยใช้ความแตกต่างกำลังสองเฉลี่ยจากเส้นถดถอยที่จุดนั้นอยู่ สำหรับ ANOVA คุณกำลังดูผลรวมของกำลังสองและอื่น ๆ

ตอนนี้ฉันเข้าใจแล้วว่าการยกกำลังทุกอย่างคุณต้องแน่ใจว่าข้อมูลที่มีค่าผิดจริง อย่างไรก็ตามทำไมเลขชี้กำลังจึงถูกใช้อย่างถูกต้อง 2 ทำไมไม่ใช้ 2.1 หรือ e หรือ pi หรืออะไรก็ตาม มีเหตุผลพิเศษว่าทำไม 2 ถูกใช้หรือเป็นเพียงแค่การประชุม? ฉันสงสัยว่าคำอธิบายอาจมีบางอย่างเกี่ยวกับเส้นโค้งระฆัง แต่ฉันค่อนข้างแน่ใจ


4
ครั้งแรกที่คุณจะ misusing คำชี้แจงซึ่งหมายถึงสิ่งที่ต้องการมากกว่าอรรถเป็น ประการที่สองลองดูที่stats.stackexchange.com/questions/118/…ที่ครอบคลุมหัวข้อนี้อย่างละเอียด x aaxxa
Russ Lenth

@rvl ขอบคุณฉันแก้ไขคำนั้นจากคำถามของฉัน และขอบคุณฉันจะตรวจสอบคำถามนั้น!
Speldosa

3
เหตุผลที่ดีอย่างหนึ่งที่พวกเขาเกิดขึ้นมาในที่สุดก็เกิดจากสูตรง่าย ๆ ที่เกี่ยวข้องกับผลต่างของผลบวกกับความแปรปรวน (และอาจเป็นโควาเรีย) ของส่วนประกอบ หากคำถาม @rvl ลิงก์ไปด้านบนตอบคำถามของคุณโปรดลองปิดคำถามของคุณ หากยังไม่สามารถตอบคำถามของคุณได้อย่างสมบูรณ์โปรดแก้ไขคำถามของคุณเพื่อเน้นความแตกต่างระหว่างสิ่งที่คุณต้องการรู้และสิ่งที่เกี่ยวข้องกับสิ่งนั้น
Glen_b -Reinstate Monica

ฉันคิดว่านี่เป็นคำถามที่แตกต่างจากเธรดอื่น ๆ มีความแตกต่างทางแนวคิดระหว่างฟังก์ชั่นการสูญเสียกำลังสอง (ซึ่งที่ด้านล่างเป็นกุญแจสำคัญในการตอบคำถามนี้) และกำลังสองเพื่อประเมินการเบี่ยงเบน (ซึ่งเป็นแรงผลักดันของเธรดอื่น)
whuber

ตรวจสอบที่นี่และที่นี่สำหรับปัญหาที่คล้ายกัน
ทิม

คำตอบ:


16

วิธีการตัดสินใจเชิงทฤษฎีเพื่อสถิติให้คำอธิบายที่ลึก มันบอกว่าความแตกต่างกำลังสองเป็นพร็อกซีสำหรับฟังก์ชันการสูญเสียที่หลากหลายซึ่งเมื่อใดก็ตามที่พวกเขาอาจนำมาใช้อย่างสมเหตุสมผล

น่าเสียดายที่การอธิบายความหมายและระบุว่าทำไมจึงเป็นเรื่องจริง สัญกรณ์สามารถเข้าใจได้อย่างรวดเร็ว สิ่งที่ฉันมุ่งหวังที่จะทำที่นี่คือเพียงการร่างแนวคิดหลักโดยมีรายละเอียดเล็ก ๆ น้อย ๆ สำหรับบัญชีฟูลเลอร์โปรดดูการอ้างอิง


แบบจำลองมาตรฐานของข้อมูล posits ว่าพวกเขาเป็นจริงของตัวแปรสุ่ม (จริง, เวกเตอร์ - มูลค่า)ซึ่งการกระจายเป็นที่รู้จักกันเพียงเพื่อเป็นองค์ประกอบของชุดของการกระจาย, รัฐ ของธรรมชาติ กระบวนการทางสถิติคือฟังก์ชันของรับค่าในชุดการตัดสินใจบางอย่าง , พื้นที่การตัดสินใจX F Ω t x DxXFΩtxD

ยกตัวอย่างเช่นในการคาดการณ์หรือปัญหาการจำแนกจะประกอบด้วยการรวมกันของ "ชุดฝึกอบรม" และ "ชุดทดสอบข้อมูล" และจะแมปเป็นชุดของค่าที่คาดการณ์ไว้สำหรับชุดทดสอบ ชุดของค่าที่คาดการณ์เป็นไปได้ทั้งหมดจะเป็นD t x DxtxD

การอภิปรายทางทฤษฎีเต็มรูปแบบของวิธีการที่มีเพื่อรองรับขั้นตอนการสุ่ม ขั้นตอนแบบสุ่มเลือกระหว่างการตัดสินใจสองครั้งขึ้นไปตามการแจกแจงความน่าจะเป็นบางอย่าง (ซึ่งขึ้นอยู่กับ data ) มันเป็นการสรุปแนวคิดที่ใช้งานง่ายซึ่งเมื่อข้อมูลดูเหมือนจะไม่แยกความแตกต่างระหว่างสองทางเลือกคุณก็จะ "พลิกเหรียญ" เพื่อตัดสินใจเลือกทางเลือกที่แน่นอน หลายคนไม่ชอบวิธีการแบบสุ่มคัดค้านการตัดสินใจในลักษณะที่ไม่สามารถคาดการณ์ได้x

คุณลักษณะที่แตกต่างของทฤษฎีการตัดสินใจคือการใช้งานของฟังก์ชั่นการสูญเสีย WW สำหรับสถานะของธรรมชาติและการตัดสินใจการสูญเสียd DFΩdD

W(F,d)

เป็นค่าตัวเลขที่แสดงว่า "ไม่ดี" มันจะเป็นการตัดสินใจเมื่อสถานะที่แท้จริงของธรรมชาติคือ : การสูญเสียเล็กน้อยเป็นสิ่งที่ดีการสูญเสียที่ยิ่งใหญ่นั้นไม่ดี ในสถานการณ์การทดสอบสมมติฐานตัวอย่างเช่นมีสององค์ประกอบ "ยอมรับ" และ "ปฏิเสธ" (สมมติฐานว่าง) ฟังก์ชั่นการสูญเสียที่เน้นการตัดสินใจที่เหมาะสม: ตั้งค่าเป็นศูนย์เมื่อการตัดสินใจที่ถูกต้องและอื่น ๆ เป็นค่าคงที่บางW(สิ่งนี้เรียกว่า " ฟังก์ชันการสูญเสีย :" การตัดสินใจที่ไม่ดีทั้งหมดนั้นไม่เท่าเทียมกันและการตัดสินใจที่ดีทั้งหมดนั้นดีเท่ากัน) โดยเฉพาะเมื่ออยู่ในสมมติฐานว่างและF D w 0 - 1 W ( F ,  ยอมรับ) = 0 F W ( F ,  ปฏิเสธ) = 0 FdFDw01W(F, accept)=0FW(F, reject)=0Fอยู่ในสมมติฐานทางเลือก

เมื่อใช้ขั้นตอนสูญเสียสำหรับข้อมูลที่เมื่อสภาพที่แท้จริงของธรรมชาติเป็นสามารถเขียนได้(x)) นี้จะทำให้สูญเสียตัวแปรสุ่มที่มีการจัดจำหน่ายจะถูกกำหนดโดย (ไม่รู้จัก) FtxFW(F,t(x))W(F,t(X))F

การสูญเสียที่คาดว่าจะเป็นขั้นตอนเรียกว่ามันมีความเสี่ยง , r_tความคาดหวังใช้สถานะที่แท้จริงของธรรมชาติซึ่งจะปรากฏอย่างชัดเจนว่าเป็นตัวห้อยของตัวดำเนินการที่คาดหวัง เราจะมองความเสี่ยงในฐานะฟังก์ชั่นของและเน้นว่าด้วยสัญกรณ์:trtFF

rt(F)=EF(W(F,t(X))).

ขั้นตอนที่ดีกว่ามีความเสี่ยงต่ำกว่า ดังนั้นการเปรียบเทียบฟังก์ชั่นความเสี่ยงเป็นพื้นฐานในการเลือกวิธีการทางสถิติที่ดี เนื่องจากการลดความเสี่ยงของฟังก์ชั่นความเสี่ยงทั้งหมดโดยค่าคงที่ (บวก) ทั่วไปจะไม่เปลี่ยนแปลงการเปรียบเทียบใด ๆ ขนาดของไม่ได้แตกต่างกัน: เรามีอิสระที่จะคูณด้วยค่าบวกที่เราชอบ โดยเฉพาะอย่างยิ่งเมื่อคูณด้วยเราอาจใช้เสมอสำหรับฟังก์ชันการสูญเสีย (การพิสูจน์ชื่อของมัน)WW1/ww=101

เพื่อดำเนินการต่อตัวอย่างการทดสอบสมมติฐานซึ่งแสดงฟังก์ชันการสูญเสียคำจำกัดความเหล่านี้แสดงถึงความเสี่ยงของใด ๆในสมมติฐานว่างคือโอกาสที่การตัดสินใจ "ปฏิเสธ" ในขณะที่ความเสี่ยงของใด ๆในทางเลือกคือ โอกาสที่การตัดสินใจคือ "ยอมรับ" ค่าสูงสุด (เหนือค่าทั้งหมดในสมมติฐานว่าง) คือขนาดการทดสอบในขณะที่ส่วนของฟังก์ชั่นความเสี่ยงที่กำหนดไว้ในสมมติฐานทางเลือกคือการเติมเต็มของกำลังทดสอบ( ) ในที่นี้เราจะเห็นว่าทฤษฎีการทดสอบสมมติฐานทั้งหมด (คลาสสิค) สมมติฐานจำนวนทั้งหมดเป็นวิธีการเฉพาะเพื่อเปรียบเทียบฟังก์ชั่นความเสี่ยงสำหรับการสูญเสียชนิดพิเศษ01FFFpowert(F)=1rt(F)

อย่างไรก็ตามทุกอย่างที่นำเสนอจนถึงเข้ากันได้อย่างสมบูรณ์แบบกับสถิติกระแสหลักทั้งหมดรวมถึงกระบวนทัศน์แบบเบย์ นอกจากนี้การวิเคราะห์แบบเบย์ยังแนะนำการกระจายความน่าจะเป็น "ก่อนหน้า" มากกว่าและใช้สิ่งนี้เพื่อลดความเสี่ยงของฟังก์ชันความเสี่ยง: ฟังก์ชันซับซ้อนอาจถูกแทนที่ด้วยค่าที่คาดหวังเมื่อเทียบกับการแจกแจงก่อนหน้า ดังนั้นโพรซีเดอร์ทั้งหมดจึงมีลักษณะเป็นจำนวนเดียว ; ขั้นตอนการ Bayes (ซึ่งมักจะไม่ซ้ำกัน) ลดr_tฟังก์ชั่นการสูญเสียยังคงมีบทบาทสำคัญในการคำนวณr_tΩrttrtrtrt

มีการโต้เถียง (หลีกเลี่ยงไม่ได้) บางอย่างรอบการใช้ฟังก์ชันการสูญเสีย หนึ่งเลือกอย่างไร มันเป็นเรื่องสำคัญสำหรับการทดสอบสมมติฐาน แต่ในการตั้งค่าทางสถิติอื่น ๆ ส่วนใหญ่มีทางเลือกมากมาย สะท้อนถึงคุณค่าของผู้มีอำนาจตัดสินใจ ตัวอย่างเช่นหากข้อมูลเป็นการวัดทางสรีรวิทยาของผู้ป่วยทางการแพทย์และการตัดสินใจคือ "รักษา" หรือ "ไม่รักษา" แพทย์จะต้องพิจารณา - และชั่งน้ำหนักในสมดุล - ผลของการกระทำใด ๆ การชั่งน้ำหนักผลที่ตามมาอาจขึ้นอยู่กับความต้องการของผู้ป่วยอายุคุณภาพชีวิตและสิ่งอื่น ๆ ทางเลือกของฟังก์ชั่นการสูญเสียนั้นเต็มไปด้วยความเป็นส่วนตัว โดยปกติไม่ควรปล่อยให้นักสถิติ!W

สิ่งหนึ่งที่เราอยากจะรู้ก็คือวิธีการเลือกวิธีการที่ดีที่สุดจะเปลี่ยนเมื่อการสูญเสียมีการเปลี่ยนแปลงอย่างไร ปรากฎว่าในสถานการณ์ที่พบเห็นได้ทั่วไปในทางปฏิบัติจำนวนมากของการเปลี่ยนแปลงสามารถยอมรับได้โดยไม่ต้องเปลี่ยนขั้นตอนที่ดีที่สุด สถานการณ์เหล่านี้มีลักษณะเฉพาะตามเงื่อนไขต่อไปนี้:

  • พื้นที่การตัดสินใจเป็นชุดนูน (มักเป็นช่วงเวลาของตัวเลข) ซึ่งหมายความว่าคุณค่าใด ๆ ที่อยู่ระหว่างการตัดสินใจสองครั้งก็เป็นการตัดสินใจที่ถูกต้อง

  • การสูญเสียเป็นศูนย์เมื่อมีการตัดสินใจที่ดีที่สุดและเพิ่มขึ้นเป็นอย่างอื่น (เพื่อสะท้อนความแตกต่างระหว่างการตัดสินใจที่ทำกับสิ่งที่ดีที่สุดที่จะทำให้เป็นจริง - แต่ไม่ทราบ - สภาวะของธรรมชาติ)

  • การสูญเสียเป็นหน้าที่ที่แตกต่างกันของการตัดสินใจ (อย่างน้อยในพื้นที่ใกล้กับการตัดสินใจที่ดีที่สุด) นี่หมายความว่ามันเป็นแบบต่อเนื่อง - ไม่กระโดดในลักษณะที่การสูญเสีย - แต่มันก็หมายความว่ามันจะเปลี่ยนไปเล็กน้อยเมื่อการตัดสินใจใกล้เคียงกับสิ่งที่ดีที่สุด01

เมื่อเงื่อนไขเหล่านี้เกิดขึ้นภาวะแทรกซ้อนบางอย่างเกี่ยวข้องกับการเปรียบเทียบฟังก์ชั่นความเสี่ยง ความแตกต่างและความนูนของทำให้เราสามารถใช้ความไม่เท่าเทียมของ Jensenเพื่อแสดงให้เห็นว่าW

(1) เราไม่ต้องพิจารณาขั้นตอนการสุ่ม [Lehmann, corollary 6.2]

(2) หากหนึ่งในโพรซีเดอร์ถูกพิจารณาว่ามีความเสี่ยงที่ดีที่สุดสำหรับหนึ่งนั้นมันสามารถปรับปรุงเป็นโพรซีเดอร์ซึ่งขึ้นอยู่กับสถิติที่เพียงพอและอย่างน้อยก็มีฟังก์ชั่นความเสี่ยงสำหรับทุกอย่างเช่น [Kiefer, p. 151]tWt W

ตัวอย่างเช่นสมมติว่าคือชุดของการแจกแจงแบบปกติที่มีค่าเฉลี่ย (และความแปรปรวนของหน่วย) ระบุนี้กับชุดของตัวเลขจริงทั้งหมดดังนั้น (เหยียดหยามสัญกรณ์) ฉันจะใช้ " " เพื่อแจ้งการจัดจำหน่ายในที่มีค่าเฉลี่ย\ให้เป็นตัวอย่าง iid ขนาดจากหนึ่งในการแจกแจงเหล่านี้ สมมติว่าวัตถุประสงค์ในการประมาณการ\นี่เป็นการระบุพื้นที่การตัดสินใจด้วยค่าที่เป็นไปได้ทั้งหมดของ (จำนวนจริงใด ๆ ) การให้กำหนดการตัดสินใจโดยพลการการสูญเสียเป็นหน้าที่ΩμΩμΩμXnμDμμ^

W(μ,μ^)0

ด้วยถ้าหากว่า\สมมติฐานก่อนหน้าบ่งบอกถึง (ผ่านทฤษฎีบทของเทย์เลอร์) ว่าW(μ,μ^)=0μ=μ^

W(μ,μ^)=w2(μ^μ)2+o(μ^μ)2

สำหรับบางคนคงจำนวนบวกw_2(เล็ก ๆ น้อย ๆ -o สัญกรณ์ " " หมายถึงฟังก์ชั่นใด ๆที่คุ้มค่า จำกัด ของเป็นเป็น .) ตามที่ระบุไว้ก่อนหน้านี้เรามีอิสระที่จะ rescaleเพื่อให้ 1 สำหรับครอบครัวนี้ค่าเฉลี่ยของ , เขียนเป็นสถิติที่เพียงพอ ผลลัพธ์ก่อนหน้า (ที่ยกมาจาก Kiefer) กล่าวว่าตัวประมาณซึ่งอาจเป็นฟังก์ชันตามอำเภอใจของตัวแปรที่ดีสำหรับหนึ่งเช่นนั้นw2o(y)pff(y)/yp0y0Ww2=1ΩXX¯μn(x1,,xn)Wสามารถแปลงเป็นตัวประมาณขึ้นอยู่กับซึ่งอย่างน้อยก็ดีสำหรับทั้งหมดx¯W

สิ่งที่ประสบความสำเร็จในตัวอย่างนี้เป็นปกติ: ชุดที่ซับซ้อนของขั้นตอนที่เป็นไปได้ซึ่งในขั้นต้นอาจประกอบด้วยฟังก์ชั่นการสุ่มของตัวแปรได้ถูกลดลงเป็นชุดของขั้นตอนที่ง่ายขึ้นซึ่งประกอบด้วยฟังก์ชันที่ไม่สุ่มของตัวแปรเดี่ยวหรืออย่างน้อยก็มีจำนวนตัวแปรน้อยลงในกรณีที่มีสถิติเพียงพอหลายตัวแปร) และสิ่งนี้สามารถทำได้โดยไม่ต้องกังวลเกี่ยวกับหน้าที่การสูญเสียของผู้มีอำนาจตัดสินใจโดยมีเงื่อนไขเฉพาะว่ามันจะนูนและแตกต่างกันได้n

ฟังก์ชันการสูญเสียที่ง่ายที่สุดคืออะไร? อันที่ไม่สนใจเทอมที่เหลือแน่นอนว่าเป็นฟังก์ชันกำลังสองอย่างหมดจด ฟังก์ชั่นการสูญเสียอื่น ๆ ในระดับเดียวกันนี้รวมถึงพลังของที่มากกว่า (เช่นและกล่าวถึงในคำถาม), , และอีกมากมายz=|μ^μ|22.1,e,πexp(z)1z

รูป

สีฟ้า (ด้านบน) โค้งแปลงในขณะที่สีแดง (ลด) โค้งแปลง 2 เพราะเส้นโค้งสีฟ้ายังมีขั้นต่ำที่ , อนุพันธ์และนูนมากของคุณสมบัติที่ดีของวิธีการทางสถิติความสุขจากการสูญเสียกำลังสอง (เส้นโค้งสีแดง) จะนำไปใช้ฟังก์ชั่นการสูญเสียสีฟ้ามากเกินไปz 2 02(exp(|z|)1|z|)z20 (แม้ว่าทั่วโลกฟังก์ชันเลขชี้กำลัง ทำงานแตกต่างจากฟังก์ชั่นสมการกำลังสอง)

ผลลัพธ์เหล่านี้ (แม้ว่า จำกัด อย่างเห็นได้ชัดโดยเงื่อนไขที่ถูกกำหนด) ช่วยเหลืออธิบายว่าทำไมการสูญเสียกำลังสองเป็นที่แพร่หลายในทฤษฎีทางสถิติและการปฏิบัติเพื่อ จำกัด ขอบเขตมันเป็นพร็อกซี่ที่สะดวกในการวิเคราะห์สำหรับการใด ๆฟังก์ชั่นการสูญเสียอนุพันธ์นูน


การสูญเสียกำลังสองไม่ได้เป็นการขาดทุนเพียงอย่างเดียวหรือแม้กระทั่งการพิจารณาที่ดีที่สุด แท้จริงแล้วเลห์แมนเขียนสิ่งนั้น

ฟังก์ชั่นการสูญเสียนูนได้รับการเห็นเพื่อนำไปสู่จำนวนของการทำให้เข้าใจง่ายของปัญหาการประมาณ หนึ่งอาจสงสัยว่าฟังก์ชั่นการสูญเสียดังกล่าวมีแนวโน้มที่จะเป็นจริง หากไม่เพียงแสดงถึงการวัดที่ไม่ถูกต้อง แต่เป็นการสูญเสียที่แท้จริง (ตัวอย่างเช่นด้านการเงิน) เราอาจโต้แย้งว่าการสูญเสียดังกล่าวถูก จำกัด ขอบเขต: เมื่อคุณสูญเสียทั้งหมดคุณจะไม่สูญเสียอีกต่อไป ...W(F,d)

... [F] ฟังก์ชั่นการสูญเสียที่เพิ่มมากขึ้นนำไปสู่การประมาณค่าที่มีแนวโน้มที่จะอ่อนไหวกับสมมติฐานที่ทำเกี่ยวกับพฤติกรรมหาง [ของ] การแจกแจงแบบสันนิษฐานว่าและสมมติฐานเหล่านี้มักจะอยู่บนพื้นฐานของข้อมูลเล็ก ๆ น้อย ๆ น่าเชื่อถือ

ปรากฎว่าตัวประมาณที่เกิดจากการสูญเสียความคลาดเคลื่อนกำลังสองนั้นมักจะอ่อนไหวในแง่นี้

[เลห์แมน, หมวด 1.6; ด้วยการเปลี่ยนแปลงสัญกรณ์]

เมื่อพิจารณาถึงการสูญเสียทางเลือกจะเปิดโอกาสให้ผู้บริโภคมากมาย:การถดถอยเชิงปริมาณ, การประมาณ M, สถิติที่แข็งแกร่ง, และอื่น ๆ อีกมากมายที่สามารถนำมาวางกรอบในการตัดสินใจเชิงทฤษฎี สำหรับตัวอย่างง่ายๆดูฟังก์ชันการสูญเสียเปอร์เซ็นไทล์


อ้างอิง

Jack Carl Kiefer บทนำสู่การอนุมานเชิงสถิติ Springer-Verlag 1987

EL มาห์ทฤษฎีการประเมินจุด ไวลีย์ 2526


0

คุณสมบัติเชิงเรขาคณิตสำหรับตัวชี้วัดระยะทางนี้จะทำให้ใช้งานง่าย

และแน่นอนว่าคณิตศาสตร์ง่ายขึ้นถ้าคุณมีวิธีวิเคราะห์ปัญหาส่วนใหญ่


2
บางทีคุณอาจทำอย่างละเอียดมากกว่านี้หน่อยได้ไหม?
ทิม

@ ทิมความไม่เท่าเทียมกันของรูปสามเหลี่ยมและคุณสมบัติทางคณิตศาสตร์ของรูปแบบสมการกำลังสองเข้ามาในใจของฉัน ...
นักวิเคราะห์

ความไม่เท่าเทียมกันของสามเหลี่ยมมีอยู่สำหรับการวัดระยะทางทุกครั้ง สิ่งที่ทำให้ Euclidean distance / 2 norm / squared different / MSE peculiar เป็นชุดใหญ่ของการแปลงที่รักษามัน (เมทริกซ์มุมฉากทั้งหมด)
Federico Poloni
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.