ทำไมความแตกต่างยกกำลังสองจึงใช้กันทั่วไป

บ่อยครั้งที่ฉันตรวจสอบวิธีการทางสถิติและแนวคิดใหม่ ๆ ฉันพบความแตกต่างยกกำลังสอง เช่นเดียวกับตัวอย่าง r ของ Pearson ถูกตัดสินโดยใช้ความแตกต่างกำลังสองเฉลี่ยจากเส้นถดถอยที่จุดนั้นอยู่ สำหรับ ANOVA คุณกำลังดูผลรวมของกำลังสองและอื่น ๆ

ตอนนี้ฉันเข้าใจแล้วว่าการยกกำลังทุกอย่างคุณต้องแน่ใจว่าข้อมูลที่มีค่าผิดจริง อย่างไรก็ตามทำไมเลขชี้กำลังจึงถูกใช้อย่างถูกต้อง 2 ทำไมไม่ใช้ 2.1 หรือ e หรือ pi หรืออะไรก็ตาม มีเหตุผลพิเศษว่าทำไม 2 ถูกใช้หรือเป็นเพียงแค่การประชุม? ฉันสงสัยว่าคำอธิบายอาจมีบางอย่างเกี่ยวกับเส้นโค้งระฆัง แต่ฉันค่อนข้างแน่ใจ

normal-distribution

— Speldosa
แหล่งที่มา

ครั้งแรกที่คุณจะ misusing คำชี้แจงซึ่งหมายถึงสิ่งที่ต้องการมากกว่าอรรถเป็น ประการที่สองลองดูที่stats.stackexchange.com/questions/118/…ที่ครอบคลุมหัวข้อนี้อย่างละเอียด

a^{x}

$a^x$

x^{a}

$x^a$

— Russ Lenth

@rvl ขอบคุณฉันแก้ไขคำนั้นจากคำถามของฉัน และขอบคุณฉันจะตรวจสอบคำถามนั้น!

— Speldosa

เหตุผลที่ดีอย่างหนึ่งที่พวกเขาเกิดขึ้นมาในที่สุดก็เกิดจากสูตรง่าย ๆ ที่เกี่ยวข้องกับผลต่างของผลบวกกับความแปรปรวน (และอาจเป็นโควาเรีย) ของส่วนประกอบ หากคำถาม @rvl ลิงก์ไปด้านบนตอบคำถามของคุณโปรดลองปิดคำถามของคุณ หากยังไม่สามารถตอบคำถามของคุณได้อย่างสมบูรณ์โปรดแก้ไขคำถามของคุณเพื่อเน้นความแตกต่างระหว่างสิ่งที่คุณต้องการรู้และสิ่งที่เกี่ยวข้องกับสิ่งนั้น

— Glen_b -Reinstate Monica

ฉันคิดว่านี่เป็นคำถามที่แตกต่างจากเธรดอื่น ๆ มีความแตกต่างทางแนวคิดระหว่างฟังก์ชั่นการสูญเสียกำลังสอง (ซึ่งที่ด้านล่างเป็นกุญแจสำคัญในการตอบคำถามนี้) และกำลังสองเพื่อประเมินการเบี่ยงเบน (ซึ่งเป็นแรงผลักดันของเธรดอื่น)

— whuber

ตรวจสอบที่นี่และที่นี่สำหรับปัญหาที่คล้ายกัน

— ทิม

วิธีการตัดสินใจเชิงทฤษฎีเพื่อสถิติให้คำอธิบายที่ลึก มันบอกว่าความแตกต่างกำลังสองเป็นพร็อกซีสำหรับฟังก์ชันการสูญเสียที่หลากหลายซึ่งเมื่อใดก็ตามที่พวกเขาอาจนำมาใช้อย่างสมเหตุสมผล

น่าเสียดายที่การอธิบายความหมายและระบุว่าทำไมจึงเป็นเรื่องจริง สัญกรณ์สามารถเข้าใจได้อย่างรวดเร็ว สิ่งที่ฉันมุ่งหวังที่จะทำที่นี่คือเพียงการร่างแนวคิดหลักโดยมีรายละเอียดเล็ก ๆ น้อย ๆ สำหรับบัญชีฟูลเลอร์โปรดดูการอ้างอิง

แบบจำลองมาตรฐานของข้อมูล posits ว่าพวกเขาเป็นจริงของตัวแปรสุ่ม (จริง, เวกเตอร์ - มูลค่า)ซึ่งการกระจายเป็นที่รู้จักกันเพียงเพื่อเป็นองค์ประกอบของชุดของการกระจาย, รัฐ ของธรรมชาติ กระบวนการทางสถิติคือฟังก์ชันของรับค่าในชุดการตัดสินใจบางอย่าง , พื้นที่การตัดสินใจ $\mathbf x$ $\mathbf X$ $F$ $\Omega$ $t$ $\mathbf x$ $D$

ยกตัวอย่างเช่นในการคาดการณ์หรือปัญหาการจำแนกจะประกอบด้วยการรวมกันของ "ชุดฝึกอบรม" และ "ชุดทดสอบข้อมูล" และจะแมปเป็นชุดของค่าที่คาดการณ์ไว้สำหรับชุดทดสอบ ชุดของค่าที่คาดการณ์เป็นไปได้ทั้งหมดจะเป็นD $\mathbf x$ $t$ $\mathbf x$ $D$

การอภิปรายทางทฤษฎีเต็มรูปแบบของวิธีการที่มีเพื่อรองรับขั้นตอนการสุ่ม ขั้นตอนแบบสุ่มเลือกระหว่างการตัดสินใจสองครั้งขึ้นไปตามการแจกแจงความน่าจะเป็นบางอย่าง (ซึ่งขึ้นอยู่กับ data ) มันเป็นการสรุปแนวคิดที่ใช้งานง่ายซึ่งเมื่อข้อมูลดูเหมือนจะไม่แยกความแตกต่างระหว่างสองทางเลือกคุณก็จะ "พลิกเหรียญ" เพื่อตัดสินใจเลือกทางเลือกที่แน่นอน หลายคนไม่ชอบวิธีการแบบสุ่มคัดค้านการตัดสินใจในลักษณะที่ไม่สามารถคาดการณ์ได้ $\mathbf x$

คุณลักษณะที่แตกต่างของทฤษฎีการตัดสินใจคือการใช้งานของฟังก์ชั่นการสูญเสีย W $W$ สำหรับสถานะของธรรมชาติและการตัดสินใจการสูญเสีย $F \in \Omega$ $d \in D$

W (F, d)

$W(F,d)$

เป็นค่าตัวเลขที่แสดงว่า "ไม่ดี" มันจะเป็นการตัดสินใจเมื่อสถานะที่แท้จริงของธรรมชาติคือ : การสูญเสียเล็กน้อยเป็นสิ่งที่ดีการสูญเสียที่ยิ่งใหญ่นั้นไม่ดี ในสถานการณ์การทดสอบสมมติฐานตัวอย่างเช่นมีสององค์ประกอบ "ยอมรับ" และ "ปฏิเสธ" (สมมติฐานว่าง) ฟังก์ชั่นการสูญเสียที่เน้นการตัดสินใจที่เหมาะสม: ตั้งค่าเป็นศูนย์เมื่อการตัดสินใจที่ถูกต้องและอื่น ๆ เป็นค่าคงที่บางW(สิ่งนี้เรียกว่า " ฟังก์ชันการสูญเสีย :" การตัดสินใจที่ไม่ดีทั้งหมดนั้นไม่เท่าเทียมกันและการตัดสินใจที่ดีทั้งหมดนั้นดีเท่ากัน) โดยเฉพาะเมื่ออยู่ในสมมติฐานว่างและ $d$ $F$ $D$ $w$ $0-1$ $W(F,\text{ accept})=0$ $F$ $W(F,\text{ reject})=0$ $F$ อยู่ในสมมติฐานทางเลือก

เมื่อใช้ขั้นตอนสูญเสียสำหรับข้อมูลที่เมื่อสภาพที่แท้จริงของธรรมชาติเป็นสามารถเขียนได้(x)) นี้จะทำให้สูญเสียตัวแปรสุ่มที่มีการจัดจำหน่ายจะถูกกำหนดโดย (ไม่รู้จัก) F $t$ $x$ $F$ $W(F, t(x))$ $W(F, t(X))$ $F$

การสูญเสียที่คาดว่าจะเป็นขั้นตอนเรียกว่ามันมีความเสี่ยง , r_tความคาดหวังใช้สถานะที่แท้จริงของธรรมชาติซึ่งจะปรากฏอย่างชัดเจนว่าเป็นตัวห้อยของตัวดำเนินการที่คาดหวัง เราจะมองความเสี่ยงในฐานะฟังก์ชั่นของและเน้นว่าด้วยสัญกรณ์: $t$ $r_t$ $F$ $F$

r_{t} (F) = E_{F} (W (F, t (X))) .

$r_t(F) = \mathbb{E}_F(W(F, t(X))).$

ขั้นตอนที่ดีกว่ามีความเสี่ยงต่ำกว่า ดังนั้นการเปรียบเทียบฟังก์ชั่นความเสี่ยงเป็นพื้นฐานในการเลือกวิธีการทางสถิติที่ดี เนื่องจากการลดความเสี่ยงของฟังก์ชั่นความเสี่ยงทั้งหมดโดยค่าคงที่ (บวก) ทั่วไปจะไม่เปลี่ยนแปลงการเปรียบเทียบใด ๆ ขนาดของไม่ได้แตกต่างกัน: เรามีอิสระที่จะคูณด้วยค่าบวกที่เราชอบ โดยเฉพาะอย่างยิ่งเมื่อคูณด้วยเราอาจใช้เสมอสำหรับฟังก์ชันการสูญเสีย (การพิสูจน์ชื่อของมัน) $W$ $W$ $1/w$ $w=1$ $0-1$

เพื่อดำเนินการต่อตัวอย่างการทดสอบสมมติฐานซึ่งแสดงฟังก์ชันการสูญเสียคำจำกัดความเหล่านี้แสดงถึงความเสี่ยงของใด ๆในสมมติฐานว่างคือโอกาสที่การตัดสินใจ "ปฏิเสธ" ในขณะที่ความเสี่ยงของใด ๆในทางเลือกคือ โอกาสที่การตัดสินใจคือ "ยอมรับ" ค่าสูงสุด (เหนือค่าทั้งหมดในสมมติฐานว่าง) คือขนาดการทดสอบในขณะที่ส่วนของฟังก์ชั่นความเสี่ยงที่กำหนดไว้ในสมมติฐานทางเลือกคือการเติมเต็มของกำลังทดสอบ( ) ในที่นี้เราจะเห็นว่าทฤษฎีการทดสอบสมมติฐานทั้งหมด (คลาสสิค) สมมติฐานจำนวนทั้งหมดเป็นวิธีการเฉพาะเพื่อเปรียบเทียบฟังก์ชั่นความเสี่ยงสำหรับการสูญเสียชนิดพิเศษ $0-1$ $F$ $F$ $F$ $\text{power}_t(F) = 1 - r_t(F)$

อย่างไรก็ตามทุกอย่างที่นำเสนอจนถึงเข้ากันได้อย่างสมบูรณ์แบบกับสถิติกระแสหลักทั้งหมดรวมถึงกระบวนทัศน์แบบเบย์ นอกจากนี้การวิเคราะห์แบบเบย์ยังแนะนำการกระจายความน่าจะเป็น "ก่อนหน้า" มากกว่าและใช้สิ่งนี้เพื่อลดความเสี่ยงของฟังก์ชันความเสี่ยง: ฟังก์ชันซับซ้อนอาจถูกแทนที่ด้วยค่าที่คาดหวังเมื่อเทียบกับการแจกแจงก่อนหน้า ดังนั้นโพรซีเดอร์ทั้งหมดจึงมีลักษณะเป็นจำนวนเดียว ; ขั้นตอนการ Bayes (ซึ่งมักจะไม่ซ้ำกัน) ลดr_tฟังก์ชั่นการสูญเสียยังคงมีบทบาทสำคัญในการคำนวณr_t $\Omega$ $r_t$ $t$ $r_t$ $r_t$ $r_t$

มีการโต้เถียง (หลีกเลี่ยงไม่ได้) บางอย่างรอบการใช้ฟังก์ชันการสูญเสีย หนึ่งเลือกอย่างไร มันเป็นเรื่องสำคัญสำหรับการทดสอบสมมติฐาน แต่ในการตั้งค่าทางสถิติอื่น ๆ ส่วนใหญ่มีทางเลือกมากมาย สะท้อนถึงคุณค่าของผู้มีอำนาจตัดสินใจ ตัวอย่างเช่นหากข้อมูลเป็นการวัดทางสรีรวิทยาของผู้ป่วยทางการแพทย์และการตัดสินใจคือ "รักษา" หรือ "ไม่รักษา" แพทย์จะต้องพิจารณา - และชั่งน้ำหนักในสมดุล - ผลของการกระทำใด ๆ การชั่งน้ำหนักผลที่ตามมาอาจขึ้นอยู่กับความต้องการของผู้ป่วยอายุคุณภาพชีวิตและสิ่งอื่น ๆ ทางเลือกของฟังก์ชั่นการสูญเสียนั้นเต็มไปด้วยความเป็นส่วนตัว โดยปกติไม่ควรปล่อยให้นักสถิติ! $W$

สิ่งหนึ่งที่เราอยากจะรู้ก็คือวิธีการเลือกวิธีการที่ดีที่สุดจะเปลี่ยนเมื่อการสูญเสียมีการเปลี่ยนแปลงอย่างไร ปรากฎว่าในสถานการณ์ที่พบเห็นได้ทั่วไปในทางปฏิบัติจำนวนมากของการเปลี่ยนแปลงสามารถยอมรับได้โดยไม่ต้องเปลี่ยนขั้นตอนที่ดีที่สุด สถานการณ์เหล่านี้มีลักษณะเฉพาะตามเงื่อนไขต่อไปนี้:

พื้นที่การตัดสินใจเป็นชุดนูน (มักเป็นช่วงเวลาของตัวเลข) ซึ่งหมายความว่าคุณค่าใด ๆ ที่อยู่ระหว่างการตัดสินใจสองครั้งก็เป็นการตัดสินใจที่ถูกต้อง
การสูญเสียเป็นศูนย์เมื่อมีการตัดสินใจที่ดีที่สุดและเพิ่มขึ้นเป็นอย่างอื่น (เพื่อสะท้อนความแตกต่างระหว่างการตัดสินใจที่ทำกับสิ่งที่ดีที่สุดที่จะทำให้เป็นจริง - แต่ไม่ทราบ - สภาวะของธรรมชาติ)
การสูญเสียเป็นหน้าที่ที่แตกต่างกันของการตัดสินใจ (อย่างน้อยในพื้นที่ใกล้กับการตัดสินใจที่ดีที่สุด) นี่หมายความว่ามันเป็นแบบต่อเนื่อง - ไม่กระโดดในลักษณะที่การสูญเสีย - แต่มันก็หมายความว่ามันจะเปลี่ยนไปเล็กน้อยเมื่อการตัดสินใจใกล้เคียงกับสิ่งที่ดีที่สุด $0-1$

เมื่อเงื่อนไขเหล่านี้เกิดขึ้นภาวะแทรกซ้อนบางอย่างเกี่ยวข้องกับการเปรียบเทียบฟังก์ชั่นความเสี่ยง ความแตกต่างและความนูนของทำให้เราสามารถใช้ความไม่เท่าเทียมของ Jensenเพื่อแสดงให้เห็นว่า $W$

(1) เราไม่ต้องพิจารณาขั้นตอนการสุ่ม [Lehmann, corollary 6.2]

(2) หากหนึ่งในโพรซีเดอร์ถูกพิจารณาว่ามีความเสี่ยงที่ดีที่สุดสำหรับหนึ่งนั้นมันสามารถปรับปรุงเป็นโพรซีเดอร์ซึ่งขึ้นอยู่กับสถิติที่เพียงพอและอย่างน้อยก็มีฟังก์ชั่นความเสี่ยงสำหรับทุกอย่างเช่น [Kiefer, p. 151] $t$ $W$ $t^{*}$ $W$

ตัวอย่างเช่นสมมติว่าคือชุดของการแจกแจงแบบปกติที่มีค่าเฉลี่ย (และความแปรปรวนของหน่วย) ระบุนี้กับชุดของตัวเลขจริงทั้งหมดดังนั้น (เหยียดหยามสัญกรณ์) ฉันจะใช้ " " เพื่อแจ้งการจัดจำหน่ายในที่มีค่าเฉลี่ย\ให้เป็นตัวอย่าง iid ขนาดจากหนึ่งในการแจกแจงเหล่านี้ สมมติว่าวัตถุประสงค์ในการประมาณการ\นี่เป็นการระบุพื้นที่การตัดสินใจด้วยค่าที่เป็นไปได้ทั้งหมดของ (จำนวนจริงใด ๆ ) การให้กำหนดการตัดสินใจโดยพลการการสูญเสียเป็นหน้าที่ $\Omega$ $\mu$ $\Omega$ $\mu$ $\Omega$ $\mu$ $X$ $n$ $\mu$ $D$ $\mu$ $\hat\mu$

W (μ, \hat{μ}) \geq 0

$W(\mu, \hat\mu) \ge 0$

ด้วยถ้าหากว่า\สมมติฐานก่อนหน้าบ่งบอกถึง (ผ่านทฤษฎีบทของเทย์เลอร์) ว่า $W(\mu, \hat\mu)=0$ $\mu=\hat\mu$

W (μ, \hat{μ}) = w_{2} (\hat{μ} - μ)^{2} + o (\hat{μ} - μ)^{2}

$W(\mu, \hat\mu) = w_2 (\hat\mu - \mu)^2 + o(\hat\mu - \mu)^2$

สำหรับบางคนคงจำนวนบวกw_2(เล็ก ๆ น้อย ๆ -o สัญกรณ์ " " หมายถึงฟังก์ชั่นใด ๆที่คุ้มค่า จำกัด ของเป็นเป็น .) ตามที่ระบุไว้ก่อนหน้านี้เรามีอิสระที่จะ rescaleเพื่อให้ 1 สำหรับครอบครัวนี้ค่าเฉลี่ยของ , เขียนเป็นสถิติที่เพียงพอ ผลลัพธ์ก่อนหน้า (ที่ยกมาจาก Kiefer) กล่าวว่าตัวประมาณซึ่งอาจเป็นฟังก์ชันตามอำเภอใจของตัวแปรที่ดีสำหรับหนึ่งเช่นนั้น $w_2$ $o(y)^p$ $f$ $f(y) / y^p$ $0$ $y\to 0$ $W$ $w_2=1$ $\Omega$ $X$ $\bar X$ $\mu$ $n$ $(x_1, \ldots, x_n)$ $W$ สามารถแปลงเป็นตัวประมาณขึ้นอยู่กับซึ่งอย่างน้อยก็ดีสำหรับทั้งหมด $\bar x$ $W$

สิ่งที่ประสบความสำเร็จในตัวอย่างนี้เป็นปกติ: ชุดที่ซับซ้อนของขั้นตอนที่เป็นไปได้ซึ่งในขั้นต้นอาจประกอบด้วยฟังก์ชั่นการสุ่มของตัวแปรได้ถูกลดลงเป็นชุดของขั้นตอนที่ง่ายขึ้นซึ่งประกอบด้วยฟังก์ชันที่ไม่สุ่มของตัวแปรเดี่ยวหรืออย่างน้อยก็มีจำนวนตัวแปรน้อยลงในกรณีที่มีสถิติเพียงพอหลายตัวแปร) และสิ่งนี้สามารถทำได้โดยไม่ต้องกังวลเกี่ยวกับหน้าที่การสูญเสียของผู้มีอำนาจตัดสินใจโดยมีเงื่อนไขเฉพาะว่ามันจะนูนและแตกต่างกันได้ $n$

ฟังก์ชันการสูญเสียที่ง่ายที่สุดคืออะไร? อันที่ไม่สนใจเทอมที่เหลือแน่นอนว่าเป็นฟังก์ชันกำลังสองอย่างหมดจด ฟังก์ชั่นการสูญเสียอื่น ๆ ในระดับเดียวกันนี้รวมถึงพลังของที่มากกว่า (เช่นและกล่าวถึงในคำถาม), , และอีกมากมาย $z = |\hat\mu-\mu|$ $2$ $2.1, e,$ $\pi$ $\exp(z)-1-z$

รูป

สีฟ้า (ด้านบน) โค้งแปลงในขณะที่สีแดง (ลด) โค้งแปลง 2 เพราะเส้นโค้งสีฟ้ายังมีขั้นต่ำที่ , อนุพันธ์และนูนมากของคุณสมบัติที่ดีของวิธีการทางสถิติความสุขจากการสูญเสียกำลังสอง (เส้นโค้งสีแดง) จะนำไปใช้ฟังก์ชั่นการสูญเสียสีฟ้ามากเกินไป $2(\exp(|z|)-1-|z|)$ $z^2$ $0$ (แม้ว่าทั่วโลกฟังก์ชันเลขชี้กำลัง ทำงานแตกต่างจากฟังก์ชั่นสมการกำลังสอง)

ผลลัพธ์เหล่านี้ (แม้ว่า จำกัด อย่างเห็นได้ชัดโดยเงื่อนไขที่ถูกกำหนด) ช่วยเหลืออธิบายว่าทำไมการสูญเสียกำลังสองเป็นที่แพร่หลายในทฤษฎีทางสถิติและการปฏิบัติเพื่อ จำกัด ขอบเขตมันเป็นพร็อกซี่ที่สะดวกในการวิเคราะห์สำหรับการใด ๆฟังก์ชั่นการสูญเสียอนุพันธ์นูน

การสูญเสียกำลังสองไม่ได้เป็นการขาดทุนเพียงอย่างเดียวหรือแม้กระทั่งการพิจารณาที่ดีที่สุด แท้จริงแล้วเลห์แมนเขียนสิ่งนั้น

ฟังก์ชั่นการสูญเสียนูนได้รับการเห็นเพื่อนำไปสู่จำนวนของการทำให้เข้าใจง่ายของปัญหาการประมาณ หนึ่งอาจสงสัยว่าฟังก์ชั่นการสูญเสียดังกล่าวมีแนวโน้มที่จะเป็นจริง หากไม่เพียงแสดงถึงการวัดที่ไม่ถูกต้อง แต่เป็นการสูญเสียที่แท้จริง (ตัวอย่างเช่นด้านการเงิน) เราอาจโต้แย้งว่าการสูญเสียดังกล่าวถูก จำกัด ขอบเขต: เมื่อคุณสูญเสียทั้งหมดคุณจะไม่สูญเสียอีกต่อไป ... $W(F, d)$

... [F] ฟังก์ชั่นการสูญเสียที่เพิ่มมากขึ้นนำไปสู่การประมาณค่าที่มีแนวโน้มที่จะอ่อนไหวกับสมมติฐานที่ทำเกี่ยวกับพฤติกรรมหาง [ของ] การแจกแจงแบบสันนิษฐานว่าและสมมติฐานเหล่านี้มักจะอยู่บนพื้นฐานของข้อมูลเล็ก ๆ น้อย ๆ น่าเชื่อถือ

ปรากฎว่าตัวประมาณที่เกิดจากการสูญเสียความคลาดเคลื่อนกำลังสองนั้นมักจะอ่อนไหวในแง่นี้

[เลห์แมน, หมวด 1.6; ด้วยการเปลี่ยนแปลงสัญกรณ์]

เมื่อพิจารณาถึงการสูญเสียทางเลือกจะเปิดโอกาสให้ผู้บริโภคมากมาย:การถดถอยเชิงปริมาณ, การประมาณ M, สถิติที่แข็งแกร่ง, และอื่น ๆ อีกมากมายที่สามารถนำมาวางกรอบในการตัดสินใจเชิงทฤษฎี สำหรับตัวอย่างง่ายๆดูฟังก์ชันการสูญเสียเปอร์เซ็นไทล์

อ้างอิง

Jack Carl Kiefer บทนำสู่การอนุมานเชิงสถิติ Springer-Verlag 1987

EL มาห์ทฤษฎีการประเมินจุด ไวลีย์ 2526

— whuber
แหล่งที่มา