วิธีการตัดสินใจเชิงทฤษฎีเพื่อสถิติให้คำอธิบายที่ลึก มันบอกว่าความแตกต่างกำลังสองเป็นพร็อกซีสำหรับฟังก์ชันการสูญเสียที่หลากหลายซึ่งเมื่อใดก็ตามที่พวกเขาอาจนำมาใช้อย่างสมเหตุสมผล
น่าเสียดายที่การอธิบายความหมายและระบุว่าทำไมจึงเป็นเรื่องจริง สัญกรณ์สามารถเข้าใจได้อย่างรวดเร็ว สิ่งที่ฉันมุ่งหวังที่จะทำที่นี่คือเพียงการร่างแนวคิดหลักโดยมีรายละเอียดเล็ก ๆ น้อย ๆ สำหรับบัญชีฟูลเลอร์โปรดดูการอ้างอิง
แบบจำลองมาตรฐานของข้อมูล posits ว่าพวกเขาเป็นจริงของตัวแปรสุ่ม (จริง, เวกเตอร์ - มูลค่า)ซึ่งการกระจายเป็นที่รู้จักกันเพียงเพื่อเป็นองค์ประกอบของชุดของการกระจาย, รัฐ ของธรรมชาติ กระบวนการทางสถิติคือฟังก์ชันของรับค่าในชุดการตัดสินใจบางอย่าง , พื้นที่การตัดสินใจX F Ω t x DxXFΩtxD
ยกตัวอย่างเช่นในการคาดการณ์หรือปัญหาการจำแนกจะประกอบด้วยการรวมกันของ "ชุดฝึกอบรม" และ "ชุดทดสอบข้อมูล" และจะแมปเป็นชุดของค่าที่คาดการณ์ไว้สำหรับชุดทดสอบ ชุดของค่าที่คาดการณ์เป็นไปได้ทั้งหมดจะเป็นD t x DxtxD
การอภิปรายทางทฤษฎีเต็มรูปแบบของวิธีการที่มีเพื่อรองรับขั้นตอนการสุ่ม ขั้นตอนแบบสุ่มเลือกระหว่างการตัดสินใจสองครั้งขึ้นไปตามการแจกแจงความน่าจะเป็นบางอย่าง (ซึ่งขึ้นอยู่กับ data ) มันเป็นการสรุปแนวคิดที่ใช้งานง่ายซึ่งเมื่อข้อมูลดูเหมือนจะไม่แยกความแตกต่างระหว่างสองทางเลือกคุณก็จะ "พลิกเหรียญ" เพื่อตัดสินใจเลือกทางเลือกที่แน่นอน หลายคนไม่ชอบวิธีการแบบสุ่มคัดค้านการตัดสินใจในลักษณะที่ไม่สามารถคาดการณ์ได้x
คุณลักษณะที่แตกต่างของทฤษฎีการตัดสินใจคือการใช้งานของฟังก์ชั่นการสูญเสีย WW สำหรับสถานะของธรรมชาติและการตัดสินใจการสูญเสียd ∈ DF∈Ωd∈D
W(F,d)
เป็นค่าตัวเลขที่แสดงว่า "ไม่ดี" มันจะเป็นการตัดสินใจเมื่อสถานะที่แท้จริงของธรรมชาติคือ : การสูญเสียเล็กน้อยเป็นสิ่งที่ดีการสูญเสียที่ยิ่งใหญ่นั้นไม่ดี ในสถานการณ์การทดสอบสมมติฐานตัวอย่างเช่นมีสององค์ประกอบ "ยอมรับ" และ "ปฏิเสธ" (สมมติฐานว่าง) ฟังก์ชั่นการสูญเสียที่เน้นการตัดสินใจที่เหมาะสม: ตั้งค่าเป็นศูนย์เมื่อการตัดสินใจที่ถูกต้องและอื่น ๆ เป็นค่าคงที่บางW(สิ่งนี้เรียกว่า " ฟังก์ชันการสูญเสีย :" การตัดสินใจที่ไม่ดีทั้งหมดนั้นไม่เท่าเทียมกันและการตัดสินใจที่ดีทั้งหมดนั้นดีเท่ากัน) โดยเฉพาะเมื่ออยู่ในสมมติฐานว่างและF D w 0 - 1 W ( F , ยอมรับ) = 0 F W ( F , ปฏิเสธ) = 0 FdFDw0−1W(F, accept)=0FW(F, reject)=0Fอยู่ในสมมติฐานทางเลือก
เมื่อใช้ขั้นตอนสูญเสียสำหรับข้อมูลที่เมื่อสภาพที่แท้จริงของธรรมชาติเป็นสามารถเขียนได้(x)) นี้จะทำให้สูญเสียตัวแปรสุ่มที่มีการจัดจำหน่ายจะถูกกำหนดโดย (ไม่รู้จัก) FtxFW(F,t(x))W(F,t(X))F
การสูญเสียที่คาดว่าจะเป็นขั้นตอนเรียกว่ามันมีความเสี่ยง , r_tความคาดหวังใช้สถานะที่แท้จริงของธรรมชาติซึ่งจะปรากฏอย่างชัดเจนว่าเป็นตัวห้อยของตัวดำเนินการที่คาดหวัง เราจะมองความเสี่ยงในฐานะฟังก์ชั่นของและเน้นว่าด้วยสัญกรณ์:trtFF
rt(F)=EF(W(F,t(X))).
ขั้นตอนที่ดีกว่ามีความเสี่ยงต่ำกว่า ดังนั้นการเปรียบเทียบฟังก์ชั่นความเสี่ยงเป็นพื้นฐานในการเลือกวิธีการทางสถิติที่ดี เนื่องจากการลดความเสี่ยงของฟังก์ชั่นความเสี่ยงทั้งหมดโดยค่าคงที่ (บวก) ทั่วไปจะไม่เปลี่ยนแปลงการเปรียบเทียบใด ๆ ขนาดของไม่ได้แตกต่างกัน: เรามีอิสระที่จะคูณด้วยค่าบวกที่เราชอบ โดยเฉพาะอย่างยิ่งเมื่อคูณด้วยเราอาจใช้เสมอสำหรับฟังก์ชันการสูญเสีย (การพิสูจน์ชื่อของมัน)WW1/ww=10−1
เพื่อดำเนินการต่อตัวอย่างการทดสอบสมมติฐานซึ่งแสดงฟังก์ชันการสูญเสียคำจำกัดความเหล่านี้แสดงถึงความเสี่ยงของใด ๆในสมมติฐานว่างคือโอกาสที่การตัดสินใจ "ปฏิเสธ" ในขณะที่ความเสี่ยงของใด ๆในทางเลือกคือ โอกาสที่การตัดสินใจคือ "ยอมรับ" ค่าสูงสุด (เหนือค่าทั้งหมดในสมมติฐานว่าง) คือขนาดการทดสอบในขณะที่ส่วนของฟังก์ชั่นความเสี่ยงที่กำหนดไว้ในสมมติฐานทางเลือกคือการเติมเต็มของกำลังทดสอบ( ) ในที่นี้เราจะเห็นว่าทฤษฎีการทดสอบสมมติฐานทั้งหมด (คลาสสิค) สมมติฐานจำนวนทั้งหมดเป็นวิธีการเฉพาะเพื่อเปรียบเทียบฟังก์ชั่นความเสี่ยงสำหรับการสูญเสียชนิดพิเศษ0−1FFFpowert(F)=1−rt(F)
อย่างไรก็ตามทุกอย่างที่นำเสนอจนถึงเข้ากันได้อย่างสมบูรณ์แบบกับสถิติกระแสหลักทั้งหมดรวมถึงกระบวนทัศน์แบบเบย์ นอกจากนี้การวิเคราะห์แบบเบย์ยังแนะนำการกระจายความน่าจะเป็น "ก่อนหน้า" มากกว่าและใช้สิ่งนี้เพื่อลดความเสี่ยงของฟังก์ชันความเสี่ยง: ฟังก์ชันซับซ้อนอาจถูกแทนที่ด้วยค่าที่คาดหวังเมื่อเทียบกับการแจกแจงก่อนหน้า ดังนั้นโพรซีเดอร์ทั้งหมดจึงมีลักษณะเป็นจำนวนเดียว ; ขั้นตอนการ Bayes (ซึ่งมักจะไม่ซ้ำกัน) ลดr_tฟังก์ชั่นการสูญเสียยังคงมีบทบาทสำคัญในการคำนวณr_tΩrttrtrtrt
มีการโต้เถียง (หลีกเลี่ยงไม่ได้) บางอย่างรอบการใช้ฟังก์ชันการสูญเสีย หนึ่งเลือกอย่างไร มันเป็นเรื่องสำคัญสำหรับการทดสอบสมมติฐาน แต่ในการตั้งค่าทางสถิติอื่น ๆ ส่วนใหญ่มีทางเลือกมากมาย สะท้อนถึงคุณค่าของผู้มีอำนาจตัดสินใจ ตัวอย่างเช่นหากข้อมูลเป็นการวัดทางสรีรวิทยาของผู้ป่วยทางการแพทย์และการตัดสินใจคือ "รักษา" หรือ "ไม่รักษา" แพทย์จะต้องพิจารณา - และชั่งน้ำหนักในสมดุล - ผลของการกระทำใด ๆ การชั่งน้ำหนักผลที่ตามมาอาจขึ้นอยู่กับความต้องการของผู้ป่วยอายุคุณภาพชีวิตและสิ่งอื่น ๆ ทางเลือกของฟังก์ชั่นการสูญเสียนั้นเต็มไปด้วยความเป็นส่วนตัว โดยปกติไม่ควรปล่อยให้นักสถิติ!W
สิ่งหนึ่งที่เราอยากจะรู้ก็คือวิธีการเลือกวิธีการที่ดีที่สุดจะเปลี่ยนเมื่อการสูญเสียมีการเปลี่ยนแปลงอย่างไร ปรากฎว่าในสถานการณ์ที่พบเห็นได้ทั่วไปในทางปฏิบัติจำนวนมากของการเปลี่ยนแปลงสามารถยอมรับได้โดยไม่ต้องเปลี่ยนขั้นตอนที่ดีที่สุด สถานการณ์เหล่านี้มีลักษณะเฉพาะตามเงื่อนไขต่อไปนี้:
พื้นที่การตัดสินใจเป็นชุดนูน (มักเป็นช่วงเวลาของตัวเลข) ซึ่งหมายความว่าคุณค่าใด ๆ ที่อยู่ระหว่างการตัดสินใจสองครั้งก็เป็นการตัดสินใจที่ถูกต้อง
การสูญเสียเป็นศูนย์เมื่อมีการตัดสินใจที่ดีที่สุดและเพิ่มขึ้นเป็นอย่างอื่น (เพื่อสะท้อนความแตกต่างระหว่างการตัดสินใจที่ทำกับสิ่งที่ดีที่สุดที่จะทำให้เป็นจริง - แต่ไม่ทราบ - สภาวะของธรรมชาติ)
การสูญเสียเป็นหน้าที่ที่แตกต่างกันของการตัดสินใจ (อย่างน้อยในพื้นที่ใกล้กับการตัดสินใจที่ดีที่สุด) นี่หมายความว่ามันเป็นแบบต่อเนื่อง - ไม่กระโดดในลักษณะที่การสูญเสีย - แต่มันก็หมายความว่ามันจะเปลี่ยนไปเล็กน้อยเมื่อการตัดสินใจใกล้เคียงกับสิ่งที่ดีที่สุด0−1
เมื่อเงื่อนไขเหล่านี้เกิดขึ้นภาวะแทรกซ้อนบางอย่างเกี่ยวข้องกับการเปรียบเทียบฟังก์ชั่นความเสี่ยง ความแตกต่างและความนูนของทำให้เราสามารถใช้ความไม่เท่าเทียมของ Jensenเพื่อแสดงให้เห็นว่าW
(1) เราไม่ต้องพิจารณาขั้นตอนการสุ่ม [Lehmann, corollary 6.2]
(2) หากหนึ่งในโพรซีเดอร์ถูกพิจารณาว่ามีความเสี่ยงที่ดีที่สุดสำหรับหนึ่งนั้นมันสามารถปรับปรุงเป็นโพรซีเดอร์ซึ่งขึ้นอยู่กับสถิติที่เพียงพอและอย่างน้อยก็มีฟังก์ชั่นความเสี่ยงสำหรับทุกอย่างเช่น [Kiefer, p. 151]tWt∗ W
ตัวอย่างเช่นสมมติว่าคือชุดของการแจกแจงแบบปกติที่มีค่าเฉลี่ย (และความแปรปรวนของหน่วย) ระบุนี้กับชุดของตัวเลขจริงทั้งหมดดังนั้น (เหยียดหยามสัญกรณ์) ฉันจะใช้ " " เพื่อแจ้งการจัดจำหน่ายในที่มีค่าเฉลี่ย\ให้เป็นตัวอย่าง iid ขนาดจากหนึ่งในการแจกแจงเหล่านี้ สมมติว่าวัตถุประสงค์ในการประมาณการ\นี่เป็นการระบุพื้นที่การตัดสินใจด้วยค่าที่เป็นไปได้ทั้งหมดของ (จำนวนจริงใด ๆ ) การให้กำหนดการตัดสินใจโดยพลการการสูญเสียเป็นหน้าที่ΩμΩμΩμXnμDμμ^
W(μ,μ^)≥0
ด้วยถ้าหากว่า\สมมติฐานก่อนหน้าบ่งบอกถึง (ผ่านทฤษฎีบทของเทย์เลอร์) ว่าW(μ,μ^)=0μ=μ^
W(μ,μ^)=w2(μ^−μ)2+o(μ^−μ)2
สำหรับบางคนคงจำนวนบวกw_2(เล็ก ๆ น้อย ๆ -o สัญกรณ์ " " หมายถึงฟังก์ชั่นใด ๆที่คุ้มค่า จำกัด ของเป็นเป็น .) ตามที่ระบุไว้ก่อนหน้านี้เรามีอิสระที่จะ rescaleเพื่อให้ 1 สำหรับครอบครัวนี้ค่าเฉลี่ยของ , เขียนเป็นสถิติที่เพียงพอ ผลลัพธ์ก่อนหน้า (ที่ยกมาจาก Kiefer) กล่าวว่าตัวประมาณซึ่งอาจเป็นฟังก์ชันตามอำเภอใจของตัวแปรที่ดีสำหรับหนึ่งเช่นนั้นw2o(y)pff(y)/yp0y→0Ww2=1ΩXX¯μn(x1,…,xn)Wสามารถแปลงเป็นตัวประมาณขึ้นอยู่กับซึ่งอย่างน้อยก็ดีสำหรับทั้งหมดx¯W
สิ่งที่ประสบความสำเร็จในตัวอย่างนี้เป็นปกติ: ชุดที่ซับซ้อนของขั้นตอนที่เป็นไปได้ซึ่งในขั้นต้นอาจประกอบด้วยฟังก์ชั่นการสุ่มของตัวแปรได้ถูกลดลงเป็นชุดของขั้นตอนที่ง่ายขึ้นซึ่งประกอบด้วยฟังก์ชันที่ไม่สุ่มของตัวแปรเดี่ยวหรืออย่างน้อยก็มีจำนวนตัวแปรน้อยลงในกรณีที่มีสถิติเพียงพอหลายตัวแปร) และสิ่งนี้สามารถทำได้โดยไม่ต้องกังวลเกี่ยวกับหน้าที่การสูญเสียของผู้มีอำนาจตัดสินใจโดยมีเงื่อนไขเฉพาะว่ามันจะนูนและแตกต่างกันได้n
ฟังก์ชันการสูญเสียที่ง่ายที่สุดคืออะไร? อันที่ไม่สนใจเทอมที่เหลือแน่นอนว่าเป็นฟังก์ชันกำลังสองอย่างหมดจด ฟังก์ชั่นการสูญเสียอื่น ๆ ในระดับเดียวกันนี้รวมถึงพลังของที่มากกว่า (เช่นและกล่าวถึงในคำถาม), , และอีกมากมายz=|μ^−μ|22.1,e,πexp(z)−1−z

สีฟ้า (ด้านบน) โค้งแปลงในขณะที่สีแดง (ลด) โค้งแปลง 2 เพราะเส้นโค้งสีฟ้ายังมีขั้นต่ำที่ , อนุพันธ์และนูนมากของคุณสมบัติที่ดีของวิธีการทางสถิติความสุขจากการสูญเสียกำลังสอง (เส้นโค้งสีแดง) จะนำไปใช้ฟังก์ชั่นการสูญเสียสีฟ้ามากเกินไปz 2 02(exp(|z|)−1−|z|)z20 (แม้ว่าทั่วโลกฟังก์ชันเลขชี้กำลัง ทำงานแตกต่างจากฟังก์ชั่นสมการกำลังสอง)
ผลลัพธ์เหล่านี้ (แม้ว่า จำกัด อย่างเห็นได้ชัดโดยเงื่อนไขที่ถูกกำหนด) ช่วยเหลืออธิบายว่าทำไมการสูญเสียกำลังสองเป็นที่แพร่หลายในทฤษฎีทางสถิติและการปฏิบัติเพื่อ จำกัด ขอบเขตมันเป็นพร็อกซี่ที่สะดวกในการวิเคราะห์สำหรับการใด ๆฟังก์ชั่นการสูญเสียอนุพันธ์นูน
การสูญเสียกำลังสองไม่ได้เป็นการขาดทุนเพียงอย่างเดียวหรือแม้กระทั่งการพิจารณาที่ดีที่สุด แท้จริงแล้วเลห์แมนเขียนสิ่งนั้น
ฟังก์ชั่นการสูญเสียนูนได้รับการเห็นเพื่อนำไปสู่จำนวนของการทำให้เข้าใจง่ายของปัญหาการประมาณ หนึ่งอาจสงสัยว่าฟังก์ชั่นการสูญเสียดังกล่าวมีแนวโน้มที่จะเป็นจริง หากไม่เพียงแสดงถึงการวัดที่ไม่ถูกต้อง แต่เป็นการสูญเสียที่แท้จริง (ตัวอย่างเช่นด้านการเงิน) เราอาจโต้แย้งว่าการสูญเสียดังกล่าวถูก จำกัด ขอบเขต: เมื่อคุณสูญเสียทั้งหมดคุณจะไม่สูญเสียอีกต่อไป ...W(F,d)
... [F] ฟังก์ชั่นการสูญเสียที่เพิ่มมากขึ้นนำไปสู่การประมาณค่าที่มีแนวโน้มที่จะอ่อนไหวกับสมมติฐานที่ทำเกี่ยวกับพฤติกรรมหาง [ของ] การแจกแจงแบบสันนิษฐานว่าและสมมติฐานเหล่านี้มักจะอยู่บนพื้นฐานของข้อมูลเล็ก ๆ น้อย ๆ น่าเชื่อถือ
ปรากฎว่าตัวประมาณที่เกิดจากการสูญเสียความคลาดเคลื่อนกำลังสองนั้นมักจะอ่อนไหวในแง่นี้
[เลห์แมน, หมวด 1.6; ด้วยการเปลี่ยนแปลงสัญกรณ์]
เมื่อพิจารณาถึงการสูญเสียทางเลือกจะเปิดโอกาสให้ผู้บริโภคมากมาย:การถดถอยเชิงปริมาณ, การประมาณ M, สถิติที่แข็งแกร่ง, และอื่น ๆ อีกมากมายที่สามารถนำมาวางกรอบในการตัดสินใจเชิงทฤษฎี สำหรับตัวอย่างง่ายๆดูฟังก์ชันการสูญเสียเปอร์เซ็นไทล์
อ้างอิง
Jack Carl Kiefer บทนำสู่การอนุมานเชิงสถิติ Springer-Verlag 1987
EL มาห์ทฤษฎีการประเมินจุด ไวลีย์ 2526