ในขณะที่มีการโพสต์บนเว็บไซต์จำนวนหนึ่งกล่าวถึงคุณสมบัติที่หลากหลายของ Cauchy แต่ฉันไม่สามารถหาตำแหน่งที่วางไว้ด้วยกันได้ หวังว่านี่อาจเป็นสถานที่ที่ดีในการรวบรวม ฉันอาจขยายสิ่งนี้
หางหนา
ในขณะที่ Cauchy เป็นรูประฆังที่สมมาตรและเกะกะค่อนข้างคล้ายกับการแจกแจงแบบปกติ แต่ก็มีหางที่หนักกว่ามาก ตัวอย่างเช่นมีความเป็นไปได้น้อย แต่ชัดเจนว่าตัวแปรสุ่ม Cauchy จะวางช่วง interquartile มากกว่า 1,000 ช่วงจากค่ามัธยฐาน - ประมาณของคำสั่งเดียวกับตัวแปรสุ่มปกติที่มีช่วงอย่างน้อย 2.67 ช่วงค่าเฉลี่ยจากค่ามัธยฐาน
ความแปรปรวน
ความแปรปรวนของ Cauchy นั้นไม่มีที่สิ้นสุด
แก้ไข: JG พูดในความคิดเห็นว่าไม่ได้กำหนดไว้ หากเรานำความแปรปรวนเป็นค่าเฉลี่ยของครึ่งระยะห่างกำลังสองระหว่างคู่ของค่า - ซึ่งเท่ากับความแปรปรวนเมื่อทั้งคู่มีอยู่แล้วมันจะไม่มีที่สิ้นสุด อย่างไรก็ตามโดยนิยาม JG ปกติถูกต้อง [อย่างไรก็ตามโดยทางตรงข้ามกับค่าเฉลี่ยตัวอย่างซึ่งไม่ได้รวมกันกับสิ่งใดเลยเมื่อ n กลายเป็นใหญ่การกระจายของความแปรปรวนตัวอย่างจะเพิ่มขึ้นเรื่อย ๆ ตามขนาดตัวอย่างที่เพิ่มขึ้น มาตราส่วนจะเพิ่มขึ้นตามสัดส่วนเป็น n หรือการกระจายความแปรปรวนของบันทึกเท่ากันจะเพิ่มขึ้นตามขนาดตัวอย่าง ดูเหมือนว่ามีประสิทธิผลที่จะพิจารณาความแปรปรวนเวอร์ชันนั้นซึ่งให้ผลอนันต์บอกเราบางอย่าง]
ตัวอย่างเบี่ยงเบนมาตรฐานอยู่แน่นอน แต่ตัวอย่างที่ใหญ่กว่าพวกเขามีแนวโน้มที่จะใหญ่ขึ้น (เช่นค่าเบี่ยงเบนมาตรฐานตัวอย่างเฉลี่ยที่ n = 10 อยู่ในบริเวณใกล้เคียง 3.67 เท่าของพารามิเตอร์มาตราส่วน (ครึ่ง IQR) แต่ที่ n = 100 มันคือ 11.9)
Mean
การกระจาย Cauchy ไม่ได้มีค่าเฉลี่ยแน่นอน; อินทิกรัลสำหรับค่าเฉลี่ยไม่ได้มาบรรจบกัน เป็นผลให้แม้แต่กฎของคนจำนวนมากก็ยังใช้ไม่ได้ - เมื่อโตขึ้นตัวอย่างก็หมายความว่าอย่ามารวมกันในปริมาณที่แน่นอน (แน่นอนไม่มีอะไรให้พวกเขามาบรรจบกัน)
อันที่จริงแล้วการกระจายตัวของค่าเฉลี่ยตัวอย่างจากการแจกแจงโคชีนั้นเหมือนกับการกระจายตัวของการสังเกตเพียงครั้งเดียว (!) ส่วนท้ายนั้นหนักมากที่การเพิ่มค่าเข้าไปในผลรวมนั้นมีค่ามากที่สุดเท่าที่จะทำได้เพื่อชดเชยการหารโดยตัวส่วนที่ใหญ่กว่าเมื่อทำการหาค่าเฉลี่ย
การคาดการณ์
คุณสามารถสร้างช่วงการทำนายที่สมเหตุสมผลอย่างสมบูรณ์แบบสำหรับการสังเกตจากการแจกแจงโคชี มีตัวประมาณค่าที่เรียบง่ายและมีประสิทธิภาพพอใช้ที่ทำงานได้ดีสำหรับการประมาณตำแหน่งและสเกลและช่วงเวลาการคาดการณ์โดยประมาณสามารถสร้างได้ อย่างไรก็ตามหางขยายไปไกลมากดังนั้นหากคุณต้องการช่วงเวลาที่มีความน่าจะเป็นสูงมันอาจจะค่อนข้างกว้าง
หากคุณกำลังพยายามทำนายจุดศูนย์กลางของการแจกแจง (เช่นในแบบจำลองการถดถอย) ซึ่งในบางแง่ก็อาจจะค่อนข้างง่ายต่อการทำนาย Cauchy ค่อนข้างแหลม (มีการกระจายจำนวนมาก "ปิด" ไปยังศูนย์กลางสำหรับมาตรวัดทั่วไป) ดังนั้นศูนย์กลางสามารถประเมินได้ค่อนข้างดีหากคุณมีตัวประมาณที่เหมาะสม
นี่คือตัวอย่าง:
ฉันสร้างข้อมูลจากความสัมพันธ์เชิงเส้นกับข้อผิดพลาด Cauchy มาตรฐาน (การสังเกต 100 ครั้ง, การสกัด = 3, ความชัน = 1.5), และการประมาณเส้นถดถอยโดยวิธีการสามวิธีที่มีความเสถียรต่อ y-outliers: Tukey 3 กลุ่มเส้น (สีแดง) (สีเขียวเข้ม) และ L1- การถดถอย (สีน้ำเงิน) ไม่มีใครมีประสิทธิภาพเป็นพิเศษที่ Cauchy - แม้ว่าพวกเขาจะสร้างจุดเริ่มต้นที่ยอดเยี่ยมสำหรับวิธีการที่มีประสิทธิภาพมากขึ้น
อย่างไรก็ตามทั้งสามคนนั้นเกือบจะบังเอิญเมื่อเปรียบเทียบกับความว่องไวของข้อมูลและอยู่ใกล้กับศูนย์กลางของที่ที่ข้อมูลทำงาน ในแง่นั้น Cauchy ชัดเจน "คาดการณ์ได้"
ค่ามัธยฐานของค่าตกค้างสัมบูรณ์นั้นมีขนาดใหญ่กว่า 1 เล็กน้อยสำหรับทุก ๆ เส้น (ข้อมูลส่วนใหญ่อยู่ใกล้กับเส้นที่ประมาณไว้); ในแง่นี้ Cauchy ก็คือ "คาดการณ์ได้"
สำหรับพล็อตด้านซ้ายจะมีค่าผิดปกติจำนวนมาก เพื่อที่จะดูข้อมูลที่ดีกว่าฉัน จำกัด ขนาดของแกน y ลงบนด้านขวา