ทำให้เชื่องเอียง ... ทำไมจึงมีฟังก์ชั่นเอียงมากมาย?


9

ฉันหวังว่าจะมีความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับความเบ้สี่ประเภทจากชุมชนนี้

ประเภทที่ฉันอ้างถึงมีการกล่าวถึงในhttp://www.inside-r.org/packages/cran/e1071/docs/skewnessหน้าช่วยเหลือ

วิธีการเก่าไม่ได้กล่าวถึงในหน้าช่วยเหลือ แต่ฉันรวมถึงมันอย่างไรก็ตาม

require(moments)
require(e1071)


x=rnorm(100)
n=length(x)
hist(x)


###############type=1
e1071::skewness(x,type=1)
sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source
m_r=function(x,r) {n=length(x); sum((x - mean(x))^r/n);} ##from e1071::skewness help
g_1=function(x) m_r(x,3)/m_r(x,2)^(3/2)
g_1(x) ##from e1071::skewness help
moments::skewness(x) ##from e1071::skewness help
(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) ##from moments::skewness code, exactly as skewness help page


###############type=2
e1071::skewness(x,type=2)
e1071::skewness(x,type=1) * sqrt(n * (n - 1))/(n - 2) #from e1071::skewness source
G_1=function(x) {n=length(x); g_1(x)*sqrt(n*(n-1))/(n-2);} #from e1071::help
G_1(x)
excel.skew=function(x) { n=length(x); return(n/((n-1)*(n-2))*sum(((x-mean(x))/sd(x))^3));}
excel.skew(x)


###############type=3
e1071::skewness(x,type=3)
e1071::skewness(x,type=1) * ((1 - 1/n))^(3/2) #from e1071::skewness source
b_1=function(x) {n=length(x); g_1(x)*((n-1)/n)^(3/2); }  #from e1071::skewness help page
b_1(x);
prof.skew=function(x) sum((x-mean(x))^3)/(length(x)*sd(x)^3);
prof.skew(x)

###############very old method that fails in weird cases
(3*mean(x)-median(x))/sd(x)
#I found this to fail on certain data sets as well...

นี่คือกระดาษที่ผู้เขียน e1071 อ้างถึง: http://onlinelibrary.wiley.com/doi/10.1111/1467-9884.00122/pdf Joanes และ CA Gill (1998) เปรียบเทียบการวัดความเบ้และความรุนแรงของตัวอย่าง

จากการอ่านกระดาษของฉันพวกเขาแนะนำว่าประเภท 3 มีข้อผิดพลาดน้อยที่สุด

นี่คือตัวอย่างของความเบ้จากโค้ดด้านบน:

e1071::skewness(x,type=1)
-0.1620332
e1071::skewness(x,type=2)
-0.1645113
e1071::skewness(x,type=3)
-0.1596088
#old type:
0.2694532

ฉันยังสังเกตเห็นว่าผู้เขียน e1071 เขียนฟังก์ชั่นเอียงต่างจากบันทึกในหน้าความช่วยเหลือ สังเกตเห็น sqrt:

sqrt(n) * sum((x-mean(x))^3)/(sum((x - mean(x))^2)^(3/2)) #from e1071::skewness source

(sum((x - mean(x))^3)/n)/(sum((x - mean(x))^2)/n)^(3/2) #from moments and e1071 help page

ความคิดใด ๆ ที่ว่า sqrt (n) อยู่ในสมการแรก? สมการใดที่จัดการกับ overflow / underflow ได้ดีกว่า? ความคิดอื่น ๆ ว่าทำไมถึงแตกต่างกัน (แต่ให้ผลลัพธ์ที่เหมือนกัน)


3
คำถามของคุณกล่าวถึง "ความลาดเอียงสี่ประเภท" ... แต่จากนั้นให้ลิงก์และเปิดตัวเป็นโค้ดจำนวนมาก (ภาษาใดที่คุณไม่พูดถึง) ดังนั้นผู้คนไม่จำเป็นต้องอ่านลิงค์เพื่อค้นหาสิ่งที่คุณถามและเพื่อประโยชน์ของผู้ที่ไม่ได้อ่าน R และผู้ที่พบว่ารหัสการอ่านไม่มีประโยชน์ในการสื่อความเข้าใจมันจะช่วยกำหนดว่า การวัดความเบ้ที่คุณหมายถึงก่อนหน้า [เมื่อคุณพูดว่า "สี่คน" แทนที่จะพูดว่า "สี่คนนี้" ทำไมคุณถึงคิดว่ามีสี่อย่างแน่นอนมากกว่าสี่หรือเจ็ดหรือหมายเลขอื่น ๆ ?]
Glen_b

1
ฉันพยายามที่จะให้คำตอบในรูปแบบของคำถามเฉพาะที่ฉันสามารถหาได้ในโพสต์ของคุณและแก้ไขปัญหาต่าง ๆ จำนวนมากในระหว่างทาง แต่นอกเหนือจากนั้น คุณสามารถระบุสิ่งที่คุณต้องการข้อมูลเชิงลึกได้ชัดเจนขึ้นหรือไม่ มีคำถามมากมายในเว็บไซต์ของเราเกี่ยวกับความเบ้
Glen_b -Reinstate Monica

ขอบคุณเกลนสำหรับการโพสต์ของคุณ ฉันรวม R เพื่อวัตถุประสงค์ในการอธิบายและเพื่อแสดงสูตร นอกจากนี้ฉันไม่ทราบว่าน้ำยางข้น :(
Chris

คำตอบ:


10

มาเริ่มกันด้วยวิธีที่คุณอธิบายว่า "วิธีเก่า"; นี้เป็นเบ้เพียร์สันที่สองหรือมัธยฐานเบ้ ; ในความเป็นจริงช่วงเวลาเบ้และที่กว้างวินเทจเดียวกัน (ค่ามัธยฐานความเบ้เป็นจริงอายุน้อยกว่าเล็กน้อยตั้งแต่ช่วงเวลาเบ้ก่อนหน้าความพยายามของเพียร์สัน)

การสนทนาเล็ก ๆ น้อย ๆ ของประวัติศาสตร์บางส่วนสามารถพบได้ที่นี่ ; โพสต์นั้นอาจเปิดไฟเล็กน้อยในคำถามอื่น ๆ ของคุณ

หากคุณค้นหาเว็บไซต์ของเราโดยใช้ความเบ้ที่สองของเพียร์สันคุณจะได้โพสต์ค่อนข้างน้อยซึ่งมีการพูดคุยเกี่ยวกับพฤติกรรมของมาตรการนี้

มันไม่ใช่สิ่งแปลกประหลาดใด ๆ ในความคิดของฉัน บางครั้งพวกเขาทั้งสองทำสิ่งแปลก ๆ ที่ไม่ตรงกับความคาดหวังของผู้คนในเรื่องความเบ้


รูปแบบปกติของถูกกล่าวถึงใน Wikipedia ที่นี่ ; อย่างที่บอกว่ามันเป็นวิธีการประมาณค่าช่วงเวลาและสิ่งที่เป็นธรรมชาติที่จะใช้เมื่อคำนวณจำนวนประชากรในรูปของช่วงเวลามาตรฐานที่สามb1

ถ้ามีคนใช้สำหรับ (เช่นไม่มีการแก้ไข Bessel) คุณจะได้รับประเภทคุณพูดถึง อย่างใดอย่างหนึ่งคือสิ่งที่ฉันเรียกว่า "วิธีการช่วงเวลา" ยังไม่ชัดเจนสำหรับฉันมีประเด็นมากมายที่พยายามยกเลิกการแบ่งส่วนเนื่องจากไม่จำเป็นต้องยกเลิกอัตราส่วน อาจเหมาะสมที่จะคำนวณเพื่อให้ตรงกับสิ่งที่ผู้คนคาดหวังว่าจะทำได้ด้วยมือsnsn1g1

แต่มีสอง (เทียบเท่า) วิธีการกำหนดเบ้ประชากรในแง่ของ cumulants (ดูลิงค์ด้านบนวิกิพีเดีย) และถ้าตัวอย่างเบ้ที่คุณใช้ในการประมาณการเป็นกลางของผู้ที่คุณจะได้รับG_1G1

[หมายเหตุเพิ่มเติมว่าการคูณตัวเศษในด้วยเอนเอียงดังนั้นมันอาจเป็นอีกเหตุผลหนึ่งที่ผู้คนมองดูแบบฟอร์มนั้น หากมีความพยายามที่จะยกเลิกการคำนวณทั้งช่วงเวลาที่สองและช่วงเวลาที่สองก็จะได้รับปัจจัยที่แตกต่างกันเล็กน้อยในและออกมาด้านหน้า]b1n2(n1)(n2)n,(n1)(n2)

ทั้งสามแบบนั้นมีความแตกต่างกันเล็กน้อยในความเบ้ที่สาม ในตัวอย่างที่มีขนาดใหญ่มากไม่มีความแตกต่างที่คุณใช้ ในตัวอย่างขนาดเล็กพวกเขาทั้งหมดมีอคติและความแปรปรวนแตกต่างกันเล็กน้อย


แบบฟอร์มที่กล่าวถึงในที่นี้ไม่ได้ทำให้คำจำกัดความของความเบ้ (ฉันเคยเห็นประมาณหนึ่งโหลฉันคิดว่า - บทความ Wikipediaแสดงรายการค่อนข้างน้อย แต่ถึงแม้จะไม่ครอบคลุมขอบเขต) หรือแม้แต่คำจำกัดความที่เกี่ยวข้อง - ความเร่าร้อนในชั่วขณะหนึ่งซึ่งฉันเห็นมากกว่าสามสิ่งที่คุณยกมา

ทำไมจึงมีความเบ้มากมาย

ดังนั้น (ปฏิบัติความเบ้ที่สามทั้งหมดนั้นเป็นช่วงเวลาหนึ่ง) ทำไมความเบ้ที่แตกต่างกันมากมาย? ส่วนหนึ่งเป็นเพราะความเบ้ตามความคิดนั้นค่อนข้างยากที่จะปักหลัก มันเป็นสิ่งที่ลื่นคุณไม่สามารถปักหมุดตัวเลขลงไปได้ เป็นผลให้คำจำกัดความทั้งหมดมีน้อยกว่าที่เพียงพอในบางวิธี แต่อย่างไรก็ตามมักจะสอดคล้องกับความรู้สึกกว้างของเราในสิ่งที่เราคิดว่ามาตรการความเบ้ควรทำ ผู้คนต่างพยายามหาคำจำกัดความที่ดีขึ้นเรื่อย ๆ แต่มาตรการแบบเดิม ๆ เช่นคีย์บอร์ดแบบ QWERTY ไม่ได้ไปทุกที่

เหตุใดจึงมีการวัดความเบ้หลายครั้งตามช่วงเวลาที่ 3

สำหรับสาเหตุที่ความเบ้ที่สามในช่วงเวลาที่สามนั้นเป็นเพียงเพราะมีมากกว่าหนึ่งวิธีในการเปลี่ยนการวัดประชากรเป็นมาตรวัดตัวอย่าง เราเห็นสองเส้นทางตามช่วงเวลาและอีกเส้นทางหนึ่งขึ้นอยู่กับยอดสะสม เราสามารถสร้างได้มากกว่าเดิม ตัวอย่างเช่นเราอาจลองใช้การวัดแบบไม่เอนเอียง (ตัวอย่างเล็ก ๆ ) ภายใต้สมมติฐานการกระจายตัวหรือการวัดความคลาดเคลื่อนกำลังสองเฉลี่ยต่ำสุดหรือปริมาณอื่น ๆ

คุณอาจพบบางโพสต์ในเว็บไซต์ที่เกี่ยวข้องกับความสว่างแจ่มใส; มีบางอย่างที่แสดงตัวอย่างของการแจกแจงที่ไม่สมมาตร แต่มีความเบ้ชั่วขณะที่สาม มีบางอย่างที่แสดงค่ามัธยฐานความเพียร์สันของเพียร์สันและความเบ้ที่สามอาจมีสัญญาณตรงกันข้าม

นี่คือลิงค์ไปยังกระทู้สองสามข้อความที่เกี่ยวข้องกับความเบ้:

หมายความว่าค่ามัธยฐานหมายถึงการกระจายตัวแบบ unimodal นั้นสมมาตรหรือไม่?

ในข้อมูลเบ้ซ้ายความสัมพันธ์ระหว่างค่าเฉลี่ยและค่ามัธยฐานคืออะไร

วิธีการตรวจสอบความเบ้จากฮิสโตแกรมที่มีค่าผิดปกติ


เกี่ยวกับคำถามสุดท้ายของคุณเกี่ยวกับการคำนวณ :b1

n(xx¯)3((xx¯)2)3/2 #from e1071 :: แหล่งความเบ้

(xx¯)3/n((xx¯)2/n)3/2 # จากช่วงเวลาและ หน้าช่วยเหลือ e1071

ทั้งสองรูปแบบเป็นพีชคณิตเหมือนกัน; อย่างที่สองเขียนไว้ในแบบฟอร์ม "ช่วงเวลาที่สามในช่วงเวลาที่สองสู่อำนาจในขณะที่คำสั่งแรกยกเลิกคำศัพท์ในและนำสิ่งที่เหลือออกมาด้านหน้าฉันไม่คิดว่ามันทำเพื่อเหตุผลในการหลีกเลี่ยงล้น / อันเดอร์โฟลว์ฉันคิดว่ามันทำเพราะคิดว่าเร็วกว่าเล็กน้อย [ถ้าล้นหรืออันเดอร์โฟล์ลเป็นข้อกังวลเราอาจจัดเรียงการคำนวณต่างกัน]32n

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.