ความแตกต่างในนิยามของเคิร์ตซีสและการตีความ


10

ฉันเพิ่งรู้ว่ามีความแตกต่างในค่าเคิร์ตซีให้ SPSS และ Stata

ดูhttp://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm

ความเข้าใจของฉันคือการตีความที่เหมือนกันจึงจะแตกต่างกัน

คำแนะนำเกี่ยวกับวิธีการจัดการกับเรื่องนี้?


ฉันรู้เกี่ยวกับสองสูตรแรกและมันค่อนข้างง่ายที่จะแยกแยะ ฉันไม่เห็นสูตรที่สาม
Peter Flom

คำตอบ:


9

สูตรทั้งสาม

โดยทั่วไปแล้วสามสูตรสำหรับ kurtosis ใช้โดยโปรแกรมที่แตกต่างกัน ฉันจะระบุสูตรทั้งสาม ( ,และ ) และโปรแกรมที่ใช้ G 2 b 2g2G2b2

สูตรแรกและความหมายทั่วไปที่ใช้ในตำราหลาย (นี้เป็นสูตรที่สองในการเชื่อมโยงที่คุณได้ให้) ที่หมายถึงช่วงเวลาตัวอย่าง : mr

g2=m4m22
mr

mr=1n(xix¯)r

บางครั้งคำแก้ไขของ -3 ถูกเพิ่มเข้ากับสูตรนี้เพื่อให้การแจกแจงแบบปกติมี kurtosis เท่ากับ 0 สูตรของ kurtosis ที่มีเงื่อนไขเท่ากับ -3 เรียกว่าเกินกำหนด (สูตรแรกในลิงก์ที่คุณให้ไว้)

สูตรที่สองเป็น (ใช้ SAS, SPSS และ MS Excel นี้เป็นสูตรที่สามในการเชื่อมโยงที่คุณได้ให้)

G2=k4k22=n1(n2)(n3)[(n+1)g2+6]

โดยที่คือ kurtosis ตามที่นิยามไว้ในสูตรแรกg2

สูตรที่สามถูก (ใช้ MINITAB และ BMDP)

b2=m4s43=(n1n)2m4m223

โดยที่คือความแปรปรวนตัวอย่างแบบไม่เอนเอียง :s2

s2=1n1(xix¯)2

ในRkurtosis สามารถคำนวณได้โดยใช้kurtosisฟังก์ชั่นจากe1071แพคเกจ (ลิงค์ที่นี่ ) ตัวเลือกtypeจะกำหนดว่าหนึ่งในสามสูตรที่ใช้สำหรับการคำนวณ (1 = , 2 = , 3 = )G 2 b 2g23G2b2

เหล่านี้สองเอกสารหารือและเปรียบเทียบทั้งสามสูตร: ครั้งแรก , ครั้งที่สอง

สรุปความแตกต่างระหว่างสูตร

  1. การใช้การแจกแจงแบบปกติมีค่า kurtosis เท่ากับ 3 ในขณะที่ในสูตรที่เกี่ยวข้องกับคำการแก้ไข -3 (เช่นและ ) การแจกแจงแบบปกติจะมีค่าความเกิน 0 G 2 b 2g2G2b2
  2. G 2 E ( G 2 ) = 0G2เป็นสูตรเดียวที่ให้ค่าประมาณที่ไม่เอนเอียงสำหรับตัวอย่างปกติ (เช่นความคาดหวังของภายใต้ค่าปกติคือศูนย์หรือ )G2E(G2)=0
  3. สำหรับตัวอย่างขนาดใหญ่ความแตกต่างระหว่างสูตรนั้นเล็กน้อยและตัวเลือกไม่สำคัญมากนัก
  4. สำหรับตัวอย่างเล็ก ๆ จากการแจกแจงแบบปกติความสัมพันธ์ของสามสูตรในแง่ของข้อผิดพลาดกำลังสองเฉลี่ย (MSE)คือ:{2}) ดังนั้นจึงมีขนาดเล็กที่สุดและมากที่สุด (แม้ว่าจะมีเพียงเท่านั้น) นั่นเป็นเพราะมีความแปรปรวนที่ใหญ่ที่สุดของสามสูตร: .g 2 G 2 G 2 G 2 G 2 Var ( b 2 ) < Var ( g 2 ) < Var ( G 2 )mse(g2)<mse(b2)<mse(G2)g2G2G2G2Var(b2)<Var(g2)<Var(G2)
  5. สำหรับตัวอย่างขนาดเล็กจากการแจกแจงแบบไม่ปกติความสัมพันธ์ของสามสูตรในแง่ของอคติคือ:{2}) ในแง่ของการ erorrs ยกกำลังสองเฉลี่ย:{2}) ดังนั้นจึงมีค่าคลาดเคลื่อนกำลังสองน้อยที่สุดและอคติที่น้อยที่สุดของสามสูตร มีข้อผิดพลาดและอคติเฉลี่ยที่ใหญ่ที่สุดmse ( G 2 ) < mse ( g 2 ) < mse ( b 2 ) G 2 b 2bias(G2)<bias(g2)<bias(b2)mse(G2)<mse(g2)<mse(b2)G2b2
  6. สำหรับตัวอย่างขนาดใหญ่ ( ) จากการแจกแจงแบบไม่ปกติn>200ความสัมพันธ์ของสามสูตรในแง่ของอคติคือ:{2}) ในแง่ของการ erorrs ยกกำลังสองเฉลี่ย:{2})mse ( b 2 ) < mse ( g 2 ) < mse ( G 2 )bias(G2)<bias(g2)<bias(b2)mse(b2)<mse(g2)<mse(G2)

ดูเพิ่มเติมที่หน้า Wikipediaและหน้า MathWorldเกี่ยวกับ kurtosis


ฉันจะเรียกสิ่งนี้ว่าการตีความที่ดีและชัดเจนของ "เรื่องปกติ" ฉันจะเพิ่มคำศัพท์ leptokurtic, mesokurtic, platykurtic เป็นเพียงสัมภาระที่เราควรทิ้งไว้ในศตวรรษที่ 20: เรามีมาตรการที่เราควรพิจารณาเชิงปริมาณ ที่สำคัญกว่านั้นการตีความอย่างแหลมคมเมื่อเทียบกับยอดราบก็ไม่ยุติธรรมกับการเปลี่ยนแปลงที่ยิ่งใหญ่ในรูปแบบของการแจกแจงที่เป็นไปได้แม้จะเป็นแบบสมมาตรก็ตาม ในที่สุดความลำเอียงในทางปฏิบัติจะไม่กัดมากนักหากคุณไม่ได้เล่นกับกลุ่มตัวอย่างที่ไม่เหมาะสม แต่ความแปรปรวนนั้นเกิดขึ้นจริง!
Nick Cox

คุณช่วยอธิบายรายการสรุป # 2 ได้ไหม เห็นได้ชัดว่าเป็นสถิติตัวอย่าง แต่เห็นได้ชัดว่ามันไม่เป็นศูนย์เหมือนกันสำหรับการกระจายใด ๆ บางทีคุณอาจจะพูดว่าความคาดหวังมันเป็นศูนย์? (BTW สิ่งที่เป็น " " ในสูตรของตนหรือไม่ บางที?)γ 2 g 2G2γ2g2
whuber

@whuber: ใช่มันเป็นความคาดหวังของที่เป็นศูนย์แน่นอน เป็นแม่ม่ายจากคำตอบก่อนหน้านี้และควรจะ (เปลี่ยนแปลงในขณะนี้); ฉันแก้ไขคำตอบของฉันค่อนข้างหนัก γ 2 g 2G2γ2g2
COOLSerdash

ตกลงดูดีกว่า ฉันจะโหวตมัน แต่หวังว่าในที่สุดคุณจะลบวลีนั้น "สำหรับการแจกแจงแบบปกติ " G2=0
whuber

7

ลิงก์ในคำถามพูดถึง SAS ด้วย แต่ในความเป็นจริงแล้วไม่มีอะไรในคำถามนี้นอกจากอาจเป็นจุดสนใจของผู้โพสต์ จำกัด เฉพาะรายการที่มีชื่อเฉพาะเหล่านั้น

ฉันคิดว่าเราจำเป็นต้องแยกแยะปัญหาที่แตกต่างกันออกไปที่นี่ซึ่งบางเรื่องเป็นภาพลวงตาและบางประเด็นเป็นเรื่องจริง

  1. บางโปรแกรมทำและบางโปรแกรมไม่ลบ 3 เพื่อให้รายงานการวัด kurtosis เป็น 3 สำหรับตัวแปรเกาส์เซียน / ตัวแปรปกติโดยไม่ต้องลบและ 0 ที่มีการลบ ฉันเคยเห็นผู้คนงงงวยว่าบ่อยครั้งที่ความแตกต่างกลายเป็น 2.999 ไม่ใช่ 3

  2. บางโปรแกรมใช้ปัจจัยการแก้ไขที่ออกแบบมาเพื่อให้แน่ใจว่าการประเมินความเคอร์โทซิสโดยปราศจากอคติ ปัจจัยการแก้ไขเหล่านี้เข้าใกล้ 1 เมื่อขนาดตัวอย่างขึ้น เนื่องจากไม่ได้รับการประเมินอย่างดีในกลุ่มตัวอย่างขนาดเล็ก แต่อย่างใดจึงไม่น่าเป็นห่วงn

ดังนั้นจึงมีประเด็นเล็ก ๆ เกี่ยวกับสูตรอยู่ # 1 เป็นข้อตกลงที่ใหญ่กว่า # 2 แต่ทั้งคู่ก็น้อยหากเข้าใจ คำแนะนำอย่างชัดเจนคือดูเอกสารสำหรับโปรแกรมที่คุณใช้และหากไม่มีเอกสารอธิบายรายละเอียดชนิดนั้นให้ละทิ้งโปรแกรมนั้นทันที แต่กรณีทดสอบง่าย ๆ เช่นเดียวกับตัวแปร (1, 2) ให้ผลเป็น kurtosis 1 หรือ 4 ขึ้นอยู่กับอันดับ 1 เพียงอย่างเดียว (โดยไม่มีปัจจัยแก้ไข)

คำถามนั้นถามเกี่ยวกับการตีความ แต่นี่เป็นเรื่องที่เปิดกว้างและเป็นที่ถกเถียงกันมากขึ้น

ก่อนที่เราจะไปยังพื้นที่หลักของการสนทนาปัญหาที่มักจะได้รับการรายงาน แต่ไม่ค่อยเป็นที่รู้จักคือการประมาณค่าเคิร์ตซีนั้นถูก จำกัด ขอบเขตเป็นหน้าที่ของขนาดตัวอย่าง ฉันเขียนรีวิวใน Cox, NJ 2010 ข้อ จำกัด ของความเบ้ตัวอย่างและความโด่ง Stata Journal 10 (3): 482-495 http://www.stata-journal.com/article.html?article=st0204

บทคัดย่อ: ความเบ้และความหนาของตัวอย่างถูก จำกัด ด้วยฟังก์ชั่นขนาดตัวอย่าง ข้อ จำกัด หรือการประมาณของพวกเขาได้รับการค้นพบซ้ำหลายครั้งในช่วงหลายทศวรรษที่ผ่านมา แต่ดูเหมือนว่าจะยังคงเป็นที่รู้จักกันดีเท่านั้น ข้อ จำกัด นี้ให้ความลำเอียงในการประมาณค่าและในกรณีที่รุนแรงหมายความว่าไม่มีตัวอย่างใดที่สามารถเป็นพยานได้จริงถึงการกระจายของผู้ปกครอง ผลลัพธ์หลักถูกอธิบายในบทวิจารณ์การสอนและมันแสดงให้เห็นว่าอาจใช้ Stata และ Mata เพื่อยืนยันและสำรวจผลที่ตามมาได้อย่างไร

ตอนนี้ถึงสิ่งที่ถือกันโดยทั่วไปว่าเป็น nub ของเรื่อง:

หลายคนแปลว่าอาการคอเคซีสเป็นความแหลม แต่บางคนก็เน้นว่ามันมักจะทำหน้าที่เป็นเครื่องวัดน้ำหนักหาง ในความเป็นจริงการตีความทั้งสองอาจเป็นถ้อยคำที่สมเหตุสมผลสำหรับการแจกแจงบางอย่าง แทบจะหลีกเลี่ยงไม่ได้ที่ไม่มีการตีความวาจาอย่างง่ายของภาษาเคิร์ตซีส: ภาษาของเราไม่สมบูรณ์พอที่จะเปรียบเทียบผลรวมของพลังที่สี่ของการเบี่ยงเบนจากค่าเฉลี่ยและผลรวมของพลังที่สองของที่เหมือนกัน

ในคลาสสิกรองลงมาและมักถูกมองข้ามเออร์วิงก์แคปแลนสกี้ (1945a) ดึงความสนใจไปยังสี่ตัวอย่างของการแจกแจงที่มีค่าความแตกต่างของความโด่งและพฤติกรรมที่ไม่สอดคล้องกับการอภิปรายบางเรื่องของคอร์ติส

กระจายทุกคนมีความสมมาตรที่มีค่าเฉลี่ย 0 และความแปรปรวนที่ 1 และมีฟังก์ชั่นความหนาแน่นของตัวแปรและ ,c = xc=π

(1)   (1/3c)(9/4+x4)exp(x2)

(2)   (3/(c8))exp(x2/2)(1/6c)(9/4+x4)exp(x2)

(3)   (1/6c)(exp(x2/4)+4exp(x2))

(4)   (33/16c)(2+x2)exp(3x2/4)

kurtosis (ไม่มีการลบ) คือ (1) 2.75 (2) 3.125 (3) 4.5 (4) 8/3 2.667 : เปรียบเทียบค่าแบบเกาส์หรือค่าปกติ 3 ความหนาแน่นที่ค่าเฉลี่ยคือ (1) 0.423 (2) ) 0.387 (3) 0.470 (4) 0.366: เปรียบเทียบค่า Gaussian ที่ 0.399

เป็นคำแนะนำในการพล็อตความหนาแน่นเหล่านี้ ผู้ใช้ Stata สามารถดาวน์โหลดkaplanskyโปรแกรมของฉันจาก SSC การใช้สเกลลอการิทึมเพื่อความหนาแน่นอาจช่วยได้

ตัวอย่างเหล่านี้จะทำลายเรื่องราวที่เรียบง่ายที่ความโด่งต่ำหรือสูงมีการตีความที่ชัดเจนในแง่ของความแหลมหรือความแตกต่างอื่น ๆ

หากชื่อ Irving Kaplansky ส่งเสียงระฆังอาจเป็นเพราะคุณรู้จักงานของเขาในพีชคณิตสมัยใหม่ เขา (1917-2006) เป็นนักคณิตศาสตร์ชาวแคนาดา (ต่อมาอเมริกัน) และสอนและวิจัยที่ Harvard, Chicago และ Berkeley กับปีสงครามในกลุ่มคณิตศาสตร์ประยุกต์ของสภาป้องกันแห่งชาติที่มหาวิทยาลัยโคลัมเบีย Kaplansky ได้มีส่วนร่วมสำคัญในทฤษฎีกลุ่มทฤษฎีแหวนทฤษฎีของ algebras ผู้ประกอบการและทฤษฎีภาคสนาม เขาเป็นนักเปียโนและนักแต่งเพลงที่ประสบความสำเร็จและ expositor กระตือรือร้นและชัดเจนของคณิตศาสตร์ โปรดทราบถึงการมีส่วนร่วมอื่น ๆ ของความน่าจะเป็นและสถิติโดย Kaplansky (1943, 1945b) และ Kaplansky และ Riordan (1945)

Kaplansky, I. 1943 ลักษณะของการแจกแจงแบบปกติ พงศาวดารของคณิตศาสตร์สถิติ 14: 197-198

Kaplansky, I. 1945a ข้อผิดพลาดทั่วไปที่เกี่ยวข้องกับ kurtosis วารสารสมาคมสถิติอเมริกัน 40: 259 เท่านั้น

Kaplansky, I. 1945b การกระจายซีมโทติคของการวิ่งขององค์ประกอบต่อเนื่อง พงศาวดารของสถิติคณิตศาสตร์ 16: 200-203

Kaplansky, I. และ Riordan, J. 1945. การจับคู่หลายรายการและดำเนินการด้วยวิธีสัญลักษณ์ พงศาวดารของคณิตศาสตร์สถิติ 16: 272-277


1
+1 ความคิดเห็นที่น่าสนใจเกี่ยวกับ Kaplansky ซึ่งฉันทำงานคุ้นเคยกับพีชคณิตมานานแล้ว
whuber

Nick ความเห็นของคุณ "ในความเป็นจริงการตีความทั้งสอง (ความแหลมและความหาง) อาจเป็นถ้อยคำที่สมเหตุสมผลสำหรับการแจกแจงบางอย่าง" ไม่ถูกต้องดังนั้นจึงไม่เป็นประโยชน์เพราะ kurtosis ไม่ได้บอกอะไรคุณเกี่ยวกับ "ความแหลม" คุณสามารถกำหนดความหมายของ "ความแหลม" อย่างจริงจังได้หรือไม่ และถ้าเป็นไปได้ให้ติดตาม: นิยามคำว่า "ความแหลม" ของคุณ (สมมติว่าคุณสามารถทำสิ่งใดสิ่งหนึ่งได้) ความสัมพันธ์ทางคณิตศาสตร์และความโด่งดังของคุณเป็นอย่างไร?
Peter Westfall

@ Peter Westfall ถ้าเราสามารถยอมรับโด่งนั่นคือสิ่งที่โด่งมาตรการแล้วอาร์กิวเมนต์ของฉันเป็นเพียงอาร์กิวเมนต์ Kaplansky ซึ่งจะขึ้นอยู่กับเส้นโค้งที่เป็นรูปธรรมและผลเป็นตัวเลขไม่ได้ซ้อมด้วยวาจาเช่นที่โด่งสูงขึ้นบางครั้งไปกับความหนาแน่นสูงสุดที่สูงขึ้นและตรงกันข้ามสำหรับ kurtosis ลดลง ฉันไม่ได้เป็นบางส่วนของคำที่แหลมและเมื่อจำเป็นต้องลดความซับซ้อนของคำพูดด้วยวาจามักจะยืนยันว่าในการปฏิบัติ kurtosis ส่วนใหญ่เป็นเรื่องของน้ำหนักหาง ฉันคิดว่าสูตรที่นี่ทำทุกอย่างและดำเนินการน้ำหนักเชิงสถิติทั้งหมดและพบว่าการถกเถียงทางวาจามีประโยชน์น้อยกว่า
Nick Cox

นอกจากนี้ฉันไม่สามารถบอกได้ว่าลักษณะใด ๆ ของ kurtosis ง่าย ๆ ยกเว้นการกระจายแบบสมมาตรทั้งหมด ฉันไม่คิดว่าจะมีใครจำเป็นต้องนิยามความเป็นยอดเลย คำจำกัดความที่มีอยู่คือของเคิร์ตซีสและคำถามที่ใช้งานจริงคือวิธีคิดเกี่ยวกับมันและใช้ไปได้ไกลแค่ไหน
Nick Cox

คำกล่าวที่ว่า "เพียงเพราะ kurtosis ไม่ได้บอกคุณเกี่ยวกับความแหลม" นั้นเป็นสิ่งที่ไม่มีเงื่อนไข เอกสารอ้างอิงที่ขาดหายไปจะรวมถึงเอกสารของคุณใน TAS ซึ่งสามารถเข้าถึงได้สำหรับผู้ที่สนใจเพื่อพิจารณาการอภิปรายที่ยาวขึ้นของคุณเอง
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.