ช่วงของค่าความเบ้และความโด่งสำหรับการแจกแจงแบบปกติ


11

ฉันต้องการที่จะรู้ว่าอะไรคือช่วงของค่าความเบ้และความโด่งซึ่งข้อมูลถูกพิจารณาว่ามีการแจกจ่ายตามปกติ

ฉันได้อ่านข้อโต้แย้งมากมายและส่วนใหญ่ฉันได้คำตอบที่หลากหลาย บางคนบอกว่าสำหรับความเบ้และสำหรับ kurtosis เป็นช่วงที่ยอมรับได้สำหรับการกระจายตามปกติ บางคนบอกว่า(-1.96,1.96)สำหรับความเบ้เป็นช่วงที่ยอมรับได้ ฉันพบการสนทนาอย่างละเอียดที่นี่: อะไรคือช่วงของความเบ้และ kurtosis ที่ยอมรับได้สำหรับการกระจายข้อมูลปกติเกี่ยวกับปัญหานี้ แต่ฉันไม่พบคำสั่งเด็ดขาดใด ๆ( - 2 , 2 )(1,1)(2,2)(1.96,1.96)

พื้นฐานสำหรับการตัดสินใจช่วงเวลาดังกล่าวคืออะไร? นี่เป็นตัวเลือกส่วนตัวหรือไม่? หรือมีคำอธิบายทางคณิตศาสตร์เบื้องหลังช่วงเวลาเหล่านี้หรือไม่?


3
อะไรหรือใครเป็นผู้กำหนด "ที่ยอมรับได้"?
Glen_b -Reinstate Monica

นั่นเป็นคำถามที่ดี ฉันไม่มีคำตอบที่ชัดเจนสำหรับเรื่องนี้
Dark_Knight

ฉันถูกต้องในการคิดที่วางไว้ข้างหลังคำถามของคุณเป็นวิธีการโดยนัยบางอย่างตามแนวของ: "ก่อนที่จะประเมินรูปแบบนี้ / ทำการทดสอบนั้นตรวจสอบความเบ้ตัวอย่างและ kurtosis ตัวอย่างถ้าทั้งคู่อยู่ในช่วงที่กำหนดไว้ล่วงหน้า ขั้นตอนทฤษฎีปกติมิฉะนั้นจะใช้อย่างอื่น " ... ?
Glen_b -Reinstate Monica

ถ้าเป็นเช่นนั้นอะไรคือขั้นตอน - กับ - ปกติ - สมมติฐานที่คุณอาจใช้วิธีการดังกล่าวหรือไม่ คุณจะตรวจสอบตัวแปรอะไรบ้าง อะไรคือวิธีการทางเลือกที่คุณใช้หากคุณสรุปว่าเป็นเกณฑ์ที่ยอมรับไม่ได้?
Glen_b -Reinstate Monica

นอกจากนี้ - และสิ่งนี้อาจมีความสำคัญต่อบริบทโดยเฉพาะอย่างยิ่งในกรณีที่มีการเสนอเหตุผลบางอย่างสำหรับการเลือกขอบเขต - คุณสามารถใส่เครื่องหมายอัญประกาศใด ๆ ที่มีช่วงเช่นนี้มาจากที่คุณได้รับ (โดยเฉพาะในช่วงที่แนะนำ แตกต่างกัน)? สิ่งหนึ่งที่จะเป็นประโยชน์ในการรู้จากบริบทดังกล่าว - พวกเขาใช้สถานการณ์แบบนี้ในสถานการณ์อะไร
Glen_b -Reinstate Monica

คำตอบ:


6

โพสต์ต้นฉบับคิดถึงจุดสำคัญสองสามข้อ: (1) ไม่สามารถกระจาย "ข้อมูล" ได้ตามปกติ ข้อมูลไม่ต่อเนื่อง คำถามที่ถูกต้องคือ "เป็นกระบวนการที่ทำให้ข้อมูลเป็นกระบวนการที่กระจายตามปกติหรือไม่" แต่ (2) คำตอบของคำถามที่สองนั้นมักจะเป็น "ไม่" ไม่ว่าการทดสอบทางสถิติหรือการประเมินอื่น ๆ จะขึ้นอยู่กับข้อมูลใด กระบวนการกระจายแบบปกติจะสร้างข้อมูลที่มีความต่อเนื่องไม่สิ้นสุดสมมาตรที่สมบูรณ์แบบและความน่าจะเป็นที่ระบุอย่างแม่นยำภายในช่วงเบี่ยงเบนมาตรฐาน (เช่น 68-95-99.7) ซึ่งไม่เคยเป็นจริงอย่างแน่นอนสำหรับกระบวนการที่ก่อให้เกิดข้อมูลที่เราสามารถวัดได้ อุปกรณ์วัดที่มนุษย์เราสามารถใช้ได้

ดังนั้นคุณจึงไม่สามารถพิจารณาข้อมูลที่จะแจกจ่ายได้ตามปกติและคุณไม่สามารถพิจารณากระบวนการที่ผลิตข้อมูลให้เป็นกระบวนการที่กระจายตามปกติได้อย่างแม่นยำ แต่ตามที่ Glen_b ระบุไว้อาจไม่สำคัญมากนักทั้งนี้ขึ้นอยู่กับว่าคุณพยายามทำอะไรกับข้อมูล

สถิติความเบ้และความรุนแรงสามารถช่วยคุณประเมินความเบี่ยงเบนบางประเภทจากความเป็นมาตรฐานของกระบวนการสร้างข้อมูลของคุณ พวกเขาเป็นสถิติที่แปรปรวนอย่างมาก ข้อผิดพลาดมาตรฐานที่ให้ไว้ข้างต้นไม่มีประโยชน์เนื่องจากข้อผิดพลาดเหล่านี้ใช้ได้เฉพาะภายใต้ภาวะปกติซึ่งหมายความว่าเป็นประโยชน์สำหรับการทดสอบภาวะปกติเท่านั้น มันจะเป็นการดีกว่าถ้าใช้ bootstrap เพื่อค้นหา se แม้ว่าจะต้องใช้ตัวอย่างจำนวนมากเพื่อให้ได้ se ที่ถูกต้อง

นอกจากนี้การตีความยังง่ายมากเมื่อเทียบกับการโพสต์ข้างต้น เป็นค่าเฉลี่ย (หรือค่าที่คาดหวัง) ของค่า Z ซึ่งแต่ละค่าจะถูกนำไปใช้กับพลังที่สี่ ใหญ่ | Z | ค่าเป็นค่าผิดปกติและมีส่วนอย่างมากต่อความรุนแรง ขนาดเล็ก | Z | ค่าที่ "ยอด" ของการกระจายคือให้ค่า Z ^ 4 ที่มีขนาดเล็กและไม่มีส่วนสำคัญในการ kurtosis ฉันได้พิสูจน์ในบทความของฉันแล้วhttps://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/ว่าความสามารถในการรับรู้ของ kurtosis นั้นดีกว่าค่าเฉลี่ยของ Z ^ 4 * I (| Z |> 1) ดังนั้นความสามารถในการวัดค่าความชอบของกระบวนการสร้างข้อมูลเพื่อผลิตค่าผิดปกติ


เพื่อล้างออกคุณหมายถึงอะไรโดย "กระบวนการกระจายปกติ" ฉันได้สิ่งที่คุณพูดเกี่ยวกับความไม่ต่อเนื่องและความต่อเนื่องของตัวแปรสุ่ม แต่แล้วสมมติฐานเกี่ยวกับการแจกแจงแบบปกติที่สามารถทำได้โดยใช้ทฤษฎีลิมิตเซ็นทรัล
Dark_Knight

CLT ไม่เกี่ยวข้องที่นี่ - เรากำลังพูดถึงการกระจายที่สร้างค่าข้อมูลส่วนบุคคลไม่ใช่ค่าเฉลี่ย "กระบวนการกระจายปกติ" เป็นกระบวนการที่สร้างตัวแปรสุ่มกระจายตามปกติ เครื่องสร้างตัวเลขสุ่มแบบปกติที่สมบูรณ์แบบจะเป็นตัวอย่าง (สิ่งนั้นไม่มีอยู่จริง แต่มันก็ค่อนข้างดีในซอฟต์แวร์ที่เราใช้)
Peter Westfall

นอกจากนี้เนื่องจากไม่มีกระบวนการใดที่สร้างข้อมูลที่เราสามารถวิเคราะห์ได้เป็นกระบวนการปกติจึงเป็นไปตามที่การแจกแจงค่าเฉลี่ยที่เกิดขึ้นจากกระบวนการใด ๆ นั้นไม่เคยเป็นเรื่องปกติอย่างแน่นอนโดยไม่คำนึงถึงขนาดตัวอย่าง แต่ใช่การแจกแจงของค่าเฉลี่ยดังกล่าวอาจใกล้เคียงกับการแจกแจงแบบปกติตาม CLT ความใกล้ชิดของการแจกแจงแบบปกติขึ้นอยู่กับ (i) ขนาดตัวอย่างและ (ii) ระดับของความไม่ปกติของกระบวนการสร้างข้อมูลที่สร้างค่าข้อมูลแต่ละค่า
Peter Westfall

4
สวัสดีปีเตอร์ - คุณสามารถหลีกเลี่ยงการอ้างอิงเช่น "ข้างต้น" เพราะลำดับการจัดเรียงจะเปลี่ยนไป สิ่งที่เหนือกว่าสำหรับคุณอาจไม่เหมาะสำหรับบุคคลถัดไปที่จะมองหา หากคุณหมายถึงโพสต์ของ gung หรือโพสต์ของฉัน (ยังอยู่ในการแก้ไขเนื่องจากฉันกำลังทำงานในหลาย ๆ ด้าน) คุณสามารถระบุได้โดยผู้เขียน
Glen_b -Reinstate Monica

ดูเหมือนว่าคุณจะเห็นด้วยว่าการที่ความเชื่อที่สูงกว่านั้นหมายถึงแนวโน้มที่สูงกว่าในการผลิตผิดปกติ หากคุณไม่ได้กำหนดค่าผิดปกติอย่างจริงจัง (เช่นเพื่อทำให้การเรียกร้องเป็นจริง) นี่ไม่ใช่คำสั่งที่เป็นจริงในกรณีทั่วไป ตัวอย่างเช่นมันเป็นเรื่องง่ายที่จะสร้างคู่ของการแจกแจงที่หนึ่งที่มีหางที่หนักกว่ามีความหนาต่ำกว่า
Glen_b -Reinstate Monica

5

สิ่งที่คุณดูเหมือนจะขอจากที่นี่คือข้อผิดพลาดมาตรฐานสำหรับความเบ้และความโด่งของตัวอย่างที่ดึงมาจากประชากรปกติ โปรดทราบว่ามีหลายวิธีในการประเมินสิ่งต่าง ๆ เช่นความเบ้หรือไขมันหาง (kurtosis) ซึ่งจะส่งผลกระทบอย่างชัดเจนต่อข้อผิดพลาดมาตรฐาน มาตรการทั่วไปที่ผู้คนคิดว่าเป็นที่รู้จักกันในทางเทคนิคว่าเป็นช่วงเวลามาตรฐานที่ 3 และ 4

ควรพิจารณาถึงความซับซ้อนของการวัดเหล่านี้ สถิติความเบ้ทั่วไปไม่ได้วัดความสมมาตรในวิธีที่ผู้คนสงสัย (cf นี่ ) kurtosis สามารถซับซ้อนยิ่งขึ้น มันมีช่วงที่เป็นไปได้จากที่กระจายปกติมีความโด่งของ3เป็นผลให้คนมักจะใช้ "โด่งเกิน" ซึ่งเป็น3 จากนั้นช่วงคือinfty) อย่างไรก็ตามในทางปฏิบัติ kurtosis นั้น จำกัด จากด้านล่างโดยและจากข้างบนด้วยฟังก์ชันขนาดตัวอย่างของคุณ (ประมาณ ) นอกจากนี้เคิร์ตซีสก็ตีความได้ยากกว่าเมื่อความเบ้ไม่ใช่[1,)3kurtosis3[2,)skewness2+124/N0 . ข้อเท็จจริงเหล่านี้ทำให้ใช้งานได้ยากกว่าที่ผู้คนคาดหวัง

สำหรับสิ่งที่คุ้มค่าข้อผิดพลาดมาตรฐานคือ:

SE(skewness)=6N(N1)(N2)(N+1)(N+3)SE(kurtosis)=2×SE(skewness)N21(N3)(N+5)

การแยกแยะประเด็นว่าเราสามารถแยกแยะความเบ้และความโด่งของตัวอย่างของเราจากสิ่งที่คาดหวังจากประชากรปกติหรือไม่คุณสามารถถามว่าค่าเบี่ยงเบนจากเป็นเท่าใด กฎของหัวแม่มือที่ฉันเคยได้ยิน (สำหรับสิ่งที่พวกเขามีค่า) โดยทั่วไปคือ: 0

  • <|.5|เล็ก
  • [|.5|,|1|)สื่อ
  • |1|ใหญ่

ภาพรวมเบื้องต้นที่ดีของความเบ้และความโด่งสามารถพบได้ที่นี่


3

[ในสิ่งต่อไปนี้ฉันสมมติว่าคุณกำลังเสนออะไรเช่น "ตรวจสอบความเบ้ตัวอย่างและความโด่งถ้าทั้งคู่อยู่ในช่วงที่กำหนดไว้ล่วงหน้าให้ใช้ขั้นตอนทฤษฎีทั่วไปบางอย่างมิฉะนั้นจะใช้อย่างอื่น"]

มีโฮสต์ของแง่มุมนี้เราจะมีพื้นที่สำหรับการพิจารณาเพียงไม่กี่อย่างเท่านั้น ฉันจะเริ่มต้นด้วยการระบุสิ่งที่ฉันคิดว่าประเด็นสำคัญอาจจะดูก่อนที่จะกระโจนเข้าสู่การใช้เกณฑ์เช่นนี้ ฉันจะพยายามกลับมาเขียนสิ่งต่าง ๆ เล็กน้อยในภายหลัง:

ประเด็นที่ต้องพิจารณา

  1. ความไม่หลากหลายประเภทต่าง ๆ จะเลวร้ายแค่ไหนกับสิ่งที่เรากำลังทำอยู่?

  2. มันยากแค่ไหนที่จะรับความเบี่ยงเบนเหล่านั้นโดยใช้ช่วงบนความเบ้ตัวอย่างและความโด่ง

    สิ่งหนึ่งที่ผมเห็นด้วยกับข้อเสนอ - มันมีลักษณะที่คู่ของมาตรการที่เกี่ยวข้องกับขนาดของผล (เป็นเท่าใดการเบี่ยงเบนจากปกติ) มากกว่าอย่างมีนัยสำคัญ ในแง่นั้นมันจะเข้าใกล้การพูดถึงบางสิ่งที่มีประโยชน์ซึ่งการทดสอบสมมติฐานอย่างเป็นทางการจะทำให้มีแนวโน้มที่จะปฏิเสธแม้แต่การเบี่ยงเบนเล็กน้อยที่ขนาดกลุ่มตัวอย่างขนาดใหญ่ในขณะที่เสนอการปลอบใจที่ไม่ถูกปฏิเสธ ตัวอย่างขนาดเล็ก (การทดสอบสมมติฐานตอบคำถามที่ผิดที่นี่)

    แน่นอนว่าขนาดกลุ่มตัวอย่างขนาดเล็กยังคงเป็นปัญหาในแง่ที่ว่ามาตรการดังกล่าว "รบกวน" ดังนั้นเราจึงยังคงสามารถหลงทางได้ (ความมั่นใจจะช่วยให้เราเห็นว่ามันเลวร้ายจริง ๆ )

    มันไม่ได้บอกเราว่าความเบี่ยงเบนของความเบ้หรือความโด่งนั้นเกี่ยวข้องกับปัญหาที่เกิดขึ้นกับอะไรก็ตามที่เราต้องการให้เป็นเรื่องปกติและกระบวนการที่แตกต่างกันอาจแตกต่างกันมาก

    มันไม่ได้ช่วยอะไรเราถ้าการเบี่ยงเบนจากภาวะปกติเป็นแบบที่ความเบ้และความโด่งจะตาบอด

  3. หากคุณใช้สถิติตัวอย่างเหล่านี้เป็นพื้นฐานในการตัดสินใจระหว่างสองขั้นตอนผลกระทบต่อคุณสมบัติของการอนุมานที่เกิดขึ้น (เช่นการทดสอบสมมติฐานระดับนัยสำคัญและอำนาจของคุณเป็นอย่างไรเช่นนี้?)

  4. มีจำนวนอนันต์ของการแจกแจงที่มีความเบ้และความเหมือนกันเหมือนกับการแจกแจงแบบปกติ แต่ไม่ธรรมดาอย่างชัดเจน พวกเขาไม่จำเป็นต้องสมมาตรด้วยซ้ำ! การมีอยู่ของสิ่งต่าง ๆ ส่งผลต่อการใช้งานของกระบวนการดังกล่าวอย่างไร องค์กรถึงวาระจากจุดเริ่มต้นหรือไม่?

  5. คุณเห็นความแปรปรวนของตัวอย่างความเบ้และความโด่งเป็นอย่างไรในตัวอย่างที่มาจากการแจกแจงแบบปกติ (สัดส่วนตัวอย่างปกติเราจะสิ้นสุดโดยการออกกฎบางอย่าง?)

    [ในส่วนนี้ปัญหาเกี่ยวข้องกับสิ่งที่ gung พูดถึงในคำตอบของเขา]

  6. อาจมีบางสิ่งที่ดีกว่าที่จะทำแทนหรือไม่?

ในที่สุดหากหลังจากพิจารณาปัญหาเหล่านี้ทั้งหมดแล้วเราตัดสินใจว่าเราควรดำเนินการต่อและใช้แนวทางนี้เราจะได้รับการพิจารณาจากคำถามของคุณ:

  1. อะไรคือขอบเขตที่ดีที่จะวางบนความเบ้และความหนาของขั้นตอนต่าง ๆ ? เราต้องการตัวแปรอะไรบ้างที่ต้องกังวลเกี่ยวกับกระบวนการใด

    (เช่นหากเรากำลังถดถอยโปรดทราบว่ามันไม่ถูกต้องที่จะจัดการกับ IV ใด ๆ และแม้กระทั่ง DV ดิบด้วยวิธีนี้ - ไม่มีสิ่งใดที่สันนิษฐานว่ามาจากการแจกแจงแบบปกติทั่วไป)


ฉันจะกลับมาและเพิ่มความคิดบางอย่าง แต่ความเห็น / คำถามที่คุณมีในระหว่างนี้อาจมีประโยชน์


ที่จริงฉันมีคำถามในการสอบของฉันที่ระบุสำหรับค่าความเบ้และความโด่งที่ระบุสิ่งที่สามารถพูดเกี่ยวกับความปกติของการกระจาย? ฉันไม่แน่ใจเป็นพิเศษหากทำข้อสรุปใด ๆ โดยยึดตามตัวเลขสองตัวนี้เป็นความคิดที่ดีเพราะฉันได้เห็นหลายกรณีที่ค่าความเบ้และความโด่งเป็นและยังคงมีการกระจายตัวที่แตกต่างจากปกติ 0
Dark_Knight

และฉันก็ไม่เข้าใจเช่นกันว่าเพราะเหตุใดเราจึงต้องการค่าที่เฉพาะเจาะจงสำหรับความเบ้ & ความโด่งในการทดสอบตามปกติ
Dark_Knight
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.