ค่าเบี่ยงเบนมาตรฐานของข้อมูลที่ไม่เป็นลบสามารถเกินค่าเฉลี่ยได้หรือไม่


15

ฉันมีตาข่ายสามมิติแบบสามเหลี่ยม สถิติสำหรับพื้นที่สามเหลี่ยมคือ:

  • ต่ำสุด 0.000
  • สูงสุด 2341.141
  • ค่าเฉลี่ย 56.317
  • Std dev 98.720

ดังนั้นมันหมายถึงสิ่งใดที่มีประโยชน์เป็นพิเศษเกี่ยวกับค่าเบี่ยงเบนมาตรฐานหรือแนะนำว่ามีข้อบกพร่องในการคำนวณเมื่อตัวเลขออกมาเหมือนด้านบน? พื้นที่อยู่ไกลจากการกระจายตามปกติอย่างแน่นอน

และเมื่อมีคนพูดถึงคำตอบข้อใดข้อหนึ่งของพวกเขาด้านล่างสิ่งที่ทำให้ฉันประหลาดใจจริง ๆ ก็คือการใช้ SD หนึ่งฉบับจากค่าเฉลี่ยเพื่อให้ตัวเลขติดลบและออกจากโดเมนตามกฎหมาย

ขอบคุณ


4
ในชุดข้อมูลค่าเบี่ยงเบนมาตรฐานตัวอย่างคือในขณะที่ค่าเฉลี่ยคือใกล้เคียงกับที่คุณสังเกต 100 52{2,2,2,202}10052
whuber

5
สำหรับตัวอย่างที่คุ้นเคย (สำหรับบางคน) ค่าเฉลี่ยของคนที่เล่นแบล็คแจ็คเป็นเวลาหนึ่งชั่วโมงอาจเป็นค่าลบ$ 25 แต่ด้วยค่าเบี่ยงเบนมาตรฐานที่บอกว่า $ 100 (ตัวเลขสำหรับภาพประกอบ) ค่าสัมประสิทธิ์การแปรผันขนาดใหญ่นี้ช่วยให้ใครบางคนถูกหลอกให้คิดว่าง่ายกว่าที่เป็นจริง
Michael McGowan

คำถามติดตามเป็นข้อมูลมากเกินไป: วางขอบเขตใน SD ชุด (ข้อมูลไม่เป็นลบ) ที่ได้รับค่าเฉลี่ย
whuber

คำตอบ:


9

ไม่มีอะไรที่ระบุว่าค่าเบี่ยงเบนมาตรฐานจะต้องน้อยกว่าหรือมากกว่าค่าเฉลี่ย รับชุดของข้อมูลที่คุณสามารถให้ความหมายเดียวกัน แต่เปลี่ยนค่าเบี่ยงเบนมาตรฐานการศึกษาระดับปริญญาโดยพลการโดยการเพิ่ม / ลบจำนวนบวกอย่างเหมาะสม

ใช้ชุดข้อมูลตัวอย่างของ @ whuber จากความคิดเห็นของเขาไปยังคำถาม: {2, 2, 2, 202} ตามที่ระบุโดย @whuber: ค่าเฉลี่ยคือ 52 และส่วนเบี่ยงเบนมาตรฐานคือ 100

ตอนนี้รบกวนแต่ละองค์ประกอบของข้อมูลดังนี้: {22, 22, 22, 142} ค่าเฉลี่ยยังคงเป็น 52 แต่ส่วนเบี่ยงเบนมาตรฐานคือ 60


1
หากคุณเพิ่มองค์ประกอบแต่ละรายการคุณเปลี่ยนพารามิเตอร์ตำแหน่งคือค่าเฉลี่ย คุณเปลี่ยนการกระจายตัว (เช่นค่าเบี่ยงเบนมาตรฐาน) โดยการคูณด้วยตัวคูณสเกล
Dirk Eddelbuettel

@DirkEddelbuettel คุณถูกต้อง ฉันแก้ไขคำตอบและให้ตัวอย่างเพื่อความชัดเจน
varty

2
ฉันไม่ทำตามตัวอย่าง ชุดข้อมูลใหม่ไม่ได้มาจากต้นฉบับอย่างชัดเจนโดย "การเพิ่มหรือลบจำนวนบวก" จากค่าดั้งเดิมแต่ละค่า
whuber

3
ฉันไม่สามารถแก้ไขได้เพราะฉันไม่รู้ว่าคุณกำลังพยายามจะพูดอะไร หากคุณพลสามารถเพิ่มค่าแยกต่างหากกับแต่ละตัวเลขในชุดข้อมูลที่คุณเป็นเพียงการเปลี่ยนแปลงหนึ่งชุดของค่าลงชุดที่แตกต่างกันอย่างสมบูรณ์ของnค่า ฉันไม่เห็นว่าเกี่ยวข้องกับคำถามหรือแม้กระทั่งย่อหน้าเปิดของคุณ ฉันคิดว่าทุกคนจะยอมรับว่าการเปลี่ยนแปลงดังกล่าวสามารถเปลี่ยนแปลงค่าเฉลี่ยและ SD แต่ไม่ได้บอกเราว่าเหตุใด SD ของชุดข้อมูลที่ไม่เป็นลบจึงสามารถเป็นค่าบวกหลายค่าได้ nn
whuber

2
คุณถูกต้อง: การยืนยันที่ยกมาเป็นของฉันและมันไม่ปรากฏในคำตอบของคุณ (มันเกิดขึ้นถูกต้องและมีความเกี่ยวข้องแม้ว่า :-) ประเด็นหนึ่งที่ฉันพยายามที่จะแก้ไขคือความสามารถในการเปลี่ยน SD ในขณะที่รักษาความหมายเดียวกันไม่ตอบคำถาม SD สามารถเปลี่ยนแปลงได้เท่าใด (ในขณะที่รักษาข้อมูลทั้งหมดไว้ด้วยไม่เป็นลบ) อีกประเด็นที่ฉันพยายามทำคือตัวอย่างของคุณไม่ได้แสดงให้เห็นถึงกระบวนการทั่วไปที่สามารถคาดการณ์ได้ว่าจะทำการเปลี่ยนแปลงข้อมูลดังกล่าว สิ่งนี้ทำให้ปรากฏโดยพลการซึ่งไม่ได้ช่วยอะไรมาก
whuber

9

แน่นอนว่านี่คือพารามิเตอร์อิสระ คุณสามารถตั้งค่าการสำรวจอย่างง่ายใน R (หรือเครื่องมืออื่นที่คุณอาจต้องการ)

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

ในทำนองเดียวกันคุณทำให้ข้อมูลที่คุณดูเป็นมาตรฐานโดยการลบค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐาน

แก้ไขและต่อไปนี้เป็นความคิดของ @ whuber ต่อไปนี้เป็นชุดข้อมูลที่ไม่มีที่สิ้นสุดซึ่งใกล้เคียงกับการวัดทั้งสี่ของคุณ:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

ฉันไม่แน่ใจว่าฉันเข้าใจประเด็นของคุณ พวกเขาไม่ได้เป็นอิสระอย่างที่คน ๆ หนึ่งสามารถเปลี่ยนค่าเฉลี่ยโดยรบกวนข้อมูลจุดหนึ่งและจึงเปลี่ยนค่าเบี่ยงเบนมาตรฐานเช่นกัน ฉันตีความบางสิ่งผิดไปหรือไม่
varty

การสังเกตว่าพื้นที่สามเหลี่ยมไม่สามารถเป็นค่าลบได้ (ดังที่ยืนยันโดยค่าต่ำสุดที่เสนอในคำถาม) เราหวังว่าจะมีตัวอย่างที่ประกอบด้วยตัวเลขที่ไม่ใช่ลบเท่านั้น
whuber

(+1) การแก้ไขอีกครั้ง: ลองใช้ 536 ซ้ำจาก 52.15 :-)
whuber

Nice one re 536 reps ควรจะได้ทำการค้นหาไบนารี :)
เดิร์ค Eddelbuettel

@ เดิร์ค "เหล่านี้เป็นพารามิเตอร์อิสระ" ให้พิจารณากรณีที่เป็นเบอนูลลี ความแปรปรวนและค่าเฉลี่ยที่ไม่เป็นอิสระ: วีR ( X ) = P ( 1 - P ) พิจารณาตัวแปรสุ่ม 100 > X > 0ความแปรปรวนเป็นไปได้สูงสุดคือ( 50 ) 2ตอนนี้ถ้าคุณบังคับให้ค่าเฉลี่ยจะเท่ากับหนึ่ง (คือต่ำกว่า50 ) ความแปรปรวนสูงสุดที่ไม่สามารถมีค่ามากกว่า99 / 100 * ( 1 ) 2 + (Xvar(X)=p(1p)100>X>0(50)250 2 มีตัวอย่างของตัวแปรขอบเขตในธรรมชาติมากกว่า gaussians หรือไม่ 99/100(1)2+(1/100)992
robin girard

7

ฉันไม่แน่ใจว่าทำไม @Andy รู้สึกประหลาดใจกับผลลัพธ์นี้ แต่ฉันรู้ว่าเขาไม่ได้อยู่คนเดียว และฉันก็ไม่แน่ใจว่าข้อมูลปกติเกี่ยวกับความจริงที่ว่า sd นั้นสูงกว่าค่าเฉลี่ย มันค่อนข้างง่ายในการสร้างชุดข้อมูลที่กระจายตามปกติในกรณีนี้ จริงมาตรฐานปกติมีค่าเฉลี่ย 0, sd ของ 1 มันจะยากที่จะได้รับแจกชุดข้อมูลปกติของค่าบวกทั้งหมดด้วย sd> เฉลี่ย แน่นอนมันไม่ควรเป็นไปได้ (แต่ขึ้นอยู่กับขนาดตัวอย่างและการทดสอบความปกติที่คุณใช้ ... ด้วยตัวอย่างที่มีขนาดเล็กมากสิ่งแปลก ๆ เกิดขึ้น)

อย่างไรก็ตามเมื่อคุณลบการกำหนดมาตรฐานตามปกติเช่น @Andy แล้วไม่มีเหตุผลว่าทำไม sd ควรใหญ่กว่าหรือเล็กกว่าค่าเฉลี่ยถึงแม้จะเป็นค่าบวกทั้งหมด ค่าผิดปกติเพียงครั้งเดียวจะทำเช่นนี้ เช่น

x <- runif (100, 1, 200) x <- c (x, 2000)

ให้ค่าเฉลี่ย 113 และ sd จาก 198 (ขึ้นอยู่กับเมล็ดพันธุ์ของหลักสูตร)

แต่คำถามที่ใหญ่กว่าคือสาเหตุที่ทำให้คนประหลาดใจ

ฉันไม่ได้สอนสถิติ แต่ฉันสงสัยว่าวิธีสอนสถิตินั้นทำให้ความคิดนี้เป็นเรื่องธรรมดา


ฉันไม่เคยเรียนสถิติเพียงสองสามหน่วยของคณิตศาสตร์วิศวกรรมและนั่นคือสามสิบปีที่แล้ว คนอื่น ๆ ในที่ทำงานซึ่งฉันคิดว่าเข้าใจโดเมนได้ดีขึ้นกำลังพูดถึงการแสดงข้อมูลที่ไม่ดีด้วย "จำนวน std devs ห่างจากค่าเฉลี่ย" ดังนั้นมันมากขึ้นเกี่ยวกับ "วิธี dev มาตรฐานเป็นที่กล่าวถึงกันมาก" กว่า "สอน" :-)
แอนดี้บุ๋ม

@Andy มี std จำนวนมากอยู่ห่างจากค่าเฉลี่ยเพียงหมายความว่าตัวแปรไม่แตกต่างจากศูนย์อย่างมีนัยสำคัญ ถ้าอย่างนั้นมันก็ขึ้นอยู่กับบริบท (คือความหมายของตัวแปรสุ่ม) แต่ในบางกรณีคุณอาจต้องการลบมัน?
robin girard

@ ปีเตอร์เห็นความคิดเห็นของฉันที่จะเดิร์คนี้อาจอธิบายถึง "ความประหลาดใจ" ในบางบริบท ที่จริงฉันสอนสถิติมาระยะหนึ่งแล้วและฉันไม่เคยเห็นความประหลาดใจที่คุณพูดถึง อย่างไรก็ตามฉันชอบนักเรียนที่ประหลาดใจกับทุกสิ่งที่ฉันค่อนข้างแน่ใจว่านี่เป็นตำแหน่งญาณวิทยาที่ดี (ดีกว่าเป็นลมไปในตำแหน่งที่ไม่แปลกใจเลย :)
robin girard

@ สำหรับฉันข้อมูล "ไม่ดี" หมายถึงข้อมูลที่บันทึกไว้ไม่ถูกต้อง ข้อมูลที่อยู่ไกลจากค่าเฉลี่ยคือค่าผิดปกติ ตัวอย่างเช่นสมมติว่าคุณกำลังวัดความสูงของผู้คน หากคุณวัดฉันและบันทึกส่วนสูงของฉันเป็น 7'5 'แทนที่จะเป็น 5'7 นั่นเป็นข้อมูลที่ไม่ดี หากคุณวัดเหยาหมิงและบันทึกความสูงของเขาเป็น 7'5 "นั่นเป็นข้อมูลที่ไม่ดี แต่ไม่เลวโดยไม่คำนึงถึงความจริงที่ว่ามันอยู่ไกลจากค่าเฉลี่ย (เช่น 6 sds)
Peter Flom - Reinstate Monica

@Peter Florn ในกรณีของเราเรามีค่าผิดปกติที่เราต้องการกำจัดเพราะเป็นสามเหลี่ยมซึ่งจะทำให้เกิดปัญหาอัลกอริทึมในการประมวลผลตาข่าย พวกเขาอาจเป็น "ข้อมูลที่ไม่ดี" ในแง่ของคุณหากพวกเขาถูกสร้างขึ้นโดยอุปกรณ์สแกนที่ผิดพลาดหรือการแปลงจากรูปแบบอื่น :-) รูปร่างอื่น ๆ อาจมีค่าผิดปกติซึ่งเป็นวิธีที่ถูกต้องตามกฎหมาย แต่ไม่ใช่ปัญหา อีกสิ่งหนึ่งที่น่าสนใจเกี่ยวกับข้อมูลนี้คือเรามี "ข้อมูลที่ไม่ดี" ที่ปลายทั้งสอง แต่สิ่งเล็ก ๆ อยู่ไม่ไกลจากค่าเฉลี่ย
Andy Dent

6

เพียงแค่เพิ่มจุดทั่วไปที่จากมุมมองแคลคูลัส และ x 2 f ( x ) d x เกี่ยวข้องโดยความไม่เท่าเทียมของ Jensenสมมติว่าอินทิกรัลทั้งสองมีอยู่ x 2 f ( x ) d x { x f ( x ) d x } 2

x(x)dx
x2(x)dx
เมื่อพิจารณาความไม่เท่าเทียมทั่วไปนี้ไม่มีสิ่งใดขัดขวางความแปรปรวนที่จะเกิดขึ้นโดยพลการ พยานแจกแจงทีของนักเรียนที่มี νองศาอิสระ X ~ T ( ν , μ , σ ) และใช้ Y = | X | ซึ่งช่วงเวลาที่สองนั้นเหมือนกับช่วงเวลาที่สองของ X , E [ | X | 2 ] = ν
x2f(x)dx{x(x)dx}2.
ν
X~T(ν,μ,σ)
Y=|X|X เมื่อν>2 ดังนั้นมันจะไปอินฟินิตี้เมื่อνลงไป2ในขณะที่ค่าเฉลี่ยของYยังคง จำกัด ตราบเท่าที่ν>1
E[|X|2]=νν-2σ2+μ2,
ν>2ν2Yν>1

1
โปรดทราบข้อ จำกัด ที่ชัดเจนเกี่ยวกับค่าที่ไม่ใช่ค่าลบในคำถาม
whuber

ตัวอย่างของนักเรียนจะได้รับการแปลเป็นตัวอย่างการแจกแจงค่าสัมบูรณ์ของ a-Student อย่างง่ายดาย ...
ซีอาน

1
แต่นั่นเป็นการเปลี่ยนแปลงค่าเฉลี่ยของหลักสูตร :-) คำถามเกี่ยวกับความสัมพันธ์ระหว่าง SD และค่าเฉลี่ย (ดูชื่อเรื่อง) ฉันไม่ได้บอกว่าคุณผิด ฉันแค่ (โดยปริยาย) แนะนำว่าคำตอบของคุณทำได้ด้วยการทำงานเพียงเล็กน้อยตอบคำถามได้โดยตรง
whuber

@whuber: ตกลงฉันแก้ไขข้างต้นเพื่อพิจารณาค่าสัมบูรณ์ (ฉันยังได้รับค่าเฉลี่ยของค่าสัมบูรณ์ แต่ <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> มันค่อนข้างungainly </ a> ... )
ซีอาน

3

บางที OP รู้สึกประหลาดใจที่ค่าเฉลี่ย - 1 SD เป็นจำนวนลบ (โดยเฉพาะเมื่อค่าต่ำสุดคือ 0)

ต่อไปนี้เป็นสองตัวอย่างที่อาจทำให้ชัดเจน

สมมติว่าคุณมีนักเรียนระดับประถมศึกษาปีแรก 20 คนที่อายุ 18 ปี 6 ปี, 1 คือ 5, และ 1 คือ 7 ตอนนี้เพิ่มในครู 49 ปี อายุเฉลี่ยคือ 8.0 ในขณะที่ค่าเบี่ยงเบนมาตรฐานคือ 9.402

คุณอาจจะคิดว่า: ช่วงเบี่ยงเบนมาตรฐานหนึ่งช่วงสำหรับคลาสนี้มีช่วงตั้งแต่ -1.402 ถึง 17.402 ปี คุณอาจประหลาดใจที่ SD มีอายุติดลบซึ่งดูไม่สมเหตุสมผล

คุณไม่ต้องกังวลเกี่ยวกับอายุเชิงลบ (หรือแปลง 3 มิติที่ขยายน้อยกว่าขั้นต่ำ 0.0) โดยสังหรณ์ใจคุณยังมีประมาณสองในสามของข้อมูลภายใน 1 SD ของค่าเฉลี่ย (คุณมีข้อมูล 95% ภายใน 2 SD ของค่าเฉลี่ย)

เมื่อข้อมูลเกิดการกระจายที่ไม่ปกติคุณจะเห็นผลลัพธ์ที่น่าประหลาดใจเช่นนี้

ตัวอย่างที่สอง ในหนังสือของเขาFooled by Randomness นาสซิมทาเลบได้ทำการทดลองทางความคิดของนักธนูยิงธนูที่ปิดตาที่กำแพงที่มีความยาวไม่เท่ากัน นักธนูสามารถถ่ายภาพได้ระหว่าง +90 องศาถึง -90 องศา

ทุกครั้งที่ยิงธนูจะยิงลูกศรขนานกับผนังและมันจะไม่ตี พิจารณาว่าลูกศรนั้นพลาดเป้าหมายไปเท่าใดเมื่อเป็นการกระจายตัวของตัวเลข ส่วนเบี่ยงเบนมาตรฐานสำหรับสถานการณ์นี้จะเป็น inifinte


กฎประมาณ 2/3 ของข้อมูลภายใน 1 SD ของค่าเฉลี่ยสำหรับข้อมูลปกติ แต่ข้อมูลในห้องเรียนนั้นไม่ปกติ (แม้ว่าจะผ่านการทดสอบเพื่อความปกติเพราะมีขนาดตัวอย่างน้อย) ตัวอย่างของ Taleb นั้นแย่มาก มันเป็นตัวอย่างของการใช้งานตัวแปรที่ไม่ดี ดำเนินการตามที่เป็นอยู่ค่าเฉลี่ยและค่า SD จะไม่มีที่สิ้นสุด แต่นั่นเป็นเรื่องไร้สาระ "ลูกศรหายไปไกลแค่ไหน" สำหรับฉันนั่นคือระยะทาง ลูกศรไม่ว่ามันจะถูกไล่ออกจะลงจอดที่ไหนซักแห่ง วัดระยะทางจากที่นั่นไปยังเป้าหมาย ไม่มีที่สิ้นสุดอีกแล้ว
Peter Flom - Reinstate Monica

1
ใช่แล้ว OP รู้สึกประหลาดใจอย่างมากในครั้งแรกที่ฉันเห็นค่าเฉลี่ย - 1 SD เป็นค่าลบที่ฉันเขียนชุดการทดสอบหน่วยใหม่ทั้งหมดโดยใช้ข้อมูลจาก Excel เพื่อยืนยันอย่างน้อยอัลกอริทึมของฉันคำนวณค่าเดียวกัน เพราะ Excel ต้องเป็นแหล่งที่เชื่อถือได้ใช่ไหม
Andy Dent

@Peter กฎ 2/3 (ส่วนหนึ่งของกฎ 68-95-99.7%) เป็นสิ่งที่ดีสำหรับชุดข้อมูลที่หลากหลายซึ่งส่วนใหญ่ไม่ใช่ชุดปกติและแม้แต่ชุดที่เบ้ปานกลาง (กฎค่อนข้างดีสำหรับ datsets สมมาตร) ความไม่ไร้ขีด จำกัด ของ SD และค่าเฉลี่ยไม่ใช่ "ไร้สาระ" ตัวอย่างของ Taleb เป็นหนึ่งในไม่กี่สถานการณ์ที่ไม่ได้มีการวางแผนการแจกจ่าย Cauchy อย่างชัดเจนควบคุมกระบวนการสร้างข้อมูล อนันต์ของ SD ไม่ได้มาจากความเป็นไปได้ที่จะหายไปจากกำแพง แต่จากการกระจายของความนิยมที่เกิดขึ้นจริง
whuber

1
@ เมื่อไรฉันรู้จุดแรกของคุณซึ่งเป็นจุดที่ดี ฉันไม่เห็นด้วยเกี่ยวกับประเด็นที่สองของคุณอีก Taleb ดูเหมือนว่าฉันจะเป็นตัวอย่างที่วางแผนไว้
Peter Flom - Reinstate Monica

3

X

X(x)=βαΓ(α)xα-1อี-βxผม(0,)(x),
α,β>0ม.>0s>0ม.>sม.<sα=ม.2/s2β=ม./s2XE[X]=α/β=ม.Var[X]=α/β2=sXmsRm>sm<s
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

x¯σx[0,c]nn1

σxx¯(cx¯)c2
x¯>c/2σxσx=c/20cσx<x¯x¯<c/2σxmin{x¯,cx¯}{X<0}{X>c}

4
ฉันไม่คิดว่าคำถามคือชุดข้อมูลนั้นเป็นเรื่องปกติหรือไม่ มันไม่ใช่กฎเกณฑ์ที่ระบุไว้ คำถามเกี่ยวข้องว่าอาจมีข้อผิดพลาดบางอย่างเกิดขึ้นในการคำนวณค่าเบี่ยงเบนมาตรฐานหรือไม่เนื่องจาก OP รู้สึกประหลาดใจที่แม้ในชุดข้อมูลที่ไม่ธรรมดานี้ SD ก็มีขนาดใหญ่กว่าค่าเฉลี่ยมาก หากไม่มีข้อผิดพลาดสิ่งใดที่สามารถสรุปได้จากสัมประสิทธิ์การเปลี่ยนแปลงขนาดใหญ่เช่นนี้?
whuber

9
คำตอบหรือความคิดเห็นใด ๆ ที่อ้างว่าค่าเฉลี่ยและ sd ของชุดข้อมูลนั้นไม่เกี่ยวข้องอย่างไม่ถูกต้องเพราะทั้งคู่เป็นฟังก์ชั่นของข้อมูลเดียวกันและทั้งคู่จะเปลี่ยนแปลงเมื่อใดก็ตามที่มีการเปลี่ยนแปลงค่าข้อมูลเดียว คำพูดนี้แสดงถึงเสียงสะท้อนที่คล้ายกันซึ่งเป็นจริง (แต่ไม่เกี่ยวข้องมากกับคำถามปัจจุบัน) กล่าวคือค่าเฉลี่ยตัวอย่างและกลุ่มตัวอย่างของข้อมูลที่ดึงขึ้นมาจากการแจกแจงแบบปกตินั้นเป็นอิสระ (ในแง่ที่น่าจะเป็น)
whuber

1

สิ่งที่คุณคิดโดยปริยายคือช่วงเวลาการทำนายที่จะ จำกัด การเกิดขึ้นของการสังเกตใหม่ การจับคือ: คุณต้องยืนยันการกระจายทางสถิติที่สอดคล้องกับความจริงที่ว่าการสังเกตของคุณ (พื้นที่สามเหลี่ยม) ต้องไม่เป็นลบ ปกติจะไม่ช่วย แต่บันทึกปกติอาจใช้ได้ ในแง่การปฏิบัติใช้บันทึกของพื้นที่ที่สังเกตคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานสร้างช่วงเวลาการทำนายโดยใช้การแจกแจงแบบปกติและประเมินค่าเอ็กซ์โพเนนเชียลสำหรับขีด จำกัด ล่างและบนในที่สุด ค่าเฉลี่ยและรับประกันว่าจะไม่ต่ำกว่าศูนย์ นี่คือสิ่งที่ฉันคิดว่า OP จริง ๆ มีอยู่ในใจ


0

Felipe Nievinski ชี้ไปที่ปัญหาจริงที่นี่ มันไม่มีเหตุผลที่จะพูดในเงื่อนไขการแจกแจงแบบปกติเมื่อการแจกแจงไม่ชัดเจนว่าเป็นการแจกแจงแบบปกติ ค่าบวกทั้งหมดที่มีค่าเฉลี่ยค่อนข้างเล็กและค่าเบี่ยงเบนมาตรฐานที่ค่อนข้างใหญ่ไม่สามารถมีการแจกแจงแบบปกติ ดังนั้นภารกิจคือการพิจารณาว่าการกระจายแบบใดที่เหมาะกับสถานการณ์ โพสต์ต้นฉบับแสดงให้เห็นว่ามีการแจกแจงแบบปกติ (หรือบางอย่าง) อยู่ในใจอย่างชัดเจน มิฉะนั้นตัวเลขติดลบจะไม่เกิดขึ้น เข้าสู่ระบบปกติ, Rayleigh, Weibull มาถึงใจ ... ฉันไม่รู้ แต่สงสัยว่าอะไรจะดีที่สุดในกรณีเช่นนี้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.