ฉันสามารถสร้างการแจกแจงแบบปกติจากขนาดตัวอย่างและค่า min และ max ได้หรือไม่ ฉันสามารถใช้จุดกึ่งกลางเพื่อกำหนดค่าเฉลี่ยของพร็อกซี


14

ฉันรู้ว่านี่อาจจะเป็นค่าเช่าเล็กน้อยสถิติ แต่นี่เป็นปัญหาของฉัน

ฉันมีข้อมูลช่วงจำนวนมากกล่าวคือขนาดต่ำสุดสูงสุดและตัวอย่างของตัวแปร สำหรับข้อมูลเหล่านี้บางส่วนฉันก็มีค่าเฉลี่ย แต่ไม่มากนัก ฉันต้องการที่จะเปรียบเทียบช่วงเหล่านี้กับแต่ละอื่น ๆ เพื่อหาปริมาณความแปรปรวนของแต่ละช่วงและเพื่อเปรียบเทียบค่าเฉลี่ย ฉันมีเหตุผลที่ดีที่จะสมมติว่าการกระจายนั้นสมมาตรรอบค่าเฉลี่ยและข้อมูลจะมีการแจกแจงแบบเกาส์ ด้วยเหตุนี้ฉันจึงคิดว่าฉันสามารถพิสูจน์ได้ว่าใช้จุดกึ่งกลางของการแจกแจงเป็นพร็อกซีสำหรับค่าเฉลี่ยเมื่อไม่อยู่

สิ่งที่ฉันต้องการทำคือสร้างการแจกแจงใหม่สำหรับแต่ละช่วงจากนั้นใช้สิ่งนั้นเพื่อให้ค่าเบี่ยงเบนมาตรฐานหรือข้อผิดพลาดมาตรฐานสำหรับการแจกแจงนั้น ข้อมูลเดียวที่ฉันมีคือค่าสูงสุดและต่ำสุดที่สังเกตได้จากตัวอย่างและจุดกลางเป็นพร็อกซีสำหรับค่าเฉลี่ย

ด้วยวิธีนี้ฉันหวังว่าจะสามารถคำนวณค่าเฉลี่ยถ่วงน้ำหนักสำหรับแต่ละกลุ่มและคำนวณสัมประสิทธิ์การแปรผันสำหรับแต่ละกลุ่มได้เช่นกันตามข้อมูลช่วงที่ฉันมีและสมมติฐานของฉัน (ของการแจกแจงแบบสมมาตรและปกติ)

ฉันวางแผนที่จะใช้ R เพื่อทำสิ่งนี้ดังนั้นความช่วยเหลือเกี่ยวกับโค้ดจะได้รับการชื่นชมเช่นกัน


2
ฉันสงสัยว่าทำไมคุณถึงบอกว่าคุณมีข้อมูลสำหรับค่าต่ำสุด & ค่าสูงสุด & ค่าสูงสุด; หลังจากนั้นคุณจะมีข้อมูลเกี่ยวกับขั้นต่ำ & สูงสุดที่คาดไว้เท่านั้น มันคืออะไร - สังเกตหรือคาดหวัง?
Scortchi - Reinstate Monica

ขออภัยนั่นคือความผิดพลาดของฉัน ข้อมูลสูงสุดและต่ำสุดถูกตรวจสอบ (วัดจากวัตถุในชีวิตจริง) ฉันได้แก้ไขโพสต์
green_thinlake

คำตอบ:


11

ฟังก์ชั่นการแจกแจงสะสมร่วมสำหรับขั้นต่ำและสูงสุดx ( n )x(1)x(n)สำหรับตัวอย่างของจากการแจกแจงแบบเกาส์ด้วยค่าเฉลี่ยμและส่วนเบี่ยงเบนมาตรฐานσคือnμσ

F(x(1),x(n);μ,σ)=Pr(X(1)<x(1),X(n)<x(n))=Pr(X(n)<x(n))Pr(X(1)>x(1),X(n)<x(n)=Φ(x(n)μσ)n[Φ(x(n)μσ)Φ(x(1)μσ)]n

โดยที่เป็นมาตรฐานแบบเกาส์ CDF ความแตกต่างเกี่ยวกับx ( 1 ) & x (Φ()x(1)ให้ฟังก์ชันความหนาแน่นของความน่าจะเป็นร่วมx(n)

f(x(1),x(n);μ,σ)=n(n1)[Φ(x(n)μσ)Φ(x(1)μσ)]n2ϕ(x(n)μσ)ϕ(x(1)μσ)1σ2

โดยที่เป็น PDF แบบเกาส์มาตรฐาน การบันทึกคำศัพท์ & การดร็อปคำศัพท์ที่ไม่มีพารามิเตอร์จะทำให้ฟังก์ชั่นบันทึกความเป็นไปได้ϕ()

(μ,σ;x(1),x(n))=(n2)log[Φ(x(n)μσ)Φ(x(1)μσ)]+logϕ(x(n)μσ)+logϕ(x(1)μσ)2logσ

นี้ไม่ได้ดูอ่อนโยนมาก แต่มันเป็นเรื่องง่ายที่จะเห็นว่ามันเป็นสิ่งที่ขยายมูลค่าของโดยการตั้งค่าμ = μ = x ( n ) + x (σคือจุดกึ่งกลาง - เทอมแรกจะขยายใหญ่สุดเมื่อการโต้แย้งของ CDF หนึ่งเป็นค่าลบของการโต้แย้งของอีกอันหนึ่ง คำศัพท์ที่สองและสามแสดงถึงโอกาสร่วมของสองตัวแปรอิสระอิสระμ=μ^=x(n)+x(1)2

แทนμเข้าไปในโอกาสการเข้าสู่ระบบและการเขียนR = x ( n ) - x ( 1 )ให้ ( σ ; x ( 1 ) , x ( n ) , μ ) = ( n - 2 ) บันทึก[ 1 - 2 Φ ( - rμ^r=x(n)x(1)

(σ;x(1),x(n),μ^)=(n2)log[12Φ(r2σ)]r24σ22logσ

สำนวนนี้จะต้องมีการขยายตัวเลข (เช่นกับoptimizeจากอาร์เอสstatแพคเกจ) เพื่อหาσ( แต่กลับกลายเป็นว่าσ = k ( n ) Rที่kσ^σ^=k(n)rkเป็นค่าคงที่ขึ้นอยู่เฉพาะใน -perhaps คนอื่น ๆ ทางคณิตศาสตร์เฉลียวฉลาดกว่าที่ฉันสามารถแสดงเหตุผล.)n

ค่าประมาณนั้นไม่มีประโยชน์หากไม่มีมาตรวัดความแม่นยำประกอบ ข้อมูล Fisher ที่สังเกตได้สามารถประเมินเป็นตัวเลข (เช่นhessianจากnumDerivแพ็คเกจของ R ) และใช้ในการคำนวณข้อผิดพลาดมาตรฐานโดยประมาณ:

ฉัน(σ)=-2(σ; μ )

I(μ)=2(μ;σ^)(μ)2|μ=μ^
I(σ)=2(σ;μ^)(σ)2|σ=σ^

มันจะน่าสนใจที่จะเปรียบเทียบความน่าจะเป็น & วิธีการประมาณช่วงเวลาของ ในแง่ของความลำเอียง (MLE สอดคล้องกันหรือไม่?) ความแปรปรวน & ข้อผิดพลาดกำลังสองเฉลี่ย นอกจากนี้ยังมีปัญหาของการประมาณค่าสำหรับกลุ่มเหล่านั้นที่ทราบค่าเฉลี่ยตัวอย่างนอกเหนือจากค่าต่ำสุด & สูงสุดσ


1
2เข้าสู่ระบบ(R)σ/Rnσ/Rnk(n)σ^=k(n)R

@whuber: ขอบคุณ! ดูเหมือนชัดเจนกับการเข้าใจถึงปัญหาหลังเหตุการณ์ ฉันจะรวมที่เป็นคำตอบ
Scortchi - Reinstate Monica

1

คุณจำเป็นต้องเชื่อมโยงช่วงกับส่วนเบี่ยงเบนมาตรฐาน / ความแปรปรวนลอง μ ใจร้าย σ ค่าเบี่ยงเบนมาตรฐานและ R=x(n)-x(1)เป็นช่วง จากนั้นสำหรับการกระจายตัวแบบปกติเรามีอันนั้น99.7% ของมวลความน่าจะเป็นอยู่ภายใน 3 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย นี่เป็นกฎที่ใช้งานได้จริงหมายความว่ามีความน่าจะเป็นสูงมาก

μ+3σx(n)
และ

μ-3σx(1)

การลบวินาทีจากครั้งแรกที่เราได้รับ

6σx(n)-x(1)=R
(นี่คือวิธีการที่ "หกซิกม่า" วิธีการประกันคุณภาพในอุตสาหกรรมมา) จากนั้นคุณสามารถรับค่าประมาณสำหรับส่วนเบี่ยงเบนมาตรฐานได้
σ^=16(x¯(n)-x¯(1))
ที่บาร์หมายถึงค่าเฉลี่ย นี่คือเมื่อคุณสมมติว่าตัวอย่างย่อยทั้งหมดมาจากการแจกแจงแบบเดียวกัน (คุณเขียนเกี่ยวกับการคาดหวังช่วง) หากแต่ละตัวอย่างแตกต่างกันตามปกติมีค่าเฉลี่ยและความแปรปรวนแตกต่างกันคุณสามารถใช้สูตรสำหรับตัวอย่างแต่ละตัวอย่างได้ แต่ความไม่แน่นอน / ความไม่แน่นอนที่เป็นไปได้ในค่าประมาณของค่าเบี่ยงเบนมาตรฐานนั้นใหญ่กว่ามาก

การมีค่าสำหรับค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานจะเป็นลักษณะการแจกแจงปกติอย่างสมบูรณ์


3
นั่นไม่ใช่การประมาณที่ใกล้ชิดสำหรับขนาดเล็ก n และไม่เป็นผลเชิงซีมโทติคสำหรับขนาดใหญ่ n.
Scortchi - Reinstate Monica

1
@Stortchi ดีฉันไม่ได้บอกว่ามันเป็นประมาณการที่ดี - แต่ฉันเชื่อว่ามันเป็นสิ่งที่ดีที่จะมีวิธีการแก้ปัญหาที่ใช้งานได้ง่ายแม้หยาบมากเพื่อให้ได้ความรู้สึกเชิงปริมาณของปัญหาที่อยู่ใกล้เคียงมากขึ้น วิธีการที่ซับซ้อนและมีประสิทธิภาพเช่นตัวอย่างที่อธิบายไว้ในคำตอบอื่น ๆ สำหรับคำถามนี้
Alecos Papadopoulos

ฉันจะไม่พูดถึง "ความคาดหวังของช่วงตัวอย่างกลายเป็นประมาณ 6 เท่าของค่าเบี่ยงเบนมาตรฐานสำหรับค่าของ n from 200 to 1000". But am I missing something subtle in your derivation, or wouldn't it work just as well to justify dividing the range by any number?
Scortchi - Reinstate Monica

@Scortchi Well, the spirit of the approach is "if we expect almost all realizations to fall within 6 sigmas, then it is reasonable to expect that the extreme realizations will be near the border" -that's all there is to it, really. Perhaps I am too used to operate under extremely incomplete information, and obliged to say something quantitative about it... :)
Alecos Papadopoulos

4
I could reply that even more observations would fall within 10σ ของค่าเฉลี่ยทำให้ประมาณการดีขึ้น σ^=R10. ฉันไม่ได้เพราะมันไร้สาระ จำนวนเท่าใดก็ได้1.13จะเป็นการประมาณคร่าวๆสำหรับบางค่าของn.
Scortchi - Reinstate Monica

1

มันเป็นเรื่องง่ายที่จะรับฟังก์ชั่นการกระจายสูงสุดของการแจกแจงแบบปกติ (ดู "P.max.norm" ในรหัส) จากมัน (ด้วยแคลคูลัสบางส่วน) คุณสามารถรับฟังก์ชัน quantile (ดู "Q.max.norm")

การใช้ "Q.max.norm" และ "Q.min.norm" คุณสามารถรับค่ามัธยฐานของช่วงที่เกี่ยวข้องกับ N. การใช้แนวคิดที่นำเสนอโดย Alecos Papadopoulos (ในคำตอบก่อนหน้า) คุณสามารถคำนวณ sd ได้

ลองสิ่งนี้:

N = 100000    # the size of the sample

# Probability function given q and N
P.max.norm <- function(q, N=1, mean=0, sd=1){
    pnorm(q,mean,sd)^N
} 
# Quantile functions given p and N
Q.max.norm <- function(p, N=1, mean=0, sd=1){
    qnorm(p^(1/N),mean,sd)
} 
Q.min.norm <- function(p, N=1, mean=0, sd=1){
    mean-(Q.max.norm(p, N=N, mean=mean, sd=sd)-mean)
} 

### lets test it (takes some time)
Q.max.norm(0.5, N=N)  # The median on the maximum
Q.min.norm(0.5, N=N)  # The median on the minimum

iter = 100
median(replicate(iter, max(rnorm(N))))
median(replicate(iter, min(rnorm(N))))
# it is quite OK

### Lets try to get estimations
true_mean = -3
true_sd = 2
N = 100000

x = rnorm(N, true_mean, true_sd)  # simulation
x.vec = range(x)                  # observations

# estimation
est_mean = mean(x.vec)
est_sd = diff(x.vec)/(Q.max.norm(0.5, N=N)-Q.min.norm(0.5, N=N))

c(true_mean, true_sd)
c(est_mean, est_sd)

# Quite good, but only for large N
# -3  2
# -3.252606  1.981593

2
Continuing this approach, E(R)=σ1(1Φ(x))nΦ(x)ndx=σd2(n), where R is the range & Φ() the standard normal cumulative distribution function. You can find tabulated values of d2 for small n in the statistical process control literature, numerically evaluate the integral, or simulate for your n.
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.