เหตุใดสถิติที่เพียงพอจึงมีข้อมูลทั้งหมดที่จำเป็นในการคำนวณค่าประมาณของพารามิเตอร์


16

ฉันเพิ่งเริ่มเรียนสถิติและไม่สามารถเข้าใจความพอเพียงได้ เพื่อให้แม่นยำยิ่งขึ้นฉันไม่เข้าใจวิธีแสดงให้เห็นว่าสองย่อหน้าต่อไปนี้เทียบเท่ากัน:

โดยประมาณให้ชุด X ของข้อมูลกระจายแบบอิสระที่เหมือนกันซึ่งมีเงื่อนไขในพารามิเตอร์ที่ไม่รู้จัก stat สถิติที่เพียงพอคือฟังก์ชัน T (X) ซึ่งมีค่าประกอบด้วยข้อมูลทั้งหมดที่จำเป็นในการคำนวณการประมาณค่าพารามิเตอร์ใด ๆ

สถิติ T (X) เพียงพอสำหรับพารามิเตอร์พื้นฐานθอย่างแม่นยำหากการแจกแจงความน่าจะเป็นแบบมีเงื่อนไขของข้อมูล X, เมื่อได้รับสถิติ T (X) ไม่ได้ขึ้นอยู่กับพารามิเตอร์θ

(ฉันใช้คำพูดจากสถิติที่เพียงพอ )

แม้ว่าฉันจะเข้าใจข้อความที่สองและฉันสามารถใช้ทฤษฎีบทการแยกตัวประกอบเพื่อแสดงว่าสถิติที่กำหนดนั้นเพียงพอ แต่ฉันไม่สามารถเข้าใจได้ว่าทำไมสถิติที่มีคุณสมบัติเช่นนี้มีคุณสมบัติที่มัน "มีข้อมูลทั้งหมดที่จำเป็นในการคำนวณใด ๆ การประมาณของพารามิเตอร์ " ฉันไม่ได้มองหาหลักฐานที่เป็นทางการซึ่งจะช่วยแก้ไขความเข้าใจของฉันต่อไป

ในการสรุปคำถามของฉันคือ: ทำไมทั้งสองข้อความจึงเทียบเท่ากัน? ใครสามารถให้คำอธิบายที่เข้าใจง่ายเพื่อความเท่าเทียมของพวกเขา


1
แนวคิดหลักที่ใช้งานง่ายคือบางครั้งคุณไม่จำเป็นต้องดูตัวอย่างทั้งหมดเนื่องจากคุณสามารถค้นหาสถิติที่สรุปข้อมูลทั้งหมดที่ต้องการจากตัวอย่าง ยกตัวอย่างเช่นการแจกแจงทวินาม: สิ่งที่คุณต้องรู้สำหรับแบบจำลองของคุณคือผลรวมของความสำเร็จ คุณจะไม่สูญเสียคุณค่าใด ๆ ถ้าฉันเพียงบอกคุณว่าแทนที่จะแสดงให้คุณเห็นทั้งชุดของค่าตัวอย่าง\} Σผมnxผม=x={1,0,0,1,0,1,...}
mugen

ฉันเข้าใจว่าทำไมฉันจึงต้องการสถิติที่เพียงพอและวิธีแสดงให้เห็นว่าผลรวมของความสำเร็จเป็นสถิติที่เพียงพอสำหรับ p ในกระบวนการ Bernoulli สิ่งที่ฉันไม่เข้าใจคือเหตุผลว่าทำไมสถิติเช่นนี้ที่อธิบายไว้ในวรรคสองมีข้อมูลทั้งหมดที่จำเป็นในการคำนวณค่าประมาณของพารามิเตอร์
gcoll

3
พูดอย่างเคร่งครัดใบเสนอราคาครั้งแรกผิดปกติ มีตัวประมาณจำนวนมากที่สามารถคำนวณได้จากชุดข้อมูลทั้งหมดซึ่งไม่สามารถคำนวณได้จากสถิติที่เพียงพอเพียงอย่างเดียว นั่นเป็นเหตุผลหนึ่งที่ทำให้คำพูดเริ่มต้น "คร่าว ๆ " อีกเหตุผลหนึ่งก็คือมันไม่ได้ให้คำจำกัดความเชิงปริมาณหรือเข้มงวดของ "ข้อมูล" เนื่องจากมีการให้ลักษณะที่ถูกต้องมากขึ้น (แต่ยังคงใช้งานง่าย) ได้ในวรรคก่อนแม้ว่าจะมีปัญหาเล็กน้อยกับการเสนอราคานี้ในบริบทที่เหมาะสม
whuber

1
มีการเชื่อมต่อกับโอกาสสูงสุดและเป็นข้อมูลที่จำเป็นในความเป็นไปได้สูงสุด
Kamster

1
ตามความคิดเห็นของ whuber และ @Kamster ฉันอาจมีความเข้าใจที่ดีขึ้น เมื่อเราพูดว่าสถิติที่เพียงพอมีข้อมูลทั้งหมดที่จำเป็นในการคำนวณการประมาณค่าพารามิเตอร์ใด ๆ เราหมายถึงว่ามันเพียงพอที่จะคำนวณตัวประมาณความน่าจะเป็นสูงสุด (ซึ่งเป็นฟังก์ชันของสถิติที่เพียงพอทั้งหมด) หรือไม่ นี่เป็นเรื่องจริงปัญหาทั้งหมดเกี่ยวข้องกับการนิยาม (ไม่ใช่) ของ "ข้อมูล" ตามที่แนะนำและคำถามของฉันก็ได้รับคำตอบ
gcoll

คำตอบ:


3

การติดตามความคิดเห็นของ @whuber และ @Kamster ฉันอาจมีความเข้าใจที่ดีขึ้น เมื่อเราพูดว่าสถิติที่เพียงพอมีข้อมูลทั้งหมดที่จำเป็นในการคำนวณการประมาณค่าพารามิเตอร์สิ่งที่เราหมายถึงจริงก็คือมันเพียงพอที่จะคำนวณตัวประมาณโอกาสสูงสุด (ซึ่งเป็นฟังก์ชันของสถิติที่เพียงพอทั้งหมด)

เนื่องจากฉันตอบคำถามของฉันเองและดังนั้นฉันจึงไม่แน่ใจ 100% ของคำตอบฉันจะไม่ทำเครื่องหมายว่าถูกต้องจนกว่าฉันจะได้รับคำติชม กรุณาเพิ่มความคิดเห็นใด ๆ และลงคะแนนถ้าคุณคิดว่าฉันผิด / ไม่แน่นอน / ฯลฯ ...

(แจ้งให้เราทราบหากสิ่งนี้ไม่เข้ากันกับมารยาททาง SE เป็นคำถามแรกของฉันฉันขอความเมตตาของคุณถ้าฉันละเมิดกฎใด ๆ )


1

ในขณะที่ฉันกำลังศึกษาเกี่ยวกับความพอเพียงฉันพบคำถามของคุณเพราะฉันต้องการเข้าใจสัญชาตญาณเกี่ยวกับสิ่งที่ฉันรวบรวมได้จากสิ่งที่ฉันคิดขึ้นมา (แจ้งให้เราทราบว่าคุณคิดอย่างไรถ้าฉันทำผิดพลาด ฯลฯ )

Let จะเป็นตัวอย่างที่สุ่มจากการกระจาย Poisson ที่มีค่าเฉลี่ยθ > 0X1,,Xnθ>0

เรารู้ว่าเป็นสถิติที่เพียงพอสำหรับθเนื่องจากการแจกแจงเงื่อนไขของX 1 , , X nให้T ( X )เป็นอิสระจากθในคำอื่น ๆ ไม่ได้ ขึ้นอยู่กับθT(X)=Σผม=1nXผมθX1,...,XnT(X)θθ

ตอนนี้สถิติรู้ว่าX 1 , ... , X n ฉัน ผม d ~ P o ฉันs s o n ( 4 )และสร้างn =A X1,...,Xn~ผม.ผม.dPโอผมssโอn(4)ค่าสุ่มจากการกระจายนี้:n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

สำหรับค่าสถิติAได้สร้างขึ้นเขาจะนำผลรวมของมันมาใช้และขอให้นักสถิติดังต่อไปนี้:B

"ฉันมีค่าตัวอย่างเหล่านี้นำมาจากการแจกแจงแบบปัวซงรู้ว่าn i = 1 x i =x1,...,xnคุณจะบอกอะไรฉันเกี่ยวกับการกระจายตัวนี้"Σผม=1nxผม=Y=4068

ดังนั้นรู้เพียงว่า (และความจริงที่ว่าตัวอย่างเกิดขึ้นจากการแจกแจงปัวซง) เพียงพอสำหรับนักสถิติBΣผม=1nxผม=Y=4068Bจะพูดอะไรเกี่ยวกับ ? เนื่องจากเรารู้ว่านี่เป็นสถิติที่เพียงพอเราจึงรู้ว่าคำตอบคือ "ใช่"θ

ในการรับความสนใจบางอย่างเกี่ยวกับความหมายของสิ่งนี้ให้ทำดังต่อไปนี้ (นำมาจาก Hogg & Mckean & Craig ของ "สถิติเบื้องต้นทางคณิตศาสตร์" ของ Craig, ฉบับที่ 7, แบบฝึกหัด 7.1.9):

" ตัดสินใจสร้างการสังเกตการณ์ปลอมซึ่งเขาเรียกว่าz 1 , z 2 , , z n (ดังที่เขารู้ว่าพวกเขาอาจจะไม่เท่ากับค่าxดั้งเดิม) ดังต่อไปนี้เขาตั้งข้อสังเกตว่าความน่าจะเป็นตามเงื่อนไขของปัวซองอิสระ ตัวแปรสุ่มZ 1 , Z 2, Z nเท่ากับz 1 , z 2 , , z n , ให้z i = y , คือBZ1,Z2,...,ZnxZ1,Z2...,ZnZ1,Z2,...,ZnΣZผม=Y

θZ1อี-θZ1!θZ2อี-θZ2!θZnอี-θZn!nθYอี-nθY!=Y!Z1!Z2!Zn!(1n)Z1(1n)Z2(1n)Zn

ตั้งแต่มีการกระจาย Poisson ที่มีค่าเฉลี่ยn θ การกระจายหลังเป็นพหุนามกับYทดลองอิสระแต่ละยุติในหนึ่งในnวิธีพิเศษร่วมกันและหมดจดแต่ละที่มีความน่าจะเป็นแบบเดียวกัน1 / n ดังนั้นBทำงานเช่นการทดลองพหุนามYทดลองอิสระและ Obtains Z 1 , ... , Z n ."Y=ΣZผมnθYn1/nBYZ1,...,Zn

นี่คือสิ่งที่ออกกำลังกายระบุ ดังนั้นขอให้ทำอย่างนั้น:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

และเรามาดูกันว่ามีลักษณะเป็นอย่างไร (ฉันกำลังวางแผนความหนาแน่นของปัวซอง (4) สำหรับk = 0 , 1 , , 13 - อะไรก็ตามที่สูงกว่า 13 คือศูนย์ pratically - สำหรับการเปรียบเทียบ):Zk=0,1,...,13

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นไม่รู้อะไรเลยเกี่ยวกับและรู้เพียงแค่สถิติที่เพียงพอY = X ฉันเราสามารถเรียกคืน "การแจกแจง" ที่มีลักษณะเหมือนการแจกแจงปัวซอง (4)θY=ΣXผมการเพิ่มขึ้นของทั้งสองกลายเป็นเส้นโค้งที่คล้ายกันมากขึ้น)n

ตอนนี้เปรียบเทียบและZ | y :XZ|Y

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

ป้อนคำอธิบายรูปภาพที่นี่

เราเห็นว่าพวกมันคล้ายกันมาก (ตามที่คาดไว้)

XผมY=X1+X2++Xn


0

ฉันจะให้มุมมองอื่นที่อาจช่วยได้ นี่คือเชิงคุณภาพ แต่มีรุ่นที่เข้มงวดโดยเฉพาะอย่างยิ่งที่สำคัญในทฤษฎีข้อมูล - ที่รู้จักกันในชื่อคุณสมบัติมาร์คอฟ

θθθθเป็นห่วง โปรดทราบว่าในความน่าจะเป็นที่ซึ่งความไม่แน่นอนทั้งหมดถูกจับและด้วยเหตุนี้ "การประมาณการใด ๆ " เมื่อความน่าจะเป็น (ตามเงื่อนไข) เป็นอิสระ (เช่นความหนาแน่นตามเงื่อนไขแยกตัวประกอบ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.