ตัวอย่างของสถิติที่ไม่เป็นอิสระจากการกระจายตัวของตัวอย่าง?


14

นี่คือคำจำกัดความของสถิติในวิกิพีเดีย

ทฤษฎีทางสถิติกำหนดสถิติว่าเป็นฟังก์ชันของตัวอย่างที่ฟังก์ชันนั้นมีความเป็นอิสระจากการแจกตัวอย่าง นั่นคือฟังก์ชั่นสามารถระบุไว้ก่อนที่จะตระหนักถึงข้อมูล คำว่าสถิติใช้สำหรับทั้งฟังก์ชันและค่าของฟังก์ชันในตัวอย่างที่กำหนด

ฉันคิดว่าฉันเข้าใจคำจำกัดความส่วนใหญ่นี้อย่างไรก็ตามส่วน - ที่ฟังก์ชันมีความเป็นอิสระจากการแจกแจงตัวอย่างฉันไม่สามารถแยกแยะได้

ความเข้าใจเกี่ยวกับสถิติของฉันจนถึงตอนนี้

ตัวอย่างคือชุดของความเข้าใจของจำนวนการบางอย่างอิสระกระจายเหมือนกัน (IID) ตัวแปรสุ่มที่มีการแจกแจงแบบ F (10 ความเข้าใจของการโยนลูกเต๋ายุติธรรมด้าน 20, 100 ความเข้าใจ 5 ม้วนลูกเต๋ายุติธรรม 6 ด้านที่ สุ่ม 100 คนจากประชากร)

ฟังก์ชั่นที่มีโดเมนเป็นชุดนั้นและมีช่วงที่เป็นตัวเลขจริง (หรือบางทีมันอาจจะสามารถผลิตสิ่งอื่น ๆ เช่นเวกเตอร์หรือวัตถุทางคณิตศาสตร์อื่น ๆ ... ) จะได้รับการพิจารณาสถิติ

เมื่อฉันคิดถึงตัวอย่างค่าเฉลี่ยมัธยฐานความแปรปรวนทั้งหมดจะสมเหตุสมผลในบริบทนี้ มันเป็นฟังก์ชั่นในชุดของการรับรู้ (การวัดความดันโลหิตจากตัวอย่างแบบสุ่ม) ฉันยังสามารถดูวิธีการรูปแบบการถดถอยเชิงเส้นอาจจะถือว่าเป็นสถิติที่yi=α+βxi - นี้ไม่ได้เป็นเพียงฟังก์ชั่นในชุดของความเข้าใจหรือไม่?

ที่ฉันสับสน

สมมติว่าความเข้าใจของฉันจากด้านบนถูกต้องฉันไม่สามารถเข้าใจได้ว่าฟังก์ชันใดที่อาจไม่เป็นอิสระจากการแจกแจงตัวอย่าง ฉันพยายามนึกตัวอย่างเพื่อให้เข้าใจ แต่ก็ไม่มีโชค ความเข้าใจใด ๆ จะได้รับการชื่นชมมาก!

คำตอบ:


45

คำจำกัดความนั้นเป็นวิธีที่ค่อนข้างอึดอัดใจ "สถิติ" คือฟังก์ชันใด ๆ ของค่าที่สังเกตได้ ความหมายทั้งหมดนั้นหมายถึงว่าสถิติเป็นฟังก์ชันเฉพาะของค่าที่สังเกตได้ไม่ใช่ฟังก์ชันของการแจกแจงหรือพารามิเตอร์ใด ๆ ตัวอย่างเช่นถ้าX1,X2,...,XnN(μ,1)แล้วสถิติจะเป็นฟังก์ชั่นใด ๆT(X1,...,Xn)ในขณะที่ฟังก์ชั่นH(X1,....,Xn,μ)จะไม่เป็นสถิติเพราะมันขึ้นอยู่กับμμนี่คือตัวอย่างเพิ่มเติม:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

สถิติทั้งหมดเป็นฟังก์ชันเฉพาะของค่าที่สังเกตได้และไม่ใช่การแจกแจงหรือพารามิเตอร์ ดังนั้นจึงไม่มีตัวอย่างของสถิติที่เป็นฟังก์ชั่นของการแจกแจงหรือพารามิเตอร์ (ฟังก์ชั่นดังกล่าวจะไม่เป็นสถิติ) อย่างไรก็ตามมันเป็นสิ่งสำคัญที่จะต้องทราบว่าการกระจายตัวของสถิติ (ตรงข้ามกับตัวสถิติเอง) โดยทั่วไปจะขึ้นอยู่กับการกระจายของค่า (นี่เป็นความจริงสำหรับสถิติทั้งหมดนอกเหนือจากสถิติเสริม )


ฟังก์ชั่นเกี่ยวกับพารามิเตอร์ที่รู้จักกันคืออะไร? ในความคิดเห็นด้านล่างAlecosถามคำถามติดตามยอดเยี่ยม ฟังก์ชั่นที่ใช้ค่าคงที่ของพารามิเตอร์คงที่คืออะไร ตัวอย่างเช่นสิ่งที่เกี่ยวกับสถิติn(x¯μ)ที่μ=μ0จะนำไปเป็นค่าเท่ากับค่าสมมุติฐานที่รู้จักกันμ0RR ฟังก์ชั่นนี้เป็นสถิติแน่นอนตราบใดที่มันถูกกำหนดไว้ในโดเมนที่ถูก จำกัด อย่างเหมาะสม ดังนั้นฟังก์ชั่นH0:RnRกับH0(x1,...,xn)=n(x¯μ0)จะเป็นสถิติ แต่ฟังก์ชั่นH:Rn+1RกับH(x1,...,xn,μ)=n(x¯μ)จะไม่เป็นสถิติ


1
คำตอบที่มีประโยชน์มากการพิจารณาพารามิเตอร์สถิติพื้นฐานซึ่งเป็นส่วนหนึ่งของสถิติที่ไม่เป็นประโยชน์อย่างยิ่ง
Jake Kirsch

4
@CarlWitthoft ฉันไม่ได้รับคะแนนของคุณ หากเป็นฟังก์ชันของค่าที่สังเกตได้แสดงว่าเป็นสถิติ มันอาจจะเป็นฟังก์ชั่นของเซตย่อยที่เล็กกว่าของค่า; ที่ยังคงเป็นสิ่งที่มีประโยชน์ในการพิจารณา หากคุณต้องการที่จะประเมินค่าเฉลี่ยและคุณมีสังเกตคุณอาจยังมองไปที่( X 1 + X 2 + + X 1000 ) / 1000ถ้าค่าใช้จ่ายของการประมวลผลข้อมูลที่อยู่ในระดับสูงและค่าใช้จ่ายของข้อผิดพลาดที่มีขนาดเล็ก หรือด้วยเหตุผลบางอย่างคุณอาจต้องการพิจารณาการประมาณค่าเฉลี่ยสองค่าอย่างอิสระและอาจพิจารณา( X 1 + + X n1010(X1+X2++X1000)/1000และ(X n / 2 + 1 ++Xn)/(n/2) เหล่านี้ยังคงเป็นสถิติ (X1++Xn/2)/(n/2)(Xn/2+1++Xn)/(n/2)
James Martin

4
ตัวอย่างเหล่านั้นดูเหมือนจริงสำหรับฉัน คุณกำลังพูดถึงแนวคิดของการแบ่งข้อมูลออกเป็นชุดฝึกอบรมและชุดตรวจสอบไม่ถูกต้องหรือไม่?
James Martin

2
ฉันสับสนเล็กน้อยเช่นกัน ให้ฉันพยายามอธิบายจุด @CarlWitthoft มันยังคงเป็นสถิติในแง่ของนิยามทางคณิตศาสตร์ แต่ฉันเห็นกรณีที่ผู้ให้คำปรึกษาใช้ 'สถิติ' ของการสังเกต แต่โดยพลการตัดสินใจลบผลลัพธ์บางอย่าง (ที่ปรึกษาทำตลอดเวลาใช่มั้ย) นี่จะเป็น 'ถูกต้อง' ในแง่ที่ว่ามันยังคงเป็นฟังก์ชั่นในการสังเกตการณ์อย่างไรก็ตามวิธีที่สถิติอาจถูกนำเสนอและตีความว่ามีแนวโน้มจะไม่ถูกต้อง
Jake Kirsch

2
@Carl Withhoft: สำหรับจุดที่คุณกำลังทำอยู่สิ่งสำคัญคือการแยกความแตกต่างระหว่างสถิติ (ซึ่งไม่จำเป็นต้องรวมข้อมูลทั้งหมดและอาจไม่ครอบคลุมข้อมูลทั้งหมดในตัวอย่าง) และสถิติที่เพียงพอ (ซึ่งจะครอบคลุมทั้งหมด ข้อมูลที่เกี่ยวกับพารามิเตอร์บางตัว) ทฤษฎีทางสถิติมีแนวความคิดที่พัฒนาแล้วเช่นความพอเพียงซึ่งสามารถจับความคิดที่ว่าสถิติรวมข้อมูลที่เกี่ยวข้องทั้งหมดไว้ในกลุ่มตัวอย่าง ไม่จำเป็นหรือต้องการการพยายามสร้างข้อกำหนดนั้นลงในคำจำกัดความของ "สถิติ"
Reinstate Monica

4

ฉันตีความว่าเป็นการบอกว่าคุณควรตัดสินใจก่อนที่จะเห็นข้อมูลว่าคุณกำลังคำนวณสถิติอะไร ตัวอย่างเช่นหากคุณกำลังจะออกค่าใช้จ่ายคุณควรตัดสินใจก่อนที่จะเห็นข้อมูลที่ถือเป็น "ค่าผิดปกติ" หากคุณตัดสินใจหลังจากดูข้อมูลแล้วฟังก์ชันของคุณจะขึ้นอยู่กับข้อมูลนั้น


มันมีประโยชน์เช่นกัน! ดังนั้นการตัดสินใจว่าการสังเกตใดที่จะรวมไว้ในฟังก์ชั่นหลังจากรู้ว่าการสังเกตใดที่มีอยู่ซึ่งเป็นสิ่งที่ฉันอธิบายในข้อคิดเห็นของฉันในคำตอบก่อนหน้านี้มากหรือน้อย
Jake Kirsch

2
(+1) มันอาจจะคุ้มที่จะสังเกตว่าสิ่งนี้สำคัญเพราะถ้าคุณกำหนดกฎก่อนหน้าเกี่ยวกับสิ่งที่ถือเป็นจุดข้อมูลที่จะถูกทิ้งมันเป็น (ค่อนข้าง) ง่ายต่อการหาค่าการแจกแจงสำหรับสถิติ (เช่นค่าเฉลี่ยถูกตัดทอนเป็นต้น) .) เป็นการยากมากที่จะได้รับการแจกแจงสำหรับการวัดที่เกี่ยวข้องกับการทิ้งจุดข้อมูลด้วยเหตุผลที่ไม่ได้กำหนดไว้ล่วงหน้าอย่างถี่ถ้วน
หน้าผา AB
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.