ฉันสามารถใช้ช่วงเวลาของการแจกแจงเพื่อเก็บตัวอย่างการกระจายได้หรือไม่


14

ฉันสังเกตเห็นในวิธีการเรียนรู้สถิติ / เครื่องการแจกแจงมักจะเป็นแบบเกาส์จากนั้นก็ใช้แบบเกาส์สำหรับการสุ่มตัวอย่าง พวกเขาเริ่มต้นโดยการคำนวณทั้งสองช่วงเวลาแรกของการจัดจำหน่ายและการใช้งานเหล่านั้นเพื่อประเมินμและ 2 จากนั้นพวกเขาสามารถสุ่มตัวอย่างจากเกาส์นนั้นได้σ2

ดูเหมือนว่าสำหรับฉันในช่วงเวลาที่ฉันคำนวณมากขึ้นฉันควรจะประมาณตัวอย่างการกระจายตัวที่ดีกว่าที่ฉันต้องการ

จะเกิดอะไรขึ้นถ้าฉันคำนวณ 3 ช่วงเวลา ... ฉันจะใช้สิ่งเหล่านั้นเพื่อสุ่มตัวอย่างจากการแจกแจงได้อย่างไร และนี่สามารถขยายไปสู่ช่วงเวลา N ได้หรือไม่?


2
สามช่วงเวลาไม่ได้กำหนดรูปแบบการกระจาย *; หากคุณเลือกการแจกจ่ายแบบแฟมิลี่ด้วยพารามิเตอร์สามตัวที่เกี่ยวข้องกับช่วงเวลาสามช่วงประชากรแรกคุณสามารถทำการจับคู่ช่วงเวลา ("เมธอดของช่วงเวลา") เพื่อประมาณค่าพารามิเตอร์ทั้งสามแล้วสร้างค่าจากการแจกแจงแบบนั้น มีการแจกแจงดังกล่าวมากมาย[* ที่จริงบางครั้งก็มีทุกช่วงเวลาไม่เพียงพอที่จะตรวจสอบการกระจาย.]
Glen_b -Reinstate โมนิกา

ขอบคุณ @Glen_b! ฉันจะอ่านเกี่ยวกับ "วิธีช่วงเวลา" เพื่อทำความเข้าใจเมื่อเป็นไปได้ คุณสามารถชี้ให้ฉันทฤษฎีที่อธิบายเมื่อช่วงเวลาไม่เพียงพอที่จะกำหนดการกระจาย?
curious_dan

"วิธีการของช่วงเวลา" เพียงแค่บอกวิธีการประเมินพารามิเตอร์จากช่วงเวลา ส่วนที่เหลือของความคิดเห็นของคุณเป็นคำถามใหม่ (ฉันคิดว่ามันตอบแล้วในเว็บไซต์); สั้น ๆ - ถ้าฟังก์ชันสร้างโมเมนต์เกิดขึ้น (ในละแวกที่ 0) มันจะระบุการแจกแจงที่ไม่ซ้ำกัน แน่นอนถ้าบางช่วงเวลาไม่แน่นอนนี่อาจหมายถึง mgf ไม่มีอยู่จริง แต่ก็มีบางกรณีที่ทุกช่วงเวลามี จำกัด แต่ mgf ยังคงไม่มีอยู่ในละแวก 0 ..
Glen_b

ฉันกำลังเขียนคำตอบตามความคิดเห็นของฉัน
Glen_b -Reinstate Monica

คำตอบ:


22

สามช่วงเวลาไม่ได้กำหนดรูปแบบการกระจาย หากคุณเลือกการแจกจ่ายแบบแฟมิลี่ด้วยพารามิเตอร์สามตัวที่เกี่ยวข้องกับช่วงเวลาสามช่วงประชากรแรกคุณสามารถทำการจับคู่ช่วงเวลา ("เมธอดของช่วงเวลา") เพื่อประมาณค่าพารามิเตอร์ทั้งสามแล้วสร้างค่าจากการแจกแจงแบบนั้น มีการแจกแจงดังกล่าวมากมาย

บางครั้งการมีช่วงเวลาทั้งหมดไม่เพียงพอในการพิจารณาการกระจาย หากฟังก์ชันการสร้างโมเมนต์มีอยู่ (ในละแวกใกล้เคียง 0) มันจะระบุการแจกแจงแบบไม่ซ้ำกัน (โดยหลักการแล้วคุณสามารถทำการแปลงลาปลาสแบบผกผันเพื่อรับได้)

[หากบางช่วงเวลาไม่ จำกัด นี่อาจหมายถึง mgf ไม่มีอยู่จริง แต่ก็มีบางกรณีที่ทุกช่วงเวลามี จำกัด แต่ mgf ยังคงไม่มีอยู่ในละแวกที่ 0]

เนื่องจากมีตัวเลือกการแจกแจงเราอาจถูกล่อลวงให้พิจารณาวิธีการแก้ปัญหาเอนโทรปีสูงสุดด้วยข้อ จำกัด ในช่วงเวลาสามช่วงแรก แต่ไม่มีการแจกแจงในบรรทัดจริงที่บรรลุนั้น


กระบวนการจะทำงานอย่างไรสำหรับตัวเลือกการกระจายเฉพาะ

เราสามารถลดความซับซ้อนของกระบวนการของการได้รับการจับคู่การกระจายสามช่วงเวลาโดยไม่สนใจค่าเฉลี่ยและความแปรปรวนและการทำงานกับช่วงเวลาที่สามปรับขนาด - ช่วงเวลาที่-เบ้ ( γ1=μ3/μ23/2 )

เราสามารถทำได้เพราะเลือกการกระจายที่มีความเบ้ที่เกี่ยวข้องเราสามารถถอยกลับค่าเฉลี่ยและความแปรปรวนที่ต้องการโดยการปรับขนาดและการเลื่อน

ลองพิจารณาตัวอย่าง เมื่อวานนี้ฉันสร้างชุดข้อมูลขนาดใหญ่ (ซึ่งยังคงเกิดขึ้นในเซสชัน R ของฉัน) ซึ่งการแจกจ่ายฉันไม่ได้พยายามคำนวณรูปแบบการทำงานของ (เป็นชุดของค่าขนาดใหญ่ของบันทึกของความแปรปรวนตัวอย่างของ Cauchy ที่ n = 10) เรามีช่วงเวลาดิบสามช่วงแรกเป็น 1.519, 3.597 และ 11.479 ตามลำดับหรือมีค่าเฉลี่ย 1.518 ค่าเบี่ยงเบนมาตรฐาน * เท่ากับ 1.136 และความเบ้ 1.429 (ดังนั้นนี่คือค่าตัวอย่างจากตัวอย่างขนาดใหญ่)

อย่างเป็นทางการวิธีการของช่วงเวลาจะพยายามจับคู่ช่วงเวลาดิบ แต่การคำนวณนั้นง่ายกว่าถ้าเราเริ่มต้นด้วยความเบ้ (เปลี่ยนการแก้สมการสามในสามสิ่งที่ไม่รู้จักในการแก้สำหรับพารามิเตอร์หนึ่งครั้งงานที่ง่ายกว่า)

* ฉันจะแจกแจงความแตกต่างระหว่างการใช้ n- ส่วนบนความแปรปรวน - ตามที่จะสอดคล้องกับวิธีการช่วงเวลาที่เป็นทางการ - และตัวหาร n-1 และใช้การคำนวณตัวอย่าง

ความเบ้นี้ (~ 1.43) บ่งบอกว่าเราแสวงหาการกระจายที่เอียงขวา ฉันสามารถเลือกยกตัวอย่างเช่นการกระจาย lognormal แบบเลื่อน (สามพารามิเตอร์ lognormal, รูปร่างσ , scale μและ location-shift γ ) ในเวลาเดียวกัน เรามาเริ่มต้นด้วยการจับคู่ความเบ้ ความเบ้ของประชากรของ lognormal ของพารามิเตอร์สองตัวคือ:

γ1=(อีσ2+2)อีσ2-1

σ2σ~2

γ12(τ+2)2(τ-1)τ=อีσ2τ3+3τ2-4=γ12τ~1.1995σ~20.1819γ1

μ

แต่เราสามารถเลือก gamma หรือ shifted-Weibull ได้อย่างง่ายดาย (หรือ shifted-F หรือตัวเลือกอื่น ๆ จำนวนมาก) และดำเนินการผ่านกระบวนการเดียวกัน แต่ละคนจะแตกต่างกัน

[สำหรับตัวอย่างที่ฉันติดต่อด้วยรังสีแกมม่าที่ถูกเลื่อนอาจจะเป็นทางเลือกที่ดีกว่า lognormal ที่ถูกเลื่อนเนื่องจากการกระจายของบันทึกของค่านั้นเอียงไปทางซ้ายและการกระจายของรากลูกบาศก์ของพวกเขาอยู่ใกล้กับสมมาตรมาก สิ่งเหล่านี้สอดคล้องกับสิ่งที่คุณจะเห็นด้วยความหนาแน่นแกมม่า (ไม่ จำกัด ) แต่ความหนาแน่นของบันทึกที่เบ้ซ้ายไม่สามารถทำได้เมื่อบันทึกการเปลี่ยนแปลงใด ๆ ]

เราสามารถใช้แผนภาพความเบ้ (skewness-kurtosis) ในเพียร์สันพล็อตและวาดเส้นที่ความเบ้ที่ต้องการและได้การแจกแจงแบบสองจุด, ลำดับของการแจกแจงแบบเบตา, การแจกแจงแกมม่า, การแจกแจงแกมมาและการแจกแจงเพียร์สันประเภท IV ทั้งหมดที่มีความเบ้เหมือนกัน

β1=γ12β2

พล็อตเพียร์สันที่มีเส้นความเบ้ที่ต้องการ

γ12=2.042σ


ช่วงเวลาเพิ่มเติม

ช่วงเวลาที่ไม่กระจายการแจกแจงที่ดีมากดังนั้นแม้ว่าคุณจะระบุหลายช่วงเวลา แต่ก็ยังมีการแจกแจงที่แตกต่างกันมากมาย (โดยเฉพาะอย่างยิ่งที่เกี่ยวข้องกับพฤติกรรมสุดโต่งของพวกเขา) ที่จะจับคู่พวกเขา

แน่นอนคุณสามารถเลือกตระกูลการกระจายที่มีพารามิเตอร์อย่างน้อยสี่ตัวและพยายามจับคู่มากกว่าสามช่วงเวลา ตัวอย่างการกระจายของเพียร์สันด้านบนทำให้เราสามารถจับคู่ช่วงเวลาสี่ช่วงแรกและมีตัวเลือกการกระจายอื่น ๆ ที่จะช่วยให้มีความยืดหยุ่นในระดับใกล้เคียงกัน

หนึ่งสามารถใช้กลยุทธ์อื่น ๆ เพื่อเลือกการแจกแจงที่สามารถจับคู่คุณสมบัติการกระจาย - การกระจายการผสมการสร้างแบบจำลองความหนาแน่นของบันทึกโดยใช้เส้นโค้งและอื่น ๆ

อย่างไรก็ตามบ่อยครั้งหากมีใครกลับไปที่จุดเริ่มต้นที่คนหนึ่งพยายามจะหาการกระจายมันมักจะปรากฎว่ามีบางสิ่งที่ดีกว่าที่สามารถทำได้มากกว่ากลยุทธ์ที่ระบุไว้ที่นี่


2

ดังนั้นคำตอบคือโดยทั่วไปไม่ได้คุณไม่สามารถทำเช่นนี้ แต่บางครั้งคุณก็สามารถทำได้

เมื่อคุณทำไม่ได้

เหตุผลที่คุณไม่สามารถทำเช่นนี้มักจะเป็นสองเท่า

ก่อนอื่นถ้าคุณมีการสังเกตแบบ N คุณสามารถคำนวณช่วงเวลา N ได้อย่างมากที่สุด แล้วช่วงเวลาอื่นล่ะ? คุณไม่สามารถตั้งค่าให้เป็นศูนย์ได้

γ100=Σผมxผม100n

เมื่อคุณสามารถ

ตอนนี้บางครั้งคุณสามารถรับการกระจายจากช่วงเวลา มันคือเมื่อคุณตั้งสมมติฐานเกี่ยวกับการกระจายตัวของบางอย่าง ตัวอย่างเช่นคุณประกาศว่าเป็นเรื่องปกติ ในกรณีนี้สิ่งที่คุณต้องใช้มีเพียงสองช่วงเวลาเท่านั้นซึ่งสามารถคำนวณได้อย่างแม่นยำ โปรดทราบว่าการแจกแจงแบบปกตินั้นมีช่วงเวลาที่สูงขึ้นอย่างแน่นอนเช่น kurtosis แต่เราไม่ต้องการมัน หากคุณต้องคำนวณทุกช่วงเวลาของการแจกแจงแบบปกติ (โดยไม่สมมติว่าเป็นเรื่องปกติ) จากนั้นลองกู้คืนฟังก์ชั่นคุณสมบัติเป็นตัวอย่างจากการแจกแจงมันจะไม่ทำงาน อย่างไรก็ตามเมื่อคุณลืมช่วงเวลาที่สูงขึ้นและยึดติดกับสองสิ่งแรกมันจะทำงานได้ดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.