วิธีปรับให้พอดีกับ PDF โดยประมาณ (เช่น: การประเมินความหนาแน่น) โดยใช้ช่วงเวลา k (เชิงประจักษ์) ครั้งแรก


11

ฉันมีสถานการณ์ที่ฉันสามารถประมาณค่าช่วงเวลาแรกของชุดข้อมูลและต้องการใช้เพื่อสร้างการประมาณของฟังก์ชันความหนาแน่นk

ฉันได้พบกับการกระจายของเพียร์สันแล้ว แต่ฉันรู้ว่ามันขึ้นอยู่กับช่วงเวลา 4 ช่วงแรกเท่านั้น

ฉันยังเข้าใจว่าช่วงเวลาที่ จำกัด ใด ๆ นั้นไม่เพียงพอที่จะ "ตรึง" การแจกแจงเฉพาะเมื่อไม่ใช้สมมติฐานเพิ่มเติม อย่างไรก็ตามฉันยังต้องการการแจกแจงระดับทั่วไปเพิ่มเติม (นอกเหนือจากการแจกแจงแบบครอบครัวของเพียร์สัน) มองไปที่คำถามอื่น ๆ ที่ฉันไม่สามารถหาเช่นการกระจาย (ดู: ที่นี่ , ที่นี่ , ที่นี่ , ที่นี่ , ที่นี่และที่นี่ )

มีการกระจายทั่วไป ("ง่าย") ครอบครัวที่สามารถกำหนดสำหรับช่วงเวลาใด ๆ ? (อาจเป็นชุดของการแปลงที่สามารถทำการแจกแจงแบบปกติมาตรฐานและแปลงมันจนกว่ามันจะยืนยันกับทุกช่วงเวลา )kk

(ฉันไม่สนใจมากถ้าเราถือว่าช่วงเวลาอื่นเป็น 0 หรือไม่)k+1...

ขอบคุณ

PS: ฉันจะมีความสุขสำหรับตัวอย่างเพิ่มเติม ควรมีตัวอย่างรหัส R เป็นพิเศษ


2
ครั้งแรกช่วงเวลาที่กำหนดครั้งแรกอนุพันธ์ของฟังก์ชั่นลักษณะที่ศูนย์:(0) คุณก็รู้คำศัพท์แรกของฟังก์ชันขยายตัวเทย์เลอร์รอบศูนย์ จากนั้นคุณอาจจะสามารถใช้ทฤษฎีบทการผกผันเพื่อให้ได้ความหนาแน่น k E [ X k ] = ( - i ) k ϕ ( k ) X ( 0 ) kkkE[Xk]=(-ผม)kφX(k)(0)k
Stephan Kolassa

ขอบคุณ @StephanKolassa - โอกาสใด ๆ สำหรับคำตอบเพิ่มเติม / ตัวอย่างรหัส R
Tal Galili

2
en.wikipedia.org/wiki/Maximum_entropy_probability_distributionแนะนำวิธีการทั่วไป
whuber

เรียน @whuber คุณช่วยแนะนำตัวอย่างรหัส R ได้หรือไม่ (ยังไม่ไปนี้กับคำตอบของ wolfies?)
Tal Galili

นี่เป็นแนวทางที่แตกต่างอย่างสิ้นเชิงจากคำตอบนั้น
whuber

คำตอบ:


11

วิธีที่ 1: ระบบเพียร์สันลำดับสูงกว่า

ระบบของเพียร์สันคือการประชุมซึ่งนำไปสู่ตระกูลของการแก้ปัญหาในสมการเชิงอนุพันธ์:พี(x)

dพี(x)dx=-(a+x)0+1x+2x2พี(x)

(a,0,1,2)

0+1x+2x2พี(x)

dพี(x)dx=-(a+x)0+1x+2x2+3x3พี(x)

ซึ่งให้ทางออก:

ป้อนคำอธิบายรูปภาพที่นี่

ฉันแก้ไขมันเพื่อความสนุกในบางเวลา (มีรถไฟความคิดแบบเดียวกับ OP): ได้รับมาและวิธีแก้ปัญหาในบทที่ 5 ของหนังสือของเรา หากสนใจสามารถดาวน์โหลดได้ฟรีที่นี่:

http://www.mathstatica.com/book/bookcontents.html

โปรดทราบว่าในขณะที่ครอบครัวเพียร์สันอันดับสอง (กำลังสอง) สามารถแสดงในช่วงเวลา 4 ช่วงแรก แต่ครอบครัวเพียร์สันลำดับที่สาม (ลูกบาศก์) ต้องใช้เวลา 6 ช่วงแรก

วิธีที่ 2: การขยาย Gram-Charlier

kเสื้อชั่วโมง

ช่วงเวลาของประชากรหรือช่วงเวลาตัวอย่าง?

สำหรับระบบสไตล์เพียร์สัน: หากทราบช่วงเวลาของประชากรการใช้ช่วงเวลาที่สูงขึ้นนั้นน่าจะให้ผลที่ดีกว่าอย่างไม่น่าสงสัย อย่างไรก็ตามหากข้อมูลที่สังเกตได้เป็นตัวอย่างแบบสุ่มที่ดึงมาจากประชากรนั่นคือการแลกเปลี่ยน: พหุนามคำสั่งที่สูงกว่าหมายถึงช่วงเวลาคำสั่งซื้อที่สูงกว่านั้นและการประมาณการหลังอาจไม่น่าเชื่อถือ (มีความแปรปรวนสูง) ยกเว้นขนาดตัวอย่างคือ 'ใหญ่' ในคำอื่น ๆ ที่ได้รับข้อมูลตัวอย่างการปรับการใช้ช่วงเวลาที่สูงขึ้นอาจกลายเป็น 'ไม่เสถียร' และให้ผลลัพธ์ที่ต่ำกว่า เช่นเดียวกับการขยายตัวของ Gram-Charlier การเพิ่มคำพิเศษอาจทำให้ได้รับความผิดพลาดดังนั้นจึงจำเป็นต้องมีการดูแล


เรียน @wolfies - ขอบคุณสำหรับคำตอบของคุณ! ถ้าฉันเข้าใจคุณถูกต้องการขยายตัวของ Gram-Charlier นั้นสอดคล้องกับสิ่งที่ฉันกำลังมองหามากขึ้น (ถึงแม้ว่าการกระจายของเพียร์สันจะเป็นเรื่องน่าสนใจมากกว่าก็ตาม) ฉันดูที่หนังสือของคุณ (บทที่ 5 เริ่มต้นจากหน้า 175) และเห็นคุณให้คำอธิบายโดยละเอียด (รวมถึงวิธีที่จะจัดการกับช่วงเวลาโดยประมาณซึ่งเป็นกรณีของฉัน) สิ่งเดียวคือฉันไม่สามารถใช้รหัสของคุณได้ (ตั้งแต่ฉันเป็นผู้ใช้ R) ขอขอบคุณสำหรับคำตอบของคุณ (และสำหรับหนังสือของคุณที่น่าประทับใจและน่าสนใจโดยทั่วไป)
Tal Galili

2
เพิ่งพบแพ็คเกจ R เพื่อจัดการกับวิธีการต่างๆ: cran.us.r-project.org/web/packages/PDQutils/vignettes/ …
Tal Galili
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.