การจำลองการแจกแจง


9

ฉันกำลังทำงานที่ได้รับมอบหมายการวางแผนกำลังการผลิตและฉันได้อ่านหนังสือบางเล่ม นี่เป็นเรื่องเกี่ยวกับการแจกแจงโดยเฉพาะ ฉันใช้อาร์

  1. อะไรคือวิธีที่แนะนำในการระบุว่าการกระจายข้อมูลของฉันคืออะไร? มีวิธีการทางสถิติเพื่อระบุหรือไม่

ฉันมีแผนภาพนี้

แนวทางการปฏิบัติที่เป็นไปได้: การวิเคราะห์สถานการณ์สถานการณ์การตัดสินใจและการจำลองสถานการณ์

  1. มีวิธีการจำลองสถานการณ์อย่างไรบ้างเมื่อใช้ R ที่นี่ฉันต้องการสร้างข้อมูลสำหรับการแจกแจงบางอย่างเช่นเลขชี้กำลัง r-java เป็นแนวทางที่ถูกต้องหรือไม่หากฉันต้องการรวมเข้ากับ Java?

  2. มีวิธีใดที่จะทำนายผลของการกระจาย (การใช้งาน CPU และอื่น ๆ ) ที่จะมีเมื่อฉันส่งข้อมูลไปยังการแจกจ่ายเฉพาะ? การส่งข้อมูลบางอย่างมีความแตกต่างกันอย่างไร?

โปรดพิจารณาสิ่งเหล่านี้เป็นคำถามของผู้เริ่มต้น มีหนังสือหรือเนื้อหาที่เกี่ยวข้องกับการจำลองประเภทนี้หรือไม่?

หมายเหตุ

แผนภาพคือจากจุดสิ้นสุดของกระดาษhttp://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf

ความดีของเทคนิคฟิตฉันได้เจอ

การประเมินความดีพอดี

  1. ไคสแควร์
  2. Kolmogorov-Smirnov,
  3. ความหนาแน่นของสถิติ Anderson-Darling, cdf, PP และ QQ แปลง

ฉันไม่แน่ใจว่าการตีความหรือขั้นตอนต่อไปควรทำอย่างไรหากพบว่าการแจกแจงของฉันเป็นแบบปกติหรือแบบเลขยกกำลังเป็นต้นฉันต้องทำอย่างไร คาดการณ์? หวังว่าคำถามนี้ชัดเจน

ความล่าช้าของเอ็กซ์โปเนนเชียลจะชักนำให้เกิดความผันผวนของคิวตามหนังสือการวางแผนกำลังการผลิตของฉันโดย Neil Gunther ดังนั้นฉันรู้ว่าจุดหนึ่ง


หากคุณคิดว่าแผนภาพของคุณเป็นสิ่งสำคัญแล้วคุณควรพยายามที่จะปรับปรุงคุณภาพของภาพ ...
ocram

ฉันขอขอบคุณการดูแลที่ใช้ในการสร้างคำถามที่ดี ในความเห็นของคุณประเด็นที่ 2 (ซึ่งควรเป็น 3 ฉันเดา) ต้องการความกระจ่างหรือคุณสามารถย้ายมันไปที่ Stack Overflow
gui11aume

1
ฉันคิดว่าคำถามสุดท้ายของฉันอยู่ที่นี่ สมมติว่าฉันระบุการกระจายข้อมูลของฉัน ฉันคาดการณ์หรือไม่ว่าการแจกแจงอนาคตจะตามความน่าจะเป็นนี้หรือไม่? ฉันขาดการวิเคราะห์ข้อมูลที่นี่ ฉันรู้ว่าพล็อตมัสสุบ็อกซ์แสดงควอไทล์ที่ฉันเข้าใจได้อย่างง่ายดาย ฉันไม่ได้รับประโยชน์ของการแจกแจง อาจมีคุณสมบัติของการกระจายนี้ฉันต้องตรวจสอบการทำนาย
Mohan Radhakrishnan

@ocram หากคุณภาพไม่ดีให้ขยายหน้าในเบราว์เซอร์ของคุณ: รายละเอียดอยู่ที่นั่น BTW รูปภาพเหล่านี้ต้องมาจากเอกสารCrystal Ballบางส่วน
whuber

@whuber: แน่นอนฉันไม่ได้ลอง! ขออภัยสำหรับความคิดเห็น
ocram

คำตอบ:


7

ฉันจะตอบประเด็นของคุณเกี่ยวกับการจำลองด้วย R เพราะนี่เป็นสิ่งเดียวที่ฉันคุ้นเคย R มีการแจกแจงแบบบิวด์อินจำนวนมากซึ่งคุณสามารถจำลองได้ logics ของการตั้งชื่อก็คือการจำลองการกระจายที่เรียกว่าชื่อจะได้รับการdisrdis

ด้านล่างเป็นสิ่งที่ฉันใช้บ่อยที่สุด

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

คุณสามารถค้นหาเติมเต็มบางอย่างในการติดตั้งอุปกรณ์กระจายกับ R

เพิ่มเติม:ขอบคุณ @jthetzel ที่ให้ลิงค์พร้อมรายการการกระจายและแพ็คเกจที่เป็นของพวกเขา

แต่เดี๋ยวก่อนยังมีอีก:ตกลงตามความเห็นของ @ whuber ฉันจะพยายามพูดถึงประเด็นอื่น ๆ เกี่ยวกับจุดที่ 1 ฉันไม่เคยไปด้วยวิธีการที่ดี - พอดี แต่ฉันคิดเสมอเกี่ยวกับที่มาของสัญญาณเช่นสิ่งที่ทำให้เกิดปรากฏการณ์มีความสมมาตรตามธรรมชาติในสิ่งที่ก่อให้เกิดฯลฯคุณต้องการบทหนังสือหลายเล่มเพื่อปกปิดมันดังนั้นฉันจะยกตัวอย่างสองตัวอย่าง

  1. หากข้อมูลมีการนับและไม่มีขีด จำกัด บนฉันลอง Poisson ตัวแปรปัวซองสามารถตีความได้ว่าเป็นจำนวนอิสระต่อเนื่องในช่วงเวลาหนึ่งซึ่งเป็นกรอบทั่วไปมาก ฉันพอดีกับการกระจายและดู (มักจะมองเห็น) ว่าอธิบายความแปรปรวนได้ดีหรือไม่ ค่อนข้างบ่อยความแปรปรวนของตัวอย่างสูงกว่ามากซึ่งในกรณีนี้ฉันใช้ Negative Binomial Binomial เชิงลบสามารถตีความได้ว่าเป็นการผสมผสานของปัวซองกับตัวแปรที่แตกต่างกันซึ่งเป็นเรื่องทั่วไปมากขึ้นดังนั้นนี่จึงเป็นตัวอย่างที่ดีมากสำหรับตัวอย่าง

  2. ถ้าฉันคิดว่าข้อมูลมีความสมมาตรโดยรอบนั่นคือการเบี่ยงเบนมีแนวโน้มที่จะเป็นบวกหรือลบเท่ากัน จากนั้นฉันตรวจสอบ (มองเห็นอีกครั้ง) ว่ามีค่าผิดปกติมากมายหรือไม่เช่นจุดข้อมูลอยู่ไกลจากค่าเฉลี่ย หากมีฉันใช้ t ของนักเรียนแทน การแจกแจงแบบ t ของนักเรียนสามารถตีความได้ว่าเป็นส่วนผสมของเกาส์เซียนที่มีความแปรปรวนต่างกันซึ่งเป็นเรื่องทั่วไปมาก

ในตัวอย่างเหล่านั้นเมื่อฉันพูดด้วยสายตาฉันหมายความว่าฉันใช้พล็อต QQ

จุดที่ 3 ควรได้รับบทของหนังสือหลายเล่มเช่นกัน ผลกระทบของการใช้การแจกแจงแทนการแจกแจงแบบอื่นนั้นไร้ขีด จำกัด ดังนั้นแทนที่จะทำตามทั้งหมดฉันจะทำต่อไปทั้งสองตัวอย่างข้างต้น

  1. ในวันแรก ๆ ของฉันฉันไม่ทราบว่า Negative Binomial สามารถตีความได้อย่างมีความหมายดังนั้นฉันจึงใช้ Poisson ตลอดเวลา (เพราะฉันต้องการตีความพารามิเตอร์ในแง่มนุษย์) บ่อยครั้งมากเมื่อคุณใช้ปัวซองคุณเข้ากับค่าเฉลี่ยได้ดี แต่คุณประเมินความแปรปรวนต่ำเกินไป ซึ่งหมายความว่าคุณไม่สามารถทำซ้ำค่าตัวอย่างจำนวนมากได้และคุณจะพิจารณาค่าดังกล่าวเป็นค่าผิดปกติ (จุดข้อมูลที่ไม่มีการกระจายแบบเดียวกับจุดอื่น ๆ ) ในขณะที่ค่าเหล่านั้นไม่จริง

  2. อีกครั้งในวันแรกของฉันฉันไม่ทราบว่านักเรียนยังมีการตีความที่มีความหมายและฉันจะใช้ Gaussian ตลอดเวลา สิ่งที่คล้ายกันเกิดขึ้น ฉันจะพอดีกับค่าเฉลี่ยและความแปรปรวนได้ดี แต่ฉันจะยังไม่จับค่าผิดปกติเพราะจุดข้อมูลเกือบทั้งหมดควรอยู่ภายใน 3 ส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย สิ่งเดียวกันที่เกิดขึ้นฉันสรุปว่าบางจุดเป็น "พิเศษ" ในขณะที่พวกเขาไม่จริง


2
บันทึกที่จะเพิ่มคำตอบ gui11aume ของ: มีไวยากรณ์ "D, P, Q, R" สำหรับฟังก์ชั่นการกระจายที่เกี่ยวข้องในอาร์ตัวอย่างคือdnorm, pnorm, qnormและrnormมีความหนาแน่นของฟังก์ชั่นการแจกแจงสะสม (CDF) ผกผัน CDF และ ฟังก์ชั่นเครื่องกำเนิดตัวแปรแบบสุ่มสำหรับการแจกแจงแบบปกติตามลำดับ ดูมุมมองภารกิจการกระจายความน่าจะเป็นสำหรับรายการที่ครอบคลุมของการแจกแจงที่มีอยู่
jthetzel

ใช่ขอบคุณมาก (+1) ฉันกำลังมองหารายการดังกล่าวมาเป็นเวลานาน ฉันใส่ไว้ในคำตอบเพื่อให้มองเห็นได้ชัดเจนขึ้น
gui11aume

1
ฉันไม่สามารถบอกคุณได้ว่าหนึ่งในสามของการแจกแจงนั้นคืออะไร มากกว่าที่จะเรียนรู้ ... +1 แต่อย่าลืมคำถามที่เหลือซึ่งเป็นพื้นฐาน (แต่อาจจะกว้างเกินไปหน่อย): ตัวเลือกการกระจายมีผลอย่างไรในการจำลอง เราควรเลือกตัวเลือกเหล่านี้อย่างไร?
whuber

@whuber ฉันเพิ่มผลของการแจกแจงแบบเอ็กซ์โปเนนเชียลของความล่าช้าในการขึ้นลงของคิว อ้างถึง หนังสือเกี่ยวกับ CP หรือการเข้าคิว
Mohan Radhakrishnan

ฉันได้อ่านการกระจายตัวที่เหมาะสมด้วย R และใช้แผนพล็อต QQ อีกครั้ง การประมาณความเป็นไปได้สูงสุดเริ่มต้นด้วยการแสดงออกทางคณิตศาสตร์ที่เรียกว่าฟังก์ชันความน่าจะเป็นของข้อมูลตัวอย่าง .. การพูดอย่างหลวม ๆ ความน่าจะเป็นของชุดข้อมูลคือความน่าจะเป็นที่จะได้ข้อมูลชุดนั้นมาจากแบบจำลองความน่าจะเป็น นี่หมายความว่ามีวิธีคำนวณว่าการกระจายสามารถเกิดขึ้นได้อีกครั้งหรือไม่ ต้องมีการวัดจำนวนเท่าใดเพื่อพิสูจน์สิ่งนี้
Mohan Radhakrishnan
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.