ฉันจะตอบประเด็นของคุณเกี่ยวกับการจำลองด้วย R เพราะนี่เป็นสิ่งเดียวที่ฉันคุ้นเคย R มีการแจกแจงแบบบิวด์อินจำนวนมากซึ่งคุณสามารถจำลองได้ logics ของการตั้งชื่อก็คือการจำลองการกระจายที่เรียกว่าชื่อจะได้รับการdis
rdis
ด้านล่างเป็นสิ่งที่ฉันใช้บ่อยที่สุด
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
คุณสามารถค้นหาเติมเต็มบางอย่างในการติดตั้งอุปกรณ์กระจายกับ R
เพิ่มเติม:ขอบคุณ @jthetzel ที่ให้ลิงค์พร้อมรายการการกระจายและแพ็คเกจที่เป็นของพวกเขา
แต่เดี๋ยวก่อนยังมีอีก:ตกลงตามความเห็นของ @ whuber ฉันจะพยายามพูดถึงประเด็นอื่น ๆ เกี่ยวกับจุดที่ 1 ฉันไม่เคยไปด้วยวิธีการที่ดี - พอดี แต่ฉันคิดเสมอเกี่ยวกับที่มาของสัญญาณเช่นสิ่งที่ทำให้เกิดปรากฏการณ์มีความสมมาตรตามธรรมชาติในสิ่งที่ก่อให้เกิดฯลฯคุณต้องการบทหนังสือหลายเล่มเพื่อปกปิดมันดังนั้นฉันจะยกตัวอย่างสองตัวอย่าง
หากข้อมูลมีการนับและไม่มีขีด จำกัด บนฉันลอง Poisson ตัวแปรปัวซองสามารถตีความได้ว่าเป็นจำนวนอิสระต่อเนื่องในช่วงเวลาหนึ่งซึ่งเป็นกรอบทั่วไปมาก ฉันพอดีกับการกระจายและดู (มักจะมองเห็น) ว่าอธิบายความแปรปรวนได้ดีหรือไม่ ค่อนข้างบ่อยความแปรปรวนของตัวอย่างสูงกว่ามากซึ่งในกรณีนี้ฉันใช้ Negative Binomial Binomial เชิงลบสามารถตีความได้ว่าเป็นการผสมผสานของปัวซองกับตัวแปรที่แตกต่างกันซึ่งเป็นเรื่องทั่วไปมากขึ้นดังนั้นนี่จึงเป็นตัวอย่างที่ดีมากสำหรับตัวอย่าง
ถ้าฉันคิดว่าข้อมูลมีความสมมาตรโดยรอบนั่นคือการเบี่ยงเบนมีแนวโน้มที่จะเป็นบวกหรือลบเท่ากัน จากนั้นฉันตรวจสอบ (มองเห็นอีกครั้ง) ว่ามีค่าผิดปกติมากมายหรือไม่เช่นจุดข้อมูลอยู่ไกลจากค่าเฉลี่ย หากมีฉันใช้ t ของนักเรียนแทน การแจกแจงแบบ t ของนักเรียนสามารถตีความได้ว่าเป็นส่วนผสมของเกาส์เซียนที่มีความแปรปรวนต่างกันซึ่งเป็นเรื่องทั่วไปมาก
ในตัวอย่างเหล่านั้นเมื่อฉันพูดด้วยสายตาฉันหมายความว่าฉันใช้พล็อต QQ
จุดที่ 3 ควรได้รับบทของหนังสือหลายเล่มเช่นกัน ผลกระทบของการใช้การแจกแจงแทนการแจกแจงแบบอื่นนั้นไร้ขีด จำกัด ดังนั้นแทนที่จะทำตามทั้งหมดฉันจะทำต่อไปทั้งสองตัวอย่างข้างต้น
ในวันแรก ๆ ของฉันฉันไม่ทราบว่า Negative Binomial สามารถตีความได้อย่างมีความหมายดังนั้นฉันจึงใช้ Poisson ตลอดเวลา (เพราะฉันต้องการตีความพารามิเตอร์ในแง่มนุษย์) บ่อยครั้งมากเมื่อคุณใช้ปัวซองคุณเข้ากับค่าเฉลี่ยได้ดี แต่คุณประเมินความแปรปรวนต่ำเกินไป ซึ่งหมายความว่าคุณไม่สามารถทำซ้ำค่าตัวอย่างจำนวนมากได้และคุณจะพิจารณาค่าดังกล่าวเป็นค่าผิดปกติ (จุดข้อมูลที่ไม่มีการกระจายแบบเดียวกับจุดอื่น ๆ ) ในขณะที่ค่าเหล่านั้นไม่จริง
อีกครั้งในวันแรกของฉันฉันไม่ทราบว่านักเรียนยังมีการตีความที่มีความหมายและฉันจะใช้ Gaussian ตลอดเวลา สิ่งที่คล้ายกันเกิดขึ้น ฉันจะพอดีกับค่าเฉลี่ยและความแปรปรวนได้ดี แต่ฉันจะยังไม่จับค่าผิดปกติเพราะจุดข้อมูลเกือบทั้งหมดควรอยู่ภายใน 3 ส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย สิ่งเดียวกันที่เกิดขึ้นฉันสรุปว่าบางจุดเป็น "พิเศษ" ในขณะที่พวกเขาไม่จริง