การใช้ตัวเลขสุ่มในการคำนวณทางสถิติมีความสำคัญอะไรบ้าง?


15

เครื่องกำเนิดเลขสุ่ม (RNG) มีความสำคัญอย่างไรในสถิติการคำนวณ

ฉันเข้าใจว่าการสุ่มนั้นมีความสำคัญเมื่อเลือกตัวอย่างสำหรับการทดสอบทางสถิติจำนวนมากเพื่อหลีกเลี่ยงอคติต่อสมมติฐานใด ๆ แต่มีพื้นที่อื่น ๆ ของสถิติการคำนวณที่เครื่องกำเนิดเลขสุ่มมีความสำคัญหรือไม่


4
เกี่ยวข้องอย่างใกล้ชิด: stats.stackexchange.com/q/135665/35989
ทิม

1
คุณจะถามอะไร คำถามของคุณไม่สมเหตุสมผลนัก
Carl Witthoft

2
มันอาจจะเป็นการดีกว่าถ้าคุณขอพื้นที่ที่ไม่สำคัญ มันอาจจะเป็นรายการที่สั้นกว่า
John Coleman

2
คำถามกว้าง แต่ชื่อนั้นน่าสนใจและคำตอบของ Matthew ก็เป็นภาพรวมที่ดี ฉันโหวตให้เปิดใหม่!
เบอนัวต์ซานเชซ

3
สิ่งนี้กว้างเกินไปตามมาตรฐาน SE ทั่วไป & จำนวนคำถาม 'รายการใหญ่' ที่น่าจะมีคำตอบเล็ก ๆ ที่ไม่ซับซ้อนซึ่งมักจะมีคำตอบซ้ำอยู่แล้ว อย่างไรก็ตามดูเหมือนว่าจะมีค่าจริงบางอย่างที่นี่ การประนีประนอมมีไว้เพื่อให้ได้รับการป้องกัน & ในอนาคตคำตอบที่กล่าวถึงบางสิ่งโดยไม่ต้องมีรายละเอียด & / หรือการใช้ซ้ำที่กล่าวถึงแล้วจะถูกลบทันที & โดยไม่ต้องแสดงความคิดเห็น
gung - Reinstate Monica

คำตอบ:


17

มีหลายตัวอย่างมากมาย มีจำนวนมากเกินไปในรายการและอาจมากเกินไปสำหรับทุกคนที่จะรู้อย่างสมบูรณ์ (นอกเหนือจาก @whuber ซึ่งไม่ควรประเมินต่ำกว่า)

ดังที่คุณกล่าวถึงในการทดลองที่มีการควบคุมเราหลีกเลี่ยงการสุ่มตัวอย่างอคติโดยการแบ่งกลุ่มตัวอย่างแบบสุ่มเป็นกลุ่มการรักษาและกลุ่มควบคุม

ในการบูตสแตรปเราประมาณการสุ่มตัวอย่างซ้ำจากประชากรโดยการสุ่มแบบสุ่มด้วยการแทนที่จากตัวอย่างคงที่ สิ่งนี้ช่วยให้เราสามารถประเมินความแปรปรวนของการประมาณการของเราได้

ในการตรวจสอบความถูกต้องไขว้เราประเมินข้อผิดพลาดจากตัวอย่างของการประมาณโดยแบ่งพาร์ติชันข้อมูลของเราออกเป็นชิ้น ๆ และประกอบชุดฝึกอบรมและทดสอบแบบสุ่ม

ในการทดสอบการเรียงสับเปลี่ยนเราใช้การสุ่มเรียงสับเปลี่ยนเพื่อสุ่มตัวอย่างภายใต้สมมติฐานว่างทำให้สามารถทำการทดสอบสมมุติฐานแบบไม่มีพารามิเตอร์ในสถานการณ์ที่หลากหลาย

ในการบรรจุถุงเราควบคุมความแปรปรวนของการประมาณโดยดำเนินการประมาณค่าซ้ำ ๆ บนตัวอย่างบูทสแตรปของข้อมูลการฝึกอบรมจากนั้นทำการหาค่าเฉลี่ยผลลัพธ์

ในป่าสุ่มเรายังควบคุมความแปรปรวนของการประมาณโดยสุ่มตัวอย่างจากตัวทำนายที่มีอยู่ในทุก ๆ จุดตัดสินใจ

ในการจำลองเราขอให้แบบจำลองพอดีสร้างสุ่มชุดข้อมูลใหม่ซึ่งเราสามารถเปรียบเทียบกับการฝึกอบรมหรือการทดสอบข้อมูลช่วยตรวจสอบความพอดีและสมมติฐานในแบบจำลอง

ในห่วงโซ่มาร์คอฟ Monte Carloเราสุ่มตัวอย่างจากการจัดจำหน่ายโดยสำรวจพื้นที่ของผลลัพธ์ที่เป็นไปได้โดยใช้ห่วงโซ่มาร์คอฟ (ขอบคุณ @Ben Bolker สำหรับตัวอย่างนี้)

เหล่านี้เป็นเพียงแอปพลิเคชันทั่วไปที่ใช้ในชีวิตประจำวันที่นึกขึ้นมาทันที ถ้าฉันขุดลึกฉันอาจจะเพิ่มความยาวของรายการนั้นเป็นสองเท่า การสุ่มเป็นทั้งวัตถุสำคัญของการศึกษาและเป็นเครื่องมือสำคัญในการควง


ทั้งหมดนี้เป็นความจริง แต่ไม่ได้แก้ไขปัญหาหลัก: PRNG ที่มีโครงสร้างผลลัพธ์หรือการคาดการณ์ในลำดับใด ๆ จะทำให้การจำลองล้มเหลว
Carl Witthoft

3
หนึ่งในสิ่งที่สมควรกล่าวถึงคือค่าใช้จ่ายในการคำนวณและหน่วยความจำในการสร้างตัวเลขสุ่มหรือสุ่มหลอกจำนวนมาก แอปพลิเคชันของ RNG ในสถิติต้องการตัวเลขสุ่มนับร้อยถึงล้าน แต่บางแอปพลิเคชันต้องการลำดับความสำคัญมากกว่าซึ่งมีค่าใช้จ่ายทั้งสองนี้
Alexis

5

ทั้งหมดนี้เป็นความจริง แต่ไม่ได้แก้ไขปัญหาหลัก: PRNG ที่มี โครงสร้างผลลัพธ์หรือการคาดการณ์ในลำดับใด ๆ จะ ทำให้การจำลองล้มเหลว Carl Witthoft 31 มกราคมเวลา 15:51 น

หากนี่เป็นข้อกังวลของคุณบางทีชื่อคำถามควรเปลี่ยนเป็น "ผลกระทบของตัวเลือก RNG ต่อผลลัพธ์ Monte Carlo" หรืออะไรทำนองนั้น ในกรณีนี้ได้รับการพิจารณาในการตรวจสอบข้าม SEแล้วนี่เป็นคำแนะนำ

  • หากคุณกำลังพิจารณาRNG ที่ได้รับการออกแบบมาไม่ดีเช่นRANDU ที่น่าอับอายพวกเขาจะส่งผลในทางลบอย่างชัดเจนต่อการประมาณค่า Monte Carlo ที่จะจุดบกพร่องใน RNGs มีอยู่ธนาคารของมาตรฐานเช่น Marsaglia ของการทดสอบมิจฉาทิฐิ (ตัวอย่างเช่น Park & มิลเลอร์ (1988) การใช้งานของเครื่องกำเนิดไฟฟ้า congruential Lehmer กับปัจจัย 16807 ได้รับพบว่าขาดจะถูกแทนที่ด้วย 47271 หรือ 69621. หลักสูตรนี้ได้ถูกแทนที่โดยเครื่องกำเนิดไฟฟ้าขนาดใหญ่ระยะเวลาเช่นMersenne Twister PRNG .)
  • คำถาม SE ในวิชาคณิตศาสตร์ให้การเชื่อมโยงเกี่ยวกับผลกระทบที่ (หรือขาดมัน) ในการประมาณค่าและความแม่นยำหากไม่ได้คำตอบที่เป็นประโยชน์มาก
  • Jeff Rosenthal (U Toronto)มีกระดาษที่เขาศึกษาผลกระทบต่อ RNG เกี่ยวกับการบรรจบกันของโซ่มาร์คอฟ (Monte Carlo) Markov แต่ฉันหามันไม่เจอ ฉันเพิ่งทำการทดลองขนาดเล็กบนบล็อกของฉันโดยไม่มีผลกระทบที่มองเห็นได้ของประเภท RNG
    • นอกเหนือจากนั้นโครงการลอตเตอรีในออนแทรีโอได้ใช้การสุ่มแบบไม่ดีซึ่งออกแบบโดยนักสถิติโมฮันศรีวิสตาวาว่าของโตรอนโตแคนาดาผู้แจ้งออนแทรีโอลอตเตอรีและการพนันของ บริษัท ทางหนี
  • นี่คือภาพประกอบของกรณีที่ตัวจำลองเครือข่ายแบบคลาสสิกได้รับผลกระทบจากตัวเลือกเริ่มต้นที่ไม่ดี (เชื่อมโยงกับ Park และ Miller ด้านบน)
  • มีปัญหาเฉพาะกับโครงสร้างของ RNGs ที่ใช้ในการประมวลผลแบบขนาน การใช้หลาย ๆ เมล็ดมักจะไม่ดีพอโดยเฉพาะอย่างยิ่งสำหรับเครื่องกำเนิดไฟฟ้าเชิงเส้นเชิงเส้น มีวิธีการมากมายที่สามารถพบได้ในวรรณกรรมคอมพิวเตอร์รวมถึงแพ็คเกจการสร้างหมายเลขสุ่มแบบขนาน (SPRNG)ของ Michael Mascagni (รวมถึงเวอร์ชัน R) และผู้สร้างไดนามิกของมัตสึโมโต้โปรแกรม C ที่ให้ค่าเริ่มต้นสำหรับสตรีมอิสระเมื่อใช้ Twers Mersenne . สิ่งนี้ได้รับการแก้ไขในSE stack overflowด้วย
  • ปีที่แล้วฉันได้เห็นการพูดคุยของPaula Whitlockเกี่ยวกับผลกระทบของ GNU Scientific Library เกี่ยวกับการบรรจบกันของการเดินสุ่มมิติสูง แต่ไม่สามารถทำได้
  • เพื่อจบลงด้วยโน้ตเล็ก ๆ น้อย ๆ มีวรรณกรรมบางอย่างเกี่ยวกับความแตกต่างระหว่างซอฟต์แวร์และฮาร์ดแวร์ RNGs โดยอ้างว่า psychics สามารถส่งผลกระทบในภายหลัง !
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.