บางคำถามเกี่ยวกับการสุ่มทางสถิติ


15

จากความแร้นแค้นทางสถิติของ Wikipedia :

การสุ่มทั่วโลกและการสุ่มในท้องถิ่นนั้นแตกต่างกัน แนวคิดเชิงปรัชญาส่วนใหญ่เกี่ยวกับการสุ่มนั้นเป็นสากล - เพราะพวกมันอยู่บนพื้นฐานความคิดที่ว่า "ในระยะยาว" ลำดับนั้นดูสุ่มอย่างแท้จริงแม้ว่าบางลำดับย่อยจะไม่ดูสุ่ม ในการสุ่มตัวเลขที่มีความยาวเพียงพออย่างแท้จริงอาจเป็นไปได้ว่าจะมีการเรียงลำดับแบบยาวของศูนย์ แต่ในทั้งลำดับอาจเป็นแบบสุ่ม Local Randomness หมายถึงแนวคิดที่ว่าสามารถมีความยาวของลำดับขั้นต่ำที่การแจกแจงแบบสุ่มจะถูกประมาณแม้แต่ตัวเลขที่สร้างขึ้นโดยกระบวนการสุ่มอย่างแท้จริงจะลด "การสุ่มแบบท้องถิ่น" ของตัวอย่าง (มันอาจเป็นแบบสุ่มเฉพาะที่สำหรับลำดับ 10,000 หลัก แต่การวนน้อยกว่า 1,000 อาจไม่ปรากฏแบบสุ่ม ตัวอย่างเช่นทั้งหมด)

ลำดับที่แสดงรูปแบบจึงไม่ได้รับการพิสูจน์ว่าไม่สุ่มทางสถิติ ตามหลักการของทฤษฎีแรมซีย์วัตถุขนาดใหญ่อย่างเพียงพอจะต้องมีโครงสร้างพื้นฐานที่กำหนด ("ความไม่สมบูรณ์สมบูรณ์เป็นไปไม่ได้")

ฉันไม่เข้าใจความหมายของประโยคทั้งสองเป็นตัวหนา

  1. ประโยคแรกหมายความว่ามีบางสิ่งที่ทำให้เกิดการสุ่มตามลำดับที่ความยาวมากกว่าและไม่ใช่การสุ่มแบบท้องถิ่นที่ความยาวสั้นกว่าหรือไม่

    ตัวอย่างในวงเล็บทำงานอย่างไร

  2. ประโยคที่สองหมายความว่าลำดับที่แสดงรูปแบบไม่สามารถพิสูจน์ได้ว่าไม่ได้สุ่มตัวอย่างเชิงสถิติหรือไม่? ทำไม?

ขอบคุณ


1
คำถามที่ดี. ฉันพบว่าข้อความนี้น่าตกใจเล็กน้อย ฉันคิดว่าการเรียงลำดับแบบสุ่มหรือไม่นั้นเกี่ยวข้องกับวิธีการสร้างหรือไม่ ไม่ใช่สิ่งที่เกิดขึ้น ฉันสงสัยว่ามีปัญหาทางภาษาที่นี่ - สำหรับฉันแบบสุ่มหมายความว่ามันถูกสร้างขึ้นอย่างไร สำหรับสามัญสำนึก (และอาจเป็นนักปรัชญาที่คิดน้อยกว่า) เป็นเรื่องเกี่ยวกับสิ่งที่ไม่เป็นระเบียบหรือไม่?
ปีเตอร์เอลลิส

3
@ ปีเตอร์คุณอาจมีช่วงเวลาที่ยากลำบากแม้จะกำหนดแบบแผนหากคุณสามารถอ้างถึงกลไกการสร้างเท่านั้น ท้ายที่สุดเพราะยูทิลิตี้ของการสุ่มลำดับอยู่ในตัวเลขที่มี - และไม่ใช่ในการสร้างตัวเลขเหล่านั้น - จะต้องมีวิธีในการกำหนดและทดสอบการสุ่มในแง่ของลำดับคุณไม่คิดอย่างนั้นหรือ
whuber

1
แน่นอนฉันเห็นด้วยว่าคุณสามารถทดสอบการสุ่มจากผลลัพธ์ของมัน - เพื่อความน่าเชื่อถือของการสุ่มโดยไม่ต้องการพิสูจน์มัน ฉันอาจต้องอ่านเพิ่มเติมและคิดทบทวนความท้าทายทางปรัชญาของคำจำกัดความตามรุ่น
Peter Ellis

ฉันคิดว่าการสุ่มเป็นเพียงคำพ้องความหมายที่ไม่รู้จัก ฉันก็พบว่าประโยคนี้เป็น bizzare
ความน่าจะเป็นเชิง

คำตอบ:


15

แนวคิดนี้สามารถแสดงให้เห็นได้อย่างเรียบร้อยโดยโค้ดที่สามารถใช้งานได้บางตัว เราเริ่มต้น (ในR) โดยใช้ตัวสร้างตัวเลขสุ่มหลอกที่ดีในการสร้างลำดับ 10,000 ศูนย์และคน:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

วิธีนี้ผ่านการทดสอบหมายเลขสุ่มขั้นพื้นฐาน ยกตัวอย่างเช่น t-test เพื่อเปรียบเทียบหมายถึงมี p-value ของ40.09 % ซึ่งช่วยให้เราสามารถยอมรับสมมติฐานที่ว่าศูนย์และคนอย่างเท่าเทียมกันมีแนวโน้ม1/240.09

จากตัวเลขเหล่านี้เราจะแยกลำดับที่ต่อเนื่องกันค่าเริ่มต้นที่ค่า 5081:1000

x0 <- x[1:1000 + 5080]

หากสิ่งเหล่านี้ดูสุ่มพวกเขาควรผ่านการทดสอบตัวเลขสุ่มแบบเดียวกัน ตัวอย่างเช่นลองทดสอบว่าค่าเฉลี่ยของพวกเขาคือ 1/2:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041 

ต่ำ p-value (น้อยกว่า 1%) แสดงให้เห็นความหมายอย่างมีนัยสำคัญมากขึ้นกว่า 2 อันที่จริงผลรวมสะสมของลำดับนี้มีแนวโน้มสูงขึ้น:1/2

> plot(cumsum(x0-1/2))

เดินสุ่มไหม

นั่นไม่ใช่พฤติกรรมแบบสุ่ม!

การเปรียบเทียบลำดับดั้งเดิม (พล็อตเป็นผลรวมสะสม) กับการเรียงลำดับนี้เผยให้เห็นสิ่งที่เกิดขึ้น:

เดินสุ่ม

9000


เมื่อการวิเคราะห์อย่างง่ายเหล่านี้แสดงให้เห็นแล้วการทดสอบไม่สามารถ "พิสูจน์" ว่าลำดับปรากฏขึ้นแบบสุ่ม ทั้งหมดที่เราทำได้คือการทดสอบว่าลำดับเบี่ยงเบนจากพฤติกรรมที่คาดว่าจะเกิดขึ้นของลำดับสุ่มเพื่อเสนอหลักฐานว่าพวกเขาไม่ได้สุ่ม นี่คือการทำงานของแบตเตอรี่ในการทดสอบตัวเลขสุ่ม : พวกมันมองหารูปแบบที่ไม่น่าจะเกิดขึ้นอย่างมากในลำดับเลขสุ่ม ทุก ๆ ครั้งในขณะที่พวกเขาจะทำให้เราสรุปได้ว่าตัวเลขสุ่มแบบสุ่มไม่ปรากฏขึ้นแบบสุ่ม: เราจะปฏิเสธมันเป็นอย่างอื่น

ในระยะยาว - เช่นเดียวกับที่เราทุกคนตาย - ตัวสร้างตัวเลขสุ่มใด ๆ ที่แท้จริงจะสร้างลำดับที่เป็นไปได้ทุก 1,000 หลักและมันจะทำเช่นนั้นหลายครั้งอย่างไม่ จำกัด สิ่งที่ช่วยชีวิตเราจากความไม่แน่ใจในเชิงตรรกะคือเราจะต้องรอเป็นเวลานานมากสำหรับความผิดปกติที่จะเกิดขึ้น


ขอบคุณ! คำถามที่เกี่ยวข้อง: เมื่อทดสอบการสุ่มของตัวเลขสุ่มหลอกที่สร้างขึ้นโดยวิธีการบางอย่างการสุ่มหมายถึงการกระจายแบบสม่ำเสมอหรือไม่ กล่าวอีกนัยหนึ่งการทดสอบแบบสุ่มสำหรับการทดสอบการแจกแจงแบบสม่ำเสมอหรือไม่ ฉันถามสิ่งนี้เพราะการแจกแจงแบบเอนเอียงเหล่านั้นดูสุ่มน้อยลงสำหรับฉันโดยสังหรณ์ใจ
ทิม

@ เวลา: ไม่มีมีการทดสอบทั่วไปมากมายสำหรับการสุ่มแบบเกาส์เซียนและมันควรจะเป็นไปได้ที่จะสร้างการทดสอบสำหรับการแจกแจงใด ๆ
naught101

1
[0,1)

2
ฉันเกือบจะสามารถ "ดู" ที่ด้านบนของคำตอบและพูดว่า "Whuber" :) ดีมาก!
ปริญญาเอก

2

ข้อความที่ตัดตอนมานี้ใช้คำว่า "local randomness" และ "global randomness" เพื่อแยกความแตกต่างระหว่างสิ่งที่อาจเกิดขึ้นกับจำนวนตัวอย่างสุ่มของตัวแปรสุ่มและการแจกแจงความน่าจะเป็นหรือความคาดหวังของตัวแปรสุ่ม

xผม{0,1}θθLimn1nΣผม=1nxผม=θ

[0,1][a,]0a<1θ

ไม่มีอะไรใหม่ที่นี่

n

ดังนั้นฉันจะไม่เผาเซลล์สมองมากเกินไปที่คิดเกี่ยวกับข้อความที่ตัดตอนมานี้ มันไม่ได้แม่นยำทางคณิตศาสตร์มากนักและทำให้เข้าใจผิดเกี่ยวกับธรรมชาติของการสุ่ม

แก้ไขตามความคิดเห็น: @kjetilbhalvorsen +1 เพื่อแสดงความคิดเห็นของคุณสำหรับความรู้ทางประวัติศาสตร์ อย่างไรก็ตามฉันยังคิดว่ามูลค่าของข้อกำหนดเหล่านี้มี จำกัด และทำให้เข้าใจผิด ตารางที่คุณอธิบายดูเหมือนจะทำให้เกิดความเข้าใจผิดที่ตัวอย่างเล็ก ๆ ซึ่งมีตัวอย่างหมายถึงค่าเฉลี่ยที่ห่างไกลจากค่าที่คาดไว้จริงหรืออาจเป็นลำดับที่ไม่น่าจะเป็นไปได้ แต่อาจเป็นไปได้ สุ่มน้อยลง (โดยการบอกว่าพวกเขาไม่แสดงปลอมนี้ "แบบแผนในท้องถิ่น") ฉันไม่สามารถคิดถึงสิ่งที่ทำให้เข้าใจผิดมากขึ้นสำหรับนักสถิติรุ่นใหม่!


แม้ว่า "การสุ่มทั่วโลก" จะปรากฏเป็นลางบอกเหตุ แต่ "การสุ่มของท้องถิ่น" มีประวัติอย่างน้อย 20 ปี ดูที่isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdfเป็นต้น
whuber

nn

2
ฉันจำได้ว่าฉันอ่านบางครั้งสิ่งนี้: ในช่วงเวลาที่คนตีพิมพ์หนังสือที่มีตารางของ "ตัวเลขสุ่ม" ที่จะใช้สำหรับการจำลองการทดลองและอื่น ๆ บางส่วนมีการทำเครื่องหมายส่วนของตารางที่เหมาะสมสำหรับใช้ในการจำลองขนาดเล็ก Randomness ") และส่วนอื่น ๆ ที่ควรใช้สำหรับการจำลองที่ใหญ่กว่าเท่านั้น (แสดง" Global Randomness ") ดังนั้นแนวคิดจึงดูเหมือนจะชี้ไปที่บางสิ่งที่มีค่า!
kjetil b halvorsen

1
ขออภัยฉันจำไม่ได้ว่าอ่านข้อความนี้ที่ไหน แต่ก็เกือบจะชัดเจน: นอกเหนือจากปัญหาทางปรัชญาในการกำหนดแบบแผนหากคุณมีแบบจำลองขนาดเล็กมากที่คุณต้องการตัวเลขสุ่ม 1,000 ตัวและตัวสร้างแบบสุ่มคุณภาพสูงของคุณให้ 1,000 ศูนย์ eros คุณจะทำอย่างไร ทั้งๆที่ความเป็นจริงนั้นเป็นไปได้และจำเป็นในลำดับ "สุ่มอย่างแท้จริง" การจำลองของคุณถูกทำลาย!
kjetil b halvorsen

1
ขอบคุณพวกฉันอาจรุนแรงเกินไปในการลงโทษของฉัน ฉันจะเปลี่ยนภาษาของสิ่งนี้เล็กน้อย
Chris A.

-1

ฉันคิดว่าผู้เขียนของโพสต์ Wikipedia นั้นเข้าใจผิดเกี่ยวกับการสุ่ม ใช่อาจมีการยืดที่ดูเหมือนจะไม่สุ่ม แต่ถ้ากระบวนการที่สร้างลำดับนั้นสุ่มโดยสุ่มดังนั้นจะต้องมีเอาต์พุต หากลำดับบางอย่างดูเหมือนจะไม่สุ่มนั่นคือการรับรู้ที่ผิดพลาดของผู้อ่าน (เช่นมนุษย์ถูกออกแบบมาเพื่อค้นหารูปแบบ) ความสามารถของเราในการมองเห็นกลุ่มดาวกระบวยใหญ่และกลุ่มดาวนายพราน ฯลฯ ในท้องฟ้ายามค่ำคืนไม่มีหลักฐานว่ารูปแบบของดาวไม่ใช่แบบสุ่ม ฉันยอมรับว่าการสุ่มมักจะปรากฏขึ้นโดยไม่สุ่ม หากกระบวนการสร้างรูปแบบที่ไม่ใช่สุ่มอย่างแท้จริงสำหรับลำดับสั้น ๆ นั่นไม่ใช่กระบวนการสุ่ม

ฉันไม่คิดว่ากระบวนการจะเปลี่ยนแปลงตามขนาดตัวอย่างที่แตกต่างกัน คุณเพิ่มขนาดตัวอย่างคุณเพิ่มความน่าจะเป็นที่เราเห็นลำดับสุ่มที่ดูเหมือนว่าเราจะไม่สุ่ม หากมีโอกาส 10% ที่เราจะเห็นรูปแบบในการสังเกตแบบสุ่ม 20 ครั้งการเพิ่มจำนวนการสังเกตทั้งหมดเป็น 10,000 จะเพิ่มโอกาสที่เราจะเห็นการไม่สุ่มตัวอย่างที่ไหนสักแห่ง


2
"ถ้ากระบวนการสร้างรูปแบบที่ไม่ใช่สุ่มอย่างแท้จริงสำหรับลำดับสั้น ๆ นั่นไม่ใช่กระบวนการสุ่ม" คือฉันกลัวว่าไม่ถูกต้องทั้งหมด ยกตัวอย่างเช่นในการโยนเหรียญ 100 เหรียญเราคาดว่าจะสังเกตหัวหกหรือหกหางในแถว - และนั่นคือ "รูปแบบที่ไม่ใช่แบบสุ่มอย่างแท้จริงสำหรับลำดับ [สั้น]" โดยเกือบทุกคนมีความหมายว่า "สุ่ม" " ฉันสงสัยว่าคุณตั้งใจจะเขียนบางสิ่งที่จำเป็นต้องมีคุณสมบัติมากกว่านี้อย่างรอบคอบเช่นการใช้ "ทั้งหมด" ก่อน "ลำดับสั้น"
whuber

จริงๆ? ฉันจะคิดว่าเนื่องจากเราคาดว่าจะเห็นสายหัวของหางจากเครื่องกำเนิดตัวเลขสุ่มว่าเมื่อเราเห็นมันเราไม่ควรแปลกใจ ทำไมมันถึงไม่ใช่แบบสุ่ม? หากมีเครื่องกำเนิดตัวเลขที่หมุนได้ 100 ครั้งและหลีกเลี่ยงหัวหรือก้อย 4 หรือมากกว่าในแถวอย่างตั้งใจมันจะดูสุ่มมากกว่ากระบวนการสุ่มอย่างแท้จริง แต่จริง ๆ แล้วจะไม่ใช่แบบสุ่ม มุมมองที่ไร้เดียงสาของการสุ่มคือการขาดรูปแบบทั้งหมด - แต่นั่นจะไม่ใช่แบบสุ่ม
P. auritus

ความคิดเห็นของคุณถูกต้อง แต่การแสดงออกในคำตอบของคุณไม่ชัดเจนและยังขัดแย้งกับประเด็นนี้ ลองอธิบายให้ชัดเจนยิ่งขึ้นว่าคุณหมายถึงอะไรโดยการสร้าง "รูปแบบที่ไม่ใช่การสุ่มอย่างแท้จริงสำหรับลำดับสั้น ๆ " หรือสิ่งที่มีความหมายในการ "ดูการไม่สุ่ม"
whuber

ฉันไม่เห็นความขัดแย้ง คุณคิดว่าเครื่องกำเนิดไฟฟ้าแบบสุ่มสร้างรูปแบบที่ไม่ใช่แบบสุ่ม นั่นคือความขัดแย้ง คุณกำลังโต้แย้งว่ากระบวนการสุ่มอย่างแท้จริงจะสร้างการสังเกตแบบไม่สุ่ม สิ่งที่คุณกำลังอธิบายบางครั้งเรียกว่า "การจัดกลุ่มภาพลวงตา" ซึ่งเป็นแนวโน้มที่จะรับรู้กลุ่มที่ไม่ถูกต้องจากการแจกแจงแบบสุ่ม ทั้งหมดที่ฉันพูดคือถ้ากระบวนการสร้างการสังเกตแบบไม่สุ่มก็ไม่ใช่การสุ่ม คุณยืนยันว่าคุณคาดหวังว่ากระบวนการแบบสุ่มในการสร้างสตริงของการสังเกตแบบไม่สุ่มตัวอย่าง แต่คุณเรียกว่าการสุ่ม ตัวอย่างคลาสสิกของ Apophenia
P. auritus

1
เป็นการยากที่จะพูดคุยกับคู่สนทนาที่เข้าใจผิดตำแหน่งดังนั้นฉันจะกราบไหว้คนนี้ ขอโทษ
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.