K ประสบความสำเร็จในการทดลอง Bernoulli หรือการทดลองภาพยนตร์ของ George Lucas


23

ฉันกำลังอ่าน "The Drunkard's Walk" ตอนนี้และไม่สามารถเข้าใจเรื่องใดเรื่องหนึ่งได้

นี่มันไป:

ลองนึกภาพว่า George Lucas สร้างภาพยนตร์ Star Wars ใหม่และในตลาดการทดสอบเดียวตัดสินใจทำการทดลองที่บ้า เขาเผยแพร่ภาพยนตร์เรื่องเดียวกันภายใต้สองชื่อ: "Star Wars: Episode A" และ "Star Wars: Episode B" ภาพยนตร์แต่ละเรื่องมีแคมเปญการตลาดและตารางการจัดจำหน่ายของตัวเองโดยมีรายละเอียดที่เหมือนกันยกเว้นตัวอย่างภาพยนตร์และโฆษณาสำหรับภาพยนตร์เรื่องหนึ่งที่พูดว่า "Episode A" และภาพยนตร์อื่น ๆ "Episode B"

ตอนนี้เราทำการประกวดออกมา ภาพยนตร์เรื่องใดที่จะได้รับความนิยมมากขึ้น สมมติว่าเราดูผู้ชมภาพยนตร์ 20,000 คนแรกและบันทึกภาพยนตร์ที่พวกเขาเลือกที่จะดู (ไม่สนใจแฟน ๆ ที่กำลังจะตายทั้งคู่และยืนยันว่ามีความแตกต่างที่ลึกซึ้ง แต่มีความหมายระหว่างทั้งสอง) เนื่องจากภาพยนตร์และแคมเปญการตลาดของพวกเขาเหมือนกันเราสามารถสร้างแบบจำลองทางคณิตศาสตร์ด้วยวิธีนี้: ลองนึกภาพผู้ชมทั้งหมดในแถวและพลิกเหรียญสำหรับผู้ชมแต่ละคน ถ้าเหรียญก้มลงหัวเขาหรือเธอเห็นตอนที่ A; หากเหรียญก้อยจบลงก็เป็นตอนที่ B. เนื่องจากเหรียญมีโอกาสเท่ากันที่จะเกิดขึ้นไม่ว่าด้วยวิธีใดคุณอาจคิดว่าในสงครามบ็อกซ์ออฟฟิศทดลองนี้ภาพยนตร์แต่ละเรื่องควรเป็นผู้นำในครึ่งเวลา

แต่คณิตศาสตร์ของการสุ่มบอกว่าเป็นอย่างอื่น: จำนวนการเปลี่ยนแปลงที่น่าจะเป็นไปได้มากที่สุดในการเป็นผู้นำคือ 0 และมันน่าจะเป็น 88 เท่าที่หนึ่งในสองเรื่องจะนำไปสู่ลูกค้า 20,000 รายมากกว่าที่กล่าว "

ฉันอาจไม่ถูกต้องให้เหตุผลกับปัญหาการทดลองแบบธรรมดาของเบอร์นูลีและต้องบอกว่าฉันล้มเหลวที่จะดูว่าทำไมผู้นำไม่เห็นด้วยโดยเฉลี่ย! มีใครอธิบายได้บ้าง

คำตอบ:


22

นี่คือรหัส R เพื่อจำลองการทดลองของ George Lucas:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

เรียกใช้เราได้รับภาพเช่นนี้:

ป้อนคำอธิบายรูปภาพที่นี่

โดยที่ความแตกต่างของตั๋วที่ขายระหว่าง A และ B อยู่บนแกน y

ต่อไปเราวิ่งเช่นการจำลองการทดลองจอร์จลูคัส สำหรับการทดสอบแต่ละครั้งเราคำนวณสัดส่วนของเวลาที่ใช้0นั่นคือสัดส่วนของผู้ชมที่เรียงแถวซึ่งจำนวนตั๋วที่ขายให้กับ A มากกว่าหรือเท่ากับจำนวนตั๋วที่ขายให้ B โดยสังหรณ์ใจคุณต้องการ บอกว่าสัดส่วนนี้ควรจะประมาณ1 / 2 นี่คือฮิสโตแกรมของผลลัพธ์:10,00001/2

ป้อนคำอธิบายรูปภาพที่นี่

สัดส่วนเป็นโดยเฉลี่ยในแง่ที่ว่ามูลค่าที่คาดว่าจะเป็น1 / 2แต่1 / 2เป็นค่าน่าเมื่อเทียบกับค่าใกล้เคียงกับ0หรือ1 สำหรับการทดลองส่วนใหญ่ความแตกต่างอาจเป็นไปในทางบวกหรือทางลบเป็นส่วนใหญ่!1/21/21/201

เส้นโค้งสีแดงเป็นฟังก์ชั่นความหนาแน่นของการกระจาย arcsine ยังเป็นที่รู้จักในฐานะBeta(1/2,1/2)การจัดจำหน่าย สิ่งที่แสดงในภาพด้านบนคือทฤษฎีบทที่เรียกว่ากฎ arscineแรกสำหรับการเดินสุ่มซึ่งกล่าวว่าเมื่อจำนวนขั้นตอนของการเดินสุ่มแบบสมมาตรแบบเรียบง่ายเข้าใกล้อนันต์การกระจายของสัดส่วนของเวลาที่ใช้มากกว่ามีแนวโน้มที่ การกระจายอาร์ซีซีน การอ้างอิงมาตรฐานสำหรับผลลัพธ์นี้คือส่วนที่ III.4 ของทฤษฎีความน่าจะเป็นเบื้องต้นและการนำไปใช้งาน, Vol 1โดย William Feller0


รหัส R สำหรับการศึกษาแบบจำลองคือ

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

ขอบคุณ! ฉันติดตั้ง R และต้องการที่จะทำซ้ำทุกขั้นตอนของคุณ - ฉันจะรัน 10,000 เครื่องจำลองและคำนวณสัดส่วนเวลาที่ใช้ไปได้อย่างไร?
and ลงทะเบียน

@ ทะเบียน: ฉันแก้ไขคำตอบของฉันเพิ่มรหัสสำหรับการจำลองในตอนท้าย ฉันหวังว่าคุณพบว่ามีประโยชน์!
MånsT

ขอบคุณมันมีประโยชน์มาก! เพื่อให้แน่ใจว่าฉันเข้าใจเนื้อหาฉันได้วางpastebin.com/mtRdsPkPตามรหัสของคุณคุณสามารถสะบัดได้หรือไม่
and ลงทะเบียน

@ andreister: ดูดี! เพื่อตอบคำถามเกี่ยวกับสาเหตุที่cumsumใช้แทนsumจินตนาการว่าผู้ชมยืนอยู่ในแถวและเราตรวจสอบว่าพวกเขาซื้อตั๋วหนังแบบใดต่อหนึ่งเรื่อง cumsumให้เวกเตอร์ผลรวมบางส่วนเพื่อให้องค์ประกอบที่ 1 บอกเราว่าข้างหน้า / หลัง A อยู่หลังผู้ชม 1 คนองค์ประกอบที่ 2 ไกลแค่ไหน A หลังจากผู้ชม 2 คนองค์ประกอบที่ 3 หลังจากผู้ชม 3 คนและอื่น ๆ หากองค์ประกอบเป็นค่าบวก A จะมีผู้ดูมากกว่าเดิมหลังจากผู้ชมiคนแรก หากเป็นลบ B จะมีผู้ชมเพิ่มขึ้นและถ้าเป็น 0 พวกเขามีจำนวนผู้ชมii
เท่า

(ต่อ) นี่คือข้อมูลที่เราสนใจเนื่องจากเราต้องการดูว่าผู้นำชักช้าหรือไม่ sumก็จะรวมทั้ง 1 และ -1 ซึ่งจะให้ผลสุดท้ายหลังจากทั้งหมด 20,000 ผู้ชมได้รับการคิด (เช่นองค์ประกอบสุดท้ายของcumsumเวกเตอร์)
MånsT

11

1/2tt=13/4t=3t

11

20,000

หากคุณต้องการคำนวณความน่าจะเป็นบางอย่างคุณต้องนับบางสิ่งที่คล้ายกับการเดินขัดแตะซึ่งไม่ข้ามเส้นทแยงมุม มีวิธีการรวมกันที่ดีซึ่งนำไปใช้กับการเดินแบบสุ่ม (และเคลื่อนที่) ซึ่งไม่ได้ข้ามเส้นดังกล่าวเรียกว่าหลักการการสะท้อนหรือเป็นวิธีการสะท้อน นี่คือวิธีการหนึ่งในการกำหนดหมายเลขคาตาลัน นี่คือสองแอปพลิเคชันอื่น ๆ :

A10,2009,800(20,0009,800)(10,200,9,800)BBB(9,799,10,201)(10,200,9,800)B(20,0009,800)(20,00010,201)=(20,0009,800)(20,0009,799)=(20,0009,800)40110,201.B(10,200,9,800),96%

A(20,00010,000)220,000/10,000π.A1100π150π1/89.56


ขอบคุณ! ฉันต้องเข้าใจสัญกรณ์ก่อนที่จะเข้าใจคำตอบของคุณ! หมายความว่า "จบลงด้วย 10,200 10,9,800" ฯลฯ คุณได้รับตัวเลขจากที่ไหน คุณเห็นโหมดของ 20K เป็นอย่างไร?
andreister

10,2009,80011,0009,00010,0019,999.20,00000p000

0

"มีความเป็นไปได้มากขึ้นที่จะมี 88 ครั้งที่หนึ่งในสองภาพยนตร์จะนำไปสู่ลูกค้าทั้งหมด 20,000 รายมากกว่าที่เป็นเช่นนั้น

ในภาษาอังกฤษธรรมดา: ภาพยนตร์เรื่องหนึ่งที่นำไปสู่การเริ่มต้น มันเป็นเพราะลูกค้ารายแรกต้องไปที่ A หรือ B ภาพยนตร์เรื่องนั้นก็น่าจะเป็นผู้นำในการสูญเสียมัน

เสียงน่าจะเป็น 88 เท่าและไม่น่าเป็นไปได้จนกว่าคุณจะจำได้ว่าการเลื่อยไม้ที่สมบูรณ์แบบนั้นไม่น่าจะเป็นไปได้ แผนภูมิในคำตอบของ MansT ที่แสดงภาพนี้เป็นสิ่งที่น่าสนใจใช่มั้

นอกเหนือ: ส่วนตัวผมคิดว่ามันจะเป็นมากกว่า 88 ครั้ง - เนื่องจากการตลาดแบบปากต่อปาก<buzzword-alert> </buzzword-alert>แต่ละคนจะถามคนอื่น ๆ ในสิ่งที่พวกเขาเห็นและมีแนวโน้มที่จะไปดูหนังเรื่องเดียวกัน พวกเขาจะทำสิ่งนี้โดยไม่รู้ตัว: ผู้คนมีแนวโน้มที่จะเข้าร่วมคิวยาวเพื่อดูอะไรบางอย่าง คือทันทีที่การสุ่มในหมู่ลูกค้าสองสามคนแรกสร้างผู้นำจิตวิทยาของมนุษย์จะทำให้มันเป็นผู้นำ :-)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.