แก้ไข:โศกนาฏกรรม! สมมติฐานเริ่มต้นของฉันไม่ถูกต้อง! (หรือมีข้อสงสัยอย่างน้อย - คุณไว้วางใจสิ่งที่ผู้ขายจะบอกคุณยังปลายหมวกมอร์เทนเช่นเดียว?.) ซึ่งผมคิดว่าเป็นอีกหนึ่งแนะนำที่ดีในสถิติ แต่แนวทางแผ่นบางส่วนอยู่ในขณะนี้เพิ่มด้านล่าง ( เนื่องจากคนดูเหมือนจะชอบทั้งแผ่นและบางคนอาจจะยังคงพบว่ามันมีประโยชน์)
ก่อนอื่นปัญหาใหญ่ แต่ฉันต้องการทำให้ซับซ้อนขึ้นอีกเล็กน้อย
เพราะการที่ก่อนที่ผมจะทำให้ฉันทำให้มันเล็ก ๆ น้อย ๆ ที่เรียบง่ายและบอกว่า - วิธีการที่คุณกำลังใช้อยู่ในขณะนี้เป็นที่เหมาะสมได้อย่างสมบูรณ์แบบ มันราคาถูกมันทำให้รู้สึกง่าย ดังนั้นหากคุณต้องติดกับมันคุณไม่ควรรู้สึกแย่ เพียงให้แน่ใจว่าคุณเลือกกลุ่มของคุณแบบสุ่ม และถ้าคุณสามารถชั่งน้ำหนักทุกอย่างได้อย่างน่าเชื่อถือ (ปลายหมวกถึง whuber และ user777) คุณควรทำเช่นนั้น
เหตุผลที่ฉันต้องการทำให้ซับซ้อนกว่านี้เล็กน้อยคือคุณมีอยู่แล้ว - คุณไม่ได้บอกเราเกี่ยวกับภาวะแทรกซ้อนทั้งหมดซึ่งก็คือ - การนับต้องใช้เวลาและเวลาก็เป็นเงินเช่นกัน แต่วิธีการมาก ? บางทีมันอาจจะถูกกว่าที่จะนับทุกอย่าง!
ดังนั้นสิ่งที่คุณกำลังทำจริง ๆ คือการสร้างสมดุลเวลาที่ใช้ในการนับด้วยจำนวนเงินที่คุณประหยัด (ถ้าแน่นอนคุณเล่นเกมนี้เพียงครั้งเดียวครั้งต่อไปที่คุณมีสิ่งนี้เกิดขึ้นกับผู้ขายพวกเขาอาจติดอยู่และลองใช้เคล็ดลับใหม่ในทฤษฎีเกมนี่คือความแตกต่างระหว่างเกมนัดเดียวและซ้ำ เกม แต่สำหรับตอนนี้มาเสแสร้งผู้ขายจะทำในสิ่งเดียวกันเสมอ)
อีกสิ่งหนึ่งก่อนที่ฉันจะได้รับการประเมินว่า (และขอโทษที่เขียนมากและยังไม่ได้คำตอบ แต่ก็เป็นคำตอบที่ดีสำหรับนักสถิติที่จะทำอะไรพวกเขาจะใช้เวลาจำนวนมากเพื่อให้แน่ใจว่าพวกเขาเข้าใจทุกส่วนเล็ก ๆ ของปัญหา ก่อนที่พวกเขาจะพูดอะไรเกี่ยวกับเรื่องนี้ได้อย่างสะดวกสบาย) และสิ่งนั้นคือความเข้าใจที่ลึกซึ้งตามสิ่งต่อไปนี้:
(แก้ไข: หากพวกเขากำลังโกงจริง ๆ ... ) ผู้ขายของคุณไม่ประหยัดเงินโดยการลบฉลาก - พวกเขาประหยัดเงินโดยไม่พิมพ์แผ่น พวกเขาไม่สามารถขายป้ายกำกับของคุณให้คนอื่น (ฉันถือว่า) และบางทีฉันไม่รู้และไม่รู้ว่าคุณทำอะไรพวกเขาไม่สามารถพิมพ์สิ่งของของคุณได้ครึ่งแผ่นและอีกครึ่งแผ่นของคนอื่น กล่าวอีกนัยหนึ่งก่อนที่คุณจะเริ่มนับคุณสามารถสมมติว่าจำนวนป้ายกำกับทั้งหมดเป็นเช่น9000, 9100, ... 9900, or 10,000
นั้น นั่นเป็นวิธีที่ฉันจะเข้าใกล้ตอนนี้
ทั้งแผ่นวิธี
เมื่อปัญหายุ่งยากเล็กน้อยเช่นนี้ (ไม่ต่อเนื่องและล้อมรอบ) นักสถิติจำนวนมากจะจำลองสิ่งที่อาจเกิดขึ้น นี่คือสิ่งที่ฉันจำลอง:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
สิ่งนี้จะช่วยให้คุณสมมติว่าพวกเขาใช้ทั้งแผ่นงานและข้อสันนิษฐานของคุณนั้นถูกต้องเป็นการกระจายฉลากที่เป็นไปได้ (ในภาษาโปรแกรม R)
จากนั้นฉันก็ทำสิ่งนี้:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
พบว่าใช้วิธี "bootstrap" ช่วงความมั่นใจโดยใช้ตัวอย่าง 4, 5, ... 20 พูดอีกอย่างคือโดยเฉลี่ยถ้าคุณต้องใช้ตัวอย่าง N ช่วงเวลาความมั่นใจของคุณจะใหญ่แค่ไหน ฉันใช้สิ่งนี้เพื่อหาช่วงเวลาที่เล็กพอที่จะตัดสินใจเลือกจำนวนแผ่นและนั่นคือคำตอบของฉัน
โดย "เล็กพอ" ฉันหมายถึงช่วงความมั่นใจ 95% ของฉันมีเพียงจำนวนเต็มเดียว - เช่นถ้าช่วงความมั่นใจของฉันมาจาก [93.1, 94.7] ดังนั้นฉันจะเลือก 94 เป็นจำนวนแผ่นที่ถูกต้องเพราะเรารู้ มันเป็นจำนวนเต็ม
ความยากลำบากอีกแม้ว่า - ความมั่นใจของคุณขึ้นอยู่กับความจริง หากคุณมี 90 แผ่นและทุกกองมี 90 ป้ายจากนั้นคุณมาบรรจบกันอย่างรวดเร็วจริงๆ เหมือนกันกับ 100 แผ่น ดังนั้นฉันดูที่ 95 แผ่นซึ่งมีความไม่แน่นอนมากที่สุดและพบว่ามีความมั่นใจ 95% คุณต้องใช้ตัวอย่างประมาณ 15 ตัวอย่างโดยเฉลี่ย สมมุติว่าโดยรวมคุณต้องการตัวอย่าง 15 อันเพราะคุณไม่เคยรู้ว่ามีอะไรเกิดขึ้นจริง
หลังจากที่คุณทราบจำนวนตัวอย่างที่คุณต้องการคุณจะรู้ว่าการประหยัดที่คาดหวังของคุณคือ:
100Nmissing−15c
c500−15∗
แต่คุณควรคิดเงินกับคนที่ทำให้คุณทำงานทั้งหมดนี้ด้วย!
(แก้ไข: เพิ่ม!) แนวทางแผ่นบางส่วน
เอาล่ะสมมติว่าสิ่งที่ผู้ผลิตพูดนั้นเป็นจริงและไม่ใช่เจตนา - มีเพียงไม่กี่ป้ายที่หายไปในแผ่นงานทุกแผ่น คุณยังต้องการทราบเกี่ยวกับจำนวนป้ายกำกับโดยรวมหรือไม่
ปัญหานี้แตกต่างกันเนื่องจากคุณไม่มีการตัดสินใจที่ดีที่คุณสามารถทำได้อีกต่อไป - นั่นเป็นข้อได้เปรียบของสมมติฐานทั้งหมด ก่อนหน้านี้มีเพียง 11 คำตอบที่เป็นไปได้ - ตอนนี้มี 1100 และได้รับช่วงความมั่นใจ 95% จากจำนวนป้ายที่มีแนวโน้มว่าจะต้องใช้ตัวอย่างมากเกินกว่าที่คุณต้องการ ลองดูว่าเราสามารถคิดเกี่ยวกับสิ่งนี้ได้หรือไม่
เพราะนี่เป็นเรื่องเกี่ยวกับการตัดสินใจของคุณเรายังขาดพารามิเตอร์บางประการ - คุณยินดีที่จะเสียเงินเท่าไหร่ในการตกลงครั้งเดียวและใช้เงินเท่าไรในการนับสแต็กหนึ่ง แต่ให้ฉันตั้งค่าสิ่งที่คุณสามารถทำได้กับตัวเลขเหล่านั้น
จำลองอีกครั้ง (แม้ว่าอุปกรณ์ประกอบฉากถึงผู้ใช้ 777 หากคุณสามารถทำได้โดยไม่ต้อง!) มันเป็นข้อมูลที่จะดูขนาดของช่วงเวลาเมื่อใช้ตัวอย่างจำนวนที่แตกต่างกัน สามารถทำได้เช่นนี้
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
ซึ่งถือว่า (ขณะนี้) ที่แต่ละสแต็กมีจำนวนป้ายผนึกแบบสุ่มระหว่าง 90 ถึง 100 และให้:
แน่นอนถ้าสิ่งต่าง ๆ เหมือนจริงพวกเขาถูกจำลองค่าเฉลี่ยที่แท้จริงจะอยู่ที่ประมาณ 95 ตัวอย่างต่อสแต็คซึ่งต่ำกว่าความจริงที่ปรากฏ - นี่คืออาร์กิวเมนต์หนึ่งอันที่จริงแล้วสำหรับวิธีการแบบเบส์ แต่มันให้ความรู้สึกที่เป็นประโยชน์เกี่ยวกับว่าคุณมีความมั่นใจมากขึ้นเพียงใดเกี่ยวกับคำตอบของคุณในขณะที่คุณสุ่มตัวอย่างต่อไป - และตอนนี้คุณสามารถแลกเปลี่ยนต้นทุนการสุ่มตัวอย่างกับข้อตกลงใด ๆ
ซึ่งตอนนี้ฉันรู้แล้วเราทุกคนต่างก็อยากรู้อยากเห็น