วิธีการคำนวณระยะเวลาในการรับประทานมังสวิรัติโดยเฉลี่ยเมื่อเรามีข้อมูลการสำรวจเกี่ยวกับมังสวิรัติในปัจจุบันเท่านั้น


16

สำรวจประชากรตัวอย่างแบบสุ่ม พวกเขาถูกถามว่าพวกเขากินอาหารมังสวิรัติหรือไม่ หากพวกเขาตอบว่าใช่พวกเขาจะถูกขอให้ระบุว่าพวกเขากินอาหารมังสวิรัตินานแค่ไหนโดยไม่หยุดชะงัก ฉันต้องการใช้ข้อมูลนี้เพื่อคำนวณระยะเวลาในการรับประทานมังสวิรัติโดยเฉลี่ย กล่าวอีกนัยหนึ่งเมื่อใครบางคนกลายเป็นมังสวิรัติฉันอยากรู้ว่าพวกเขากินเจโดยเฉลี่ยนานเท่าไร สมมติว่า:

  • ผู้ตอบแบบสอบถามทุกคนให้คำตอบที่ถูกต้องและแม่นยำ
  • โลกมีเสถียรภาพ: ความนิยมของการทานมังสวิรัติไม่เปลี่ยนแปลงความยาวของการยึดถือโดยเฉลี่ยก็ไม่เปลี่ยนแปลงเช่นกัน

เหตุผลของฉันจนถึงตอนนี้

ฉันพบว่ามีประโยชน์ในการวิเคราะห์แบบจำลองของเล่นของโลกที่จุดเริ่มต้นของทุก ๆ ปีคนสองคนกลายเป็นมังสวิรัติ ทุกครั้งหนึ่งในนั้นจะเป็นมังสวิรัติ 1 ปีและอีก 3 ปี เห็นได้ชัดว่าความยาวของการยึดมั่นในโลกนี้คือ (1 + 3) / 2 = 2 ปี นี่คือกราฟที่แสดงตัวอย่าง สี่เหลี่ยมผืนผ้าแต่ละรูปแสดงระยะเวลาของการกินเจ:

ภาพประกอบ

สมมติว่าเราทำแบบสำรวจกลางปี ​​4 (เส้นสีแดง) เราได้รับข้อมูลต่อไปนี้:

ตาราง

เราจะได้ข้อมูลเดียวกันถ้าเราทำแบบสำรวจทุกปีเริ่มปีที่ 3 ถ้าเราแค่ตอบสนองโดยเฉลี่ยเราจะได้รับ:

(2 * 0.5 + 1.5 + 2.5) / 4 = 1.25

เราดูถูกดูแคลนเพราะเราคิดว่าทุกคนหยุดเป็นมังสวิรัติทันทีหลังจากสำรวจซึ่งเห็นได้ชัดว่าไม่ถูกต้อง เพื่อให้ได้ค่าประมาณที่ใกล้เคียงกับเวลาเฉลี่ยจริงที่ผู้เข้าร่วมจะยังคงเป็นมังสวิรัติเราสามารถสันนิษฐานได้ว่าโดยเฉลี่ยพวกเขารายงานเวลาครึ่งทางผ่านช่วงเวลาของการกินเจและระยะเวลารายงานคูณด้วย 2 ในการสำรวจขนาดใหญ่ จากประชากร (เช่นเดียวกับที่ฉันกำลังวิเคราะห์) ฉันคิดว่านี่เป็นข้อสมมติที่สมจริง อย่างน้อยก็ให้ค่าที่ถูกต้อง อย่างไรก็ตามหากการเสแสร้งเป็นเพียงสิ่งเดียวที่เราทำเราจะได้ค่าเฉลี่ย 2.5 ซึ่งถือว่าสูงเกินไป นี่เป็นเพราะคนอีกต่อไปที่ยังคงเป็นมังสวิรัติมีแนวโน้มที่เขาจะอยู่ในตัวอย่างของมังสวิรัติในปัจจุบัน

จากนั้นฉันคิดว่าความน่าจะเป็นที่คนบางคนอยู่ในกลุ่มตัวอย่างของผู้ทานมังสวิรัติในปัจจุบันนั้นเป็นสัดส่วนกับความยาวของการทานมังสวิรัติ เพื่ออธิบายความลำเอียงนี้ฉันพยายามแบ่งจำนวนผู้ทานมังสวิรัติในปัจจุบันด้วยความยาวที่คาดการณ์ไว้

อีกตารางหนึ่ง

อย่างไรก็ตามสิ่งนี้ให้ค่าเฉลี่ยที่ไม่ถูกต้องเช่นกัน:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2.533333 = 1.579 ปี

มันจะให้ค่าประมาณที่ถูกต้องหากจำนวนมังสวิรัติถูกหารด้วยความยาวที่ถูกต้อง

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 ปี

แต่มันไม่ได้ผลถ้าฉันใช้ความยาวของการยึดติดที่คาดการณ์ไว้และมันคือทั้งหมดที่ฉันมีในความเป็นจริง ฉันไม่รู้จะลองอะไรดี ฉันอ่านเรื่องการวิเคราะห์การเอาชีวิตรอดบ้าง แต่ฉันไม่แน่ใจว่าจะใช้มันอย่างไรในกรณีนี้ เป็นการดีที่ฉันต้องการที่จะสามารถคำนวณช่วงความเชื่อมั่น 90% เคล็ดลับใด ๆ ที่จะได้รับการชื่นชมอย่างมาก

แก้ไข: อาจเป็นไปได้ว่าคำถามข้างต้นไม่มีคำตอบ แต่มีการศึกษาอีกเรื่องหนึ่งที่ถามตัวอย่างแบบสุ่มของผู้คนว่าเป็นมังสวิรัติหรือไม่และเคยเป็นมังสวิรัติมาแล้วกี่ครั้ง ฉันรู้อายุของทุกคนทั้งในการศึกษาและอื่น ๆ บางทีข้อมูลนี้สามารถใช้ร่วมกับการสำรวจมังสวิรัติปัจจุบันเพื่อให้ได้ค่าเฉลี่ยอย่างใด ในความเป็นจริงการศึกษาที่ฉันพูดถึงเป็นเพียงส่วนหนึ่งของปริศนา แต่เป็นสิ่งที่สำคัญมากและฉันต้องการได้รับประโยชน์มากขึ้น


1
นั่นไม่ใช่ตัวเลือก atm ข้อมูลนี้มีหลักฐานบางอย่างสำหรับความยาวของการยึดมั่นฉันไม่ทราบวิธีการใช้
Saulius Šimčikas

1
อย่างน้อยหนึ่งภาพของคุณดูเหมือนจะหายไป (ข้อผิดพลาด 403 เมื่อฉันใช้ URL)
barrycarter

2
@kjetilbhalvorsen สำหรับปัญหาไม่สำคัญว่ามังสวิรัติจะเป็นมังสวิรัติตลอดชีวิต เมื่อถึงจุดหนึ่งพวกเขาจะหยุดเป็นมังสวิรัติไม่ว่าจะโดยการกินเนื้อสัตว์หรือการตาย
Pere

4
@kjetil "มังสวิรัติจริง" ของคุณแสดงความคิดเห็นเสียงคล้ายไม่มีทรูสกอต คำจำกัดความทั่วไปของมังสวิรัติไม่ได้บอกอะไรเกี่ยวกับสิ่งที่อาจเกิดขึ้นในอนาคตหรือไม่ว่าทำไมใครบางคนถึงเป็นมังสวิรัติ แต่เกี่ยวกับพฤติกรรมของพวกเขาในเวลาที่มีการพิจารณาคุณสมบัติเท่านั้น หากใครบางคนเป็นมังสวิรัติตอนนี้พวกเขาจะเป็นมังสวิรัติตอนนี้ด้วยเหตุผลอะไรก็ตามที่พวกเขากลายเป็นหนึ่ง ฉันไม่คิดว่าความรู้สึกส่วนตัวของเราเกี่ยวกับความคิดในการกินเนื้อสัตว์หรือเหตุผลที่เราอาจรู้สึกว่าเราทำอยู่ในหัวข้อที่นี่ พวกเขาอยู่ที่อื่น
Glen_b -Reinstate Monica

2
เนื่องจากคนที่เป็นมังสวิรัตินานขึ้นมีแนวโน้มที่จะถูกเลือกให้ปรากฏในตัวอย่างของคุณมากขึ้นซึ่งหมายความว่าฟังก์ชันความหนาแน่นของความน่าจะเป็นของข้อมูลตัวอย่างของคุณมีสัดส่วนเท่ากับหนึ่งลบฟังก์ชันการกระจายแบบสะสมของความยาวการยึดติด ในการทำตัวอย่างจากตัวอย่างของคุณการแจกแจงความยาวคือ [0, 0.5, 0, 0.5] (50% มีอายุการใช้งาน 1 ปี, 50% เป็นเวลา 3 ปี) โดยให้ CDF [0, 0.5, 0.5, 1 ] ด้วยหนึ่งลบที่เป็น [1, 0.5, 0.5, 0] ซึ่งเป็นสัดส่วนกับ [2, 1, 1, 0] จำนวนตัวอย่างของคุณ
PhiNotPi

คำตอบ:


10

ให้แสดงรูปแบบไฟล์ PDF ของความยาวของการยึดติดXของการกินเจในประชากร วัตถุประสงค์ของเราคือเพื่อประเมินE X = 0 x X ( x ) d xfX(x)XEX=0xfX(x)dx

สมมติว่าความน่าจะเป็นที่จะถูกรวมอยู่ในการสำรวจ (เหตุการณ์ ) เป็นสัดส่วนกับX , pdf ของความยาวของการเกาะติดXในกลุ่มที่รวมอยู่ในการสำรวจคือ f X | S ( x ) = x f X ( x )SXX ในช่วงเวลาที่ถูกรวมอยู่ในการสำรวจเพียงครั้งเดียวที่Zได้ผ่าน ตามเงื่อนไขในX(และS) เวลาที่รายงานเป็นมังสวิรัตินั้นมีรูปแบบเป็น pdf fZ| X=x(z)=1

fX|S(x)=xfX(x)xfX(x)dx=xfX(x)EX.
ZXS ดังนั้นด้วยการใช้กฎความน่าจะเป็นทั้งหมดการกระจายตัวโดยรวมของเวลาZ ที่ผ่านไปในขณะที่มังสวิรัติในที่รวมอยู่ในการสำรวจกลายเป็น f Z ( z )
fZ|X=x(z)=1x,0<z<x.
Z ที่FX(Z)เป็น CDF ของX ตั้งแต่Xเป็นตัวแปรเชิงบวกFX(0)=P(X0)=0และอื่นZ(0)=1/EX
fZ(z)=zfZ|X=x(z)fX|S(x)dx=z1xxfX(x)EXdx=1FX(z)EX,
FX(z)XXFX(0)=P(X0)=0fZ(0)=1/EX

EXfZ(z)z1,z2,,znz=0fZ(z)z=0f^Z(0)fZ(z)z=0EXEX^=1/f^Z(0)

ป้อนคำอธิบายรูปภาพที่นี่

fZ(z)fX(0)=FX(0)>0fZ(0)EXEX ในสถานการณ์เช่นนี้โดยไม่มีการตั้งสมมติฐานเพิ่มเติมดูยากเนื่องจากการยึดมั่นในเวลาสั้น ๆ ในสถานการณ์นี้แทบจะไม่ปรากฏในข้อมูลที่สังเกตซึ่งเป็นผลมาจากการสุ่มตัวอย่างแบบเอนเอียง

fX(x)

L(θ)=i=1n1FX(zi;θ)EX(θ)

การจำลองข้อมูลรหัส R และการใช้ทั้งสองวิธี:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)

1
สวัสดีขอบคุณมากสำหรับการตอบฉันยังไม่ได้ใช้เวลาในการทำความเข้าใจทุกอย่างแค่อยากจะเพิ่มว่าฉันรู้ว่าการกระจายทั่วไปจากการศึกษาอื่น (ปัญหาเดียวกับการศึกษาอื่น ๆ ที่ทำให้ผู้คนเลือกระหว่างตัวเลือกสำหรับระยะเวลาที่พวกเขาเป็นมังสวิรัติและหนึ่งในตัวเลือกคือ "มากกว่า 10 ปี" และค่าเฉลี่ยนั้นขึ้นอยู่กับความยาวของคนมากกว่า 10 ปี ยังคงเป็นมังสวิรัติ)
Saulius Šimčikas

ตกลงฉันหวังว่าจะไม่มีข้อบกพร่องที่สำคัญในการให้เหตุผลของฉัน ฉันเห็นว่า @PhiNotPi มาถึงไฟล์ PDF เดียวกันในความคิดเห็นของเขาที่มีต่อ OP
Jarle Tufto

@Saulius หากคุณมีสิทธิ์เข้าถึงชุดข้อมูลที่ถูกตรวจสอบที่สองและการแจกแจงพื้นฐานสามารถถูกสมมติว่าเหมือนกันได้ดังนั้นทางออกที่ดีที่สุดคือการรวมโอกาสสำหรับชุดข้อมูลนั้น (ซึ่งตรงไปตรงมาเพื่อเขียนถ้ามันเป็นเพียง การสุ่มตัวอย่างที่ถูกเซ็นเซอร์บางอย่างถูกต้อง) จากนั้นจึงเพิ่มโอกาสในการมีส่วนร่วมมากที่สุด
Jarle Tufto

ที่หนึ่งไม่เซ็นเซอร์ขวา: imgur.com/U8ofZ3Aตอนนี้ผมรู้ว่าผมต้องกล่าวถึงนี้ในช่วงเริ่มต้น แต่ผมคิดว่าปัญหาของฉันมีวิธีการแก้ปัญหาบางอย่างตรงไปตรงมามากขึ้น ...
Saulius Šimčikas

@Saulius ข้อมูลเหล่านั้นถูกเซ็นเซอร์เป็นช่วงเวลา อีกครั้งมันเป็นเรื่องง่ายที่จะคำนวณความน่าจะเป็น
Jarle Tufto

0

(ฉันเพิ่มความคิดไปเรื่อย ๆ ตามที่ปรากฏ @JarleTufto ได้ให้วิธีการทางคณิตศาสตร์ที่ดีอยู่แล้วอย่างไรก็ตามฉันไม่ฉลาดพอที่จะเข้าใจคำตอบของเขาและตอนนี้ฉันอยากรู้ว่ามันเป็นวิธีเดียวกันหรือไม่ วิธีที่ฉันอธิบายด้านล่างเคยมีประโยชน์)

สิ่งที่ฉันจะทำคือคาดเดาความยาวเฉลี่ยและเดาการกระจายรอบ ๆ มันจากนั้นสำหรับแต่ละคนทำการจำลองประชากรของฉันและสุ่มตัวอย่างอย่างสม่ำเสมอ

คุณบอกว่าจะถือว่าประชากรทั้งหมดของมังสวิรัติไม่เปลี่ยนแปลงดังนั้นทุกครั้งที่แบบจำลองของฉันมีใครสักคนหยุดมังสวิรัติจะถูกสร้างขึ้นใหม่ เราจำเป็นต้องเรียกใช้แบบจำลองเป็นระยะเวลาหลายปีเพื่อให้แน่ใจว่ามันได้ทำการตกลงก่อนที่เราจะเริ่มตัวอย่างได้ หลังจากนั้นฉันคิดว่าคุณสามารถเก็บตัวอย่างทุกเดือนที่จำลอง (*) จนกว่าคุณจะมีพอที่จะสร้างช่วงความมั่นใจ 90% ของคุณ

*: หรือการแก้ไขใด ๆ ที่ทำงานร่วมกับข้อมูลของคุณ ถ้าคนให้คำตอบกับปีที่ใกล้ที่สุดการสุ่มตัวอย่างทุก ๆ 6 เดือนก็ดีพอ

จากการคาดเดาทั้งหมดของคุณคุณเลือกค่าเฉลี่ยและการกระจายซึ่ง (เฉลี่ยจากตัวอย่างทั้งหมดที่คุณทำ) ให้ผลลัพธ์ที่ใกล้เคียงที่สุดกับแบบสำรวจในชีวิตจริงของคุณ

ฉันจะย้ำการเดาของฉันสองสามครั้งเพื่อ จำกัด การแข่งขันให้ดีที่สุด

การกระจายที่ดีที่สุดอาจไม่ใช่จุดเดียว อดีตมังสวิรัติฉันส่วนตัวสามารถคิดหยุดเพราะการเปลี่ยนแปลงวิถีชีวิตที่สำคัญ (โดยทั่วไปการแต่งงาน / อาศัยอยู่กับที่ไม่ใช่มังสวิรัติหรือประเทศที่กำลังเคลื่อนที่หรือล้มป่วยหนักและแพทย์แนะนำว่าอาจเป็นอาหาร) ในอีกด้านหนึ่งคือพลังแห่งนิสัย: ยิ่งคุณเป็นมังสวิรัตินานเท่าไหร่คุณก็ยิ่งมีแนวโน้มที่จะเป็นหนึ่งมากขึ้นเท่านั้น หากข้อมูลของคุณถามอายุและสถานะความสัมพันธ์เราสามารถแสดงในแบบจำลองด้านบนได้เช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.