อะไรคือเคล็ดลับในการเพิ่ม 1 ที่นี่


11

ฉันกำลังดูหน้านี้เกี่ยวกับการใช้งาน Monte Carlo ของการทดสอบ Lillefors ฉันไม่เข้าใจประโยคนี้:

มีข้อผิดพลาดแบบสุ่มในการคำนวณนี้จากการจำลอง อย่างไรก็ตามเนื่องจากเคล็ดลับในการเพิ่ม 1 ให้กับตัวเศษและส่วนในการคำนวณค่า P จึงสามารถใช้งานได้โดยตรงโดยไม่คำนึงถึงการสุ่ม

พวกเขาหมายถึงอะไรโดยการเพิ่ม 1 ถึงตัวเศษและส่วน?

รหัสที่เกี่ยวข้องอยู่ที่นี่:

n <- length(x)
nsim <- 4999
d.star <- double(nsim)
for (i in 1:nsim) {
    x.star <- rnorm(n)
    d.star[i] <- fred(x.star)
}
hist(d.star)
abline(v = d.hat, lty = 2)
## simulation-derived P-value
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)

คุณสามารถเพิ่มบริบทที่เกี่ยวข้องได้ที่นี่
gung - Reinstate Monica

4
ดูเหมือนว่าLaplace จะราบเรียบสำหรับตัวประมาณค่ามอนติคาร์โลของความน่าจะเป็นซึ่งลดขนาดลงเหลือ 1/2 เอฟเฟกต์หลักน่าจะหลีกเลี่ยงการได้รับค่า p เป็น 0 ตามที่ @Tim ตั้งข้อสังเกตไว้ (แม้ว่าจะไม่มีความเสี่ยงในการหารด้วย 0 อย่างที่เขาบอก ฉันไม่เห็นว่าทำไมสิ่งนี้ทำให้คุณสามารถใช้งานได้ "โดยไม่คำนึงถึงการสุ่ม"
Dougal

2
คุณเขียนเกเยอร์โดยตรงเพื่อถามความหมายของประโยค?
Alexis

@Alexis ไม่ แต่เป็นความคิดที่ดี
Aksakal

@ ผิดกฎหมายใช่มันดูเหมือน Laplace ที่ราบเรียบ มันไม่ชัดเจนว่าทำไมเขาถึงใช้มันที่นี่
Aksakal

คำตอบ:


6

คำอธิบายในหน้าอ้างอิงคือ

ภายใต้สมมติฐานว่างความน่าจะเป็นคือเมื่อทั้งการสุ่มข้อมูลและการสุ่มในการจำลองถูกนำมาพิจารณาPr(Pk/nsim)k/nsim

เพื่อให้เข้าใจสิ่งนี้เราต้องดูรหัสซึ่งมีบรรทัดสำคัญ (ตัวย่อที่ค่อนข้างมาก)

fred <- function(x) {ks.test(...)$statistic}  # Apply a statistical test to an array
d.hat <- fred(x)                              # Apply the test to the data
d.star <- apply(matrix(rnorm(n*nsim), n, nsim),
                2, fred)                      # Apply the test to nsim simulated datasets
pval <- (sum(d.star > d.hat) + 1) / (nsim + 1)# Estimate a simulation p-value

ปัญหาสำคัญคือรหัสไม่ตรงกับใบเสนอราคา เราจะตกลงกันได้อย่างไร หนึ่งความพยายามเริ่มต้นด้วยครึ่งสุดท้ายของใบเสนอราคา เราอาจตีความขั้นตอนดังกล่าวเป็นขั้นตอนต่อไปนี้:

  1. เก็บเป็นอิสระและกันกระจายข้อมูลตามกฎหมายน่าจะเป็นบางGใช้ขั้นตอนการทดสอบ (ดำเนินการในรหัสเป็น) ในการผลิตจำนวนX_n) G t T 0 = t ( X 1 , , X n )X1,X2,,XnGtfredT0=t(X1,,Xn)

  2. สร้างผ่านคอมพิวเตอร์ชุดข้อมูลเปรียบเทียบแต่ละขนาดตามสมมติฐานกฎหมายว่าด้วยความน่าจะเป็นเรนไฮน์สมัครแต่ละชุดข้อมูลดังกล่าวในการผลิตตัวเลขT_1, n F t N T 1 , T 2 , , T NN=nsimnFtNT1,T2,,TN

  3. คำนวณ

    P=(i=1NI(Ti>T0)+1)/(N+1).

    (" " เป็นฟังก์ชันตัวบ่งชี้ที่นำมาใช้โดยการเปรียบเทียบค่าเวกเตอร์ในรหัส) ด้านขวามือถูกเข้าใจว่าสุ่มโดยอาศัยการสุ่มพร้อมกันของ (สถิติการทดสอบจริง) และการสุ่มของ ( สถิติการทดสอบแบบจำลอง) T 0 T ฉันId.star > d.hatT0Ti

ที่จะบอกว่าข้อมูลที่สอดคล้องกับสมมติฐานคือการยืนยันว่า G เลือกขนาดทดสอบ ,1 คูณทั้งสองข้างด้วยและลบแสดงให้เห็นว่าโอกาสที่ตัวเลขใด ๆเป็นโอกาสที่ไม่เกินของเกินT_0 สิ่งนี้บอกเพียงว่าอยู่ในส่วนบนของชุดการเรียงลำดับของสถิติการทดสอบทั้งหมด ตั้งแต่ (โดยการก่อสร้าง)F=Gα0<α<1N+11Pαα(N+1)α1TiT0T0(N+1)αN+1T0เป็นอิสระจากทั้งหมดเมื่อเป็นการกระจายอย่างต่อเนื่องโอกาสนี้จะเป็นเศษส่วนของยอดรวมที่แสดงโดยส่วนจำนวนเต็ม ; นั่นคือและมันจะเท่ากับที่ให้ไว้อย่างแน่นอนเป็นจำนวนเต็ม ; นั่นคือเมื่อ1)TiF(N+1)α(N+1)αkα=k/(N+1)

Pr(Pα)=(N+1)αN+1α
(N+1)αkα=k/(N+1)

นี้อย่างแน่นอนเป็นหนึ่งในสิ่งที่เราต้องการที่จะเป็นจริงของปริมาณใดที่สมควรจะถูกเรียกว่าเป็น "p-value" มันควรจะมีการกระจายชุดบน[0,1]หากมีขนาดค่อนข้างใหญ่ดังนั้นใด ๆ ที่อยู่ใกล้กับเศษส่วนบางส่วนของแบบฟอร์มนี้จะใกล้เคียงกับเครื่องแบบ การกระจาย (หากต้องการเรียนรู้เกี่ยวกับเงื่อนไขเพิ่มเติมที่จำเป็นสำหรับค่า p โปรดอ่านกล่องโต้ตอบที่โพสต์ในหัวข้อค่า p )N + 1 α k / ( N + 1 ) = k / ( n ซิม + 1 ) P[0,1]N+1αk/(N+1)=k/(nsim+1)P

เห็นได้ชัดว่าใบเสนอราคาควรใช้ " " แทน " " ทุกที่ที่ปรากฏn simnsim+1nsim


5

ฉันเชื่อว่าที่นี่มีการเพิ่ม 1 ทั้งคู่เนื่องจากสถิติที่สังเกตได้รวมอยู่ในการกระจายการอ้างอิง หากเป็นกรณีนี้อาจเป็นเพราะส่วน "อย่างน้อยใหญ่" ของคำจำกัดความของ p-value

ฉันไม่รู้แน่ชัดเพราะข้อความดูเหมือนจะพูดอะไรที่แตกต่างออกไป แต่นั่นเป็นสาเหตุที่ฉันจะทำ


1
@whuber ฉันไม่เห็นว่าฉันสามารถเห็นด้วย ไม่ใช่ทุกการทดสอบเป็นการทดสอบอัตราส่วนความน่าจะเป็น เมื่อพวกเขาไม่ใช่ LRT ความเกี่ยวข้องใดที่สามารถตีความในแง่ของอัตราส่วนความน่าจะเป็นได้?
Glen_b

1
@whuber มันสามารถทำได้อย่างแน่นอน แต่ลองพิจารณาตัวอย่างเช่น Wilcoxon-Mann-Whitney (หรือจริง ๆ แล้วการทดสอบการเรียงสับเปลี่ยนกันอย่างแพร่หลาย) มีจำนวนของการทดสอบที่สมเหตุสมผลอย่างสมบูรณ์แบบในการใช้งานที่กว้างขวางซึ่งไม่ใช่การทดสอบ Lilliefors หรือการทดสอบอัตราส่วนความน่าจะเป็น เมื่อมีทางเลือกที่ชัดเจนว่าต้องการพลังอะไรก็มักจะสามารถสร้างสถิติทดสอบที่มีความหมายได้ซึ่งการเรียงลำดับในพื้นที่ตัวอย่างที่กำหนดโดยสถิติการทดสอบนั้นสมเหตุสมผลและมีคุณสมบัติที่เหมาะสมในทางเลือกที่หลากหลาย
Glen_b -Reinstate Monica

1
แน่นอนเมื่อมากับสถิติการทดสอบที่สอดคล้องกับ (ในแง่ของการรับค่ามากขึ้นไม่ว่าจะใหญ่กว่าเล็กหรือทั้งสองอย่าง) ประเภทของทางเลือกที่เราสนใจใครคนหนึ่งสนใจ "ชนิดของทางเลือกที่เราสนใจ "- แต่ถึงแม้ว่าเราจะต้องใช้สิ่งที่ยอมรับไม่ได้ (แน่นอนแม้แต่การทดสอบที่ไร้ประโยชน์) หลักการที่ฉันเขียนไว้ในคำตอบของฉันรวมถึงตัวอย่างที่สังเกตได้ในผลลัพธ์ที่จำลองขึ้นมาก็ยังคงมีผลอยู่ เมื่อคุณมีการสั่งซื้อแม้ว่าจะไม่ดีที่สุดเมื่อคำนวณค่า p กรณีที่สังเกตก็ยังคงอยู่ในการนับ
Glen_b -Reinstate Monica

2
@ เมื่อเราไม่ได้อยู่ห่างไกลกันตอนนี้ ในการเลือกสถิติทดสอบที่เหมาะสมแน่นอนเราต้องการที่จะอุทธรณ์ไปยังบางสิ่งบางอย่าง แต่เมื่อเรามีสถิติการทดสอบ (อย่างที่เราต้องทำตามเวลาที่เราจำลองภายใต้ null) เราได้ทำไปแล้ว และเมื่อเรามีเหตุผลที่เราจะรวมกรณีที่สังเกตได้ในการคำนวณ p-value ของเราก็เพราะ p-value คืออะไร
Glen_b -Reinstate Monica

1
ฉันไม่คิดว่าเรามีความแตกต่างเลย (โปรดทราบว่าคำตอบของฉันเองทำให้ชัดเจนว่ารวมถึงตัวอย่างที่สังเกตได้ในการนับมีความเหมาะสม) ความคิดเห็นของฉันไม่ได้ถูกส่งตรงไปยังคำตอบของคุณสำหรับคำถาม (ซึ่งฉันเห็นด้วยและยกระดับ) มีขนาดใหญ่ " ฉันเห็นวลีนั้นตีความผิดในหลาย ๆ ที่บนเว็บไซต์นี้ (และที่อื่น ๆ ) ที่ฉันต้องการดึงดูดความสนใจของผู้อ่านถึงสิ่งที่มันต้องหมายถึงจริงๆ
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.