คำถามติดแท็ก sequential-analysis

4
เราจะพัฒนากฎการหยุดในการวิเคราะห์พลังงานของสองสัดส่วนอิสระได้อย่างไร
ฉันเป็นนักพัฒนาซอฟต์แวร์ที่ทำงานกับระบบทดสอบ A / B ฉันไม่มีภูมิหลังที่มั่นคง แต่ได้รับความรู้ในช่วงไม่กี่เดือนที่ผ่านมา สถานการณ์จำลองการทดสอบทั่วไปเกี่ยวข้องกับการเปรียบเทียบ URL สองรายการบนเว็บไซต์ เข้าชมผู้เข้าชมLANDING_URLแล้วจะถูกส่งต่อไปยังสุ่มอย่างใดอย่างหนึ่งหรือURL_CONTROL URL_EXPERIMENTALผู้เข้าชมเป็นตัวอย่างและเงื่อนไขแห่งชัยชนะจะเกิดขึ้นเมื่อผู้เข้าชมดำเนินการที่ต้องการบนไซต์นั้น นี่ถือเป็นการแปลงและอัตราของอัตราการแปลงคืออัตราการแปลง (โดยทั่วไปจะแสดงเป็นเปอร์เซ็นต์) อัตราการแปลงทั่วไปสำหรับ URL ที่ระบุคือบางสิ่งในขอบเขต 0.01% ถึง 0.08% เราทำการทดสอบเพื่อกำหนดว่า URL ใหม่เปรียบเทียบกับ URL เก่าอย่างไร ถ้าURL_EXPERIMENTALแสดงให้เห็นว่าดีกว่าURL_CONTROLเราแทนด้วยURL_CONTROLURL_EXPERIMENTAL เราได้พัฒนาระบบโดยใช้เทคนิคการทดสอบสมมติฐานอย่างง่าย ฉันใช้คำตอบของคำถาม CrossValidated อื่นที่นี่เพื่อพัฒนาระบบนี้ มีการตั้งค่าการทดสอบดังนี้: การประมาณการอัตราการแปลงCRE_CONTROLของURL_CONTROLถูกคำนวณโดยใช้ข้อมูลประวัติ อัตราการแปลงเป้าหมายที่ต้องการCRE_EXPERIMENTALของURL_EXPERIMENTALการตั้งค่า โดยทั่วไปจะใช้ระดับนัยสำคัญ 0.95 โดยทั่วไปจะใช้พลังงาน 0.8 เมื่อรวมกันค่าเหล่านี้ทั้งหมดจะถูกใช้เพื่อคำนวณขนาดตัวอย่างที่ต้องการ ฉันใช้ฟังก์ชัน R power.prop.testเพื่อให้ได้ขนาดตัวอย่างนี้ การทดสอบจะทำงานจนกว่าจะมีการเก็บตัวอย่างทั้งหมด ณ จุดนี้ช่วงความเชื่อมั่นสำหรับ CR_CONTROLและCR_EXPERIMENTALถูกคำนวณ หากพวกเขาไม่ทับซ้อนกันผู้ชนะสามารถประกาศได้ที่ระดับนัยสำคัญ 0.95 และพลังของ 0.8 ผู้ใช้การทดสอบของเรามีข้อกังวลหลักสองประการ: 1. …

3
การเพิ่มขนาดของกลุ่มตัวอย่างเป็นแบบไดนามิกหรือไม่หากระบุนิรนัย?
ฉันกำลังจะทำการศึกษาเกี่ยวกับข้อดีของการกระตุ้นหนึ่งเมื่อเปรียบเทียบกับการออกแบบภายในเรื่อง ฉันมีรูปแบบการเรียงสับเปลี่ยนที่ออกแบบมาเพื่อลดผลกระทบต่อลำดับของบางส่วนของการศึกษา รูปแบบการเรียงสับเปลี่ยนกำหนดว่าขนาดตัวอย่างสามารถหารด้วย 8 เพื่อกำหนดขนาดตัวอย่างฉันจะต้องเดาอย่างกล้าหาญ (เป็นประเพณีที่ดีในสาขาของฉัน) หรือคำนวณขนาดตัวอย่างสำหรับพลังงานที่ฉันต้องการ ปัญหาคือตอนนี้ฉันไม่ได้มีเงื่อนงำน้อยขนาดขนาดผลที่ฉันจะสังเกต (ยังเป็นประเพณีที่ดีในสาขาของฉัน) นั่นหมายความว่าการคำนวณพลังงานนั้นค่อนข้างยาก ในทางกลับกันการคาดเดาอย่างบ้าคลั่งอาจไม่ดีเพราะฉันสามารถออกตัวอย่างขนาดต่ำเกินไปหรือจ่ายเงินมากเกินไปแก่ผู้เข้าร่วมและใช้เวลามากเกินไปในห้องทดลอง จะเป็นการดีหรือไม่ที่จะกล่าวล่วงหน้าว่าฉันเพิ่มผู้เข้าร่วมเป็นกลุ่ม 8 คนจนกว่าฉันจะออกจากค่า p สองค่า? เช่น 0,05 <p <0,30 หรือคุณจะแนะนำวิธีอื่นฉันควรดำเนินการต่อหรือไม่

5
การกำหนดขนาดตัวอย่างก่อนเริ่มการทดสอบหรือเรียกใช้การทดสอบอย่างไม่มีกำหนด
ฉันศึกษาสถิติเมื่อหลายปีก่อนและลืมไปหมดดังนั้นสิ่งเหล่านี้อาจดูเหมือนคำถามเชิงแนวคิดทั่วไปมากกว่าสิ่งใดโดยเฉพาะ แต่นี่คือปัญหาของฉัน ฉันทำงานให้กับเว็บไซต์อีคอมเมิร์ซในฐานะนักออกแบบ UX เรามีกรอบการทดสอบ A / B ที่สร้างขึ้นเมื่อหลายปีก่อนซึ่งฉันเริ่มสงสัย การวัดที่เราทำการตัดสินใจทั้งหมดของเรานั้นเรียกว่าการแปลงและขึ้นอยู่กับเปอร์เซ็นต์ของผู้ใช้ที่เข้าชมเว็บไซต์และซื้อสิ่งต่างๆ ดังนั้นเราต้องการทดสอบการเปลี่ยนสีของปุ่มซื้อจากสีเขียวเป็นสีน้ำเงิน การควบคุมคือสิ่งที่เรามีอยู่แล้วปุ่มสีเขียวที่เรารู้ว่าอัตราการแปลงโดยเฉลี่ยของเราคืออะไร การทดลองกำลังแทนที่ปุ่มสีเขียวด้วยปุ่มสีฟ้า เราเห็นด้วยอย่างมีนัยสำคัญ 95% คือระดับความมั่นใจที่เรามีความสุขและเราเปิดการทดสอบปล่อยให้มันทำงาน เมื่อผู้ใช้เยี่ยมชมเว็บไซต์เบื้องหลังมีโอกาส 50/50 พวกเขาจะถูกส่งไปยังรุ่นควบคุม (ปุ่มสีเขียว) เทียบกับรุ่นทดสอบ (ปุ่มสีน้ำเงิน) หลังจากดูการทดสอบหลังจาก 7 วันฉันเห็นการแปลงเพิ่มขึ้น 10.2% ตามการทดลองด้วยขนาดตัวอย่าง 3000 (1500 ไปสู่การควบคุม 1500 การทดลอง 1500 และนัยสำคัญทางสถิติที่ 99.2% ยอดเยี่ยมฉันคิดว่า การทดสอบดำเนินต่อไปขนาดของตัวอย่างเพิ่มขึ้นจากนั้นฉันเห็นการแปลงเพิ่มขึ้น + 9% โดยมีนัยสำคัญที่ 98.1% ตกลงให้การทดสอบทำงานต่อไปนานขึ้นและตอนนี้การทดลองแสดงให้เห็นว่าการแปลงเพิ่มขึ้น 5% โดยมีนัยสำคัญทางสถิติเพียง 92% โดยกรอบการทำงานบอกฉันว่าฉันต้องการตัวอย่างเพิ่ม 4600 ก่อนที่จะถึงนัยสำคัญ 95%? การทดสอบสรุปได้ในจุดใด? …

2
การปรับค่า p สำหรับการวิเคราะห์ลำดับแบบปรับตัว (สำหรับการทดสอบไคสแควร์)?
ฉันต้องการทราบว่าวรรณกรรมทางสถิติใดที่เกี่ยวข้องกับปัญหาต่อไปนี้และอาจเป็นแนวคิดในการแก้ไข ลองนึกภาพปัญหาต่อไปนี้: เรามีวิธีการรักษา 4 ประการสำหรับโรคบางประเภท เพื่อตรวจสอบว่าการรักษาใดดีกว่าเราทำการทดลองพิเศษ ในการทดลองเราเริ่มโดยไม่มีวิชาจากนั้นหนึ่งต่อหนึ่งวิชาเพิ่มเติมเข้าสู่การทดลอง ผู้ป่วยแต่ละรายจะถูกสุ่มเลือกหนึ่งใน 4 การรักษาที่เป็นไปได้ ผลลัพธ์สุดท้ายของการรักษาคือ "สุขภาพดี" หรือ "ยังป่วย" และให้เราบอกว่าเราสามารถรู้ผลลัพธ์นี้ได้ทันที ซึ่งหมายความว่า ณ จุดใดก็ตามเราสามารถสร้างตารางฉุกเฉินได้สองถึงสี่ตารางโดยบอกว่าอาสาสมัครของเรามีจำนวนเท่าใดที่เข้ารับการรักษา / สิ้นสุดผล ณ จุดใดก็ตามเราสามารถตรวจสอบตารางฉุกเฉิน (ตัวอย่างเช่นใช้การทดสอบไคสแควร์) เพื่อดูว่ามีการรักษาที่แตกต่างกันทางสถิติระหว่าง 4 การรักษาที่เป็นไปได้หรือไม่ หากหนึ่งในนั้นดีกว่าส่วนที่เหลือทั้งหมด - เราจะหยุดการทดลองและเลือกเป็น "ผู้ชนะ" หากการทดลองบางอย่างแสดงว่าแย่กว่านั้นอีกสามเราจะปล่อยเขาจากการทดลองและหยุดให้มันแก่ผู้ป่วยในอนาคต อย่างไรก็ตามปัญหานี่คือฉันจะปรับ p-valueสำหรับข้อเท็จจริงได้อย่างไรว่าการทดสอบสามารถดำเนินการได้ทุกจุดว่ามีความสัมพันธ์ระหว่างการทดสอบและลักษณะการปรับตัวของกระบวนการจัดการกระบวนการ (สำหรับ เช่นหากการรักษาบางอย่างพบว่า "ไม่ดี")?

2
วิธีการแบบเบย์เรียงตามลำดับโดยเนื้อแท้หรือไม่?
นั่นคือการวิเคราะห์ตามลำดับ (คุณไม่ทราบล่วงหน้าว่าจะเก็บรวบรวมข้อมูลจำนวนเท่าใด) ด้วยวิธีการที่ต้องทำบ่อยๆต้องใช้ความระมัดระวังเป็นพิเศษ คุณไม่สามารถรวบรวมข้อมูลได้จนกว่าค่า p จะมีขนาดเล็กเพียงพอหรือช่วงความเชื่อมั่นนั้นสั้นพอ แต่เมื่อทำการวิเคราะห์แบบเบย์นี่เป็นข้อกังวลหรือไม่? เราสามารถทำสิ่งต่าง ๆ ได้อย่างอิสระเช่นรวบรวมข้อมูลจนกว่าช่วงเวลาที่เชื่อถือได้จะมีขนาดเล็กเพียงพอหรือไม่?

1
การอัปเดตตัวประกอบ Bayes
ปัจจัย Bayes ถูกกำหนดไว้ในคชกรรมทดสอบสมมติฐานและการเลือกรูปแบบเบส์โดยอัตราส่วนของสองโอกาสเกิดขอบ: รับตัวอย่าง IIDและความหนาแน่นของการสุ่มตัวอย่างที่เกี่ยวข้องและพร้อมกับนักบวชที่สอดคล้องกันและตัวประกอบ Bayes สำหรับการเปรียบเทียบทั้งสองรุ่นคือ หนังสือฉันกำลังตรวจสอบในปัจจุบันมีคำสั่งแปลกที่ดังกล่าวข้างต้นปัจจัย Bayes(x1, … ,xn)(x1,…,xn)(x_1,\ldots,x_n)ฉ1( x | θ )f1(x|θ)f_1(x|\theta)ฉ2( x | η)f2(x|η)f_2(x|\eta)π1π1\pi_1π2π2\pi_2B12(x1,…,xn)=defm1(x1,…,xn)m2(x1,…,xn)=def∫∏ni=1f1(xi|θ)π1(dθ)∫∏ni=1f2(xi|η)π2(dη)B12(x1,…,xn)=defm1(x1,…,xn)m2(x1,…,xn)=def∫∏i=1nf1(xi|θ)π1(dθ)∫∏i=1nf2(xi|η)π2(dη)\mathfrak{B}_{12}(x_1,\ldots,x_n)\stackrel{\text{def}}{=}\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\stackrel{\text{def}}{=}\frac{\int \prod_{i=1}^n f_1(x_i|\theta)\pi_1(\text{d}\theta)}{\int \prod_{i=1}^n f_2(x_i|\eta)\pi_2(\text{d}\eta)}B12(x1,…,xn)B12(x1,…,xn)\mathfrak{B}_{12}(x_1,\ldots,x_n)คือ "เกิดจากการคูณแต่ละตัว [ตัวประกอบ Bayes] ด้วยกัน" (p.118) สิ่งนี้ถูกต้องอย่างเป็นทางการหากมีใครใช้การสลายตัว แต่ฉันไม่เห็นความได้เปรียบในการย่อยสลายในขณะที่การปรับปรุงโดยต้องการความพยายามในการคำนวณแบบเดียวกับการคำนวณดั้งเดิมของB12(x1,…,xn)=m1(x1,…,xn)m2(x1,…,xn)=m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)×m1(xn−1|xn−2,…,x1)m2(xn−1|xn−2,…,x1)×⋯⋯×m1(x1)m2(x1)B12(x1,…,xn)=m1(x1,…,xn)m2(x1,…,xn)=m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)×m1(xn−1|xn−2,…,x1)m2(xn−1|xn−2,…,x1)×⋯⋯×m1(x1)m2(x1)\begin{align*}\mathfrak{B}_{12}(x_1,\ldots,x_n)&=\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\\&=\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}\times \frac{m_1(x_{n-1}|x_{n-2},\ldots,x_1)}{m_2(x_{n-1}|x_{n-2},\ldots,x_1)}\times\cdots\\&\qquad\cdots\times\frac{m_1(x_1)}{m_2(x_1)}\end{align*}m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}m1(x1,…,xn)m2(x1,…,xn)m1(x1,…,xn)m2(x1,…,xn)\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}นอกตัวอย่างของเล่นประดิษฐ์ คำถาม:มีวิธีทั่วไปและมีประสิทธิภาพในการอัปเดตตัวประกอบ Bayes จากเป็น ที่ไม่ต้องการคำนวณระยะขอบทั้งหมดและ ?B12(x1,…,xn)B12(x1,…,xn)\mathfrak{B}_{12}(x_1,\ldots,x_n)B12(x1,…,xn+1)B12(x1,…,xn+1)\mathfrak{B}_{12}(x_1,\ldots,x_{n+1})m1(x1,…,xn)m1(x1,…,xn)m_1(x_1,\ldots,x_n)m2(x1,…,xn)m2(x1,…,xn)m_2(x_1,\ldots,x_n) สัญชาตญาณของฉันคือนอกเหนือจากตัวกรองอนุภาคซึ่งดำเนินการตามการประเมินปัจจัย Bayesการสังเกตครั้งละหนึ่งครั้งไม่มีวิธีธรรมชาติในการตอบคำถามนี้ .B12(x1,…,xn)B12(x1,…,xn)\mathfrak{B}_{12}(x_1,\ldots,x_n)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.