ทดสอบความแตกต่างอย่างมีนัยสำคัญในอัตราส่วนของตัวแปรสุ่มแบบกระจาย


9

เกี่ยวข้องกับการวิเคราะห์อัตราส่วนของตัวแปรและวิธีการกำหนดอัตราส่วนของตัวแปรที่มีการแจกแจงแบบปกติสองแบบหรือค่าผกผันของค่าใดค่าหนึ่ง .

สมมติว่าฉันมีตัวอย่างจำนวนหนึ่งจากการแจกแจงแบบสุ่มอย่างต่อเนื่องที่แตกต่างกันสี่แบบซึ่งเราสามารถถือว่าเป็นเรื่องปกติได้ ในกรณีของฉันสิ่งเหล่านี้สอดคล้องกับตัวชี้วัดประสิทธิภาพของระบบไฟล์สองระบบที่แตกต่างกัน (เช่น ext4 และ XFS) ทั้งที่มีและไม่มีการเข้ารหัส ตัวอย่างเช่นเมตริกอาจเป็นจำนวนไฟล์ที่สร้างขึ้นต่อวินาทีหรือเวลาแฝงเฉลี่ยสำหรับการดำเนินการกับไฟล์บางอย่าง เราสามารถสรุปได้ว่าตัวอย่างทั้งหมดที่ได้จากการแจกแจงเหล่านี้จะเป็นผลบวกอย่างแน่นอน ขอเรียกกระจายเหล่านี้ที่และ\}Perffstype,encryptionfstype{xfs,ext4}encryption{crypto,nocrypto}

ตอนนี้สมมติฐานของฉันคือการเข้ารหัสทำให้ระบบไฟล์ช้าลงโดยปัจจัยที่ใหญ่กว่าระบบอื่น มีการทดสอบอย่างง่าย ๆ สำหรับสมมติฐานE[Perfxfs,crypto]E[Perfxfs,nocrypto]<E[Perfext4,crypto]E[Perfext4,nocrypto] ?


ดูเหมือนว่าข้อความบางส่วนจะถูกลบออกจากตรงกลางของคำถามนี้ คุณคิดว่าคุณสามารถกู้คืนได้หรือไม่
whuber

ฉันคิดว่า "ดังนั้น" ถูกทิ้งไว้ที่นั่นโดยไม่ตั้งใจอย่างน้อยฉันก็ไม่สามารถคิดในสิ่งที่ฉันอยากจะเพิ่มเข้าไปได้ อาจเป็นสิ่งที่ในที่สุดฉันก็ย้ายไปที่วรรคสอง
Sami Liedes

คุณสามารถใส่โมเดลเชิงเส้นแบบทั่วไปสำหรับการแจกแจงแบบปกติด้วยฟังก์ชั่นลิงค์บันทึก
onestop

1
"จำนวนไฟล์" และ "เวลาแฝงเฉลี่ย" ไม่สามารถกระจายได้ตามปกติ (ไม่สามารถลบได้สำหรับการเริ่มต้น) ทั้งสองมีแนวโน้มที่จะค่อนข้างเบ้ จำนวนไฟล์เป็นจำนวนที่ไม่ต่อเนื่อง
Glen_b -Reinstate Monica

คำตอบ:


12

ทางเลือกหนึ่งสำหรับคำตอบที่ดีของ StasK คือใช้การทดสอบการเปลี่ยนรูป ขั้นตอนแรกคือการกำหนดสถิติทดสอบอาจจะ:T

T=Perf^ext4,cryptoPerf^ext4,nocryptoPerf^xfs,cryptoPerf^xfs,nocrypto

โดยที่คือบางทีตัวอย่างค่าเฉลี่ยของการสังเกตของ ฯลฯ (นี่เหมาะกับนิยามของสมมติฐานของคุณว่าเป็นอัตราส่วนของ ความคาดหวังมากกว่าความเป็นไปได้ทางเลือกของความคาดหวังของอัตราส่วน - ทางเลือกใดอาจเป็นสิ่งที่คุณต้องการจริงๆ) ขั้นตอนที่สองคือการสุ่มเปลี่ยนป้ายชื่อในข้อมูลหลาย ๆ ครั้งพูดและคำนวณสำหรับการเปลี่ยนแปลงแต่ละครั้ง ขั้นตอนสุดท้ายคือการเปรียบเทียบเดิมของคุณกับสังเกต ; เปลี่ยนแปลงคาด p-value จะเป็นส่วนของT Perf^ext4,cryptoPerfext4,cryptoext4, xfsi=1,,10000TiTTiTiT

การทดสอบการเปลี่ยนรูปทำให้คุณปลอดจากการพึ่งพา asymptotics แต่แน่นอนขึ้นอยู่กับขนาดตัวอย่างของคุณ (และข้อมูลด้วยเช่นกัน) วิธี delta ที่ฉันใช้เป็นครั้งคราวอาจใช้ได้ดี


นั่นเป็นคำแนะนำที่ดีเช่นกัน!
StasK

โปรดทราบว่าอัตราส่วนของตัวแปรปกติสองตัวที่อยู่ตรงกลางคือตัวแปร Cauchy
ซีอาน

1
@ ซีอาน: เห็นได้ชัดว่าเราสามารถสันนิษฐานได้ว่าพวกเขาเป็นอิสระที่นี่? ดังที่คุณทราบว่าสิ่งนี้จะเป็นสิ่งจำเป็นสำหรับผลลัพธ์ที่จะเก็บไว้ (และมีโอกาสที่จะเป็นประโยชน์)
พระคาร์ดินัล

@ cardinal: ใช่แน่นอนพวกเขาจะต้องเป็นอิสระ!
ซีอาน

1
ในฐานะที่เป็นจุดทางเทคนิคหัวสูงมาก - การเรียงสับเปลี่ยนทำงานได้ดีขึ้นเล็กน้อยเมื่อสถิติการทดสอบของคุณสำคัญ / ไม่เกี่ยวข้องกับพารามิเตอร์ที่ไม่รู้จัก / ถูกแปรปรวน - เสถียร ... อย่างน้อยภายใต้ null ด้วยสัดส่วนคุณสามารถทำการแปลงอาร์คบาป ด้วยปริมาณที่ต่อเนื่องเป็นบวกอย่างเคร่งครัดฉันอาจเริ่มต้นด้วยบันทึก แต่นี่เป็นไอซิ่งบนเค้กจริงๆ
StasK

4

คุณสามารถคำนวณ (asymptotic) ข้อผิดพลาดมาตรฐานของอัตราการใช้เดลต้าวิธี หากคุณมีตัวแปรสุ่มสองตัวคือและนั่นคือ ในการกระจาย (ซึ่งจะเป็นกรณีถ้าคุณมีข้อมูลที่เป็นอิสระ แต่มันก็จะเป็นกรณีทั่วไปมากขึ้นของ ข้อมูลคลัสเตอร์เมื่อคุณรันการทดสอบของคุณบนเครื่องที่แตกต่างกัน) จากนั้นสำหรับอัตราส่วนด้วยอะนาล็อกประชากรของเรามี XY

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
r=Y¯/X¯ro=μY/μX
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
ถ้าและเป็นอิสระเนื่องจากอาจสมเหตุสมผลในกรณีของคุณการแสดงออกนี้ทำให้ง่ายขึ้นโดยการวางดังนั้น เราได้ว่าสัมประสิทธิ์กำลังสองของการแปรผันรวม: มันมี ข้อดีเพิ่มเติมที่ขนาดตัวอย่างอาจแตกต่างกัน นอกจากนี้หาก RHS และ LHS ของคุณเป็นอิสระคุณสามารถสร้างสถิติทดสอบสำหรับXYσXY
CV2[r]=CV2[X¯]+CV2[Y¯]
zH0: ไม่แตกต่างกันโดยการหาผลต่างของอัตราส่วนและหารด้วยข้อผิดพลาดมาตรฐานที่สอดคล้องกันที่ได้รับจาก CV เหล่านี้

ฉันหวังว่าคุณสามารถนำมันมาจากที่นั่นและดำเนินการคำนวณส่วนที่เหลือเพื่อรับสูตรขั้นสุดท้าย

โปรดทราบว่าผลลัพธ์นั้นเป็น asymptotic และอัตราส่วนเป็นตัวประมาณค่าแบบเอนเอียงของในกลุ่มตัวอย่างขนาดเล็ก อคติมีคำสั่งของ , และหายไป asymptotically เมื่อเทียบกับการสุ่มตัวอย่างแปรปรวนซึ่งเป็นคำสั่ง{n})rr0O(1/n)O(1/n)


ขอบคุณสำหรับคำตอบที่ยอดเยี่ยมและกระจ่างแจ้ง! ฉันคิดว่าฉันจะเลือกการทดสอบการเปลี่ยนรูปแบบของ jbowban สำหรับการศึกษาของฉันเพราะฉันคิดว่าฉันเข้าใจและข้อ จำกัด ที่ดีกว่า แต่วิธีการเดลต้าดูเหมือนว่าสิ่งที่ฉันต้องศึกษาและหา
Sami Liedes

@stask นี้สามารถทำได้ที่นี่? stats.stackexchange.com/questions/398436/…
Xavier Bourret Sicotte

ซาเวียร์ฉันคิดว่า @ usεr11852ให้คำตอบที่ดี ฉันจะไม่รบกวนการเพิ่มเข้าไป
StasK

@StasK - เงื่อนไขใดที่คุณระบุไว้ในคำตอบของคุณภายใต้เงื่อนไขใด การลู่เข้าของสถิติอัตราส่วนรับประกันโดยสมมติฐานก่อนหน้าและวิธีเดลต้าหรือไม่?
Xavier Bourret Sicotte

มันเป็นสายพันธ์…ไม่มีอะไรรับประกันได้เลยและขอบเขตข้อผิดพลาดนั้นยากที่จะทำไม่ได้ วิธีเดลต้าทั้งหมด (หรือผลลัพธ์การลู่เข้าแบบอ่อนอื่น ๆ ) กำลังบอกว่าเมื่อคุณเพิ่มขนาดตัวอย่างความแตกต่างระหว่างการกระจายตัวอย่าง จำกัด จริงจากการแจกแจงแบบอะซิมโทติกจะลดลง นั่นอาจหมายความว่าเมื่อคุณเพิ่มขนาดตัวอย่างจาก 1,000 เป็น 10,000 ความแตกต่างในแนวดิ่งระหว่าง cdf จะลดลงจาก 0.2 เป็น 0.1 และส่วนหลังนั้นยังไม่เป็นที่ยอมรับสำหรับการใช้งานจริง หรืออาจหมายความว่าความแตกต่างเริ่มจาก 0.01 ถึง 0.001
StasK

0

อัตราส่วนของตัวแปรปกติกระจาย Cauchy เมื่อรู้ว่าคุณสามารถทำการทดสอบตัวประกอบเบย์ได้

นี่เป็นความคิดที่ค่อนข้างเป็นธรรมชาติ ตอนนี้ฉันไม่แน่ใจเกี่ยวกับกลไกการสร้างข้อมูล คุณติดตั้งระบบไฟล์ที่แตกต่างกันบนพีซีเครื่องเดียวกันจากนั้นเป็นเกณฑ์มาตรฐานสำหรับทั้งสองกรณีเพื่อให้เราสามารถสมมติโครงสร้างข้อมูลแบบลำดับชั้นได้หรือไม่?

นอกจากนี้ฉันไม่แน่ใจว่าอัตราส่วนการดูเหมาะสมจริงๆ

จากนั้นคุณก็เขียนอัตราส่วนของค่าที่คาดไว้ในขณะที่ฉันคิดถึงค่าที่คาดหวังของอัตราส่วน ฉันเดาว่าฉันต้องการข้อมูลเพิ่มเติมเกี่ยวกับการสร้างข้อมูลก่อนที่จะดำเนินการต่อ


1
อัตราส่วนของบรรทัดฐานเป็นเพียง Cauchy ถ้า (a) พวกเขาเป็นอิสระและ (b) มีความแปรปรวนเดียวกัน
พระคาร์ดินัล

ซีอานมีความคิดแบบเดียวกันกับที่ฉันเดา ...
joint_p

1
ไม่ชัดเจน (สำหรับฉันอย่างน้อย) ว่าโครงสร้างความเป็นอิสระใด ๆ มีอยู่หรือพวกเขาจะมีค่าเฉลี่ยเป็นศูนย์ บางทีถ้าคุณสามารถขยายคำตอบของคุณได้ก็จะช่วยให้เห็นแนวทางที่ชัดเจนยิ่งขึ้น :)
พระคาร์ดินัล

1
@ cardinal - ฉันคิดว่ามันเป็นอัตราส่วนของ normals อิสระที่มีค่าเฉลี่ยเป็นศูนย์คือ cauchy ที่มีค่ามัธยฐานเป็นศูนย์และพารามิเตอร์สเกลเท่ากับอัตราส่วนของส่วนเบี่ยงเบนมาตรฐานปกติ หากพวกเขามีค่าเฉลี่ยที่ไม่ใช่ศูนย์ก็ไม่ได้เป็น cauchy
ความน่าจะเป็นทาง

@prob: (+1) คุณพูดถูก! ขอบคุณสำหรับการจับที่ ฉันทิ้ง "มาตรฐาน" และ "ศูนย์หมายถึง" ในความคิดเห็นแรกของฉัน (หลังได้จัดการเพื่อให้เป็นครั้งที่สองของฉัน)
พระคาร์ดินัล

0

ในกรณีที่คุณไม่สามารถทำการเรียงสับเปลี่ยนได้ตัวอย่างเช่นเมื่อขนาดตัวอย่างสร้างความเป็นไปได้หลายล้านวิธีการแก้ปัญหาก็คือ

สมมติฐานคือว่ามีความแตกต่างในความเร็วระหว่างไม่มีและสำหรับและการเข้ารหัสลับดังนั้นสัดส่วนเฉลี่ยที่ทุกตัวอย่างไม่แตกต่างจากที่ของลับext4xfsnocryptocryptoext4xfsnocryptocrypto

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

โดยที่ x=ext4xfs

และ n=samplesize

หากเป็นจริงสุ่มหยิบผลการค้นหาสำหรับอัตราส่วน หรือนอกจากนี้ยังจะส่งผลให้ 0 ใครจะคำนวณ:H0nocryptocryptoTobserved=0

Tresampling=x1random+xnrandomnnocryptox1random+xnrandomncrypto

และแสดงใหม่อีกรอบ 10,000 รอบ การกระจายที่เกิดจาก ค่าเป็นช่วงความเชื่อมั่นสำหรับ{0} ความแตกต่างระหว่างและอัตราส่วนเป็นสำคัญถ้าคำนวณค่าอยู่นอกช่วงของเช่น 95%ของค่าTresamplingH0nocryptocryptoTobserved(p<0.05)Tresampling

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.