ฉันมีข้อมูลบางอย่างที่ไม่สามารถสันนิษฐานได้ว่ามาจากการแจกแจงแบบปกติและฉันต้องการทำการทดสอบความเท่าเทียมกันระหว่างกลุ่ม สำหรับข้อมูลปกติมีเทคนิคเช่น TOST (การทดสอบสองด้านเดียว) TOST มีข้อมูลใดที่คล้ายคลึงกับข้อมูลปกติหรือไม่
ฉันมีข้อมูลบางอย่างที่ไม่สามารถสันนิษฐานได้ว่ามาจากการแจกแจงแบบปกติและฉันต้องการทำการทดสอบความเท่าเทียมกันระหว่างกลุ่ม สำหรับข้อมูลปกติมีเทคนิคเช่น TOST (การทดสอบสองด้านเดียว) TOST มีข้อมูลใดที่คล้ายคลึงกับข้อมูลปกติหรือไม่
คำตอบ:
ตรรกะของ TOST ที่ใช้สำหรับสถิติการทดสอบแบบtและz ของ Wald (เช่นและตามลำดับ) สามารถนำไปใช้กับการประมาณzสำหรับการทดสอบที่ไม่ใช่พารามิเตอร์เช่นเครื่องหมาย จัดอันดับการลงชื่อและการจัดลำดับการทดสอบ สำหรับความเรียบง่ายฉันคิดว่าความเท่าเทียมกันจะแสดงสมมาตรกับคำเดียว แต่การขยายคำตอบของฉันไปสู่เงื่อนไขความไม่สมดุลแบบสมมาตรนั้นตรงไปตรง
ปัญหาหนึ่งที่เกิดขึ้นเมื่อทำสิ่งนี้คือถ้ามีใครคุ้นเคยกับการแสดงคำที่เท่ากัน (พูด, ) ในหน่วยเดียวกันกับดังนั้นคำที่เทียบเท่าจะต้องแสดงในหน่วยของเครื่องหมายเฉพาะอันดับที่เซ็นชื่อ หรือสถิติอันดับรวมซึ่งเป็นทั้งลึกซึ้งและขึ้นอยู่กับN
อย่างไรก็ตามหนึ่งสามารถแสดงเงื่อนไขความเท่าเทียมกัน TOST ในหน่วยของสถิติการทดสอบตัวเอง พิจารณาว่าใน TOST ถ้าดังนั้นและtheta} ถ้าเราปล่อยแล้วและ\ (สถิติที่แสดงที่นี่ได้รับการประเมินในส่วนท้ายขวา :และ.) การใช้หน่วยของการแจกแจงzเพื่อกำหนดเกณฑ์ความเท่าเทียม / ความเกี่ยวข้องอาจจะดีกว่าสำหรับการทดสอบแบบไม่อิงพารามิเตอร์เนื่องจากทางเลือกจะกำหนดเกณฑ์ในหน่วยของผลรวมที่ลงนามหรืออันดับซึ่งอาจไม่มีความหมายอย่างมีนัยสำคัญต่อนักวิจัย ตีความ.
หากเรารับรู้ว่า (สำหรับช่วงเวลาที่เท่าเทียมกันแบบสมมาตร) มันเป็นไปไม่ได้ที่จะปฏิเสธสมมติฐานว่างของ TOST ใด ๆ เมื่อ จากนั้นเราอาจดำเนินการตัดสินใจเกี่ยวกับขนาดที่เหมาะสมของคำที่เทียบเท่า ตัวอย่างเช่น.
วิธีการนี้ได้ถูกนำไปใช้กับตัวเลือกสำหรับการแก้ไขความต่อเนื่อง ฯลฯ ในแพคเกจtostสำหรับ Stata (ซึ่งขณะนี้มีการใช้งาน TOST เฉพาะสำหรับการทดสอบ Shapiro-Wilk และ Shapiro-Francia) ซึ่งคุณสามารถเข้าถึงได้โดยการพิมพ์ใน Stata:
แก้ไข: ทำไมตรรกะของ TOST จึงเป็นเสียงและมีการใช้การจัดรูปแบบการทดสอบความเท่าเทียมกันในการทดสอบรถโดยสารฉันได้รับการโน้มน้าวใจว่าโซลูชันของฉันมีพื้นฐานมาจากความเข้าใจผิดที่ลึกซึ้งของสถิติโดยประมาณสำหรับการทดสอบ Shapiro-Wilk และ Shapiro-Francia
ไม่ใช่ TOST ต่อ se แต่การทดสอบ Komolgorov-Smirnovอนุญาตให้หนึ่งทดสอบความสำคัญของความแตกต่างระหว่างการกระจายตัวอย่างและการแจกแจงการอ้างอิงที่สองที่คุณสามารถระบุได้ คุณสามารถใช้การทดสอบนี้เพื่อแยกประเภทการกระจายที่แตกต่างกันออกไป แต่ไม่ใช่การแจกแจงที่แตกต่างกันโดยทั่วไป (อย่างน้อยไม่ได้โดยไม่มีการควบคุมสำหรับความผิดพลาดเงินเฟ้อในการทดสอบทางเลือกที่เป็นไปได้ทั้งหมด ... สมมติฐานทางเลือกสำหรับการทดสอบใด ๆ จะยังคงเป็นสมมติฐาน "catch-all" ที่เฉพาะเจาะจงน้อยลงตามปกติ
หากคุณสามารถตัดสินการทดสอบความแตกต่างของการแจกแจงระหว่างสองกลุ่มที่สมมุติฐานว่างคือว่าทั้งสองกลุ่มมีการกระจายเท่ากันคุณสามารถใช้การทดสอบ Komolgorov-Smirnov เพื่อเปรียบเทียบการกระจายของกลุ่มหนึ่งกับกลุ่มอื่น นั่นอาจเป็นวิธีการทั่วไป: ไม่สนใจความแตกต่างหากพวกเขาไม่ได้มีนัยสำคัญทางสถิติและปรับการตัดสินใจครั้งนี้ด้วยสถิติทดสอบ
ไม่ว่าในกรณีใดคุณอาจต้องการพิจารณาประเด็นที่ลึกซึ้งที่เกิดขึ้นจากวิธี "ทั้งหมดหรือไม่มีอะไร" เพื่อปฏิเสธสมมติฐานว่าง หนึ่งในปัญหาดังกล่าวได้รับความนิยมอย่างมากในการตรวจสอบความถูกต้องของครอส: " การทดสอบเชิงปกติ 'ไร้ประโยชน์เป็นหลัก' หรือไม่ " ผู้คนชอบที่จะตอบคำถามทดสอบการทดสอบเชิงบรรทัดฐานด้วยคำถาม: "ทำไมคุณต้องการทดสอบ โดยทั่วไปฉันตั้งใจจะทำให้เหตุผลการทดสอบเป็นโมฆะซึ่งอาจนำไปสู่ทิศทางที่ถูกต้องในที่สุด ส่วนสำคัญของการตอบสนองที่เป็นประโยชน์ต่อคำถามที่ฉันเชื่อมโยงที่นี่ดูเหมือนจะเป็นดังนี้:
หากคุณยังต้องการที่จะทำการทดสอบความเท่าเทียมนี่เป็นอีกการสนทนายอดนิยมในการตรวจสอบข้ามที่เกี่ยวข้องกับการทดสอบความเท่าเทียมกัน
fail to
/ reject
วิธีการบังคับนั้นดีขึ้น แต่ตัวอย่างส่วนใหญ่ก็ไม่สามารถแยกแยะความเป็นไปได้ที่ค่าว่างจะเป็นจริงอย่างสมบูรณ์ มีโอกาสที่จะเกิดข้อผิดพลาดในการปฏิเสธที่ผิดพลาดได้เสมอหากมีคนยืนยันว่าถูกปฏิเสธซึ่งมักไม่จำเป็นจริงๆ นั่นอาจเป็นจุดสำคัญที่ฉันตั้งใจจะทำในตอนแรก หวังว่ามันชัดเจนขึ้นเล็กน้อยในขณะนี้โดยไม่มีสิ่งที่ถูกลบ
ความเท่าเทียมไม่เคยเป็นสิ่งที่เราสามารถทดสอบได้ คิดเกี่ยวกับสมมติฐาน: VS . ทฤษฎี NHST บอกเราว่าภายใต้โมฆะเราสามารถเลือกสิ่งที่อยู่ภายใต้ที่เหมาะกับข้อมูลมากที่สุด นั่นหมายความว่าเราสามารถเข้าใกล้การแจกจ่ายได้ตามอำเภอใจ ตัวอย่างเช่นถ้าฉันต้องการทดสอบแบบจำลองความน่าจะเป็นที่อนุญาตให้แยกการแจกแจง และ มักจะมีแนวโน้มมากขึ้นภายใต้ค่า null ซึ่งเป็นการละเมิดสมมติฐานการทดสอบที่สำคัญ แม้ว่าตัวอย่างจะเป็น ฉันจะได้อัตราส่วนความน่าจะเป็นที่ใกล้เคียงกับ 1 ด้วย .
หากคุณรู้ว่าแบบจำลองความน่าจะเป็นที่เหมาะสมสำหรับข้อมูลคุณสามารถใช้เกณฑ์ข้อมูลที่มีการลงโทษเพื่อจัดอันดับแบบจำลองทางเลือก วิธีหนึ่งคือใช้ BIC ของแบบจำลองความน่าจะเป็นสองแบบ และ . ฉันใช้โมเดลความน่าจะเป็นปกติ แต่คุณสามารถรับ BIC จากขั้นตอนโอกาสสูงสุดทุกประเภทไม่ว่าจะด้วยมือหรือโดยใช้ GLM โพสต์ Stackoverflow นี้ได้รับใน nitty-gritty สำหรับการกระจายที่เหมาะสม ตัวอย่างของการทำสิ่งนี้อยู่ที่นี่:
set.seed(123)
p <- replicate(1000, { ## generate data under the null
x <- rnorm(100)
g <- sample(0:1, 100, replace=T)
BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)
จะช่วยให้
> mean(p)
[1] 0.034
นี่คือสัดส่วนของเวลาที่ BIC ของโมเดลว่าง (แยกโมเดล) ดีกว่า (ต่ำกว่า) กว่าโมเดลสำรอง (โมเดลเทียบเท่า) สิ่งนี้อยู่ใกล้กับระดับการทดสอบทางสถิติเล็กน้อย 0.05
ในทางกลับกันถ้าเรารับ:
set.seed(123)
p <- replicate(1000, { ## generate data under the null
x <- rnorm(100)
g <- sample(0:1, 100, replace=T)
x <- x + 0.4*g
BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)
ให้:
> mean(p)
[1] 0.437
เช่นเดียวกับ NHST มีประเด็นเกี่ยวกับพลังงานที่ละเอียดอ่อนและอัตราความผิดพลาดเชิงบวกผิด ๆ ที่ควรสำรวจด้วยการจำลองก่อนที่จะทำการสรุปที่ชัดเจน
ฉันคิดว่าวิธีที่คล้ายกัน (อาจเป็นวิธีทั่วไปมากกว่า) คือการใช้สถิติแบบเบย์เพื่อเปรียบเทียบหลังที่ประเมินไว้ภายใต้แบบจำลองความน่าจะเป็น