-test ครับ


12

ฉันเพิ่งอ่านในนิตยสารวิทยาศาสตร์ที่ได้รับความนิยม (PM) จากเยอรมัน, 02/2013, หน้า 38) เกี่ยวกับการทดลองที่น่าสนใจ (ไม่มีแหล่งที่มา, น่าเสียดาย) มันดึงดูดความสนใจของฉันเพราะฉันสงสัยในความสำคัญของผลลัพธ์ แต่ข้อมูลที่ให้นั้นเพียงพอสำหรับการทำซ้ำการทดสอบทางสถิติ

นักวิจัยสงสัยว่าการได้รับความเย็นในสภาพอากาศหนาวเย็นช่วยเพิ่มโอกาสที่จะเป็นหวัดได้หรือไม่ ดังนั้นพวกเขาสุ่มแบ่งนักเรียน 180 คนออกเป็นสองกลุ่ม กลุ่มหนึ่งต้องแช่เท้าในน้ำเย็นเป็นเวลา 20 นาที อีกคนเก็บรองเท้าไว้ ฉันคิดว่าการจัดการที่ตลก แต่ในทางกลับกันฉันไม่ใช่หมอและหมออาจจะคิดว่าตลก ประเด็นด้านจริยธรรมกัน

อย่างไรก็ตามหลังจาก 5 วันนักเรียน 13 คนในกลุ่มการรักษามีอาการหวัด แต่เพียง 5 คนในกลุ่มที่สวมรองเท้า อัตราส่วนอัตราต่อรองของการทดลองนี้คือ 2.87

ด้วยขนาดตัวอย่างที่ค่อนข้างเล็กฉันเริ่มสงสัยว่าความแตกต่างนี้อาจมีนัยสำคัญหรือไม่ ดังนั้นฉันจึงทำการทดสอบสองครั้ง

การทดสอบอย่างง่ายครั้งแรกของความเท่าเทียมกันของสัดส่วนโดยใช้การประมาณปกติ การทดสอบนี้มีz=1.988กับp=0.0468 0.0468 ฉันเดาว่านี่คือสิ่งที่นักวิจัยทดสอบ นี่เป็นสิ่งสำคัญอย่างแท้จริง อย่างไรก็ตามการทดสอบ z นี้ใช้ได้เฉพาะในกลุ่มตัวอย่างขนาดใหญ่เท่านั้นหากฉันไม่ผิดเนื่องจากการประมาณปกติ นอกจากนี้อัตราความชุกค่อนข้างน้อยและฉันสงสัยว่าสิ่งนี้อาจไม่ส่งผลกระทบต่ออัตราความครอบคลุมของช่วงความเชื่อมั่นของผลกระทบ

ดังนั้นความพยายามครั้งที่สองของฉันคือการทดสอบความเป็นอิสระของไคสแควร์ทั้งการจำลองด้วย Monte-Carlo และ Pearson Chi-square มาตรฐาน ที่นี่ผมพบว่าค่า P-ทั้งเกี่ยวกับp=.082 0.082

ตอนนี้นั่นไม่ใช่ทั้งหมดมั่นใจเกี่ยวกับผลลัพธ์ ฉันสงสัยว่ามีตัวเลือกเพิ่มเติมให้ทดสอบข้อมูลนี้หรือไม่และความคิดเห็นของคุณในการทดสอบทั้งสองนั้นเป็นอย่างไร (โดยเฉพาะอย่างยิ่งข้อสันนิษฐานของการทดสอบครั้งแรกที่สำคัญ


ฉันเชื่อว่าคุณได้ทำการแก้ไขอย่างต่อเนื่องในสถิติไคสแควร์ของเพียร์สันซึ่งอธิบายความแตกต่างของค่า p
Scortchi - Reinstate Monica

คำตอบ:


13

ฉันจะใช้การทดสอบการเปลี่ยนรูปแทนการประมาณปกติหรือไคสแควร์ การทดสอบการเปลี่ยนรูปเป็นไปอย่างแม่นยำและมีประสิทธิภาพมากที่สุด

ในกรณีนี้เราไม่สามารถคำนวณพีชคณิตทั้งหมดของกลุ่มได้ แต่เราสามารถสร้างการเรียงสับเปลี่ยนของข้อมูลจำนวนมากและได้ค่าที่แม่นยำ:

group <- c(rep("A",90),rep("B",90))
n_a <- rep(0,100000)
for (i in 1:length(n_a)) {
   temp <- sample(group, size=18)
   n_a[i] <- sum(temp == "A")
}
> mean(n_a >= 13)
[1] 0.03904

ซึ่งจะระบุค่า p-0.039

อย่างไรก็ตามและนี่เป็นเรื่องใหญ่ แต่ฉันเดาว่าการสันนิษฐานว่าผู้ที่เป็นหวัดจะเป็นเหตุการณ์อิสระ บุคคลเหล่านี้เป็นนักเรียนน่าจะอยู่ที่โรงเรียนเดียวกัน ลองนึกภาพสองคนแบ่งปันชั้นเรียนหรือหอพักหรือทำกิจกรรมอื่น ๆ หรือโรงอาหาร (ในโรงเรียนที่มีโรงอาหารหลายแห่ง) กิจกรรม "# 1 กลายเป็นหวัด" และ "# 2 กลายเป็นหวัด" ไม่เป็นอิสระ ฉันจินตนาการได้ว่านักเรียนคนหนึ่งจะพูดว่า "มาลงทะเบียนเพื่อทดลองนี้กันเถอะ!" ถึงเพื่อนร่วมห้องหรือเพื่อนของเขา / เธอ ฉันจินตนาการได้ว่านักเรียนได้รับการคัดเลือกจากชั้นเรียนที่อาจารย์สอน ฉันจินตนาการได้หลายวิธีว่าการละเมิดความเป็นอิสระนั้นเกิดขึ้น บางทีกระดาษซึ่งฉันยังไม่ได้อ่านได้กล่าวถึงบางข้อ แต่ก็ยากที่จะดูว่ามันจะจัดการกับสิ่งเหล่านี้ได้อย่างไร


ขอบคุณ @jbowman - นอกจากนี้คุณยังได้ทำการทดสอบด้านเดียวฉันเห็น ฉันคิดว่ามันสมเหตุสมผลดีกว่าแล้วการทดสอบสองด้านที่ฉันใช้ หากการประมาณปกติเสร็จสิ้นด้านเดียวค่า p คือ 0.23 ข้างต้น ฉันชอบบทกวีเกี่ยวกับความเป็นอิสระ อาจเป็นไปได้ว่านักเรียนไม่ได้โดดเดี่ยวเมื่อพวกเขายกเท้าของพวกเขาลงไปในน้ำ
tomka

(+1) แต่ก็น่าสังเกตว่าคุณไม่จำเป็นต้องจำลอง: การแจกแจงสถิติการทดสอบของคุณเป็นไปตามการแจกแจงไฮเพอร์เมตริกซ์ภายใต้สมมติฐานว่าง นี่คือการทดสอบที่แน่นอนของชาวประมง
Scortchi - Reinstate Monica

11

zχ2

zทดสอบ:

มีข้อกังวลสองประการเกี่ยวกับความเหมาะสมของการใช้การทดสอบทั้งสองพิจารณาว่าการแจกแจงตัวอย่างที่สันนิษฐานนั้นถูกต้องหรือไม่ อันดับแรก -test ใช้การแจกแจงแบบปกติแทนการแจกแจงแบบโดยการบอกว่าค่าเบี่ยงเบนมาตรฐานนั้นเป็นที่รู้จักโดยไม่มีข้อผิดพลาดการสุ่มตัวอย่าง ประการที่สองการกระจายตัวตัวอย่างนั้นต่อเนื่อง แต่ข้อมูลไม่ต่อเนื่อง เนื่องจากเป็นไปได้ที่จะมีการรวมกันของข้อมูลบางอย่างเท่านั้นจึงทำให้มีค่าสถิติการทดสอบที่รับรู้ได้ซึ่งอาจไม่ตรงกับการแจกแจงตัวอย่างเชิงทฤษฎี (ฉันพูดถึงปัญหานี้ในบริบทของการทดสอบอื่น ๆ ที่นี่: การเปรียบเทียบและการตัดกัน, ค่า p, ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1) zzt

ลองพิจารณาข้อกังวลแรกในบริบทที่แตกต่างกัน หากคุณมีสองกลุ่มที่มีข้อมูลที่กระจายตามปกติและคุณต้องการดูว่าค่าเฉลี่ยนั้นเทียบเท่าหรือไม่คุณต้องคำนวณทั้งค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน ตอนนี้เรารู้แล้วว่าค่าเฉลี่ยนั้นมีข้อผิดพลาดในการสุ่มตัวอย่างนั่นคือสาเหตุที่เราต้องทำการทดสอบมากกว่าแค่บอกว่าค่าเฉลี่ยตัวอย่างสองตัวอย่างนี้ไม่เหมือนกัน อย่างไรก็ตามการประมาณค่าเบี่ยงเบนมาตรฐานของเรายังต้องมีข้อผิดพลาดในการสุ่มตัวอย่างและเราต้องคำนึงถึงข้อเท็จจริงดังกล่าวด้วย เมื่อเราทำอย่างนั้นก็จะเปิดออกว่าสถิติทดสอบ (ชนิดของการลดขนาดแตกต่างค่าเฉลี่ย) จะกระจายเป็นเสื้อหากเราใช้การแจกแจงแบบปกติแทน (เช่นtz- ทดสอบ) ก็หมายความว่าเราสมมติว่าค่าเบี่ยงเบนมาตรฐานของเราไม่มีข้อผิดพลาด - สมบูรณ์แบบ เหตุใดจึงใช้การทดสอบในกรณีของคุณ เหตุผลก็คือข้อมูลของคุณเป็นแบบทวินาม (เช่นจำนวน 'ความสำเร็จ' จากจำนวนการทดลองทั้งหมด 'ที่รู้จัก) แทนที่จะเป็นแบบปกติ ในการแจกแจงทวินามส่วนเบี่ยงเบนมาตรฐานคือฟังก์ชันของค่าเฉลี่ยดังนั้นเมื่อคุณประมาณค่าเฉลี่ยแล้วก็ไม่ต้องกังวลอีกต่อไป ดังนั้นการแจกแจงแบบปกติสามารถใช้เป็นแบบจำลองของการกระจายตัวตัวอย่างของสถิติทดสอบ z

แม้ว่าการใช้การแจกแจงแบบปกติเพื่อทำความเข้าใจกับพฤติกรรมในระยะยาวของสถิติการทดสอบนั้นถูกต้องทางเทคนิค แต่ปัญหาอื่นก็ปรากฏขึ้น ปัญหาคือการแจกแจงแบบปกตินั้นต่อเนื่อง แต่เนื่องจากข้อมูลของคุณไม่ต่อเนื่องอาจไม่พบค่าทั้งหมดในการแจกแจงเชิงทฤษฎีในชุดข้อมูลของคุณ (อีกครั้งฉันพูดถึงปัญหานี้ในรายละเอียดมากขึ้นในคำตอบที่เชื่อมโยงข้างต้น) โชคดีที่การจับคู่ระหว่างผลลัพธ์ที่เป็นไปได้ของข้อมูลของคุณกับการกระจายตัวตัวอย่างแบบปกติในทางทฤษฎีจะทำให้ของคุณมีขนาดใหญ่ขึ้น ในกรณีของคุณไม่ว่าความน่าจะเป็นพื้นฐานที่แท้จริงจะเป็นอย่างไรคุณอาจประสบความสำเร็จได้มากหรือน้อยที่สุดในแต่ละกลุ่ม นั่นหมายถึงจำนวนชุดค่าผสมที่เป็นไปได้คือN91×91=1,729ซึ่งเป็นไปได้มาก ด้วยชุดข้อมูลขนาดเล็กคุณสามารถพบกับปัญหาบางอย่างที่ฉันพูดถึงในคำตอบที่เชื่อมโยงของฉันได้ แต่ด้วยคุณไม่ต้องกังวลมากเกินไป ฉันเชื่อว่าการทดสอบ -s เป็นทางเลือกที่ถูกต้องสำหรับนักวิจัย N=180z

χ2ทดสอบ:

แต่สิ่งที่เกี่ยวกับทดสอบ? ฉันคิดว่านั่นเป็นตัวเลือกที่ถูกต้อง แต่ก็ไม่ใช่ทางเลือกแรกของฉัน (ให้ฉันสังเกตว่าผ่านความกังวลที่สองที่กล่าวถึงข้างต้น - ความไม่ตรงกันระหว่างข้อมูลที่ไม่ต่อเนื่องและการกระจายการอ้างอิงอย่างต่อเนื่อง - ใช้กับทดสอบมากที่สุดเท่าที่จะทำได้กับการทดสอบดังนั้นจึงมี ไม่มีข้อได้เปรียบที่นี่) ปัญหากับχ2χ2zχ2- ทดสอบว่าไม่ถือว่ามีอะไรพิเศษเกี่ยวกับผลรวมคอลัมน์ที่สัมพันธ์กับผลรวมแถว ทั้งสองได้รับการปฏิบัติราวกับว่าพวกเขาอาจมีค่าที่เป็นไปได้อื่น ๆ อย่างไรก็ตามสิ่งนี้ไม่ได้สะท้อนการตั้งค่าการทดสอบอย่างแม่นยำ มี 180 คนและ 90 คนได้รับมอบหมายให้แต่ละกลุ่ม สิ่งเดียวที่จะแตกต่างกันอย่างแท้จริงในการศึกษาที่เหมือนกันซ้ำ ๆ คือจำนวนคนที่เป็นหวัดในแต่ละกลุ่ม -test ไม่ถูกต้องถือว่าทั้งจำนวนของโรคหวัดและจำนวนของคนในแต่ละกลุ่มราวกับว่าพวกเขาอาจแตกต่างกัน แต่ -test ทำให้สมมติฐานที่เหมาะสม นั่นเป็นเหตุผลที่การทดสอบมีพลังมากกว่าที่นี่ χ2zz

สำหรับสิ่งที่คุ้มค่าการทดสอบการเปลี่ยนรูปที่แนะนำโดย @jbowman ได้รับการออกแบบของคุณในด้านนี้และไม่ได้รับผลกระทบจากปัญหาไม่ตรงกันอย่างต่อเนื่อง ดังนั้นจึงเป็นตัวเลือกที่ดีที่สุด แต่ฉันคิดว่าคุณอาจต้องการทราบข้อมูลเพิ่มเติมเล็กน้อยเกี่ยวกับการทดสอบ - และเปรียบเทียบในสถานการณ์ของคุณ zχ2


ขอบคุณ @gung ฉันขอขอบคุณความพยายามของคุณ มันทำให้สิ่งต่าง ๆ ชัดเจนขึ้น
tomka

@ gung ฉันสับสน - ไคสแควร์และสัดส่วน z เท่ากันหรือไม่? stats.stackexchange.com/questions/173415/…
Xavier Bourret Sicotte

@XavierBourretSicotte การทดสอบ z มักจะนำมาใช้ภายใต้ประทุนเป็นแบบทดสอบไคสแควร์ R ทำเช่นนั้น ฉันมักจะชอบใช้การทดสอบ z เพราะข้อมูลถูกนำเสนอในลักษณะที่สอดคล้องกับความเข้าใจว่าตัวแปร 1 ตัวคือตัวแปรร่วมและอีกตัวคือการตอบสนอง
gung - Reinstate Monica

1
(+1) @XavierBourretSicotte: มีสองแบบทดสอบ z ที่ใช้กันทั่วไปสำหรับความแตกต่างระหว่างสองสัดส่วน: หนึ่งคือการทดสอบคะแนนเทียบเท่ากับการทดสอบไคสแควร์ของเพียร์สัน null); อีกอันคือการทดสอบของวอลด์ (ซึ่งความแปรปรวนในตัวหารจะถูกคำนวณที่การประมาณค่าความน่าจะเป็นสูงสุดของความแตกต่างในสองสัดส่วน)
Scortchi - Reinstate Monica

@Scortchi ขอบคุณที่ชี้แจงเรื่องนี้! นี่เป็นครั้งแรกที่ฉันได้พบคำอธิบายที่ชัดเจนเกี่ยวกับความแตกต่าง - คุณจะสามารถเชื่อมโยงไปยังสถานที่ที่มีการอธิบายทั้งสองวิธีได้หรือไม่? ด้วยสูตรที่สอดคล้องกันสำหรับความแปรปรวน?
Xavier Bourret Sicotte
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.