รายงานองศาอิสระสำหรับ Welch t-test


14

เวลช์ t-test การแปรปรวนไม่เท่ากัน (หรือเรียกว่าเวลช์-Satterthwaite หรือเวลช์-Aspin) โดยทั่วไปมีองศาที่ไม่ใช่จำนวนเต็มของเสรีภาพ องศาความอิสระเหล่านี้จะถูกอ้างเมื่อรายงานผลการทดสอบได้อย่างไร?

"มันเป็นเรื่องธรรมดาที่จะปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุดก่อนที่จะปรึกษาตารางมาตรฐาน t" ตามแหล่งต่าง ๆ * - ซึ่งสมเหตุสมผลตามทิศทางของการปัดเศษนี้เป็นแบบอนุรักษ์นิยม ** ซอฟต์แวร์ทางสถิติที่เก่ากว่าจะทำเช่นนี้เช่นกัน 6 ) และบางเครื่องคิดเลขออนไลน์ยังคงทำ หากมีการใช้ขั้นตอนนี้การรายงานระดับความอิสระที่โค้งมนจะเหมาะสม (แม้ว่าการใช้ซอฟต์แวร์ที่ดีกว่านั้นอาจเหมาะสมกว่า!)

แต่แพ็คเกจที่ทันสมัยส่วนใหญ่ใช้ประโยชน์จากส่วนที่เป็นเศษส่วนดังนั้นในกรณีนี้ดูเหมือนว่าควรจะอ้างถึงส่วนที่เป็นเศษส่วน ฉันไม่เห็นว่าการอ้างถึงทศนิยมมากกว่าสองตำแหน่งนั้นเหมาะสมหรือไม่เนื่องจากการมีอิสระในระดับหนึ่งพันครั้งจะส่งผลกระทบเพียงเล็กน้อยต่อค่าp

เมื่อมองไปรอบ ๆ Google scholar ฉันสามารถดูเอกสารที่อ้างถึง df เป็นจำนวนเต็มทศนิยมหนึ่งตำแหน่งหรือทศนิยมสองตำแหน่ง มีแนวทางใดบ้างเกี่ยวกับความแม่นยำในการใช้งาน? นอกจากนี้หากซอฟต์แวร์ใช้ส่วนที่เป็นเศษส่วนแบบเต็มควร df ที่ยกมาจะถูกปัดเศษลงตามจำนวนตัวเลขที่ต้องการ (เช่นถึง 1 dp หรือ7เป็นจำนวนทั้งหมด) ตามความเหมาะสมกับการคำนวณแบบอนุรักษ์นิยม หรือตามที่ฉันคิดว่าเหมาะสมกว่าฉันปัดเศษตามอัตภาพ ( ใกล้ที่สุด ) ดังนั้น7.5845 ... 7.6ถึง 1 dp หรือ8ไปยังทั้งที่ใกล้ที่สุด?7.5845...7.577.5845...7.68

แก้ไข:นอกเหนือจากการรู้วิธีที่เสียงส่วนใหญ่ในทางทฤษฎีการรายงาน DF ที่ไม่ใช่จำนวนเต็มก็ยังจะดีที่จะรู้ว่าสิ่งที่คนทำในทางปฏิบัติ วารสารและมัคคุเทศก์อาจมีความต้องการของตัวเอง ฉันอยากรู้ว่าไกด์สไตล์ที่มีอิทธิพลเช่น APA ต้องการอะไร จากสิ่งที่ฉันสามารถแยกแยะ (คู่มือของพวกเขาไม่พร้อมใช้งานออนไลน์ฟรี) APA มีการตั้งค่าทั่วไปที่เกือบทุกอย่างควรปรากฏเป็นทศนิยมสองตำแหน่งยกเว้นค่าp (ค่าซึ่งอาจเป็นสองหรือสาม dp) และเปอร์เซ็นต์ (ปัดเศษเป็น เปอร์เซ็นต์ที่ใกล้เคียงที่สุด) - ซึ่งครอบคลุมความลาดชันการถดถอย, สถิติt , สถิติF , χ2สถิติและอื่น ๆ นี่เป็นสิ่งที่ไม่สมเหตุผลจำไว้ว่าตำแหน่งทศนิยมที่สองมีตัวเลขที่สำคัญแตกต่างกันมากและแสดงความแม่นยำที่แตกต่างกันมากใน 2.47 มากกว่าใน 982.47 แต่อาจอธิบายจำนวน Welch dfด้วยทศนิยมสองตำแหน่งที่ฉันเห็นในตัวอย่างที่ไม่เป็นวิทยาศาสตร์ .

เช่น Ruxton, GDการทดสอบความแปรปรวนที่ไม่เท่ากันนั้นเป็นทางเลือกที่ไม่ถูกต้องสำหรับการทดสอบ t-test ของนักเรียนและการทดสอบ Mann Whitney U , นิเวศวิทยาเชิงพฤติกรรม (กรกฎาคม / สิงหาคม 2549) 17 (4): 688-690 doi: 10.1093 / beheco / ark016

แม้ว่า Welch-Satterthwaite การประมาณเองอาจจะใช่หรือไม่ใช่แบบอนุรักษ์นิยมและในกรณีที่มันไม่ได้เป็นแบบอนุรักษ์นิยม แต่การปัดเศษของอิสรภาพลงมาก็ไม่รับประกันว่าจะชดเชยโดยรวม


1
ฉันยังไม่ได้ศึกษาการปฏิบัติจริง - นี่คือเหตุผลว่าทำไมนี่เป็นความคิดเห็นและไม่ใช่คำตอบ - แต่ฉันคาดหวังว่ามันจะขึ้นอยู่กับการตัดสินที่เกี่ยวข้องกับการรายงานตัวเลขที่สำคัญ สำหรับ df ที่ค่อนข้างสูงบ่อยครั้งการเปลี่ยนแปลงในตำแหน่งทศนิยมแรกจะไม่เปลี่ยนค่า p ที่ทุกค่า (เป็นระดับความแม่นยำที่รายงาน) ดังนั้นการปัดเศษให้เป็นจำนวนเต็มนั้นใช้ได้ สำหรับ df ต่ำมากและค่าที่สุดของt , อนุพันธ์| νtสามารถเกิน0.01แสดงให้เห็นในกรณีดังกล่าวว่าνควรรายงานให้เพียงหนึ่งรูปอย่างมีนัยสำคัญน้อยกว่าหน้าตัวเอง |νFν(t)|0.01νp
whuber

@whuber นั่นเป็นข้อสังเกตที่มีประโยชน์โดยเฉพาะอย่างยิ่งเมื่อใช้ร่วมกับคำตอบของ Glen_b วิธีการที่ต่ำคือ "ต่ำมาก" สำหรับ ? (ความสงสัยของฉันจากตัวอย่างของเอกสารที่ฉันพบคือ "การปฏิบัติจริง" มากอาจไม่เหมือนกับ "การปฏิบัติที่ดี" ฉันสงสัยว่าหุ่นยนต์ที่ปฏิบัติตามแนวทางมีผลมากเท่ากับการตัดสินซึ่งเป็นเหตุผลว่าทำไมมันถึงน่าสนใจ เพื่อทราบแนวทางการรายงานทั่วไป)ν
Silverfish

คำตอบ:


10

ฉันยังไม่ได้ศึกษาการปฏิบัติจริงดังนั้นคำตอบนี้ไม่สามารถตอบคำถามได้ ตามหลักการทั่วไปฉันคาดหวังว่าการปฏิบัติของตัวเลขที่มีนัยสำคัญในการรายงานระดับของอิสรภาพ (df) จะขึ้นอยู่กับการตัดสินที่เกี่ยวข้องกับตัวเลขที่มีนัยสำคัญ

หลักการต้องสอดคล้องกัน: ใช้ความแม่นยำในปริมาณหนึ่งที่เหมาะสมกับความแม่นยำที่ใช้ในอีกอันที่เกี่ยวข้องกับมัน โดยเฉพาะเมื่อการรายงานค่าและy = f ( x )เมื่อxถูกมอบให้กับพหุคูณที่ใกล้ที่สุดของค่าเล็ก ๆh (เช่นh = 1xy=f(x)xhh=12×106สำหรับหกตำแหน่งหลังจากจุดทศนิยม) ความแม่นยำสัมพัทธ์ในตามที่สื่อกลางใช้กับฟังก์ชันfคือyf

suphkh|f(x+k)f(x)|h|ddxf(x)|.

ประมาณใช้เมื่ออย่างต่อเนื่องอนุพันธ์ในช่วง[ x - เอช, x + H ]f[xh,x+h]

ในแอปพลิเคชั่นปัจจุบัน คือpyp , คือดีกรีอิสระνและxν

y=f(x)=f(ν)=Fν(t)

โดยที่คือสถิติ Welch-Satterthwaite และF νtFνคือ CDF ของการแจกแจงของนักเรียนด้วยνองศาอิสระtν

สำหรับ DF ค่อนข้างสูงมักจะมีการเปลี่ยนแปลงในสถานที่แรกทศนิยมจะไม่เปลี่ยน p-value ที่ทุกคน (ไปถึงระดับของความแม่นยำรายงาน) ดังนั้นการปัดเศษเป็นจำนวนเต็มดี ( H = 1 / 2νh=1/2แต่เล็กมาก) สำหรับ df ที่ต่ำมากและค่าสุดขีดของสถิติth|ddxf(x)|t , ขนาดของอนุพันธ์สามารถเกิน0.01|νFν(t)|0.01แสดงให้เห็นในกรณีดังกล่าวว่าควรรายงานให้เพียงหนึ่งสถานที่ทศนิยมน้อยกว่าหน้าตัวเองνp

ดูด้วยตัวคุณเองด้วยพล็อตรูปร่างที่มีข้อความนี้ว่าขนาดของอนุพันธ์สำหรับค่า df ต่ำสุด (สมเหตุสมผล) และช่วงของที่น่าสนใจ (เพราะสามารถนำไปสู่ค่า p ต่ำ)|t|

รูป

ฉลากแสดงลอการิทึมฐาน 10 ของอนุพันธ์ ดังนั้นที่จุดระหว่างและ- ( k + 1 )พล็อตนี้เปลี่ยน DF รายงานในเจTHขึ้นหลังจากจุดทศนิยมมีแนวโน้มที่จะมีการเปลี่ยนแปลงที่มีการรายงาน p-value เฉพาะใน( เจ+ k ) วันและหลังจากนั้น สถานที่ ตัวอย่างเช่นสมมติว่าคุณกำลังปัดเศษ p-value เป็น10 - 6 (ทศนิยมหกตำแหน่ง) พิจารณาสถิติν = 2.5และT = 8 อยู่ใกล้กับ- 3k(k+1)jth(j+k)th106ν=2.5t=83รูปร่างของบันทึก ดังนั้นควรรายงานให้6 + ( - 3 ) = 3ตำแหน่งทศนิยมν6+(3)=3

พื้นที่สีฟ้าอ่อนสำหรับที่ใหญ่ที่สุด นั้นเป็นสิ่งที่น่ากังวลเพราะมันแสดงให้เห็นว่าการเปลี่ยนแปลงเล็กน้อยใน νมีผลกระทบมากที่สุดต่อค่า pkν

เปรียบเทียบสิ่งนี้กับสถานการณ์สำหรับ df ที่สูงขึ้น (จาก4ถึงแสดง):30

รูปที่ 2

อิทธิพลของต่อความแม่นยำของpνpลดลงอย่างรวดเร็วเมื่อเพิ่มขึ้นν


1
นี่เป็นผลงานที่มีประโยชน์มากสำหรับการสร้างโดยหลักการใดที่ควรจะมีในรอบของอิสรภาพ (+50!); ฉันหวังว่าผู้ตอบในภายหลังสามารถเติมช่องว่างเกี่ยวกับการปฏิบัติจริง
Silverfish

7

มันเป็นเรื่องธรรมดาที่จะปัดเศษให้เป็นจำนวนเต็มที่ใกล้ที่สุดก่อนที่จะปรึกษาตาราง t มาตรฐาน

เหตุผลที่เป็นแบบแผนคือเนื่องจากตารางไม่มี noninteger df ไม่มีเหตุผลที่จะทำอย่างอื่น

ซึ่งทำให้รู้สึกว่าการปรับนี้เป็นแบบอนุรักษ์นิยม

สถิติไม่ได้มีการแจกแจงแบบ t เพราะเขากำลังส่วนที่สองไม่มีการกระจายตัวแบบไคสแควร์ มันเป็นการประมาณที่อาจจะใช่หรือไม่ใช่อนุรักษ์นิยมในบางกรณี - การปัดเศษ df ลงอาจไม่แน่นอนที่จะอนุรักษ์เมื่อเราพิจารณาการกระจายตัวที่แน่นอนของสถิติในตัวอย่างเฉพาะ

(โดยการแก้ไขหรือโดยการกระทืบตัวเลขสำหรับการแจกแจงแบบ t ด้วย df นั้น)

ค่า p จากการแจกแจงแบบ t (การใช้ cdf กับ t-statistic) สามารถคำนวณได้จากการประมาณความถูกต้องแม่นยำที่ค่อนข้างหลากหลายดังนั้นพวกมันจึงคำนวณได้อย่างมีประสิทธิภาพมากกว่าการประมาณ

ฉันไม่เห็นว่ามันเหมาะสมที่จะอ้างถึงทศนิยมมากกว่าสองตำแหน่ง

ฉันเห็นด้วย.

มีแนวทางใดบ้างเกี่ยวกับความแม่นยำในการใช้งาน?

ความเป็นไปได้อย่างหนึ่งคือการตรวจสอบความแม่นยำของการประมาณเวลช์ - แซทเทอร์เวทท์สำหรับ p-value ในพื้นที่ทั่วไปของอัตราส่วนความแปรปรวนและไม่อ้างถึงความแม่นยำสัมพัทธ์มากกว่าที่จะแนะนำใน df ไคสแควร์ในจตุรัสของตัวส่วนเป็นเพียงการประมาณสิ่งที่ไม่ได้เป็นไคสแควร์แล้ว)


1
ฉันควรจะชี้แจงอีกครั้งว่า "การปัดเศษเป็นเรื่องอนุรักษ์นิยม" Welch-Satterthwaite การประมาณค่าเองอาจจะใช่หรือไม่ก็ได้ แต่กระบวนการของการปัดเศษลงแน่นอนว่า - หากการประมาณนั้นไม่ได้เป็นแบบอนุรักษ์นิยมที่จะเริ่มต้นด้วยมันเป็นสิ่งที่แย่อย่างน้อยก็หลังจากปัดเศษลง ในทางตรงกันข้ามการปัดเศษขึ้น (เช่น "7.5845 รอบที่ใกล้กับ 8") ไม่ใช่การปรับแบบอนุรักษ์นิยม ฉันสามารถหาวิธีที่ดีกว่าสำหรับวลีนี้ แต่ฉันหวังว่าจุดของฉันชัดเจน!
Silverfish

"ความเป็นไปได้อย่างหนึ่งที่อาจเกิดขึ้นคือการตรวจสอบความแม่นยำของการประมาณค่าเวลช์ - แซทเทอร์เวทท์สำหรับ p-value ในพื้นที่ทั่วไปของอัตราส่วนความแปรปรวน" - นี่สมเหตุสมผลมากและดูเหมือนจะเป็นแนวทางที่ดี นี่เป็นเรื่องปกติหรือเปล่า คำแนะนำบางอย่างสำหรับการใช้งานจะดี ในทางปฏิบัติฉันสงสัยว่าแนวทางแบบบันทึกประจำวันมักจะมีคำพูดสุดท้ายเกี่ยวกับเรื่องนี้! แต่ฉันไม่รู้ว่าพวกเขาพูดอะไร - มีการฝึกฝนที่หลากหลายในเอกสารที่การค้นหาของฉันปรากฏขึ้น
Silverfish

เพื่อพยายามหลีกเลี่ยงความสับสนต่อผู้อ่านในอนาคตฉันได้พยายามอธิบายการปัดเศษแบบอนุรักษ์นิยมในเนื้อหาของคำถาม ขอบคุณที่รับสินค้า
Silverfish

ฉันไม่คิดว่ามันจะเป็นเรื่องปกติ แต่ฉันไม่คิดว่ามันควรจะเป็น เท่าไหร่ในการอธิบายว่าทำไมหนึ่งรอบ / ตัดทอนลงไปถึงจุดหนึ่งที่ได้รับลงในกระดาษจะขึ้นอยู่กับวารสาร / บรรณาธิการ / ผู้ตัดสินอย่างชัดเจน
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.