การแปลงบันทึกเป็นเทคนิคที่ใช้ได้สำหรับการทดสอบข้อมูลที่ไม่ใช่ข้อมูลปกติหรือไม่


19

ในการทบทวนกระดาษผู้เขียนกล่าวว่า "ตัวแปรผลลัพธ์อย่างต่อเนื่องที่แสดงการแจกแจงแบบเบ้ถูกแปลงโดยใช้ลอการิทึมธรรมชาติก่อนที่จะทำการทดสอบ t เพื่อให้เป็นไปตามสมมติฐานเบื้องต้นของภาวะปกติ"

นี่เป็นวิธีที่ยอมรับได้ในการวิเคราะห์ข้อมูลที่ไม่ใช่ข้อมูลปกติหรือไม่

นี่อาจเป็นคำถามที่ค่อนข้างแปลก แต่ฉันไม่เคยเห็นมาก่อน


3
ทีนี้ถ้าการแจกแจงเริ่มต้นไม่ได้เป็นข้อมูลปกติแล้วข้อมูลที่แปลงแล้วไม่เป็นไปตามสมมติฐานเบื้องต้นของภาวะปกติดังนั้นการเปลี่ยนแปลงที่ได้รับคืออะไร
มาโคร

@Macro - จริงเพียงพอ! (+1) - พวกเขาอาจต้องการทำให้การแจกแจงใกล้เคียงกับสมมาตรมากขึ้นซึ่งไม่ใช่เรื่องเลวร้ายที่ต้องทำเพื่อทำการทดสอบ t แต่ถ้าพวกเขาตรวจสอบและเขียนมันขึ้นมาเราไม่รู้ว่าบันทึกนั้นหรือไม่ แปลงเทพลาดเชิงลบที่อาจจะทำให้เรื่องเลวร้าย ...
jbowman

2
เราอาจอนุมานได้ว่าเพราะมันถูกสร้างขึ้นมาเพื่อตอบสนองความปกติและการตรวจสอบความถูกต้องเป็นสิ่งแรกสิ่งแรกนั้นจะถูกตรวจสอบความปกติหลังจากนั้น มันเป็นนัยอย่างมากในภาษาที่นี่
จอห์น

10
t-test สำหรับลอการิทึมนั้นไม่เหมือนกับ t-test สำหรับข้อมูลที่ไม่ถูกแปลงหรือการทดสอบแบบไม่มีพารามิเตอร์ การทดสอบ t บนบันทึกเปรียบเทียบวิธีเรขาคณิตไม่ได้หมายถึง (ปกติ) เลขคณิต นี่เป็นหนึ่งในข้อควรพิจารณาที่สำคัญหลายประการในการตัดสินใจว่าการใช้ลอการิทึมนั้นเป็นที่ยอมรับหรือไม่ (ซึ่งอาจเป็นไปได้ขึ้นอยู่กับแอปพลิเคชัน)
whuber

คำตอบ:


9

เป็นเรื่องปกติที่จะพยายามใช้การแปลงบางอย่างกับภาวะปกติ (โดยใช้ลอการิทึม, รากที่สอง, ... ) เมื่อพบกับข้อมูลที่ไม่ปกติ แม้ว่าลอการิทึมจะให้ผลลัพธ์ที่ดีสำหรับข้อมูลที่เบ้อย่างสมเหตุสมผล แต่ก็ไม่รับประกันว่าจะทำงานได้ในกรณีนี้โดยเฉพาะ เราควรแสดงความคิดเห็น @whubers ไว้ในใจเมื่อวิเคราะห์ข้อมูลที่แปลงแล้ว: "t-test สำหรับลอการิทึมนั้นไม่เหมือนกับ t-test สำหรับข้อมูลที่ไม่ได้รับการแปลหรือการทดสอบแบบไม่พารามิเตอร์พารามิเตอร์ t-test บนบันทึกเปรียบเทียบเรขาคณิต หมายถึงไม่หมายถึงเลขคณิต (ปกติ) "

n1i=1n(xix¯)3(n1i=1n(xix¯)2)3/2

แทนที่จะเลือกการแปลง (เช่นลอการิทึม) เพราะมันใช้งานได้เกือบตลอดเวลาฉันชอบที่จะใช้กระบวนการ Box-Coxสำหรับการเลือกการแปลงโดยใช้ข้อมูลที่ได้รับ อย่างไรก็ตามยังมีประเด็นทางปรัชญาบางประการเกี่ยวกับเรื่องนี้ โดยเฉพาะอย่างยิ่งว่าสิ่งนี้ควรส่งผลกระทบต่อจำนวนองศาความเป็นอิสระในการทดสอบ t-test หรือไม่เนื่องจากเราได้ใช้ข้อมูลบางอย่างจากตัวอย่างเมื่อเลือกการแปลงที่จะใช้

ในที่สุดทางเลือกที่ดีในการใช้การทดสอบ t-test หลังจากการแปลงสภาพหรือการทดสอบแบบไม่มีพารามิเตอร์ดั้งเดิมคือการใช้อะนาล็อกบูทสแตรปของการทดสอบ t-test มันไม่จำเป็นต้องมีข้อสันนิษฐานของภาวะปกติและเป็นการทดสอบเกี่ยวกับวิธีการที่ไม่เปลี่ยนแปลง (และไม่เกี่ยวกับสิ่งอื่น)


1
+1 การสนทนาที่ดีและรอบคอบพร้อมคำแนะนำที่ดีในตอนท้าย สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการบูต / resampling รุ่น / การเปลี่ยนแปลงของ t-test โปรดดูหัวข้อล่าสุดที่stats.stackexchange.com/q/24911
whuber

0

โดยทั่วไปการพูดหากสมมติฐานที่จำเป็นในการดำเนินการทดสอบ t- ไม่เป็นไปตามนั้นก็จะเหมาะสมกว่าที่จะใช้การทดสอบที่ไม่ใช่พารามิเตอร์


5
อาจจะ. การทดสอบแบบไม่อิงพารามิเตอร์มักจะเปรียบเทียบค่ามัธยฐาน (หรือเปอร์เซ็นไทล์อื่น ๆ ) มากกว่าค่าเฉลี่ยดังนั้นจึงตอบคำถามที่แตกต่างออกไปเล็กน้อย แต่ดูเหมือนว่าจะไม่เป็นการตอบคำถามปัจจุบันที่เป็นประโยชน์ซึ่งจะถามเฉพาะ (และเท่านั้น) เกี่ยวกับการทดสอบบันทึกของข้อมูล
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.