ทำไมการแปลงสแควร์รูทจึงแนะนำสำหรับการนับข้อมูล


57

มันมักจะแนะนำให้ใช้รากที่สองเมื่อคุณมีข้อมูลนับ (สำหรับตัวอย่างบางส่วนใน CV ดู @ คำตอบ HarveyMotulsky ของที่นี่หรือคำตอบของ @ whuber ที่นี่ .) ในทางกลับกันเมื่อการปรับรูปแบบเชิงเส้นทั่วไปกับตัวแปรตอบสนองกระจายเป็น Poisson บันทึกคือการเชื่อมโยงที่เป็นที่ยอมรับ นี่เหมือนกับการแปลงบันทึกข้อมูลการตอบกลับของคุณ (แม้ว่าจะแม่นยำกว่านั้นคือทำการแปลงบันทึกของพารามิเตอร์ที่ควบคุมการกระจายการตอบสนอง) ดังนั้นจึงมีความตึงเครียดระหว่างสองสิ่งนี้ λ

  • คุณจะปรับความคลาดเคลื่อน (ชัดเจน) นี้อย่างไร
  • ทำไมสแควร์รูทถึงดีกว่าลอการิทึม

คำตอบ:


45

รากที่มีการประมาณความแปรปรวนเสถียรภาพสำหรับ Poisson มีการเปลี่ยนแปลงจำนวนมากบนสแควร์รูทที่ปรับปรุงคุณสมบัติเช่นการเพิ่ม38ก่อนที่จะทำการสแควร์รูทหรือFreeman-Tukey ( - ถึงแม้ว่ามันจะถูกปรับสำหรับค่าเฉลี่ยเช่นกัน)X+X+1

ป้อนคำอธิบายรูปภาพที่นี่

การแปลงสแควร์รูทค่อนข้างปรับปรุงความสมมาตร - แม้ว่าจะไม่ดีเท่ากับกำลัง [1]:23

ป้อนคำอธิบายรูปภาพที่นี่

โดยเฉพาะอย่างยิ่งถ้าคุณต้องการที่ใกล้เคียงกับภาวะปกติ (ตราบเท่าที่พารามิเตอร์ของ Poisson ไม่เล็กจริงๆ) และไม่เกี่ยวกับการดูแล / สามารถปรับ heteroscedasticity ลองพลังงาน23

การเชื่อมโยงที่ยอมรับไม่ได้โดยทั่วไปการเปลี่ยนแปลงที่ดีโดยเฉพาะอย่างยิ่งสำหรับ Poisson ข้อมูล ; log zero เป็นปัญหาเฉพาะ (อีกอันหนึ่งคือ heteroskedasticity คุณยังสามารถเอียงซ้ายแม้ในขณะที่คุณไม่มี 0) ถ้าค่าที่น้อยที่สุดนั้นไม่ใกล้เคียงกับ 0 มากเกินไปมันจะมีประโยชน์ในการทำให้ค่าเฉลี่ยเป็นเส้นตรง มันเป็น 'การแปลง' ที่ดีสำหรับค่าเฉลี่ยประชากรที่มีเงื่อนไขของปัวซองในบริบทจำนวนหนึ่ง แต่ไม่เสมอไปจากข้อมูลปัวซง อย่างไรก็ตามหากคุณต้องการแปลงกลยุทธ์ทั่วไปอย่างหนึ่งก็คือการเพิ่มค่าคงที่ซึ่งหลีกเลี่ยงปัญหาในกรณีนั้นเราควรพิจารณาว่าจะเพิ่มอะไรบ้าง โดยไม่ต้องห่างไกลจากคำถามในมือค่าของระหว่างy=log(y+c)0c0.4และทำงานได้ดีมาก (เช่นเกี่ยวกับความเอนเอียงในการประมาณความชัน) ในช่วงของค่าฉันมักจะใช้เพราะมันง่ายด้วยค่าประมาณมักจะทำได้ดีกว่าเล็กน้อย0.5μ120.43

สำหรับเหตุผลที่ผู้คนเลือกหนึ่งการเปลี่ยนแปลงเหนือสิ่งอื่น (หรือไม่มี) - นั่นเป็นเรื่องของสิ่งที่พวกเขาทำเพื่อให้บรรลุ

[1]: พล็อตที่มีลวดลายตามแปลงของ Henrik Bengtsson ในเอกสารแจกของเขา "โมเดลเชิงเส้นเชิงเส้นทั่วไปและส่วนที่เหลือแปรสภาพ" ดูที่นี่ (ดูสไลด์แรกในหน้า 4) ฉันเพิ่ม y-jitter เล็กน้อยและตัดเส้น


1
ตกลงฉันได้คิดเกี่ยวกับสิ่งที่คุณใส่ที่นี่และนี่คือการสังเคราะห์ของฉัน: การเปลี่ยนแปลงที่ดีที่สุดแตกต่างกันใน 2 สถานการณ์นี้ b / c สิ่งที่คุณพยายามจะทำให้ได้แตกต่างกัน sqrt จะดีกว่าสำหรับการรักษาความแปรปรวน & การกระจายแบบปกติ บันทึกการแมปช่วงเวลาถึงซึ่งช่วยให้การแปลงค่าเฉลี่ย,เป็นเส้นตรงในพารามิเตอร์แบบจำลอง sqrt ไม่มีคุณสมบัตินี้ W / a GLiM ไม่สำคัญว่าความแปรปรวนไม่คงที่ b / c การกระจายการตอบสนองถูกตั้งค่าเป็น Poisson มันเกี่ยวกับใช่มั้ย (0,+)(,+)λ
gung - Reinstate Monica

2
สิ่งที่จะได้รับการเชิงเส้นในพารามิเตอร์ขึ้นอยู่กับรุ่น มันเป็นไปได้อย่างสมบูรณ์แบบที่ linearity นั้นจะอยู่ในระดับเดิมหรือระดับรากที่สองหรือสเกลอื่น ๆ แม้แต่คุณสมบัติ - มีประโยชน์ / สำคัญ - 'แมปไปยังบรรทัดจริง' นั้นไม่ซ้ำกันกับฟังก์ชันการบันทึก เหตุผลที่การเชื่อมโยงเข้าสู่ระบบเป็น 'ธรรมชาติ' เป็นเพราะวิธีการที่จะช่วยลดความยุ่งยาก GLM โดยมีสถิติที่เพียงพอของX'yXy
Glen_b

1
+1 สแควร์รูทเป็นเพียงจุดเริ่มต้นสำหรับจัดการกับข้อมูลการนับ ลอการิทึมยังเป็นตัวเลือกที่ดี ข้อมูลมักจะบอกคุณว่าอันไหนที่ประสบความสำเร็จมากกว่าในการได้คำอธิบายที่เป็นประโยชน์และรวบรัด ในคำตอบที่คุณอ้างถึงการสาธิตว่าสแควร์รูทเป็นตัวเลือกที่ดีอยู่ในการกระจายแบบสมมาตรของเศษตกค้างที่ไม่อยู่รอบนอกปรากฏในรูปมือขวา เมื่อคุณเปลี่ยนแปลงพารามิเตอร์ของการจำลองคุณจะพบว่ามีการรักษาความสมมาตรไว้
whuber

1
@Glen ผมไม่ได้พูดบันทึกอยู่เสมอทางเลือกที่ดี แต่บางครั้งพวกเขาก็เหนือกว่าราก เมื่อศูนย์นับปรากฏแล้วใช่คุณจำเป็นต้องมี"เริ่มต้น" ลอการิทึม หัวข้ออื่น ๆ ที่นี่ได้กล่าวถึงวิธีการที่จะได้รับเป็นค่าเริ่มต้น เมื่อไม่มีจำนวนศูนย์ในข้อมูลจากนั้นจะไม่มีปัญหากับบันทึกเลย
whuber

2
@Tomas สำหรับสาเหตุที่ Freeman-Tukey หรือ 3/8แทนที่จะเป็น หรือสำหรับอื่น ๆมีเหตุผลที่ดีสำหรับทั้ง Freeman-Tukey และ (ตัวอย่างเช่นการทำให้ความเบ้ใกล้กับ 0 มากขึ้น) แต่ถ้าคุณต้องการทราบรายละเอียดเพิ่มเติมนั่นอาจเป็นคำถามใหม่ทั้งหมด x+3/8xx+ccx+3/8
Glen_b
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.