แสดงคำตอบในแง่ของหน่วยดั้งเดิมในกล่องแปลงข้อมูล Box-Cox


13

สำหรับการวัดบางส่วนผลของการวิเคราะห์จะถูกนำเสนออย่างเหมาะสมในสเกลที่ถูกแปลง อย่างไรก็ตามในกรณีส่วนใหญ่เป็นที่พึงพอใจที่จะนำเสนอผลการวัดในระดับเดิม (มิฉะนั้นงานของคุณจะไร้ค่ามากกว่าหรือน้อยกว่า)

ตัวอย่างเช่นในกรณีของข้อมูลที่บันทึกการแปลงปัญหาที่เกิดขึ้นกับการตีความในระดับเดิมเกิดขึ้นเพราะค่าเฉลี่ยของค่าบันทึกไม่ได้เป็นบันทึกของค่าเฉลี่ย การใช้ antilogarithm ของการประมาณค่าเฉลี่ยบนมาตราส่วนบันทึกไม่ได้ให้ค่าประมาณของค่าเฉลี่ยในระดับเดิม

อย่างไรก็ตามหากข้อมูลที่แปลงเป็นบันทึกมีการแจกแจงแบบสมมาตรความสัมพันธ์ต่อไปนี้จะถูกเก็บไว้ (เนื่องจากบันทึกจะรักษาลำดับไว้):

Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]

(antilogarithm ของค่าเฉลี่ยของค่าบันทึกเป็นค่ามัธยฐานในระดับเดิมของการวัด)

ดังนั้นฉันสามารถทำการอนุมานเกี่ยวกับความแตกต่าง (หรืออัตราส่วน) ของค่ามัธยฐานในระดับการวัดดั้งเดิม

t-test สองตัวอย่างและช่วงความเชื่อมั่นมีความน่าเชื่อถือมากที่สุดถ้าประชากรอยู่ในเกณฑ์ปกติโดยมีค่าเบี่ยงเบนมาตรฐานประมาณดังนั้นเราอาจถูกล่อลวงให้ใช้การBox-Coxแปลงสำหรับสมมติฐานปกติที่จะถือ (ฉันยังคิดว่ามันเป็นความแปรปรวน )

อย่างไรก็ตามหากเราใช้เครื่องมือ t-to กับการBox-Coxแปลงข้อมูลเราจะได้รับการอนุมานเกี่ยวกับความแตกต่างของการแปลงข้อมูล เราจะตีความสิ่งเหล่านั้นในระดับการวัดดั้งเดิมได้อย่างไร (ค่าเฉลี่ยของค่าที่แปลงไม่ใช่ค่าเฉลี่ยที่แปลงแล้ว) กล่าวอีกนัยหนึ่งคือการใช้การแปลงผกผันของการประมาณค่าเฉลี่ยบนมาตราส่วนที่แปลงแล้วไม่ได้ให้ค่าประมาณของค่าเฉลี่ยบนมาตราส่วนดั้งเดิม

ฉันสามารถทำการอนุมานเกี่ยวกับค่ามัธยฐานในกรณีนี้ได้หรือไม่? มีการเปลี่ยนแปลงที่จะอนุญาตให้ฉันกลับไปที่ค่าเฉลี่ย (ในระดับเดิม) หรือไม่?

คำถามนี้ถูกโพสต์ครั้งแรกเป็นความคิดเห็นที่นี่

คำตอบ:


11

หากคุณต้องการการอนุมานเกี่ยวกับค่าเฉลี่ยของตัวแปรดั้งเดิมโดยเฉพาะอย่าใช้การแปลงแบบบ็อกซ์ - คอคส์ การแปลง IMO Box-Cox นั้นมีประโยชน์มากที่สุดเมื่อตัวแปรที่แปลงแล้วมีการตีความของตัวเองและการแปลง Box-Cox จะช่วยให้คุณค้นหาขนาดที่เหมาะสมสำหรับการวิเคราะห์เท่านั้น เลขยกกำลังสองอันที่ไม่คาดคิดที่ฉันพบในวิธีนี้คือ 1/3 (เมื่อตัวแปรตอบสนองคือปริมาตรกระเพาะปัสสาวะ) และ -1 (เมื่อตัวแปรตอบสนองเป็นลมหายใจต่อนาที)

บันทึกการแปลงอาจเป็นข้อยกเว้นเพียงอย่างเดียวสำหรับเรื่องนี้ ค่าเฉลี่ยของขนาดบันทึกสอดคล้องกับค่าเฉลี่ยทางเรขาคณิตในระดับเดิมซึ่งอย่างน้อยก็เป็นปริมาณที่กำหนดไว้อย่างดี


คุณก็มีข้อยกเว้นอื่น ๆ เช่นกัน -1 สอดคล้องกับค่าเฉลี่ยฮาร์มอนิก ...
kjetil b halvorsen

9

หากการแปลง Box-Cox ให้การกระจายแบบสมมาตรค่าเฉลี่ยของข้อมูลที่แปลงแล้วจะถูกแปลงกลับไปเป็นค่ามัธยฐานในระดับดั้งเดิม สิ่งนี้เป็นจริงสำหรับการแปลงแบบ monotonic ใด ๆ รวมถึงการแปลง Box-Cox การแปลง IHS เป็นต้นดังนั้นการอนุมานเกี่ยวกับค่าเฉลี่ยของข้อมูลที่แปลงแล้วนั้นสอดคล้องกับการอนุมานค่ามัธยฐานในระดับดั้งเดิม

ในขณะที่ข้อมูลดั้งเดิมเบ้ (หรือคุณไม่เคยใช้การแปลงแบบบ็อกซ์คอกซ์ตั้งแต่แรก) ทำไมคุณถึงต้องการอนุมานเกี่ยวกับวิธีการ? ฉันคิดว่าการทำงานกับคนกลางจะทำให้เข้าใจได้ดีขึ้นในสถานการณ์นี้ ฉันไม่เข้าใจว่าทำไมจึงถูกมองว่าเป็น "ปัญหาเกี่ยวกับการตีความในระดับเดิม"


การอนุมานมีเงื่อนไขในพารามิเตอร์ BC - สิ่งนี้มีการตีความที่ง่ายในระดับดั้งเดิมหรือไม่? ฉันคิดว่าหลักสูตรปกติเป็นเพียงการรายงานในลักษณะนั้นและปล่อยให้มันเป็นอย่างนั้น (มักจะวางอยู่บนผลบางอย่างเกี่ยวกับความเท่าเทียมกันเชิงเส้นกำกับซึ่งอาจใช้ไม่ได้ตามปกติ) λ
ARS

ขอขอบคุณ. อาจเป็นเพราะกลุ่มตัวอย่าง (จากประชากรที่ฉันคิดว่ามันควรจะเป็นไปตามการกระจายตัวแบบสมมาตร) อาจเกิดขึ้นโดยบังเอิญ
George Dontas

4
ตัวอย่างที่ดีของความต้องการที่จะทำการอนุมานเกี่ยวกับวิธีการไม่ว่าจะเกิดจากอะไรโดยการประเมินความเสี่ยงด้านสิ่งแวดล้อม เพื่อให้ง่ายขึ้นอย่างมากลองนึกภาพคุณกำลังวางแผนที่จะพัฒนาที่ดินให้เป็นสวนสาธารณะ คุณทดสอบดินสำหรับสารประกอบบางอย่างที่น่ากังวลและตามปกติแล้วพบว่าความเข้มข้นของมันกระจายอยู่ในระดับประมาณ lognormally อย่างไรก็ตามคนที่ใช้สวนสาธารณะ - ผู้ที่อาจสัมผัสกับดินเหล่านี้โดยตรงจะ "สุ่มตัวอย่าง" ดินอย่างสุ่มอย่างสม่ำเสมอในขณะที่พวกเขาเคลื่อนที่ไปรอบ ๆ การเปิดเผยตลอดเวลาจะเป็นความเข้มข้นทางคณิตศาสตร์ไม่ใช่ค่าเฉลี่ยทางเรขาคณิต
whuber

1
บางครั้งเรามีความสนใจในปัญหาที่มาจากสูตรของปริมาณรวมของบางสิ่งบางอย่าง ถ้าคุณรู้ค่าเฉลี่ยคุณสามารถเปลี่ยนจากค่าเฉลี่ยเป็นผลรวม (คูณด้วยจำนวนการสังเกต) ไม่มีทางที่จะไปจากค่ามัธยฐานเป็นผลรวม!
George Dontas

6

หากคุณต้องการอนุมานเกี่ยวกับค่าเฉลี่ยในระดับดั้งเดิมคุณสามารถลองใช้การอนุมานที่ไม่ได้ใช้สมมติฐานเชิงบรรทัดฐาน

ดูแลตัวเองอย่างไร เพียงแค่เสียบผ่านการเปรียบเทียบค่าเฉลี่ยของวิธีการโดยตรงผ่านการพูด resampling (ทั้งการทดสอบการเปลี่ยนแปลงหรือการบูต) เมื่อตัวอย่างทั้งสองมีความแปรปรวนที่แตกต่างกันอาจเป็นปัญหาหากการวิเคราะห์ของคุณถือว่าความแปรปรวนเท่ากับ ในระดับเดิมหากค่าเฉลี่ยต่างกัน) เทคนิคดังกล่าวไม่หลีกเลี่ยงความจำเป็นในการคิดเกี่ยวกับสิ่งที่คุณทำ

อีกวิธีหนึ่งในการพิจารณาว่าคุณสนใจในการประมาณค่าหรือการทำนายมากกว่าการทดสอบคือการใช้การขยายเทย์เลอร์ของตัวแปรที่แปลงเพื่อคำนวณค่าเฉลี่ยและความแปรปรวนหลังจากเปลี่ยนกลับ - ในการขยายเทย์เลอร์ปกติคุณจะเขียนขณะนี้คุณเขียนที่เป็นตัวแปรสุ่มที่มีค่าเฉลี่ยและความแปรปรวนซึ่งคุณกำลังจะเปลี่ยนกลับมาใช้()T [ μ + ( Y - μ ) ] Y μ σ 2 T ( )f(x+h)t[μ+(Yμ)]Yμσ2t()

หากคุณคาดหวังระยะที่สองจะลดลงและผู้คนมักจะใช้เพียงแค่คำที่หนึ่งและที่สาม (ซึ่งคำที่สามแสดงถึงการประมาณอคติในการเปลี่ยนค่าเฉลี่ย); ยิ่งไปกว่านั้นถ้าคุณนำความแปรปรวนของการขยายตัวไปสู่เทอมที่สองเทอมแรกและเงื่อนไขความแปรปรวนร่วมแรกเลื่อนออก - เนื่องจากเป็นค่าคงที่ทำให้คุณมีการประมาณค่าเดียวสำหรับความแปรปรวนt(μ)

-

กรณีที่ง่ายที่สุดคือเมื่อคุณมีภาวะปกติในระดับของบันทึกและดังนั้นจึงเป็นค่าปกติในระดับเดิม หากทราบความแปรปรวนของคุณ (ซึ่งไม่ค่อยเกิดขึ้นมากที่สุด) คุณสามารถสร้าง CIs และ PIs lognormal ในระดับเดิมและคุณสามารถให้ค่าเฉลี่ยที่คาดการณ์ไว้จากค่าเฉลี่ยของการกระจายของปริมาณที่เกี่ยวข้อง

หากคุณกำลังประเมินทั้งค่าเฉลี่ยและความแปรปรวนในการเข้าสู่ระบบขนาดคุณสามารถสร้าง log-ช่วง (ช่วงการคาดการณ์สำหรับการสังเกตการพูด) แต่เดิมขนาดของคุณlog-ไม่ได้มีช่วงเวลาใดดังนั้นค่าเฉลี่ยของการทำนายจึงไม่มีอยู่ttt

คุณต้องคิดอย่างถี่ถ้วนเกี่ยวกับคำถามที่คุณพยายามตอบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.