กำลังแปลงการแจกแจงเบ้อย่างมาก


13

สมมติว่าฉันมีตัวแปรที่มีการแจกแจงเบ้บวกในระดับสูงมากเช่นการบันทึกจะไม่เพียงพอเพื่อที่จะนำมันอยู่ในช่วงของความเบ้สำหรับการแจกแจงแบบปกติ ตัวเลือกของฉันมีอะไรบ้างในตอนนี้ ฉันจะทำอย่างไรเพื่อแปลงตัวแปรเป็นการกระจายตัวแบบปกติ


2
เพียงเพื่อให้แน่ใจว่า "เชิงลบเบ้" หมายถึงหางยาวที่ชี้ไปทางซ้ายหรือขวา ถ้ามันเอียงไปทางลบจริงๆ (หางยาวซ้าย) การแปลงล็อกจะไม่ทำงานได้ดีนัก
Penguin_Knight

6
การเปลี่ยนแปลงแบบ Reciprocal นั้นแข็งแกร่งกว่าลอการิทึมและมักจะรักษาความหมายไว้เนื่องจากหน่วยการวัดจะกลับด้านได้ ตัวอย่างเช่นการตอบแทนซึ่งกันและกันของเวลาในการทำบางสิ่งบางอย่างเป็นชนิดของความเร็วและในทางกลับกัน ไมล์ต่อแกลลอนหรือกิโลเมตรต่อลิตรนั้นสมเหตุสมผล ซึ่งกันและกันกลับคำสั่งและสามารถคัดค้านหากเป็นที่นิยม พวกเขาเป็นส่วนหนึ่งของโครงการ Box-Cox โดยมีรายละเอียดเพิ่มเติม ค่าทั้งหมดควรเป็นค่าบวกสำหรับสิ่งนี้เพื่อให้ทำงานได้ดี (โดยหลักการแล้วมันจะทำงานกับค่าลบทั้งหมด แต่ฉันยังไม่เห็นตัวอย่างในทางปฏิบัติ)
Nick Cox

2
@Aksakalฉันไม่เห็นว่าเป็นความคิดที่ดี ผลลัพธ์มีความหมายทางสถิติสำหรับค่าเท่านั้น ถ้านับค่ามันเป็นเรื่องจริงที่การแปลงจะไม่ได้กำหนดสำหรับ 0 วินาทีหรือ 1 วินาทีโดยไม่คำนึงว่าค่าเหล่านั้นเกิดขึ้นในข้อมูลหรือไม่ หากค่าคือการวัดข้อ จำกัด หมายความว่าความถูกต้องของการแปลงขึ้นอยู่กับทางเลือกของหน่วยการวัดซึ่งไร้สาระราวกับว่าไม่สามารถทำได้เพราะฉันใช้เซนติเมตร แต่สามารถทำได้เพราะฉันใช้มม (นั่นลอการิทึมผลผลิตผลที่ซับซ้อนสำหรับการขัดแย้งเชิงลบผมไม่คิดว่าจะช่วยให้ทางสถิติ.)> 1 ln ( ln ( 0.7 ) ) ln ( ln ( 7 ) )ln(ln())>1ln(ln(0.7))ln(ln(7))
นิคค็อกซ์

2
@Aksakal แรงเกินไปที่จะพูดว่า "การแปลงไฟล์บันทึกไม่ใช่เครื่องมือในการรักษาความเบ้": หากความเบ้เป็นปัญหาเดียวบันทึกมักจะทำงานได้ดี หากประเด็นของคุณคือความเบ้ของการกระจายส่วนน้อยไม่จำเป็นต้องเป็นปัญหาใหญ่ฉันมักจะเห็นด้วย
Nick Cox

3
ฉันเห็นด้วยตามธรรมชาติ แต่ถ้าฉันใช้กำลังสองหรือลอการิทึมฉันจะไม่รู้สึกจำเป็นต้องเสนอการอ้างอิงและในทำนองเดียวกันที่นี่ แต่ประโยชน์ของการแลกเปลี่ยนซึ่งโดยเฉพาะอย่างยิ่งเวลาและความเร็วถูกเน้นโดย (เช่น) Tukey, JW 1977 การวิเคราะห์ข้อมูลเชิงสำรวจ Reading, MA: Addison-Wesley และในเอกสารของเขาหลายฉบับ ไมล์ต่อแกลลอนและแกลลอนต่อไมล์ (หรือลิตรต่อกิโลเมตรและกม. ต่อลิตร) เป็นเรื่องธรรมดาในการแลกเปลี่ยนข้อมูลสมรรถนะรถยนต์ ความหนาแน่นและส่วนกลับของพวกเขาเป็นตัวอย่างที่เป็นมาตรฐานในทางภูมิศาสตร์และประชากรศาสตร์
Nick Cox

คำตอบ:


13

ลองใช้การแปลง Box-Cox แบบตรงตาม Box, GEP และ Cox, DR (1964), "การวิเคราะห์การแปลง" วารสารสมาคมสถิติแห่งราชอาณาจักร, Series B , 26, 211--234 SAS มีคำอธิบายของฟังก์ชัน loglikelihood ในNormalizing Transformationsซึ่งคุณสามารถใช้เพื่อค้นหาพารามิเตอร์ดีที่สุดซึ่งอธิบายไว้ใน Atkinson, AC (1985), Plots, Transformations และ Regressionนิวยอร์ก: Oxford University Pressλ

มันง่ายมากที่จะใช้มันด้วยฟังก์ชั่น LL หรือถ้าคุณมีชุดข้อมูลสถิติเช่น SAS หรือ MATLAB ใช้คำสั่ง: มันเป็นคำสั่งboxcoxใน MATLAB และPROC TRANSREGใน SAS

นอกจากนี้ใน R นี้อยู่ในแพ็คเกจ MASS, ฟังก์ชัน boxcox ()


5

สำหรับการเอียงเชิงบวก (หางอยู่บนปลายบวกของแกน x) มีการแปลงสแควร์รูทการแปลงล็อกและการแปลงผกผัน / ส่วนกลับ (ตามลำดับของความรุนแรงที่เพิ่มขึ้น) ดังนั้นหากการแปลงบันทึกไม่เพียงพอคุณสามารถใช้การเปลี่ยนแปลงระดับต่อไป Box Cox ดำเนินการแปลงทั้งหมดโดยอัตโนมัติเพื่อให้คุณสามารถเลือกการแปลงที่ดีที่สุด


-5

ชุดซอฟต์แวร์ส่วนใหญ่จะใช้หมายเลขของออยเลอร์เป็นฐานบันทึกเริ่มต้น AKA: บันทึกธรรมชาติ คุณสามารถใช้หมายเลขฐานที่สูงขึ้นเพื่อดึงข้อมูลที่เอียงไปทางขวามากเกินไป วิธีการที่คุณใช้งานไวยากรณ์นั้นขึ้นอยู่กับซอฟต์แวร์ที่คุณใช้

หากคุณต้องการกลับไปหาคุณเปลี่ยนค่าเมื่อการประมาณเสร็จเรียบร้อยแล้วมันอาจจะง่ายกว่าการใช้วิธีนี้เพราะสิ่งที่คุณต้องทำก็คือการใช้ตัวดำเนินการเลขชี้กำลังในตัวแปรของคุณด้วยฐานบันทึกของคุณ


6
มันไม่สมเหตุสมผลเลย ลอการิทึมของสองฐานที่แตกต่างกันจะแตกต่างกันโดยค่าคงที่แบบหลายค่าและการลดความเบ้โดยทั้งคู่จึงเหมือนกัน ดังนั้น 1 10 100 1,000 10000 จึงสมมาตรหลังจากเปลี่ยน log base 10 และมันจะสมมาตรหลังจาก log ฐานหรือ log base 2 ความแตกต่างเพียงอย่างเดียวคือปัจจัยการปรับสเกล e
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.