อะไรคือเหตุผลที่การเปลี่ยนแปลงการบันทึกใช้กับการแจกแจงแบบเบ้ขวา?


18

ฉันเคยได้ยินว่า

การแปลงท่อนซุงเป็นที่นิยมกันมากที่สุดสำหรับการแจกแจงแบบเบ้ด้านขวาในการถดถอยเชิงเส้นหรือการถดถอยเชิงปริมาณ

ฉันต้องการทราบว่ามีเหตุผลใดบ้างที่อยู่ภายใต้ข้อความนี้? ทำไมการแปลงบันทึกจึงเหมาะสมสำหรับการแจกแจงเบ้ที่ถูกต้อง

วิธีการกระจายซ้ายเอียง?

คำตอบ:


26

นักเศรษฐศาสตร์ (เช่นฉัน) รักการเปลี่ยนแปลงบันทึก เรารักมันโดยเฉพาะในแบบจำลองการถดถอยเช่นนี้:

LNYผม=β1+β2LNXผม+εผม

ทำไมเราถึงรักมันมาก นี่คือรายการของเหตุผลที่ฉันให้นักเรียนเมื่อฉันบรรยายมัน:

  1. มันเคารพ positivity ของYหลายครั้งในการใช้งานจริงในทางเศรษฐศาสตร์และที่อื่น ๆYคือโดยธรรมชาติเป็นจำนวนบวก มันอาจจะเป็นราคาอัตราภาษีปริมาณการผลิตต้นทุนการผลิตการใช้จ่ายในสินค้าบางประเภท ฯลฯ ค่าที่คาดการณ์จากการถดถอยเชิงเส้นที่ไม่แปลรูปอาจเป็นค่าลบ ค่าที่คาดการณ์จากการถดถอยที่บันทึกการแปลงไม่สามารถเป็นค่าลบได้ พวกเขาเป็นY J = ประสบการณ์( β 1 + β 2 LN X J )1YY(ดูคำตอบก่อนหน้านี้ของฉันสำหรับการสืบทอด)Y^j=exp(β1+β2lnXj)1Nexp(ei)
  2. รูปแบบการทำงานของบันทึกการทำงานนั้นยืดหยุ่นอย่างน่าประหลาดใจ ประกาศ: ซึ่งให้เรา: นั่นเป็นรูปทรงที่แตกต่างกันมาก เส้น (ซึ่งความชันจะถูกกำหนดโดยexp ( β 1 ) , ซึ่งอาจมีความชันเป็นบวก), ไฮเพอร์โบลา, พาราโบลาและรูปร่าง "สแควร์รูทเหมือน" ฉันวาดมันด้วยβ1=0และϵ=0แต่ในแอปพลิเคชันจริงทั้งสองนี้จะไม่เป็นจริงดังนั้นความชันและความสูงของเส้นโค้งที่X=
    LNYผม=β1+β2LNXผม+εผมYผม=ประสบการณ์(β1+β2LNXผม)ประสบการณ์(εผม)Yผม=(Xผม)β2ประสบการณ์(β1)ประสบการณ์(εผม)
    การรักแบบฟอร์มการทำงานของบันทึกการทำงานประสบการณ์(β1)β1=0ε=0จะถูกควบคุมโดยสิ่งเหล่านั้นแทนที่จะตั้งไว้ที่ 1X=1
  3. ดังที่ TrynnaDoStat กล่าวถึงรูปแบบบันทึกการใช้งาน "ดึง" ค่าขนาดใหญ่ซึ่งมักจะทำให้ข้อมูลดูง่ายขึ้นและบางครั้งทำให้ความแปรปรวนของการสังเกตเป็นปกติ
  4. สัมประสิทธิ์ถูกตีความว่าเป็นความยืดหยุ่น มันเป็นเปอร์เซ็นต์การเพิ่มYจากการเพิ่มขึ้นร้อยละหนึ่งในXβ2YX
  5. ถ้าเป็นตัวแปรจำลองคุณรวมไว้โดยไม่ทำการบันทึก ในกรณีนี้β 2คือความแตกต่างร้อยละYระหว่างX = 1หมวดหมู่และX = 0หมวดหมู่Xβ2YX=1X=0
  6. ถ้าเป็นเวลาคุณต้องรวมอีกครั้งโดยไม่ต้องบันทึก ในกรณีนี้β 2คืออัตราการเติบโตในY - วัดในหน่วยเวลาใดก็ตามที่Xถูกวัดถ้าหากXคือปีค่าสัมประสิทธิ์คืออัตราการเติบโตประจำปีในYเป็นต้นXβ2YXXY
  7. ค่าสัมประสิทธิ์ความชัน, , กลายเป็นค่าคงที่ ซึ่งหมายความว่าในแง่หนึ่งว่ามันไม่มีหน่วยและในทางกลับกันถ้าคุณปรับมาตราส่วน (เช่นเปลี่ยนหน่วยของ) XหรือYมันจะไม่มีผลกับค่าโดยประมาณของβ 2 . อย่างน้อยก็กับ OLS และตัวประมาณอื่น ๆ ที่เกี่ยวข้องβ2XYβ2
  8. หากข้อมูลของคุณมีการกระจายโดยทั่วไปบันทึกการเปลี่ยนแปลงการบันทึกจะทำให้พวกเขากระจายตามปกติ ข้อมูลที่กระจายตามปกติจะมีจำนวนมากสำหรับพวกเขา

นักสถิติพบว่านักเศรษฐศาสตร์มีความกระตือรือร้นอย่างมากเกี่ยวกับการเปลี่ยนแปลงข้อมูลนี้โดยเฉพาะ ฉันคิดว่านี่เป็นเพราะพวกเขาตัดสินจุดที่ 8 ของฉันและช่วงครึ่งหลังของจุดที่ 3 ของฉันมีความสำคัญมาก ดังนั้นในกรณีที่ข้อมูลไม่กระจายตามปกติหรือการบันทึกข้อมูลไม่ส่งผลให้ข้อมูลที่ถูกแปลงมีความแปรปรวนเท่ากันตลอดการสังเกตสถิติจะไม่ชอบการเปลี่ยนแปลงมากนัก นักเศรษฐศาสตร์มีแนวโน้มที่จะกระโดดไปข้างหน้าต่อไปเนื่องจากสิ่งที่เราชอบเกี่ยวกับการเปลี่ยนแปลงคือคะแนน 1,2 และ 4-7


7
สิ่งเหล่านี้เป็นคะแนนมาตรฐาน แต่เป็นการดีมากที่จะนำมารวมกันอย่างกระชับ หลายบัญชีครอบคลุมเฉพาะบางจุดเท่านั้น ประเด็นเล็ก ๆ : ฉันคิดว่าความแตกต่างระหว่างทัศนคติของนักเศรษฐศาสตร์กับทัศนคติของนักสถิตินั้นน้อยเกินไป ตัวอย่างเช่นความสำคัญของการเชื่อมโยงไปยังตระกูลข้อผิดพลาดที่ทำงานผ่านวรรณกรรมเชิงเส้นโมเดลทั่วไปแม้ว่าจะสามารถทำได้ด้วยการทรัมเป็ตมากขึ้น Keene, Oliver N. 1995. การเปลี่ยนแปลงบันทึกเป็นพิเศษ สถิติทางการแพทย์ 14: 811-819 DOI: 10.1002 / sim.4780140810 เป็นอีกตัวอย่างหนึ่ง
Nick Cox

21

ก่อนอื่นเรามาดูกันว่าเกิดอะไรขึ้นเมื่อเราบันทึกสิ่งที่เอียง

แถวบนสุดมีฮิสโทแกรมสำหรับตัวอย่างจากการแจกแจงที่ต่างกันสามแบบ

แถวด้านล่างมีฮิสโทแกรมสำหรับบันทึกของพวกเขา

ป้อนคำอธิบายรูปภาพที่นี่

YxZ ) ยังคงเอียงเล็กน้อย (แม้) เล็กน้อยแม้หลังจากบันทึกแล้วก็ตาม

ถ้าเราต้องการให้การกระจายของเราดูเป็นปกติยิ่งขึ้นการแปลงจะปรับปรุงกรณีที่สองและสามอย่างแน่นอน เราเห็นได้ว่าสิ่งนี้อาจช่วยได้


แล้วทำไมมันถึงได้ผล

โปรดทราบว่าเมื่อเราดูรูปภาพของรูปร่างการกระจายเราไม่ได้พิจารณาค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐานซึ่งจะมีผลกับฉลากบนแกน

ดังนั้นเราสามารถจินตนาการถึงการมองหาตัวแปร "มาตรฐาน" บางประเภท (ในขณะที่ยังคงเป็นบวกทุกคนมีที่ตั้งและการแพร่กระจายที่คล้ายกันพูด)

การบันทึก "ดึง" ค่าสุดขีดมากขึ้นทางด้านขวา (ค่าสูง) สัมพันธ์กับค่ามัธยฐานในขณะที่ค่าที่ด้านซ้ายสุด (ค่าต่ำ) มีแนวโน้มที่จะยืดกลับห่างจากค่ามัธยฐาน

ป้อนคำอธิบายรูปภาพที่นี่

xYZ

Yมันคือ 5 ควอไทล์ควอเทอร์ช่วงเหนือค่ามัธยฐาน

แต่เมื่อเรานำท่อนซุงมันจะถูกดึงกลับไปยังค่ามัธยฐาน หลังจากบันทึกมันเป็นเพียงประมาณ2 interquartile ช่วงเหนือค่ามัธยฐาน

Y

ป้อนคำอธิบายรูปภาพที่นี่

ไม่มีอุบัติเหตุที่อัตราส่วนของ 750/150 และ 150/30 เป็น 5 ทั้งเมื่อ log (750) และ log (30) จบลงด้วยระยะทางที่ห่างจากค่ามัธยฐานของ log (y) นั่นเป็นวิธีที่บันทึกการทำงาน - การแปลงอัตราส่วนคงที่เป็นความแตกต่างคงที่

ไม่ใช่กรณีที่บันทึกจะช่วยได้อย่างชัดเจน ตัวอย่างเช่นถ้าคุณพูดว่าตัวแปรสุ่ม lognormal แล้วเลื่อนไปทางขวาอย่างมีนัยสำคัญ (เช่นเพิ่มค่าคงที่ที่มีขนาดใหญ่ลงไป) เพื่อให้ค่าเฉลี่ยกลายเป็นใหญ่เมื่อเทียบกับค่าเบี่ยงเบนมาตรฐานจากนั้นการบันทึกของมันจะสร้างความแตกต่าง รูปร่าง. มันจะเบ้น้อยกว่า - แต่แทบจะไม่


แต่การแปลงอื่น ๆ - สแควร์รูทจะบอกว่าจะดึงค่าที่มากเช่นนั้น เหตุใดบันทึกจึงได้รับความนิยมมากกว่า

-0.162ในบันทึกธรรมชาติคือการลดลง 15% ในหมายเลขเดิมไม่ว่าหมายเลขเดิมจะใหญ่แค่ไหน

ข้อมูลทางเศรษฐกิจและการเงินจำนวนมากมีลักษณะเช่นนี้ (ผลกระทบคงที่หรือใกล้คงที่ในระดับเปอร์เซ็นต์) สเกลบันทึกนั้นสมเหตุสมผลมากในกรณีนี้ ยิ่งกว่านั้นอันเป็นผลมาจากเอฟเฟกต์เปอร์เซ็นต์ การแพร่กระจายของค่ามีแนวโน้มที่จะมีขนาดใหญ่ขึ้นเมื่อค่าเฉลี่ยเพิ่มขึ้น - และการบันทึกยังมีแนวโน้มที่จะรักษาเสถียรภาพของการแพร่กระจาย ซึ่งมักมีความสำคัญมากกว่าปกติ แน่นอนว่าการแจกแจงทั้งสามในแผนภาพดั้งเดิมนั้นมาจากครอบครัวซึ่งค่าเบี่ยงเบนมาตรฐานจะเพิ่มขึ้นตามค่าเฉลี่ยและในแต่ละกรณีการบันทึกจะทำให้เกิดความแปรปรวน [สิ่งนี้ไม่ได้เกิดขึ้นกับข้อมูลที่บิดเบือนทั้งหมด เป็นเรื่องธรรมดามากในการเรียงลำดับข้อมูลที่ปลูกในพื้นที่เฉพาะของแอปพลิเคชัน]

นอกจากนี้ยังมีบางครั้งที่สแควร์รูทจะทำให้สิ่งต่าง ๆ สมมาตรมากขึ้น แต่มันมีแนวโน้มที่จะเกิดขึ้นกับการแจกแจงแบบเบ้น้อยกว่าที่ฉันใช้ในตัวอย่างของฉันที่นี่

เราสามารถสร้างตัวอย่างเอียงขวาอย่างอ่อนโยนอีกสามชุดได้โดยที่รากที่สองทำมุมเอียงซ้ายหนึ่งสมมาตรและอีกอันหนึ่งยังเอียงขวา (แต่เอียงน้อยกว่าเดิมเล็กน้อย)


แล้วการแจกแจงแบบเบ้ซ้ายล่ะ?

หากคุณใช้การเปลี่ยนแปลงเข้าสู่ระบบเพื่อกระจายสมมาตรก็จะมีแนวโน้มที่จะทำให้มันเอียงซ้ายด้วยเหตุผลเดียวกันมันมักจะทำให้แก่ลาดหนึ่งสมมาตรมากขึ้น - เห็นการอภิปรายที่เกี่ยวข้องกันที่นี่

ตามลําดับหากคุณใช้การแปลงการบันทึกกับสิ่งที่เหลืออยู่แล้วมันจะมีแนวโน้มที่จะทำให้เอียงไปทางซ้ายมากขึ้นดึงสิ่งที่อยู่เหนือค่ามัธยฐานให้แน่นยิ่งขึ้น

ดังนั้นการแปลงบันทึกจึงไม่มีประโยชน์

ดูการเปลี่ยนแปลงพลังงาน / บันไดของ Tukey การแจกแจงที่เอียงซ้ายอาจทำให้สมมาตรได้มากกว่าโดยการใช้กำลัง (มากกว่า 1 กำลังสองบอกว่า) หรือโดยการยกกำลัง หากมีขอบเขตบนที่เห็นได้ชัดใคร ๆ ก็อาจลบการสังเกตออกจากขอบบน (ให้ผลการเบ้ที่ถูกต้อง) และจากนั้นพยายามแปลงมัน


ขอบคุณ Glen_b สำหรับคำตอบที่ยอดเยี่ยมนี้ คุณให้ข้อมูลเชิงประจักษ์แก่เราเพื่ออธิบายและให้คำอธิบายที่เข้าใจง่ายว่าทำไม / การเปลี่ยนแปลงนี้ทำงานอย่างไร ชื่นชมมาก
ราม

5

Y=ล.n(x)x

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

ตอนนี้ในการแจกแจงแบบเบ้ด้านขวาคุณมีค่าที่น้อยมาก การแปลงบันทึกเป็นหลักทำให้ค่าเหล่านี้กลายเป็นศูนย์กลางของการแจกแจงทำให้ดูคล้ายกับการแจกแจงแบบปกติ


1

คำตอบทั้งหมดเหล่านี้เป็นยอดขายสำหรับการแปลงสภาพธรรมชาติ มีข้อแม้เพื่อการใช้งาน, คำเตือนที่ปรับเปลี่ยนได้ทั่วไปและการแปลงใด ๆ ตามกฎทั่วไปการแปลงทางคณิตศาสตร์ทั้งหมดจะช่วยปรับเปลี่ยน PDF ของตัวแปรดิบพื้นฐานไม่ว่าจะเป็นการบีบอัดขยายขยายกลับลดขนาดหรืออะไรก็ตาม ความท้าทายที่ยิ่งใหญ่ที่สุดที่นำเสนอจากมุมมองเชิงปฏิบัติอย่างแท้จริงคือเมื่อใช้ในแบบจำลองการถดถอยซึ่งการทำนายเป็นผลลัพธ์ของตัวแบบหลักการแปลงของตัวแปรตาม Y-hatอาจมีความลำเอียงการส่งผ่านข้อมูลซ้ำที่สำคัญ โปรดทราบว่าการแปลงบันทึกตามธรรมชาติจะไม่ได้รับการยกเว้นจากความลำเอียงนี้พวกเขาไม่ได้รับผลกระทบจากการเปลี่ยนแปลงการแสดงอื่น ๆ ที่คล้ายกัน มีเอกสารเสนอวิธีแก้ปัญหาสำหรับอคตินี้ แต่พวกเขาทำงานได้ไม่ดีนัก ในความคิดของฉันคุณอยู่ในพื้นที่ปลอดภัยกว่ามากไม่ยุ่งกับการพยายามแปลงYเลยและหารูปแบบการทำงานที่แข็งแกร่งซึ่งช่วยให้คุณรักษาเมตริกเดิมได้ ตัวอย่างเช่นนอกเหนือจากบันทึกธรรมชาติมีการแปลงอื่น ๆ ที่บีบหางของตัวแปรเบ้และ kurtotic เช่น inverse hyperbolic sine หรือ Lambert's W. ทั้งสองของการเปลี่ยนแปลงเหล่านี้ทำงานได้เป็นอย่างดีในการสร้างไฟล์ PDF สมมาตรและดังนั้น Gaussian เหมือนข้อผิดพลาดจากข้อมูลที่หนักเทลด์ แต่ระวังอคติเมื่อคุณพยายามที่จะนำการคาดการณ์กลับเข้ามาในขนาดเดิมสำหรับ DV, Y มันอาจจะน่าเกลียด


3
สิ่งนี้ดูเหมือนจะจบลงที่การมุ่งเน้นว่าจะทำอย่างไรกับการแจกแจงแบบเทลด์อย่างหนัก ฉันคิดว่าคุณต้องสะกดวิธีที่เกี่ยวข้องกับคำถาม ในทำนองเดียวกันวิธีของแลมเบิร์ตWเกี่ยวข้องกับคำถามไม่ชัดเจน ฉันไม่เข้าใจว่าอคติการแปลงนั้นมีปัญหาน้อยกว่าสำหรับการแปลงลอการิทึมมากกว่าการแปลงที่เกี่ยวข้อง (อันใด?) ในแง่นี้และในคนอื่น ๆ ลอการิทึมมีพฤติกรรมอย่างที่คุณคาดหวังว่าจะเป็นสมาชิกของครอบครัวที่กว้างขึ้น ตัวอย่างในการเป็นสื่อกลางในผลระหว่างสแควร์รูทและซึ่งกันและกัน
Nick Cox

3
เราทุกคนมีความปลอดภัยในแง่มุมต่าง ๆ ของกฎ แต่พวกเราหลายคนยังคงมีปฏิสัมพันธ์ที่นี่เพราะเราได้เห็นภูมิปัญญาของพวกเขาและได้พบวิธีที่สร้างสรรค์ในการแก้ไขข้อ จำกัด ที่ชัดเจน กฎนี้เป็นพื้นฐาน: โพสต์ที่ไม่ตอบคำถามไม่ได้อยู่ มันมีแนวโน้มที่จะทำให้แต่ละกระทู้สอดคล้องกัน จำกัด สะอาดและในหัวข้อ เป็นกุญแจสำคัญในการสร้างเนื้อหาที่มีประโยชน์และน่าสนใจมากกว่าที่คุณจะพบในเว็บไซต์ถามตอบอื่น ๆ
whuber

3
คุณมี tinkered นี้ แต่ในมุมมองของฉันมันยังคงมีปัญหามากเป็นคำตอบ 1. คุณกำลังขยายคำถามในหลาย ๆ วิธีเช่นนำการแจกแจงแบบหนาเช่นกัน นั่นอาจเป็นสิ่งที่สมเหตุสมผลที่จะทำในบางหัวข้อ แต่ที่นี่เป็นหัวข้อที่เน้นที่ดีพร้อมคำตอบที่มีคุณภาพสูงและคำตอบเพิ่มเติมที่นี่คือโดยและ muddying น้ำขนาดใหญ่ เมื่อมีคำตอบที่ดีสำหรับคำถามจะต้องมีเหตุผลที่ดีสำหรับคำตอบใหม่
Nick Cox

4
2. การยืนยันเรื่องอคติการเปลี่ยนแปลงยังคงเป็นการโบกแขน ไม่มีความแม่นยำทางเทคนิคสำหรับคำตอบที่ตรงกับการอ้างสิทธิ์รวมถึงการยืนยันอย่างลึกลับว่าบันทึกมีปัญหาน้อยกว่าการแปลงอื่น ๆ ที่คล้ายกัน
Nick Cox

4
3. รายละเอียดเกี่ยวกับ Lambert's Wยังคงเป็นความลับ ข้อความที่กว้างกว่าคือการเปลี่ยนแปลงที่น่าสงสัยยกเว้นว่าแอนชินและแลมเบิร์ตสามารถทำได้ดี ดูเหมือนจะขัดแย้งกันและไม่ได้อธิบายอย่างดี คุณมีความรู้อย่างชัดเจน แต่สิ่งนี้ต้องการสไตล์ที่เก็บข้อมูลที่ตรงกว่าเพื่อให้มีคุณค่า ดังนั้นฉันไม่สามารถลงคะแนนเสียงในเรื่องนี้ด้วยความรู้สึกผิดชอบชั่วดี การตัดสินใจก่อนหน้าของคุณที่จะลบมันเป็นการดีกว่าในมุมมองของฉัน ที่นี่และที่อื่น ๆ ฉันไม่คิดว่าคุณจะชอบสไตล์ CV: ไม่มีใบสั่งยาที่เข้มงวด แต่ต้องเน้นคำตอบ กระทู้ช่างพูดมักจะไม่ค่อยเหมาะนัก
Nick Cox

0

มีการทำคะแนนที่น่าสนใจมากมาย อีกไม่กี่?

1) ฉันขอแนะนำว่าปัญหาอื่นที่มีการถดถอยเชิงเส้นคือ 'ด้านซ้ายมือ' ของสมการถดถอยคือ E (y): ค่าที่คาดหวัง หากการแจกแจงข้อผิดพลาดไม่สมมาตรการทำบุญเพื่อการศึกษาค่าที่คาดหวังจะอ่อน ค่าที่คาดหวังไม่ใช่ความสนใจส่วนกลางเมื่อเกิดข้อผิดพลาดแบบอสมมาตร เราสามารถสำรวจการถดถอยแบบควอไทล์แทน จากนั้นการศึกษาพูดค่ามัธยฐานหรือคะแนนร้อยละอื่น ๆ อาจมีค่าแม้ว่าข้อผิดพลาดจะไม่สมดุล

2) ถ้ามีคนเลือกที่จะเปลี่ยนตัวแปรการตอบสนองจากนั้นหนึ่งคนอาจต้องการที่จะแปลงตัวแปรอธิบายอย่างใดอย่างหนึ่งมากกว่าด้วยฟังก์ชั่นเดียวกัน ตัวอย่างเช่นหากมีผลลัพธ์ 'สุดท้าย' เป็นการตอบสนองหนึ่งอาจมีผลลัพธ์ 'พื้นฐาน' เป็นตัวแปรอธิบาย สำหรับการตีความมันทำให้การแปลง 'สุดท้าย' และ 'พื้นฐาน' ด้วยฟังก์ชั่นเดียวกัน

3) อาร์กิวเมนต์หลักสำหรับการเปลี่ยนตัวแปรอธิบายมักจะอยู่รอบเส้นตรงของการตอบสนอง - ความสัมพันธ์อธิบาย วันนี้เราสามารถพิจารณาตัวเลือกอื่น ๆ เช่นเส้นโค้งลูกบาศก์ จำกัด หรือชื่อพหุนามเศษส่วนสำหรับตัวแปรอธิบาย มักจะมีความชัดเจนบางอย่างแน่นอนหากพบว่ามีความเป็นเส้นตรง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.