เมื่อใด (และทำไม) คุณควรบันทึกการกระจาย (ของตัวเลข)?


173

สมมติว่าฉันมีข้อมูลในอดีตเช่นราคาหุ้นที่ผ่านมาความผันผวนของราคาตั๋วเครื่องบินข้อมูลทางการเงินในอดีตของ บริษัท ...

ตอนนี้มีใครบางคน (หรือบางสูตร) มาพร้อมและกล่าวว่า "ขอใช้เวลา / ใช้เข้าสู่ระบบของการกระจาย" และนี่คือที่ที่ผมไปทำไม ?

คำถาม:

  1. ทำไมคนเราควรจดบันทึกการกระจายสินค้าตั้งแต่แรก?
  2. บันทึกของการแจกแจง 'ให้ / ลดความซับซ้อน' ที่การกระจายดั้งเดิมไม่สามารถทำได้ / ไม่ได้?
  3. การเปลี่ยนแปลงบันทึกเป็น 'ไม่สูญเสีย' หรือไม่? คือเมื่อเปลี่ยนเป็น log-space และวิเคราะห์ข้อมูลข้อสรุปเดียวกันนี้มีไว้สำหรับการแจกแจงดั้งเดิมหรือไม่? มาทำไม
  4. และในที่สุดเมื่อไหร่ที่จะบันทึกการกระจาย? ภายใต้เงื่อนไขใดบ้างที่ตัดสินใจทำเช่นนี้

ฉันต้องการเข้าใจการแจกแจงแบบอิงบันทึก (เช่น lognormal) แต่ฉันไม่เคยเข้าใจแง่มุมว่าเมื่อใด / ทำไม - นั่นคือบันทึกการแจกแจงเป็นการแจกแจงแบบปกติดังนั้นจะเป็นอย่างไร สิ่งนั้นบอกอะไรกับฉันและทำไมตื๊อ ดังนั้นคำถาม!

UPDATE : ตามความเห็นของ @ whuber ฉันดูที่โพสต์และด้วยเหตุผลบางอย่างฉันเข้าใจการใช้ log แปรรูปและการประยุกต์ในการถดถอยเชิงเส้นเนื่องจากคุณสามารถวาดความสัมพันธ์ระหว่างตัวแปรอิสระและบันทึกของตัวแปรตาม อย่างไรก็ตามคำถามของฉันเป็นเรื่องทั่วไปในแง่ของการวิเคราะห์การกระจายตัวเอง - ไม่มีความสัมพันธ์ต่อกันที่ฉันสามารถสรุปได้เพื่อช่วยให้เข้าใจเหตุผลของการบันทึกเพื่อวิเคราะห์การกระจาย ฉันหวังว่าฉันจะทำให้รู้สึก: - /

ในการวิเคราะห์การถดถอยคุณมีข้อ จำกัด ในประเภท / พอดี / การกระจายของข้อมูลและคุณสามารถแปลงและกำหนดความสัมพันธ์ระหว่างตัวแปรอิสระและ (ไม่เปลี่ยน) ขึ้นอยู่กับ แต่เมื่อใด / เหตุใดจึงต้องทำอย่างนั้นสำหรับการกระจายในการแยกที่ข้อ จำกัด ของประเภท / พอดี / การกระจายไม่จำเป็นต้องใช้ในกรอบ (เช่นการถดถอย) ฉันหวังว่าการชี้แจงจะทำให้สิ่งต่าง ๆ ชัดเจนยิ่งกว่าสับสน :)

คำถามนี้ควรคำตอบที่ชัดเจนว่า "ทำไมและเมื่อไร"


3
เนื่องจากสิ่งนี้ครอบคลุมเนื้อหาเกือบเหมือนคำถามก่อนหน้านี้ที่นี่และที่นี่โปรดอ่านหัวข้อเหล่านั้นและอัปเดตคำถามของคุณเพื่อมุ่งเน้นประเด็นใด ๆ ของปัญหานี้ที่ยังไม่ได้รับการแก้ไข หมายเหตุด้วยเช่นกัน # 4 (และส่วนหนึ่งของ # 3) เป็นคำถามเบื้องต้นเกี่ยวกับลอการิทึมซึ่งมีคำตอบอยู่ในหลายที่
whuber

1
การชี้แจงช่วย คุณอาจต้องการไตร่ตรองข้อเท็จจริงแม้ว่าการถดถอยนั้นมีเพียงค่าคงที่เท่านั้น (และไม่มีตัวแปรอิสระอื่น ๆ ) ที่จะประเมินการเปลี่ยนแปลงของข้อมูลรอบค่าเฉลี่ย ดังนั้นถ้าคุณจริงๆเข้าใจผลกระทบของการบันทึกของตัวแปรในการถดถอยคุณแล้วเข้าใจ (ง่าย) สถานการณ์ที่คุณจะถามเกี่ยวกับที่นี่ กล่าวโดยย่อเมื่อคุณมีคำตอบสำหรับคำถามสี่ข้อสำหรับการถดถอยคุณไม่จำเป็นต้องถามพวกเขาอีกครั้งเกี่ยวกับ "การกระจายตัวแบบแยกตัว"
whuber

@whuber: ฉันเห็น ... ฉันเข้าใจเหตุผลของการบันทึกในการถดถอย แต่เพียงเพราะฉันได้รับการสอน - ฉันเข้าใจจากความต้องการที่จะทำมุมมองคือเพื่อให้แน่ใจว่าข้อมูลที่เหมาะกับสมมติฐาน ของการถดถอยเชิงเส้น นั่นเป็นความเข้าใจเดียวของฉัน บางทีสิ่งที่ฉันขาดไปคือ "ความเข้าใจที่แท้จริง" ของเอฟเฟกต์ของการบันทึกและด้วยความสับสน ... ช่วยอะไรบ้าง? ;)
ปริญญาเอก

2
อา แต่คุณรู้มากกว่านั้นเพราะหลังจากใช้บันทึกในการถดถอยคุณรู้ว่าผลลัพธ์นั้นถูกตีความแตกต่างกันและคุณต้องระวังในการปรับเปลี่ยนค่าหลังและช่วงความมั่นใจ ฉันแนะนำว่าคุณอาจไม่สับสนและคุณอาจรู้คำตอบมากมายสำหรับคำถามทั้งสี่นี้ถึงแม้ว่าคุณจะไม่ทราบในตอนแรก :-)
whuber

2
ผู้อ่านที่นี่ยังอาจต้องการที่จะดูที่หัวข้อเหล่านี้เกี่ยวข้องอย่างใกล้ชิด: การแปลความหมายของการเข้าสู่ระบบเปลี่ยน-ทำนายและวิธีการแปลความหมายของค่าสัมประสิทธิ์เปลี่ยนลอการิทึมในการถดถอยเชิงเส้น
gung

คำตอบ:


98

logY=β0+β1tYYYY2. ฉันจำแหล่งที่มาดั้งเดิมของสิ่งต่อไปนี้ไม่ได้ แต่มันสรุปได้อย่างชัดเจนถึงบทบาทของการแปลงพลังงาน มันเป็นสิ่งสำคัญที่จะต้องทราบข้อสันนิษฐานของการกระจายสินค้าอยู่เสมอเกี่ยวกับกระบวนการข้อผิดพลาดที่ไม่ใช่การสังเกต Y ดังนั้นจึงเป็นที่แน่นอนว่า "ไม่ - ไม่" เพื่อวิเคราะห์ชุดดั้งเดิมสำหรับการแปลงที่เหมาะสมเว้นแต่ชุดถูกกำหนดโดยค่าคงที่ง่ายๆ

รวมถึงความแตกต่างควรหลีกเลี่ยงการศึกษาอย่างไม่ถูกต้องเนื่องจากเป็นความพยายามที่ไม่ดี / ไม่เหมาะสมที่จะรับมือกับความผิดปกติ / การเปลี่ยนแปลงระดับ / แนวโน้มเวลาที่ผิดปกติหรือการเปลี่ยนแปลงพารามิเตอร์หรือการเปลี่ยนแปลงความแปรปรวนของข้อผิดพลาด ตัวอย่างคลาสสิกของเรื่องนี้จะกล่าวถึงเริ่มต้นที่สไลด์ 60 ที่นี่http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentationโดยที่ความผิดปกติของชีพจรสามรายการ ( ไม่ได้รับการรักษา) นำไปสู่การเปลี่ยนแปลงบันทึกที่ไม่ได้รับการรับรองโดยนักวิจัยก่อนหน้านี้ น่าเสียดายที่นักวิจัยปัจจุบันของเราบางคนยังคงทำผิดพลาดเหมือนเดิม

การเปลี่ยนแปลงการใช้พลังงานที่เหมาะสมพบว่าผ่านการทดสอบ Box-Cox ที่

  • -1 เป็นส่วนกลับ
  • -.5 เป็นรากที่สองของ recriprocal
  • 0.0 คือการแปลงบันทึก
  • .5 เป็นการแปลงรูปสี่เหลี่ยมจัตุรัสและ
  • 1.0 ไม่มีการแปลง

Yt=u+atYatatYtatYtYYYXYXlogYlogX. ในการเปลี่ยนแปลงโดยสรุปเป็นยาเสพติดบางอย่างดีและบางอย่างไม่ดีสำหรับคุณ! ควรใช้เมื่อจำเป็นเท่านั้นและด้วยความระมัดระวัง


2
ฉันยอมรับว่าใครก็ตามที่ออกจาก downvote ควรออกจากบันทึกว่าทำไมสิ่งนี้จึงถูก downvote สำหรับ Irishstat คุณจะสามารถอ่านโพสต์ของคุณได้ง่ายขึ้นหากคุณใช้ประโยชน์จากตัวเลือกการจัดรูปแบบสำหรับการตอบคำถาม ดูmarkdown ส่วนช่วยเหลือในการแก้ไข ลิงค์นั้นสามารถใช้ได้ทุกครั้งที่คุณพิมพ์คำตอบที่มุมบนขวาของกล่องโพสต์ (ในวงกลมสีส้มพร้อมเครื่องหมายคำถาม)
Andy W

4
ตารางที่อ้างถึง อยู่ในบทนำการวิเคราะห์การถดถอยเชิงเส้นโดย Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining
1717828

@ user1717828 tu .. ฉันเป็นแฟนตัวยงของมอนต์โกเมอรี่เสมอเนื่องจากเขามีหนวดเครายาวที่เกี่ยวข้องกับอนุกรมเวลา
IrishStat

มันไม่เป็นความจริงเสมอไปหรือเปล่าที่ช่วงเวลาที่สองและความแปรปรวนนั้นแปรผันตามกัน? เรามีสมการคลาสสิกที่บอกว่า: ความแปรปรวนเท่ากับช่วงเวลาที่สองลบด้วยช่วงเวลาแรกกำลังสอง
information_interchange

อย่างที่คุณบอกว่าความแปรปรวนเป็นหน้าที่ของช่วงเวลาที่สอง ฉันหมายถึงอย่างอื่นที่ไหน นอกจากนี้ความแปรปรวนสามารถเปลี่ยนแปลง (กำหนดขึ้น) ที่จุดต่าง ๆ ในเวลา SEE pdfs.semanticscholar.org/09c4/ …ซึ่งไม่ได้รับการแก้ไขโดยการแปลงพลังงาน
IrishStat

107

บันทึกระดับแจ้งการเปลี่ยนแปลงสัมพัทธ์ (หลายค่า) ในขณะที่ขนาดเชิงเส้นแจ้งการเปลี่ยนแปลงสัมบูรณ์ (เพิ่มเติม) คุณใช้แต่ละครั้งเมื่อใด เมื่อคุณใส่ใจกับการเปลี่ยนแปลงสัมพัทธ์ใช้สเกลบันทึก เมื่อคุณใส่ใจกับการเปลี่ยนแปลงที่แน่นอนให้ใช้ขนาดเชิงเส้น สิ่งนี้เป็นจริงสำหรับการแจกแจง แต่สำหรับปริมาณหรือการเปลี่ยนแปลงในปริมาณใด ๆ

หมายเหตุฉันใช้คำว่า "ใส่ใจ" ที่นี่โดยเฉพาะอย่างยิ่งและตั้งใจ หากไม่มีแบบจำลองหรือเป้าหมายคุณจะไม่สามารถตอบคำถามของคุณได้ แบบจำลองหรือเป้าหมายกำหนดขนาดที่มีความสำคัญ หากคุณกำลังพยายามสร้างแบบจำลองบางอย่างและกลไกดำเนินการผ่านการเปลี่ยนแปลงแบบสัมพัทธ์ระดับการบันทึกเป็นสิ่งสำคัญในการจับภาพพฤติกรรมที่เห็นในข้อมูลของคุณ แต่ถ้ากลไกของโมเดลพื้นฐานนั้นเป็นสารเติมแต่งคุณจะต้องใช้สเกลเชิงเส้น


$$$


$$$$


$

หากเราแปลงเป็นพื้นที่บันทึกการเปลี่ยนแปลงที่เกี่ยวข้องจะปรากฏเป็นการเปลี่ยนแปลงแบบสัมบูรณ์

log10($1)log10($1.10)
log10($100)log10($110)

ตอนนี้รับความแตกต่างที่แน่นอนในพื้นที่บันทึกเราพบว่าทั้งสองเปลี่ยนโดย. 0413

มาตรการการเปลี่ยนแปลงทั้งสองนี้มีความสำคัญและสิ่งที่สำคัญสำหรับคุณขึ้นอยู่กับรูปแบบการลงทุนของคุณ มีสองรุ่น (1) ลงทุนในจำนวนเงินต้นที่แน่นอนหรือ (2) ลงทุนในจำนวนหุ้นที่แน่นอน

รุ่นที่ 1: การลงทุนด้วยจำนวนเงินต้นที่แน่นอน

$$$$$$$$

รุ่นที่ 2: จำนวนหุ้นที่แน่นอน

$

ทีนี้สมมติว่าเราคิดว่ามูลค่าหุ้นเป็นตัวแปรสุ่มผันผวนเมื่อเวลาผ่านไปและเราต้องการสร้างแบบจำลองที่สะท้อนถึงพฤติกรรมของหุ้นโดยทั่วไป และสมมติว่าเราต้องการใช้โมเดลนี้เพื่อเพิ่มผลกำไรสูงสุด เราคำนวณการแจกแจงความน่าจะเป็นซึ่งค่า x อยู่ในหน่วยของ 'ราคาหุ้น' และค่า y ในความน่าจะเป็นที่จะสังเกตราคาหุ้นที่กำหนด เราทำเช่นนี้สำหรับหุ้น A และหุ้น B หากคุณสมัครสมาชิกกับสถานการณ์แรกที่คุณมีเงินต้นที่แน่นอนที่คุณต้องการลงทุนจากนั้นการบันทึกการกระจายเหล่านี้จะเป็นข้อมูล ทำไม? สิ่งที่คุณสนใจคือรูปร่างของการกระจายตัวในพื้นที่สัมพัทธ์ ไม่ว่าหุ้นจะมีค่าตั้งแต่ 1 ถึง 10 หรือ 10 ถึง 100 ไม่สำคัญสำหรับคุณใช่ไหม ทั้งสองกรณีเป็น 10 เท่ากำไรญาติ สิ่งนี้ปรากฏขึ้นตามธรรมชาติในการกระจายระดับบันทึกในหน่วยที่ได้รับนั้นตรงกับจำนวนที่เพิ่มขึ้นโดยตรง สำหรับสองหุ้นที่มีค่าเฉลี่ยแตกต่างกัน แต่มีการเปลี่ยนแปลงสัมพัทธ์กระจายเหมือนกัน (พวกเขามีการกระจายตัวของการเปลี่ยนแปลงร้อยละรายวันเดียวกัน) การกระจายบันทึกของพวกเขาจะเหมือนกันในรูปแบบเพิ่งเปลี่ยน ตรงกันข้ามการกระจายเชิงเส้นของพวกเขาจะไม่เหมือนกันในรูปแบบที่มีการกระจายมูลค่าที่สูงขึ้นมีความแปรปรวนที่สูงขึ้น

ถ้าคุณดูที่การกระจายตัวแบบเดียวกันนี้ในแบบเชิงเส้นหรือสเปซสัมบูรณ์คุณจะคิดว่าราคาหุ้นที่มีมูลค่าสูงกว่านั้นสอดคล้องกับความผันผวนที่มากขึ้น เพื่อจุดประสงค์ในการลงทุนของคุณแม้ว่าจะมีเพียงกำไรที่ได้มาเท่านั้น แต่ก็ไม่ได้เป็นเช่นนั้น

ตัวอย่างที่ 2 ปฏิกิริยาทางเคมี สมมติว่าเรามีโมเลกุล A และ B สองโมเลกุลที่เกิดปฏิกิริยาที่ย้อนกลับได้

AB

ซึ่งถูกกำหนดโดยค่าคงที่อัตราของแต่ละบุคคล

kabABkbaBA

ความสมดุลของพวกเขาถูกกำหนดโดยความสัมพันธ์:

K=kabkba=[A][B]

AB

K=kabkba=[A][B]

(0,inf)

แก้ไข ขนานที่น่าสนใจที่ช่วยให้ฉันสร้างสัญชาตญาณเป็นตัวอย่างของเลขคณิตหมายความเทียบกับวิธีการทางเรขาคณิต. เลขคณิต (วานิลลา) หมายถึงการคำนวณค่าเฉลี่ยของตัวเลขโดยสมมติว่าแบบจำลองที่ซ่อนอยู่ซึ่งความแตกต่างที่แท้จริงเป็นสิ่งที่สำคัญ ตัวอย่าง. ค่าเฉลี่ยเลขคณิตของ 1 และ 100 คือ 50.5 สมมติว่าเรากำลังพูดถึงความเข้มข้นที่ซึ่งความสัมพันธ์ทางเคมีระหว่างความเข้มข้นนั้นทวีคูณ จากนั้นควรคำนวณความเข้มข้นเฉลี่ยในระดับบันทึก นี่เรียกว่าค่าเฉลี่ยเรขาคณิต ค่าเฉลี่ยเรขาคณิตของ 1 และ 100 คือ 10! ในแง่ของความแตกต่างสัมพัทธ์สิ่งนี้สมเหตุสมผล: 10/1 = 10 และ 100/10 = 10 เช่นการเปลี่ยนแปลงสัมพัทธ์ระหว่างค่าเฉลี่ยกับค่าสองค่าเหมือนกัน นอกจากนี้เราพบสิ่งเดียวกัน; 50.5-1 = 49.5 และ 100-50.5 = 49.5


2
นี่เป็นคำตอบที่เป็นประโยชน์จริงๆและฉันชอบตัวอย่างมาก คุณสามารถเพิ่มเพิ่มเติมเกี่ยวกับ "เมื่อ" โดยเฉพาะเพื่อใช้การแปลงการบันทึกได้หรือไม่ คุณพูดว่า "เมื่อคุณใส่ใจกับการเปลี่ยนแปลงแบบสัมพัทธ์ให้ใช้ log-scale เมื่อคุณใส่ใจกับการเปลี่ยนแปลงแบบสัมบูรณ์ให้ใช้ linear-scale" แต่มีบางกรณีที่คุณใส่ใจกับการเปลี่ยนแปลงที่เกี่ยวข้อง แต่ไม่ควรเปลี่ยนการบันทึกและถ้าเป็นเช่นนั้นคุณจะตรวจสอบกรณีเหล่านั้นได้อย่างไร? ตัวอย่างเช่นกระดาษนี้ทำให้กรณีที่ข้อมูลที่ไม่เป็นไปตามการแจกแจงปกติของบันทึกไม่ควรถูกแปลงเป็นบันทึก: ncbi.nlm.nih.gov/pmc/articles/PMC4120293
skeller88

@ skeller88 ฉันเห็นด้วยกับเอกสารนี้; มันเป็นการตอบสนองที่แคบต่อคำถาม (และปรัชญา!) ที่กว้างขึ้นว่า 'ทำไมเราถึงเปลี่ยนการแจกแจง? ฉันคิดว่าคำตอบคือเรามีชุดเครื่องมือทางสถิติที่พัฒนามาอย่างดีสำหรับการเปรียบเทียบระหว่างการแจกแจงแบบปกติ แต่เป็นชุดเครื่องมือที่พัฒนาน้อยกว่าสำหรับผู้อื่น วิธีหนึ่งในการประเมินการกระจายตัวที่ดูขี้ขลาดนั้นอาจจะเป็นการบันทึกของมันเพื่อดูว่ามันดูปกติมากกว่าหรือเปล่า; แต่เป็น IrishStat อธิบายเทคนิคข้างต้นเส้นทางนี้จะเต็มไปด้วยอันตราย (จากหมุดสี่เหลี่ยมความหลากหลายของหลุมกลม)
vector07

1
มีคำอธิบายที่เกี่ยวข้องของผลกระทบนี้และทำไมมันเป็นเรื่องสำคัญสำหรับต้นไม้ตัดสินใจน้อยมากtowardsdatascience.com/...
คี ธ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.