เหตุใดจึงต้องใช้ตัวแปรที่บันทึกไว้


12

อาจเป็นคำถามพื้นฐานมาก แต่ฉันดูเหมือนจะไม่สามารถหาคำตอบที่ชัดเจนสำหรับมัน ฉันหวังว่าที่นี่ฉันสามารถ

ตอนนี้ฉันกำลังอ่านเอกสารเพื่อเตรียมสำหรับวิทยานิพนธ์ปริญญาโทของฉันเอง ขณะนี้ฉันกำลังอ่านกระดาษที่ค้นคว้าความสัมพันธ์ระหว่างทวีตและคุณลักษณะของตลาดหุ้น

หนึ่งในสมมติฐานของพวกเขาพวกเขาเสนอว่า "ปริมาณทวีตที่เพิ่มขึ้นนั้นเกี่ยวข้องกับปริมาณการซื้อขายที่เพิ่มขึ้น"

ผมจะคาดหวังให้พวกเขาในความสัมพันธ์คู่ที่จะมีความสัมพันธ์tweetVolumeกับtradingVolume, แต่พวกเขารายงานโดยใช้รุ่นเข้าสู่ระบบ: และLN(tweetVolume)LN(tradingVolume)

สำหรับวิทยานิพนธ์ของฉันฉันได้ทำซ้ำเอกสารนี้ ฉันรวบรวมทวีตประมาณ 100 บริษัท มานานกว่า 6 เดือน ( tweetVolume) และปริมาณการซื้อขายหุ้นในช่วงเวลาเดียวกัน ถ้าฉันมีความสัมพันธ์ตัวแปรแน่นอนผมพบr=.282, p.000แต่เมื่อผมใช้ verions r=.488, p=.000ทะเบียนผมพบ

ฉันไม่เข้าใจว่าทำไมนักวิจัยบางครั้งใช้ตัวแปรที่บันทึกไว้และทำไมความสัมพันธ์จึงดูสูงขึ้นมากถ้าคุณทำเช่นนั้น อะไรคือเหตุผลที่นี่และทำไมจึงใช้ตัวแปรที่บันทึกไว้

ความช่วยเหลือของคุณได้รับการชื่นชมอย่างมาก :-)


1
หากคุณเห็นเธรดที่เกี่ยวข้องที่ด้านล่างขวาของหน้าการใช้ลอการิทึมได้รับการคุ้มครองก่อนหน้านี้สองสามครั้ง โดยเฉพาะอย่างยิ่งดูในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง .
Andy W

คำตอบ:


24

เหตุผลในการใช้ตัวแปรที่บันทึกไว้แบ่งออกเป็นสองประเภท: สถิติและเนื้อหาสาระ

ในทางสถิติหากตัวแปรของคุณเอียงไปทางขวา (นั่นคือพวกมันมีหางยาวที่ปลายสูง) จากนั้นการวัดเช่นสหพันธ์หรือการถดถอยอาจได้รับอิทธิพลมากโดยหนึ่งหรือสองสามกรณีที่ปลายสูงในหนึ่งหรือทั้งสองอย่าง ตัวแปร (ค่าผิดปกติ, คะแนนการใช้ประโยชน์, คะแนนที่มีอิทธิพล) การบันทึกสามารถช่วยสิ่งนี้ได้โดยการลดหรือกำจัดความเอียง

อย่างมีนัยสำคัญแนวคิดบางอย่างเป็นความคิดที่ดีในแง่ของอัตราส่วนกว่าความแตกต่าง ใช้มาตรการปริมาณสองอย่างที่คุณพูดถึง เปรียบเทียบสอง บริษัท : บริษัท เล็ก ๆ แห่งหนึ่งซื้อขาย NASDAQ ที่มีคนไม่กี่คนที่ได้ยิน อดีตจะได้รับทวีตน้อยมากต่อวัน หลังจะได้รับมากมาย ในทำนองเดียวกันสำหรับปริมาณการซื้อขาย สมมติว่า (เพียงเพื่อเลือกหมายเลข) โดยปกติแล้ว บริษัท A จะได้รับ 100 ทวีตต่อวันและ บริษัท หลังจะได้รับ 100,000

หากทวีตของ บริษัท A เพิ่มขึ้นจาก 100 เป็น 500 (แตกต่างจาก 400 ส่วนอัตราส่วน 5) นั่นเป็นข่าวใหญ่ - สิ่งที่ต้องเกิดขึ้น แต่ถ้า บริษัท B เพิ่มขึ้นจาก 100,000 เป็น 100,400 (ความแตกต่างจาก 400 เป็นอัตราส่วนที่ใกล้เคียงกับ 1) ไม่มีใครใส่ใจ ถ้าคุณเปลี่ยนจาก 100,000 เป็น 500,000


ขอบคุณที่ตอบกลับอย่างรวดเร็ว. อีกสองคำถามมาจากคำตอบของคุณ ก่อนอื่นถ้าฉันมีคุณสมบัติ 3 ประการสำหรับวัตถุ (การซื้อขายหุ้นผลตอบแทนและความผันผวน) และนำรุ่นที่บันทึกไว้สำหรับหนึ่งในนั้น สิ่งที่คุณพูดสำหรับ บริษัท ทวีต A และ B อาจนับรวมถึงผลตอบแทนของพวกเขาหาก บริษัท A เพิ่มขึ้นจาก 1 ทีโอที 1,50 ผลตอบแทนคือ (50%) 0.50 บริษัท B ต้องการเพิ่มจาก 400 เป็น 600 (200) สำหรับ% -return ที่คล้ายกัน และเกิดจากที่: ถ้าผลตอบแทนเป็นลบ, LN (-0.50) เห็นได้ชัดว่าใช้งานไม่ได้ อนุญาตให้ใช้ -LN (0.50) ได้หรือไม่
Pr0no

นอกจากนี้หากฉันเข้าใจอย่างถูกต้องการใช้ตัวแปรที่บันทึกไว้ไม่ใช่ตัวเลือกฟรี - มันต้องมีการโต้แย้งโดย skweness-charts (สถิติ) และที่สำคัญกว่านั้นคือเหตุผลเชิงตรรกะในการบันทึกที่ให้ proff สำหรับการทำเช่นนั้นจริงหรือ กล่าวอีกนัยหนึ่งมีกฎของหัวแม่มือที่นี่กำหนด threshholds ด้านบนซึ่งคุณควรใช้รุ่นที่เข้าสู่ระบบหรือมันเป็นเรื่องของการตีความ?
Pr0no

1
คุณไม่ต้องการบันทึกร้อยละในกรณีนี้การจดเปอร์เซ็นต์ทำในสิ่งที่บันทึก นั่นคือมันทำให้อัตราส่วนต่าง ๆ แน่นอนว่าคุณสามารถบันทึกตัวแปรบางตัวและไม่ใช่ตัวแปรอื่น ๆ การบันทึกไม่จำเป็นต้องใช้แผนภูมิความเบ้ แต่โดยปกติแล้วตัวแปรที่ควรจะบันทึกไว้นั้นเอียงขวา แต่หลักของสิ่งที่เป็นสาร ถ้ามันไม่สมเหตุสมผลเลยที่จะบันทึกมันก็ไม่ควรทำ ให้ใช้วิธีการทางสถิติที่ทำงานกับตัวแปรที่เอียง SUBSTANCE มาก่อน
Peter Flom - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.