การถดถอยจะขึ้นอยู่กับวันของสัปดาห์


11

ฉันต้องการความช่วยเหลือเล็กน้อยเพื่อไปในทิศทางที่ถูกต้อง เป็นเวลานานแล้วที่ฉันได้ศึกษาสถิติและดูเหมือนว่าศัพท์แสงจะเปลี่ยนไป

ลองนึกภาพว่าฉันมีชุดข้อมูลที่เกี่ยวข้องกับรถยนต์เช่น

  • เวลาเดินทางจากเมือง A ถึงเมือง B
  • ระยะทางจากเมือง A ถึงเมือง B
  • ขนาดเครื่องยนต์
  • ขนาดรองเท้าของคนขับ
  • ยี่ห้อและรุ่นของรถ
  • วันของสัปดาห์

ฉันต้องการที่จะทำนายเวลาการเดินทาง

ฉันคิดว่ามันมีความสัมพันธ์ที่แน่นแฟ้นระหว่างเวลาและระยะทางและอาจเป็นเรื่องที่อ่อนแอกว่าสำหรับขนาดเครื่องยนต์ (และไม่มีขนาดรองเท้า) การวิเคราะห์การถดถอยพหุคูณ / ANOVA น่าจะเป็นเครื่องมือที่ใช้ แต่ฉันจะรวมวันในสัปดาห์ได้อย่างไรเนื่องจากเพิ่งเขียนโค้ดเป็นวันอาทิตย์ = 1 วันจันทร์ = 2 ฯลฯ รู้สึกผิดอย่างมาก

การใช้เครื่องมือการถดถอยของ Excel เช่นฉันจะตีความผลลัพธ์ได้อย่างไร สันนิษฐานว่าถ้า R ใกล้เคียงกับ 1 ถือว่าดี แต่บางแหล่งข้อมูลอ้างถึง r-squared ซึ่งน่าจะเป็น SD ดังนั้นค่าใกล้เคียงกับศูนย์จึงเป็นสิ่งที่ดี นอกจากนี้ยังแสดง t Stat, P-value, F และ Significance F ไม่ว่าจะเป็นอะไรก็ตาม ใครสามารถแนะนำแหล่งข้อมูลอ้างอิงที่ดีได้บ้าง


2
สำหรับเร็กคอร์ดคำถามเหล่านี้ (เกี่ยวกับการตีความผลลัพธ์ของการถดถอย) ถูกถามในเธรดอื่นที่นี่แต่คำถามนั้นมีสูตรที่แย่มาก นี่เป็นคำถามพื้นฐานที่ควรได้รับคำตอบ "มาตรฐาน" ซึ่งเป็นคำถามระดับประถมศึกษาที่ละเอียดถี่ถ้วนชัดเจนและได้รับการอธิบายอย่างดี
whuber

คำตอบ:


26

สิ่งที่คุณต้องการคือการทบทวนวิธีการถดถอย อย่างไรก็ตามคำถามเหล่านี้มีพื้นฐานเพียงพอ (อย่าเข้าใจผิด) ว่าแม้ภาพรวมที่ดีของสถิติพื้นฐานอาจเป็นประโยชน์กับคุณ โฮเวลได้เขียนที่นิยมมากในตำราที่มีรากฐานความคิดในวงกว้างโดยไม่ต้องคณิตศาสตร์หนาแน่น มันอาจจะคุ้มค่ากับเวลาที่คุณได้อ่าน ไม่สามารถครอบคลุมเนื้อหาทั้งหมดได้ที่นี่ อย่างไรก็ตามฉันสามารถลองให้คุณเริ่มต้นกับคำถามเฉพาะของคุณ

วันแรกของสัปดาห์จะรวมอยู่ในรูปแบบการเข้ารหัส. ที่นิยมมากที่สุดคือการเข้ารหัส 'หมวดหมู่อ้างอิง' (โดยทั่วไปเรียกว่าการเข้ารหัสแบบจำลอง) ให้จินตนาการว่าข้อมูลของคุณแสดงเป็นเมทริกซ์โดยมีตัวพิมพ์ในแถวและตัวแปรในคอลัมน์ ในรูปแบบนี้หากคุณมีตัวแปรเด็ดขาด 7 ประการ (เช่นสำหรับวันของสัปดาห์) คุณจะเพิ่มคอลัมน์ใหม่ 6 คอลัมน์ คุณจะเลือกหนึ่งวันเป็นหมวดหมู่อ้างอิงโดยทั่วไปเป็นหมวดหมู่ที่คิดว่าเป็นค่าเริ่มต้น บ่อยครั้งที่สิ่งนี้ได้รับแจ้งจากทฤษฎีบริบทหรือคำถามการวิจัย ฉันไม่มีความคิดที่จะดีที่สุดสำหรับวันในสัปดาห์ แต่มันก็ไม่สำคัญมากนักคุณสามารถเลือกคนเก่าได้ เมื่อคุณมีหมวดหมู่อ้างอิงคุณสามารถกำหนดตัวแปรอื่นให้กับตัวแปรใหม่ 6 ตัวของคุณจากนั้นคุณเพียงแค่ระบุว่าตัวแปรนั้นได้รับมาสำหรับแต่ละกรณีหรือไม่ ตัวอย่างเช่นสมมติว่าคุณเลือกวันอาทิตย์เป็นหมวดหมู่อ้างอิง คอลัมน์ / ตัวแปรใหม่ของคุณคือวันจันทร์ถึงวันเสาร์ ทุกการสังเกตที่เกิดขึ้นในวันจันทร์จะถูกระบุด้วยในคอลัมน์วันจันทร์และ 0ที่อื่น สิ่งเดียวกันนี้จะเกิดขึ้นกับการสังเกตการณ์ในวันอังคารเป็นต้น โปรดทราบว่าไม่มีกรณีใดสามารถรับคอลัมน์ 1ใน 2 หรือมากกว่าและการสังเกตที่เกิดขึ้นในวันอาทิตย์ (หมวดหมู่อ้างอิง) จะมี 0ในตัวแปรใหม่ทั้งหมดของคุณ มีรูปแบบการเข้ารหัสอื่น ๆ อีกมากมายที่เป็นไปได้และลิงก์ทำงานได้ดีในการแนะนำพวกเขา คุณสามารถทดสอบเพื่อดูว่าวันของสัปดาห์สำคัญหรือไม่โดยการทดสอบแบบจำลองซ้อนกับตัวแปร 6 ตัวใหม่ที่ลดลงเทียบกับแบบจำลองเต็มรูปแบบที่มีทั้ง 6 แบบรวมอยู่ด้วย โปรดทราบว่าคุณไม่ควรใช้การทดสอบที่มีการรายงานด้วยเอาต์พุตมาตรฐานเนื่องจากสิ่งเหล่านี้ไม่ได้เป็นอิสระและมีปัญหาการเปรียบเทียบหลายอย่างที่แท้จริง 1010

เป็นเวลานานแล้วที่ฉันได้ดูว่า Excel ทำสถิติได้อย่างไรและฉันจำไม่ได้อย่างชัดเจนดังนั้นคนอื่นอาจช่วยคุณได้มากขึ้น หน้านี้ดูเหมือนจะมีข้อมูลบางอย่างเกี่ยวกับข้อมูลเฉพาะของการถดถอยใน Excel ฉันสามารถบอกคุณเพิ่มเติมเล็กน้อยเกี่ยวกับสถิติที่รายงานโดยทั่วไปในผลลัพธ์การถดถอย:

  • r1
  • rrrrr
  • rr×r10r1R21rR2) มีอคติสูงในการถดถอยหลายครั้ง นั่นคือยิ่งคุณคาดเดาสิ่งที่คุณเพิ่มลงในแบบจำลองของคุณมากเท่าไหร่สถิติเหล่านี้ก็จะยิ่งสูงขึ้นไม่ว่าจะมีความสัมพันธ์ใด ๆ หรือไม่ก็ตาม ดังนั้นคุณควรระมัดระวังเกี่ยวกับการตีความ
  • tF
  • p
  • tFpF1F
  • FF

จุดสุดท้ายที่ควรค่าแก่การเน้นคือกระบวนการนี้ไม่สามารถแยกออกจากบริบทของมัน เพื่อให้สามารถวิเคราะห์ข้อมูลได้ดีคุณต้องเก็บความรู้พื้นฐานและคำถามการวิจัยไว้ในใจ ฉันพาดพิงถึงเรื่องนี้ด้านบนเกี่ยวกับการเลือกหมวดหมู่อ้างอิง ตัวอย่างเช่นคุณทราบว่าขนาดของรองเท้าไม่ควรเกี่ยวข้อง แต่สำหรับFlintstonesอาจเป็นไปได้! ฉันแค่ต้องการรวมความจริงนี้เพราะมันมักจะถูกลืม


5
(+1) Excel สามารถทำการถดถอยหลายครั้งและมีคำสั่งที่สามารถสร้างตารางสรุปมาตรฐานได้ เมื่อพิจารณาถึงแนวโน้มในอดีตจะเป็นอย่างมาก (เลอะเทอะ) ด้วยการคำนวณค่าการกระจายความสามารถจะต้องถูกมองเหมือนสุนัขของซามูเอลจอห์นสันจอห์นสัน : "... สุนัขกำลังเดินอยู่บนขาหลังของเขา มันทำได้เลย "
whuber

3

คุณจบด้วยคำถามมากมายที่ต้องใช้การถดถอย "การสอน" ให้ฉันบอกว่า R ^ 2 ที่สูงขึ้นนั้นดีกว่า แต่ก็มีข้อแม้ R ^ 2 ขึ้นไปเสมอเมื่อคุณเพิ่มตัวแปรเพื่อให้คุณสามารถพองมัน ดูการทดสอบที่สำคัญดูการวินิจฉัยที่เหลือ ฯลฯ เกี่ยวกับวันในสัปดาห์วันจันทร์ = 1 วันอังคาร = 2 ฯลฯ จะไม่ใช่วิธีที่จะไป สิ่งที่คุณต้องการคือตัวแปรตัวบ่งชี้ฤดูกาล: 0/1 ถ้าวันจันทร์, 0/1 ถ้าวันอังคาร ฯลฯ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.