วิธีเริ่มสร้างแบบจำลองการถดถอยเมื่อตัวทำนายที่เกี่ยวข้องมากที่สุดคือไบนารี


11

ฉันมีชุดข้อมูลที่มี 365 การสังเกตของสามตัวแปรคือpm, และtemp rainตอนนี้ฉันต้องการตรวจสอบพฤติกรรมของpmการตอบสนองต่อการเปลี่ยนแปลงในอีกสองตัวแปร ตัวแปรของฉันคือ:

  • pm10 = การตอบสนอง (ขึ้นอยู่กับ)
  • temp = ตัวทำนาย (อิสระ)
  • rain = ตัวทำนาย (อิสระ)

ต่อไปนี้เป็นเมทริกซ์สหสัมพันธ์สำหรับข้อมูลของฉัน:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

ปัญหาคือเมื่อฉันกำลังศึกษาการสร้างตัวแบบการถดถอยมันเขียนว่าวิธีการเติมแต่งคือการเริ่มต้นด้วยตัวแปรที่เกี่ยวข้องกับตัวแปรตอบสนองมากที่สุด ในชุดข้อมูลของฉันrainมีความสัมพันธ์อย่างมากกับpm(เมื่อเทียบกับtemp) แต่ในเวลาเดียวกันมันเป็นตัวแปรจำลอง (ฝน = 1, ไม่มีฝน = 0) ดังนั้นตอนนี้ฉันจึงได้รู้ว่าควรเริ่มจากที่ใด ผมได้แนบภาพสองภาพที่มีคำถาม: ที่แรกก็คือ scatterplot ของข้อมูลและภาพที่สองเป็น scatterplot ของpm10กับrainผมยังไม่สามารถที่จะแปลความหมายของ scatterplot เทียบกับpm10 rainบางคนสามารถช่วยฉันเริ่มต้นได้บ้าง

นี่คือพล็อตกระจายของข้อมูลของฉัน

พล็อตกระจายของ PM10 กับฝน


3
นี่เป็นคำถามที่ปฏิบัติได้อย่างสมบูรณ์แบบ IMO แม้ว่าจะได้รับจากความเข้าใจผิด
gung - Reinstate Monica

สิ่งหนึ่งที่ต้องจำด้วยการถดถอยคือตัวแปรขึ้นอยู่กับว่าจะเป็นตัวแปรสุ่มในขณะที่ทำนายจะถือว่าเป็นตัวแปรควบคุมการทดลอง (ดังนั้นควรระวังเมื่อคุณเปิดบางสิ่งบางอย่างบนหัวของมัน) ดูเหมือนจะไม่มีความสัมพันธ์เชิงบวกหรือเชิงลบใด ๆ ที่แข็งแกร่งในเมทริกซ์ของคุณเนื่องจากไม่มีเส้นทแยงมุม ? x i 1 , x i 2 , , x i p | r j k | > 0.8yixi1,xi2,,xip|rjk|>0.8
wrktsj

คำตอบ:


17

หลายคนเชื่อว่าคุณควรใช้กลยุทธ์บางอย่างเช่นเริ่มต้นด้วยตัวแปรที่เกี่ยวข้องมากที่สุดแล้วเพิ่มตัวแปรเพิ่มเติมจนกว่าจะไม่มีใครสนใจ อย่างไรก็ตามไม่มีตรรกะที่บังคับวิธีการนี้ ยิ่งไปกว่านั้นนี่เป็นกลยุทธ์การเลือก / การค้นหาตัวแปร 'โลภ' (คำตอบของฉันที่นี่: อัลกอริทึมสำหรับการเลือกรูปแบบอัตโนมัติ ) คุณไม่ต้องทำเช่นนี้และจริงๆคุณไม่ควร หากคุณต้องการทราบความสัมพันธ์ระหว่างpmและtempและrainเพียงแค่ปรับโมเดลการถดถอยหลายตัวพร้อมกับตัวแปรทั้งสามตัว คุณยังจะต้องประเมินโมเดลเพื่อตรวจสอบว่ามันสมเหตุสมผลหรือไม่และเป็นไปตามสมมติฐาน หากคุณต้องการทดสอบสมมติฐานล่วงหน้าคุณสามารถทำได้กับโมเดล หากคุณต้องการประเมินความแม่นยำในการทำนายตัวอย่างจากโมเดลคุณสามารถทำได้ด้วยการตรวจสอบความถูกต้องข้าม

คุณไม่จำเป็นต้องกังวลเกี่ยวกับความหลากหลายทางสีเช่นกัน ความสัมพันธ์ระหว่างtempและrainอยู่ในรายการ0.044ในเมทริกซ์ความสัมพันธ์ของคุณ นั่นคือความสัมพันธ์ที่ต่ำมากและไม่ควรทำให้เกิดปัญหาใด ๆ


1
ขอบคุณมากสำหรับคำแนะนำของคุณ ฉันยังใหม่กับไซต์นี้ไม่ทราบวิธีการใช้งานคุณสามารถให้คำแนะนำพิเศษหรือวัสดุการเรียนรู้ได้ไหม
Syed Asif Ali Shah

1
@SyedAsifAliShah นอกเหนือจากภาษาอังกฤษนั้นดูเหมือนจะไม่ใช่ภาษาท้องถิ่นของคุณฉันไม่เห็นปัญหาใด ๆ กับการที่คุณใช้งานเว็บไซต์ เกี่ยวกับวัสดุการศึกษาคุณอาจดูที่นี่หรือสิ่งนี้หรือเพียงแค่เรียกดูกระทู้ของเราด้วยแท็กอ้างอิง
gung - Reinstate Monica

ฉันควรลองใช้ตัวแบบเชิงเส้นหรือ GLM สำหรับข้อมูลของฉันหรือไม่?
Syed Asif Ali Shah

1
@SyedAsifAliShah น่าจะเป็นโมเดลเชิงเส้นที่ดีสำหรับข้อมูลของคุณ
gung - Reinstate Monica

พี่ชายฉันต้องการความช่วยเหลือของคุณ
Syed Asif Ali Shah

10

แม้ว่านี่จะไม่ได้ระบุที่อยู่ของชุดข้อมูลที่รวบรวมไว้ของคุณโดยตรง แต่สิ่งอื่นที่คุณสามารถลองได้ในครั้งต่อไปที่คุณรวบรวมข้อมูลเช่นนี้คือการหลีกเลี่ยงการบันทึก "ฝน" เป็นไบนารี ข้อมูลของคุณอาจจะให้ข้อมูลมากกว่านี้ถ้าคุณมีการวัดอัตราฝน (ซม. / ชม.) แทนซึ่งจะให้ตัวแปรที่กระจายอย่างต่อเนื่อง (ขึ้นอยู่กับความแม่นยำในการวัดของคุณ) จาก 0 ... max_rainfall

สิ่งนี้จะช่วยให้คุณมีความสัมพันธ์ไม่เพียง แต่ "ฝนกำลังตก" กับตัวแปรอื่น ๆ แต่ยัง "ฝนตกมากแค่ไหน"


สวัสดีพี่ชายฉันทำแบบเดียวกันตามคำแนะนำของคุณฉันรวบรวมข้อมูลเต็มรูปแบบของฝนและสร้างแบบจำลอง
Syed Asif Ali Shah

ฉันขออีเมลของคุณได้ไหม ??? ฉันแค่อยากถามคำถามสองสามข้อ
Syed Asif Ali Shah

หากคุณมีคำถามเพิ่มเติมเกี่ยวกับการตั้งค่าแบบจำลองของคุณบางทีคำถาม StackExchange ใหม่อาจเป็นหนทางไป ด้วยวิธีนี้คุณจะได้รับข้อเสนอแนะจากผู้คนจำนวนมากซึ่งหลาย ๆ คนมีความเชี่ยวชาญมากกว่าฉัน
JKreft

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.