ใช้แบบจำลองการถดถอยเพื่อคาดการณ์: เมื่อใดจะหยุด?


9

ฉันคำนวณรูปแบบการถดถอยเชิงเส้นอย่างง่ายจากการทดลองของฉันเพื่อคาดการณ์ ฉันได้อ่านแล้วว่าคุณไม่ควรคำนวณการทำนายสำหรับคะแนนที่ออกไปไกลเกินไปจากข้อมูลที่มี อย่างไรก็ตามฉันไม่สามารถหาคำแนะนำใด ๆ เพื่อช่วยให้ฉันรู้ว่าฉันสามารถคาดการณ์ได้ไกลแค่ไหน ตัวอย่างเช่นหากฉันคำนวณความเร็วในการอ่านสำหรับขนาดดิสก์ 50GB ฉันเดาว่าผลลัพธ์จะใกล้เคียงกับความเป็นจริง ขนาดของดิสก์ 100GB, 500GB เป็นเท่าไหร่ ฉันจะรู้ได้อย่างไรว่าการทำนายของฉันใกล้เคียงกับความเป็นจริง?

รายละเอียดของการทดสอบของฉันคือ:

ฉันวัดความเร็วในการอ่านของซอฟต์แวร์โดยใช้ขนาดดิสก์ที่แตกต่างกัน จนถึงตอนนี้ฉันวัดด้วย 5GB ถึง 30GB โดยเพิ่มขนาดดิสก์ 5GB ระหว่างการทดลอง (ทั้งหมด 6 การวัด)

ผลลัพธ์ของฉันเป็นเส้นตรงและข้อผิดพลาดมาตรฐานมีขนาดเล็กในความคิดของฉัน


2
ฉันคิดว่าเพื่อที่จะได้คำตอบที่เป็นประโยชน์คุณจะต้องขยายและชี้แจงประโยคที่ 2 ของคุณอย่างมาก
rolando2

rolando2 ถูกต้อง คุณหมายถึง "การทำนายมากเกินไป"?
David Robinson

ฉันไม่สามารถค้นหาคำศัพท์ที่ใช้ในเอกสารที่ฉันอ่านได้ ความคิดคือ "ไกลเกินไปจากมาตรการเดิมของฉัน" ฉันเลยวัดความเร็วการอ่านด้วยดิสก์ 30 GB ถ้าฉันทำนายความเร็วในการอ่านสำหรับดิสก์ 100GB นี่คือ "ไกลเกินไป" หรือไม่?
Flanfl

คำตอบโดย gung นั้นเพียงพอสำหรับการสรุปประเด็นที่เกี่ยวข้อง อีกสิ่งหนึ่งที่อาจช่วยในกรณีเฉพาะของคุณคือการพิจารณากระบวนการทางกายภาพที่เกี่ยวข้องกับการอ่านซอฟต์แวร์ ต้องมีการดำเนินการแบบใด ซอฟต์แวร์จำเป็นต้องจัดระเบียบหรือจัดเรียงดิสก์เป็นส่วนหนึ่งของกระบวนการอ่านหรือไม่ คำถามเหล่านี้จะช่วยให้พื้นฐานบางอย่างสำหรับสมมติฐานของความเป็นเส้นตรง
ความน่าจะเป็นทาง

คำตอบ:


19

คำที่คุณค้นหาคือ 'การคาดการณ์' ปัญหาคือไม่ว่าคุณจะมีข้อมูลเท่าใดและมีกี่ระดับกลางที่คุณมีระหว่างจุดปลายบนขนาดดิสก์ (เช่นระหว่าง 5 และ 30) มันเป็นไปได้เสมอที่มีระดับความโค้งในฟังก์ชันพื้นฐานจริง คุณไม่มีพลังในการตรวจจับ เป็นผลให้เมื่อคุณคาดการณ์ไกลออกไปจากจุดสิ้นสุดความโค้งเล็ก ๆ น้อย ๆ จะขยายออกไปในเมื่อฟังก์ชั่นที่แท้จริงเคลื่อนไปไกลกว่าและห่างจากเส้นพอดี ความเป็นไปได้อีกอย่างก็คือฟังก์ชั่นที่แท้จริงนั้นอยู่ในขอบเขตที่ตรวจสอบอย่างสมบูรณ์ แต่อาจมีจุดเปลี่ยนที่ระยะทางจากจุดสิ้นสุดในการศึกษาของคุณ สิ่งต่าง ๆ เหล่านี้เป็นไปไม่ได้ที่จะแยกแยะ คำถามคือ, เป็นไปได้มากน้อยเพียงใดและการทำนายของคุณจะไม่ถูกต้องหากพวกเขากลายเป็นจริง ฉันไม่รู้วิธีให้คำตอบเชิงวิเคราะห์สำหรับคำถามเหล่านั้น ลางสังหรณ์ของฉันคือ 500 อยู่ไกลมากเมื่อช่วงที่อยู่ระหว่างการศึกษาคือ [5, 30] แต่ไม่มีเหตุผลจริงที่จะคิดว่าลางสังหรณ์ของฉันมีค่ามากกว่าของคุณ สูตรมาตรฐานสำหรับการคำนวณช่วงการทำนายจะแสดงช่วงเวลาการขยายเมื่อคุณย้ายออกไปx¯การดูว่าช่วงเวลานั้นดูเหมือนว่าอาจมีประโยชน์ อย่างไรก็ตามคุณต้องจำไว้ว่าคุณกำลังตั้งสมมติฐานทางทฤษฎีว่าเส้นตรงนั้นสมบูรณ์แบบจริง ๆ และยังคงอยู่ตลอดไปจนถึงx- มูลค่าที่คุณจะใช้สำหรับการทำนาย ความถูกต้องตามกฎหมายของการคาดการณ์นั้นขึ้นอยู่กับทั้งข้อมูลและความเหมาะสมและสมมติฐานนั้น


2
เห็นด้วยทั้งหมด (+1) คำตอบสำหรับคำถามนี้ไม่สามารถเชิงสถิติอย่างเคร่งครัด การพูดคุยกับวิศวกรซอฟต์แวร์และคอมพิวเตอร์จะมีความเกี่ยวข้องที่นี่!
Dominic Comtois

ขอบคุณสำหรับคำตอบมันมีประโยชน์จริงๆ ฉันสอนตัวเองดังนั้นฉันจึงขาดความรู้พื้นฐานค่อนข้างมาก (เช่นรู้คำศัพท์)
Flanfl

การผกผันของความกว้างของช่วงความมั่นใจไม่สามารถพิจารณาตัวบ่งชี้ "ความแข็งแกร่ง" ของการทำนายได้หรือไม่ เห็นได้ชัดว่าคุณต้องเลือกค่าตามอำเภอใจเพื่อใช้มัน ..
naught101

2
@ naught101, ถ้าคุณเต็มใจที่จะคิดว่าเส้นถดถอยตรงอย่างสมบูรณ์, ความกว้างของช่วงการทำนายนั้นถือได้ว่าเป็นการวัดความแข็งแกร่งของการทำนาย, (ช่วงเวลากว้าง / กว้างขึ้นบ่งชี้การคาดการณ์ที่อ่อนแอ), แต่ก็ยัง ขึ้นอยู่กับสมมติฐานที่ว่า
gung - Reinstate Monica

7

ให้ฉันเพิ่มคะแนนไปที่คำตอบที่ยอดเยี่ยมของ @ gung:

  • ขึ้นอยู่กับสาขาของคุณอาจมีบรรทัดฐานที่เกี่ยวข้อง(เช่น DIN / EN หรือ ISO) นี่อาจจะเป็นไม่เป็นปัญหากับการทำนายฮาร์ดดิสก์ความเร็วในการอ่าน แต่เช่นในการวิเคราะห์ทางเคมีกฎคือไม่มีการคาดการณ์ ระยะเวลา หากคุณต้องการไปไกลถึง 500 GB จากนั้นไปและทำการวัดบางอย่างรวมถึง 500 GB

  • วิธีการตั้งค่าแบบจำลองเชิงเส้นปกติมีสมมติฐานที่สำคัญสองข้อ

    • เห็นได้ชัดว่าฟังก์ชันนั้นเป็นเส้นตรง ในทางปฏิบัติมันมักจะไม่ได้เป็นข้อสันนิษฐานที่ดีมากที่ความเป็นเส้นตรงขยายไปถึงอนันต์ เช่นคุณสามารถคาดหวังว่าจะยังหาลิเนียริตี้ (linearity) ถ้าคุณอ่านจำนวนที่มากกว่าโวลุ่มฮาร์ดดิสก์

    • โดยปกติแล้วจะถือว่า homoskedasticity ซึ่งหมายความว่าจำนวนข้อผิดพลาด / เสียงที่แน่นอนไม่ได้ขึ้นอยู่กับการพึ่งพา (x) ตัวแปรที่นี่: จำนวนข้อมูลที่จะอ่าน ฉันไม่แน่ใจเกี่ยวกับการอ่านฮาร์ดดิสก์ แต่ฉันพบ (เคมี / เคมี) มักจะมีอะไรบางอย่างระหว่างเสียงสัมพัทธ์สัมบูรณ์และเสียงคงที่คงที่ (หรือพฤติกรรมที่ซับซ้อนมากขึ้นเนื่องจากแหล่งกำเนิดเสียงที่แตกต่างกัน)
      การเบี่ยงเบนใด ๆ จากค่าคงที่ของจำนวนเสียงคงที่จะหมายความว่าช่วงการคาดการณ์สำหรับการคาดการณ์ผิดไปอย่างผิดปกติ - โดยปกติแล้วพวกเขาจะแคบเกินไป

  • แม้ว่าจะพบกับสมมติฐานเหล่านี้แล้วให้พิจารณาว่าช่วงเวลาการทำนายนั้นมีขนาดใหญ่เท่าใดสำหรับการประมาณค่าแบบนั้น

    ช่วงการสอบเทียบ lm การประมาณค่า lm

    (ฉันใช้ข้อมูลการสอบเทียบจริงของการวัดที่ดีมากที่ฉันมีและปรับให้เข้ากับปัญหาของคุณ)
    โปรดทราบว่าช่วงเวลาการทำนายที่x= 500 มีขนาดใหญ่เป็นสองเท่าของผลต่างทั้งหมดเสื้อข้อมูลการสอบเทียบของคุณครอบคลุม! หากคุณไม่มีชุดข้อมูลเชิงเส้นที่ดีเหลือเกินช่วงเวลาการทำนายจะ "ระเบิด"


1
+1, ข้อสันนิษฐานความเป็นหนึ่งเดียวเป็นสิ่งที่ดีนอกเหนือจากการอภิปรายที่นี่ (โน้ตเล็ก ๆ โดย "Dot." คุณหมายถึงช่วงเวลาเป็นวิธีในการเน้นย้ำถึงขั้นสุดท้ายของกฎที่ระบุไว้ในประโยคก่อนหน้าหรือไม่)
gung - Reinstate Monica

@gung: ถ้าระยะเวลาเป็นคำนั้นเป็นสิ่งที่ฉันหมายถึง :-) ขอบคุณ
cbeleites ไม่มีความสุขกับ SX

2
การเรียกจุด "dot" ใช้สำหรับคำศัพท์คอมพิวเตอร์เท่านั้นและโดยเฉพาะอย่างยิ่งสำหรับ URL (เช่น "stats dot stackexchange dot com") มันเป็นการใช้งานที่ค่อนข้างใหม่ในภาษาอังกฤษอาจมีอายุประมาณ 20 ปี
gung - Reinstate Monica

1
ขอบคุณสำหรับคะแนนเพิ่มเติมของคุณ ฉันทำงานของฉันเสร็จแล้วสักครู่ แต่ฉันหวังว่าคำตอบของคำถามนี้จะช่วยนักเรียนคนอื่น ๆ !
Flanfl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.