คำถามเกี่ยวกับการสร้างมาตรฐานในการถดถอยแบบสัน


17

เฮ้พวกฉันพบเอกสารหนึ่งหรือสองฉบับที่ใช้การถดถอยแบบสัน (สำหรับข้อมูลบาสเก็ตบอล) ฉันได้รับคำสั่งให้ปรับมาตรฐานตัวแปรของฉันเสมอถ้าฉันวิ่งสันเขาถดถอย แต่ฉันก็แค่บอกให้ทำอย่างนี้เพราะสันเขาเป็นตัวแปรขนาด (การถดถอยสันไม่ได้เป็นส่วนหนึ่งของหลักสูตรของเรา

เอกสารเหล่านี้ที่ฉันอ่านไม่ได้ทำให้ตัวแปรของพวกเขาเป็นมาตรฐานซึ่งฉันพบว่าน่าแปลกใจเล็กน้อย พวกเขายังจบลงด้วยค่าแลมบ์ดาขนาดใหญ่ (ประมาณระดับ 2,000-4,000) ผ่านการตรวจสอบความถูกต้องของข้อมูลและฉันได้รับการบอกว่าสิ่งนี้เกิดจากการไม่ปรับมาตรฐานของตัวแปร

การปล่อยให้ตัวแปรนำไปสู่ค่าแลมบ์ดาที่ไม่ได้มาตรฐานนั้นมีความแม่นยำเพียงใดและผลที่ตามมาของการไม่ทำให้ตัวแปรโดยทั่วไปเป็นมาตรฐานคืออะไร มันเป็นเรื่องใหญ่จริงเหรอ?

ความช่วยเหลือใด ๆ ที่ชื่นชมมาก

คำตอบ:


18

การถดถอยแบบสันทำให้การถดถอยเชิงเส้นเป็นแบบปกติโดยกำหนดโทษกับขนาดของสัมประสิทธิ์ ดังนั้นค่าสัมประสิทธิ์จะหดเป็นศูนย์และต่อกันและกัน แต่เมื่อสิ่งนี้เกิดขึ้นและหากตัวแปรอิสระไม่มีขนาดเท่ากันการหดตัวก็ไม่ยุติธรรม ตัวแปรอิสระสองตัวที่มีตาชั่งที่แตกต่างกันจะมีส่วนร่วมที่แตกต่างกันไปในแง่ของการลงโทษเพราะคำที่ลงโทษนั้นเป็นผลรวมของกำลังสองของสัมประสิทธิ์ทั้งหมด เพื่อหลีกเลี่ยงปัญหาประเภทนี้บ่อยครั้งมากที่ตัวแปรอิสระจะถูกจัดกึ่งกลางและปรับขนาดเพื่อให้มีความแปรปรวน 1

[แก้ไขในภายหลังเพื่อตอบความคิดเห็น]

heighเสื้อ

ศัพท์การลงโทษที่มีแลมบ์ดานั้นเหมือนกับการแสดงฟังก์ชันการสูญเสียกำลังสองเทียบกับผลรวมของสัมประสิทธิ์กำลังสองน้อยกว่าหรือเท่ากับค่าคงที่ที่กำหนด นั่นหมายความว่าแลมบ์ดาที่ใหญ่กว่าให้พื้นที่มากกับสัมประสิทธิ์ผลรวมกำลังสองและแลมบ์ดาล่างมีพื้นที่เล็กลง ช่องว่างขนาดใหญ่ขึ้นหรือเล็กลงหมายถึงค่าสัมประสิทธิ์สัมบูรณ์ที่มากขึ้นหรือเล็กลง

โดยไม่ใช้มาตรฐานแล้วเพื่อให้พอดีกับแบบจำลองอาจต้องใช้ค่าสัมประสิทธิ์สัมบูรณ์ขนาดใหญ่ แน่นอนว่าเราอาจมีค่าสัมประสิทธิ์ขนาดใหญ่ตามธรรมชาติเนื่องจากบทบาทของตัวแปรในโมเดล สิ่งที่ฉันระบุคือค่านี้อาจมีค่าที่สูงเกินจริงเนื่องจากไม่ปรับขนาด ดังนั้นการลดขนาดยังลดความต้องการค่าสัมประสิทธิ์จำนวนมาก ดังนั้นค่าที่เหมาะสมของแลมบ์ดามักจะมีขนาดเล็กลงซึ่งสอดคล้องกับผลรวมของค่าสัมประสิทธิ์กำลังสองที่น้อยลง


ขอบคุณ จะไม่ทำให้มาตรฐานการทดสอบข้อผิดพลาดที่สูงขึ้น (ผ่านการตรวจสอบข้าม) และแลมบ์ดาที่สูงขึ้นจำเป็นอย่างไร
l_davies93

ฉันต่อท้ายความคิดของฉันในคำตอบ
rapaio

ฉันรู้ว่านี่เป็นคำถามเก่า แต่คุณสามารถอธิบายได้ไหมว่าทำไมพารามิเตอร์การปรับแต่งควรใหญ่ขึ้นถ้าเราแปลงข้อมูลจากกิโลเมตรเป็นเมตรตัวอย่าง
Leo96

1

แม้ว่าจะล่าช้าไปสี่ปีหวังว่าจะมีใครได้ประโยชน์จากสิ่งนี้ .... วิธีที่ฉันเข้าใจ coeff คือการเปลี่ยนแปลงของตัวแปรเป้าหมายสำหรับการเปลี่ยนแปลงหน่วยในตัวแปรอิสระ (dy / dx) ให้เราสมมติว่าเรากำลังศึกษาความสัมพันธ์ระหว่างน้ำหนักและส่วนสูงกับน้ำหนักที่วัดเป็นกิโลกรัม เมื่อเราใช้ความสูงเป็นกิโลเมตรคุณสามารถจินตนาการถึงจุดข้อมูลส่วนใหญ่ (สำหรับความสูงของมนุษย์) ได้อย่างใกล้ชิด ดังนั้นสำหรับการเปลี่ยนแปลงเล็กน้อยในความสูงจะมีการเปลี่ยนแปลงน้ำหนักอย่างมาก (สมมติว่าน้ำหนักเพิ่มขึ้นตามความสูง) อัตราส่วน dy / dx จะใหญ่มาก ในทางกลับกันหากความสูงมีหน่วยวัดเป็นมิลลิเมตรข้อมูลจะถูกกระจายไปทั่วในระดับความสูง การเปลี่ยนหน่วยความสูงจะไม่มีการเปลี่ยนแปลงอย่างมีนัยสำคัญในน้ำหนัก dy / dx จะมีขนาดเล็กมากเกือบใกล้เคียงกับ 0

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.