จำเป็นหรือไม่ที่จะต้องขยายขนาดมูลค่าเป้าหมายนอกเหนือจากคุณสมบัติการปรับขนาดสำหรับการวิเคราะห์การถดถอย

52

ฉันกำลังสร้างแบบจำลองการถดถอย ในขั้นตอนก่อนการประมวลผลฉันปรับขนาดคุณสมบัติของฉันให้มีค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน 1 จำเป็นต้องทำให้ค่าเป้าหมายเป็นมาตรฐานด้วยหรือไม่

regression machine-learning

— user2806363
แหล่งที่มา

50

ก่อนอื่นเรามาวิเคราะห์ว่าทำไมการขยายขนาดของฟีเจอร์จึงทำได้ การปรับขนาดของภาพช่วยเพิ่มการบรรจบกันของอัลกอริธึมที่ลาดชันที่สุดซึ่งไม่ได้มีคุณสมบัติของความแปรปรวนของสเกล

ในตัวอย่างการฝึกอบรมการไล่ระดับสีแบบลาดสุ่มแจ้งการปรับปรุงน้ำหนักซ้ำ ๆ เช่นนั้น

w_{t + 1} = w_{t} - γ \nabla_{w} ℓ (f_{w} (x), y)

$w_{t+1} = w_t - \gamma\nabla_w \ell(f_w(x),y)$

โดยที่คือน้ำหนักเป็น stepizeคือน้ำหนักของการไล่ระดับสีคือฟังก์ชั่นการสูญเสียคือฟังก์ชั่นที่กำหนดพารามิเตอร์โดย ,เป็นตัวอย่างการฝึกอบรมและคือการตอบสนอง / ฉลาก $w$ $\gamma$ $\nabla_w$ $\ell$ $f_w$ $w$ $x$ $y$

เปรียบเทียบฟังก์ชั่นนูนต่อไปนี้ซึ่งแสดงถึงการปรับขนาดที่เหมาะสมและการปรับขนาดที่ไม่เหมาะสม

การปรับคุณสมบัติ

ขั้นตอนหนึ่งผ่านการอัปเดตน้ำหนักขนาดจะทำให้การลดข้อผิดพลาดในกรณีที่ปรับขนาดถูกต้องดีกว่ากรณีที่ปรับขนาดอย่างไม่เหมาะสม แสดงด้านล่างเป็นทิศทางของของความยาว\ $\gamma$ $\nabla_w \ell(f_w(x),y)$ $\gamma$

ปรับปรุงการไล่ระดับสี

การทำให้ผลลัพธ์เป็นปกติจะไม่ส่งผลกระทบต่อรูปร่างของดังนั้นโดยทั่วไปไม่จำเป็น $f$

สถานการณ์เดียวที่ฉันสามารถจินตนาการการปรับขนาดผลลัพธ์มีผลกระทบคือถ้าตัวแปรตอบสนองของคุณมีขนาดใหญ่มากและ / หรือคุณกำลังใช้ตัวแปร f32 (ซึ่งเป็นเรื่องปกติกับพีชคณิตเชิงเส้นของ GPU) ในกรณีนี้เป็นไปได้ที่จะได้รับจุดลอยตัวขององค์ประกอบของน้ำหนัก อาการเป็นได้ทั้งค่า Inf หรือมันจะล้อมรอบไปที่การเป็นตัวแทนที่รุนแรงอื่น ๆ

— เจสสิก้ามิก
แหล่งที่มา

แต่ถ้าเราไม่ปรับขนาดอินพุตและใช้ Gradient Descent เพื่อแก้ปัญหาทีต้าในบางอย่างเช่น y = theta0 + theta1 * x1 + theta2 * x2 ถ้าเรากำลังอัปเดตค่าของ X1 และ X2 (โดยปรับขนาดพวกมัน) ในขณะที่รักษา Y (เอาท์พุทที่คาดหวัง) เหมือนกันการคาดการณ์ผลลัพธ์สำหรับ theta1, theta2 จะไม่ผิดเมื่อเรานำไปใช้กับสมการเดิมหรือไม่

— Prashant

14

โดยทั่วไปไม่จำเป็น การปรับอินพุตช่วยในการหลีกเลี่ยงสถานการณ์เมื่อคุณสมบัติหนึ่งหรือหลายอย่างมีอิทธิพลเหนือขนาดอื่น ๆ แบบจำลองแทบจะไม่ได้รับการสนับสนุนจากตัวแปรขนาดเล็กแม้ว่าจะแข็งแกร่งก็ตาม แต่ถ้าคุณปรับขนาดเป้าหมายข้อผิดพลาดกำลังสองเฉลี่ยของคุณจะถูกปรับสัดส่วนโดยอัตโนมัติ MSE> 1 โดยอัตโนมัติหมายความว่าคุณกำลังทำสิ่งที่แย่กว่าการคาดคะเนที่ไม่แน่นอน

— inzl
แหล่งที่มา

7

ไม่การแปลงเชิงเส้นของการตอบสนองนั้นไม่จำเป็น อย่างไรก็ตามอาจช่วยในการตีความโมเดลของคุณได้ ตัวอย่างเช่นหากการตอบสนองของคุณมีหน่วยเป็นเมตร แต่โดยทั่วไปจะมีขนาดเล็กมากมันอาจเป็นประโยชน์ในการลดขนาดเป็นมิลลิเมตร โปรดทราบว่าการจัดกึ่งกลางและ / หรือการปรับอินพุตจะมีประโยชน์ด้วยเหตุผลเดียวกัน ตัวอย่างเช่นคุณสามารถประมาณค่าสัมประสิทธิ์การตีความเป็นผลกระทบต่อการตอบสนองต่อการเปลี่ยนแปลงในหน่วยทำนายที่เป็นเมื่อทำนายอื่น ๆ ทั้งหมดจะถูกตั้งค่าเป็น 0 แต่ 0 มักจะไม่เป็นค่าที่ถูกต้องหรือน่าสนใจสำหรับตัวแปรเหล่านั้น การป้อนข้อมูลเข้ากึ่งกลางช่วยให้คุณตีความค่าสัมประสิทธิ์เป็นผลกระทบต่อการเปลี่ยนแปลงหน่วยเมื่อผู้ทำนายรายอื่นคิดค่าเฉลี่ย

การแปลงรูปแบบอื่น ๆ (เช่นบันทึกหรือรากที่สอง) อาจมีประโยชน์หากการตอบสนองไม่ตรงกับตัวทำนายในระดับดั้งเดิม หากเป็นกรณีนี้คุณสามารถอ่านเกี่ยวกับโมเดลเชิงเส้นทั่วไปเพื่อดูว่ามันเหมาะสมกับคุณหรือไม่

— alexk
แหล่งที่มา

1

มันไม่ส่งผลกระทบต่อการไล่ระดับสีโคตรในที่ไม่ดีทาง ตรวจสอบสูตรสำหรับการไล่ระดับสี:

x_{n + 1} = x_{n} - γ Δ F (x_{n})

$x_{n+1} = x_{n} - \gamma\Delta F(x_n)$

ช่วยบอกว่าเป็นคุณลักษณะที่ 1000 ครั้งยิ่งใหญ่กว่า $x_2$ $x_1$

สำหรับเราได้{x} วิธีที่ดีที่สุดในการเข้าถึง (0,0) ซึ่งเป็นระดับที่เหมาะสมที่สุดของโลกคือการเคลื่อนที่ข้ามเส้นทแยงมุม แต่ถ้าคุณสมบัติอย่างใดอย่างหนึ่งมีอิทธิพลเหนือสิ่งอื่นในแง่ของขนาดที่จะไม่เกิดขึ้น $F(\vec{x})=\vec{x}^2$ $\Delta F(\vec{x})=2*\vec{x}$

หากต้องการแสดงตัวอย่าง: หากคุณทำการแปลงให้ถือว่าอัตราการเรียนรู้สม่ำเสมอสำหรับทั้งสองพิกัดและคำนวณการไล่ระดับสีแล้วรูปแบบการทำงานเหมือนกัน แต่อัตราการเรียนรู้สำหรับพิกัดที่สองจะต้องปรับเป็น 1/1000 ของค่าพิกัดแรกเพื่อให้ตรงกับมัน หากไม่ได้ประสานงานสองจะครองและเวกเตอร์จะชี้ไปที่ทิศทางนั้นมากขึ้น $\vec{z}= (x_1,1000*x_1)$ $\gamma$

\vec{z_{n + 1}} = \vec{z_{n}} - γ Δ F (z_{1}, z_{2}) .

$\vec{z_{n+1}} = \vec{z_{n}} - \gamma\Delta F(z_1,z_2) .$

Δ

$\Delta$

ด้วยเหตุนี้มันจึงเอนเอียงเดลต้าให้ชี้ไปในทิศทางนั้นเท่านั้นและทำให้การบรรจบกันช้าลง

— drSPacy_
แหล่งที่มา

0

ใช่คุณจำเป็นต้องปรับขนาดตัวแปรเป้าหมาย ฉันจะอ้างอิงการอ้างอิงนี้ :

ตัวแปรเป้าหมายที่มีการแพร่กระจายของค่าขนาดใหญ่ในทางกลับกันอาจส่งผลให้เกิดข้อผิดพลาดการไล่ระดับสีที่มีขนาดใหญ่ทำให้ค่าน้ำหนักการเปลี่ยนแปลงอย่างมากทำให้กระบวนการเรียนรู้ไม่แน่นอน

ในการอ้างอิงนอกจากนี้ยังมีการสาธิตเกี่ยวกับรหัสที่น้ำหนักของแบบจำลองที่ระเบิดในระหว่างการฝึกอบรมได้รับข้อผิดพลาดที่มีขนาดใหญ่มากและในทางกลับกันการไล่ระดับสีของข้อผิดพลาดที่คำนวณสำหรับการปรับปรุงน้ำหนัก กล่าวโดยย่อหากคุณไม่ได้ปรับขนาดข้อมูลและคุณมีค่ามากให้แน่ใจว่าใช้ค่าอัตราการเรียนรู้ขนาดเล็กมาก เรื่องนี้ถูกกล่าวถึงโดย @drSpacy เช่นกัน

— Fernando Wittmann
แหล่งที่มา