คำถามติดแท็ก gradient

2
การไล่ระดับสีเพื่อเพิ่มการถดถอยเชิงเส้น - ทำไมมันไม่ทำงาน?
ในขณะที่เรียนรู้เกี่ยวกับการไล่ระดับสีแบบค่อยเป็นค่อยไปฉันไม่เคยได้ยินข้อ จำกัด ใด ๆ เกี่ยวกับคุณสมบัติของ "ตัวจําแนกแบบอ่อน" ที่วิธีใช้ในการสร้างและสร้างแบบจําลองทั้งหมด อย่างไรก็ตามฉันไม่สามารถจินตนาการแอปพลิเคชันของ GB ที่ใช้การถดถอยเชิงเส้นและในความเป็นจริงเมื่อฉันทำการทดสอบบางอย่าง - มันไม่ทำงาน ฉันกำลังทดสอบวิธีมาตรฐานที่สุดด้วยการไล่ระดับสีของผลรวมของส่วนที่เหลือกำลังสองและการเพิ่มแบบจำลองที่ตามมาเข้าด้วยกัน ปัญหาที่เห็นได้ชัดคือส่วนที่เหลือจากแบบจำลองแรกมีประชากรในลักษณะที่ไม่มีเส้นการถดถอยให้เหมาะสมอีกต่อไป การสังเกตอีกอย่างของฉันคือผลรวมของตัวแบบการถดถอยเชิงเส้นที่ตามมาสามารถแสดงเป็นตัวแบบการถดถอยแบบเดียวได้เช่นกัน (การเพิ่มการสกัดกั้นทั้งหมดและสัมประสิทธิ์ที่สอดคล้องกัน) ดังนั้นฉันจึงไม่สามารถจินตนาการได้ว่า การสังเกตครั้งสุดท้ายคือการถดถอยเชิงเส้น (วิธีการทั่วไปมากที่สุด) ใช้ผลรวมของค่าคงที่กำลังสองเป็นฟังก์ชันการสูญเสียซึ่งเป็นค่าเดียวกับที่ GB ใช้ ฉันคิดเกี่ยวกับการลดอัตราการเรียนรู้หรือใช้เพียงชุดย่อยของตัวทำนายสำหรับการวนซ้ำแต่ละครั้ง แต่ก็ยังสามารถสรุปได้ถึงการนำเสนอแบบจำลองเดียวในที่สุดดังนั้นฉันคิดว่ามันจะไม่ทำให้ดีขึ้น สิ่งที่ฉันหายไปที่นี่? การถดถอยเชิงเส้นอย่างใดที่ไม่เหมาะสมที่จะใช้กับการไล่ระดับสีไล่โทนสี? เป็นเพราะการถดถอยเชิงเส้นใช้ผลรวมของส่วนที่เหลือกำลังสองเป็นฟังก์ชันการสูญเสียหรือไม่? มีข้อ จำกัด บางประการเกี่ยวกับตัวพยากรณ์ที่อ่อนแอเพื่อให้สามารถใช้กับการไล่ระดับสีไล่โทนสีได้หรือไม่?

1
การไล่ระดับสีเป็นการส่งเสริมที่เหมาะสมสำหรับข้อมูลที่มีอัตราเหตุการณ์ต่ำเช่น 1% หรือไม่
ฉันพยายามไล่ระดับสีบนชุดข้อมูลที่มีอัตราเหตุการณ์ประมาณ 1% โดยใช้ Enterprise miner แต่ล้มเหลวในการสร้างเอาต์พุตใด ๆ คำถามของฉันคือเนื่องจากเป็นแนวทางการตัดสินใจโดยใช้ต้นไม้มันเป็นสิทธิที่จะใช้การไล่ระดับสีด้วยเหตุการณ์ระดับต่ำเช่นนี้หรือไม่?

2
การไล่ระดับสีของโครงข่ายประสาทชั้นเดียวนั้นมีอินพุตเป็นตัวดำเนินการในกฎลูกโซ่คืออะไร
ปัญหาคือ: สืบทอดการไล่ระดับสีสำหรับเลเยอร์อินพุตสำหรับเน็ตเวิร์กโครงข่ายประสาทชั้นเดียวที่ซ่อนอยู่โดยใช้ sigmoid สำหรับอินพุต -> ซ่อน, ซอฟต์แม็กซ์สำหรับซ่อน -> เอาต์พุต, ด้วยการสูญเสียเอนโทรปี ฉันสามารถผ่านมาส่วนใหญ่โดยใช้กฎลูกโซ่ แต่ฉันไม่แน่ใจเกี่ยวกับวิธี "โซ่" พวกเขาจริง ๆ กัน กำหนดสัญลักษณ์บางอย่าง r=xW1+b1r=xW1+b1 r = xW_1+b_1 h=σ(r)h=σ(r) h = \sigma\left( r \right) , σσ\sigmaเป็นฟังก์ชัน sigmoid θ=hW2+b2θ=hW2+b2 \theta = hW_2+b_2 , y^=S(θ)y^=S(θ) \hat{y} = S \left( \theta \right) , SSSคือฟังก์ชัน softmax J(y^)=∑iylogy^iJ(y^)=∑iylog⁡y^i J\left(\hat{y}\right) = \sum_i y …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.