สำหรับตัวแบบเชิงเส้นคำการหดตัวจะเป็นเสมอ
อะไรคือเหตุผลที่เราไม่ลดขนาดอคติ (การสกัดกั้น) คำว่า ? เราควรย่อคำอคติในโมเดลโครงข่ายประสาทเทียมหรือไม่
สำหรับตัวแบบเชิงเส้นคำการหดตัวจะเป็นเสมอ
อะไรคือเหตุผลที่เราไม่ลดขนาดอคติ (การสกัดกั้น) คำว่า ? เราควรย่อคำอคติในโมเดลโครงข่ายประสาทเทียมหรือไม่
คำตอบ:
องค์ประกอบของการเรียนรู้ทางสถิติโดย Hastie และคณะ กำหนดการถดถอยของสันดังต่อไปนี้ (ส่วน 3.4.1, สมการ 3.41):คือ ยกเว้นคำดักจับอย่างชัดเจนจากบทลงโทษของริดจ์ β 0
จากนั้นพวกเขาเขียน:
[... ] สังเกตว่ามีการตัดออกจากระยะเวลาการลงโทษ การลงโทษของการสกัดกั้นจะทำให้ขั้นตอนขึ้นอยู่กับที่มาที่เลือกสำหรับ ; นั่นคือการเพิ่มคงที่ให้กับแต่ละเป้าหมายจะไม่เพียงส่งผลให้เกิดการเปลี่ยนแปลงของการคาดการณ์โดยจำนวนเงินเดียวกันค Y c y ฉัน c
แท้จริงในการปรากฏตัวของระยะตัดเพิ่มทุกก็จะนำไปสู่เพิ่มขึ้นเป็นค่าที่ดีและตามลําดับทั้งหมดที่คาดการณ์ยังจะเพิ่มขึ้นโดยคนี้ไม่เป็นความจริงถ้าตัดมือสัมผัส:จะต้องเพิ่มขึ้นน้อยกว่าคY ฉันβ 0คYฉันคβ 0ค
ในความเป็นจริงมีคุณสมบัติที่ดีและสะดวกสบายหลายประการของการถดถอยเชิงเส้นซึ่งขึ้นอยู่กับว่ามีการสกัดกั้นระยะที่เหมาะสม เช่นค่าเฉลี่ยของและค่าเฉลี่ยของมีค่าเท่ากันและ (ดังนั้น) ค่าสัมประสิทธิ์สหสัมพันธ์กำลังสองหลายเท่ากับค่าสัมประสิทธิ์การตัดสินใจ :ดูตัวอย่างหัวข้อนี้สำหรับ คำอธิบาย: การตีความทางเรขาคณิตหลายค่าสัมประสิทธิ์สหสัมพันธ์และค่าสัมประสิทธิ์การตัดสินใจ 2Yฉัน R R 2 ( R ) 2 = cos 2 ( Y , Y ) = ‖ Y ‖ 2RR2
การลงโทษการสกัดกั้นจะนำไปสู่สิ่งที่ไม่เป็นจริงอีกต่อไป
ระลึกถึงวัตถุประสงค์ของการหดตัวหรือทำให้เป็นปกติ มันคือการป้องกันอัลกอริทึมการเรียนรู้ให้พอดีกับข้อมูลการฝึกอบรมหรือเทียบเท่า - ป้องกันการเลือกค่าพารามิเตอร์ที่มีขนาดใหญ่โดยพลการ นี่เป็นโอกาสสำหรับชุดข้อมูลที่มีตัวอย่างการฝึกอบรมมากกว่าสองสามตัวอย่างในที่ที่มีสัญญาณรบกวน (การอภิปรายที่น่าสนใจมากเกี่ยวกับการมีอยู่ของเสียงรบกวนและผลกระทบของมันถูกกล่าวถึงใน "การเรียนรู้จากข้อมูล" แบบจำลองที่เรียนรู้เกี่ยวกับข้อมูลที่มีเสียงดังซึ่งไม่มีการทำให้เป็นปกติจะมีประสิทธิภาพต่ำในบางจุดของข้อมูลที่มองไม่เห็น
ด้วยสิ่งนี้ในใจคิดว่าคุณมีจุดข้อมูล 2D ที่คุณต้องการจัดเป็นสองชั้น การแก้ไขทั้งหมดยกเว้นพารามิเตอร์ไบอัสการเปลี่ยนแปลงคำศัพท์ไบแอสจะย้ายขอบเขตขึ้นหรือลง คุณสามารถพูดคุยเรื่องนี้กับพื้นที่มิติที่สูงขึ้น
อัลกอริทึมการเรียนรู้ไม่สามารถใส่ค่าที่มีขนาดใหญ่โดยพลการสำหรับคำอคติเนื่องจากสิ่งนี้จะส่งผลให้เกิดมูลค่าการสูญเสียขั้นต้น (รูปแบบจะไม่พอดีกับข้อมูลการฝึกอบรม) กล่าวอีกนัยหนึ่งเมื่อกำหนดชุดการฝึกอบรมคุณ (หรืออัลกอริทึมการเรียนรู้) จะไม่สามารถย้ายระนาบออกไปโดยไม่ตั้งใจจากความจริง
ดังนั้นจึงไม่มีเหตุผลที่จะลดขนาดคำอคติอัลกอริทึมการเรียนรู้จะค้นหาสิ่งที่ดีโดยไม่มีความเสี่ยงของการมีน้ำหนักเกิน
หมายเหตุสุดท้าย: ฉันเห็นในกระดาษบางฉบับว่าเมื่อทำงานในที่ว่างในมิติสูงสำหรับการจัดหมวดหมู่ไม่จำเป็นต้องเข้มงวดในการสร้างแบบจำลองคำอคติ สิ่งนี้อาจใช้ได้กับข้อมูลที่แยกได้เชิงเส้นเนื่องจากมีการเพิ่มมิติข้อมูลมากขึ้นมีความเป็นไปได้มากกว่าที่จะแยกทั้งสองคลาส
ระยะการดักจับนั้นไม่มีผลกระทบต่อการหดตัว สูตรทั่วไป "การหดตัว" (เช่นการทำให้เป็นมาตรฐาน) ทำให้คำศัพท์ในฟังก์ชั่นการสูญเสียเช่น:
โดยที่มักจะเกี่ยวข้องกับบรรทัดฐาน lebesgue และเป็นเซนต์คิตส์และเนวิสที่ควบคุมน้ำหนักที่เราใส่ในเทอมการหดตัว
โดยการใส่คำย่อในฟังก์ชั่นการสูญเสียเช่นนี้มันมีผลกระทบต่อสัมประสิทธิ์ทั้งหมดในแบบจำลอง ฉันสงสัยว่าคำถามของคุณเกิดจากความสับสนเกี่ยวกับสัญกรณ์ซึ่งเป็น (ใน ) เป็นเวกเตอร์ของสัมประสิทธิ์ทั้งหมดรวม\โมเดลเชิงเส้นของคุณน่าจะเขียนได้ดีกว่าในฐานะโดยที่คือ "เมทริกซ์การออกแบบ" โดยที่ฉันหมายความว่ามันคือข้อมูลของคุณที่มีคอลัมน์ต่อท้ายซ้ายมือ )
ตอนนี้ฉันไม่สามารถพูดคุยกับการทำให้เป็นปกติสำหรับเครือข่ายประสาท เป็นไปได้ว่าสำหรับโครงข่ายประสาทเทียมคุณต้องการหลีกเลี่ยงการหดตัวของคำอคติหรือออกแบบฟังก์ชันการสูญเสียปกติที่แตกต่างจากสูตรที่อธิบายไว้ข้างต้น ฉันไม่รู้ แต่ฉันสงสัยอย่างยิ่งว่าเงื่อนไขน้ำหนักและอคตินั้นได้รับการรวมเข้าด้วยกันอย่างสม่ำเสมอ
ฉันไม่แน่ใจว่าคำตอบข้างต้นโดย David Marx ค่อนข้างถูกต้อง อ้างอิงจากแอนดรูว์อึ้งโดยทั่วไปแล้วค่าสัมประสิทธิ์ความเอนเอียง / การสกัดกั้นโดยทั่วไปไม่ได้ทำให้เป็นมาตรฐานในการถดถอยเชิงเส้นและไม่ว่าในกรณีใดก็ตาม