เหตุผลในการไม่ลดขนาดอคติ (การสกัดกั้น) ในการถดถอย


21

สำหรับตัวแบบเชิงเส้นคำการหดตัวจะเป็นเสมอy=β0+xβ+εP(β)

อะไรคือเหตุผลที่เราไม่ลดขนาดอคติ (การสกัดกั้น) คำว่า ? เราควรย่อคำอคติในโมเดลโครงข่ายประสาทเทียมหรือไม่β0


ไลบรารี liblinear สำหรับการถดถอยโลจิสติกที่ใช้ใน scikit เรียนรู้ลงโทษคำอคติ (ฉันคิดว่านี่เป็นสิ่งประดิษฐ์ที่นำไปใช้งานอคติถูกจัดการเป็นตัวแปรอินพุตพิเศษ)
seanv507

คำตอบ:


33

องค์ประกอบของการเรียนรู้ทางสถิติโดย Hastie และคณะ กำหนดการถดถอยของสันดังต่อไปนี้ (ส่วน 3.4.1, สมการ 3.41):คือ ยกเว้นคำดักจับอย่างชัดเจนจากบทลงโทษของริดจ์ β 0

β^Rผมdก.อี=aRก.ม.ผมnβ{Σผม=1ยังไม่มีข้อความ(Yผม-β0-ΣJ=1พีxผมJβJ)2+λΣJ=1พีβJ2},
β0

จากนั้นพวกเขาเขียน:

[... ] สังเกตว่ามีการตัดออกจากระยะเวลาการลงโทษ การลงโทษของการสกัดกั้นจะทำให้ขั้นตอนขึ้นอยู่กับที่มาที่เลือกสำหรับ ; นั่นคือการเพิ่มคงที่ให้กับแต่ละเป้าหมายจะไม่เพียงส่งผลให้เกิดการเปลี่ยนแปลงของการคาดการณ์โดยจำนวนเงินเดียวกันค Y c y ฉัน cβ0YYผม

แท้จริงในการปรากฏตัวของระยะตัดเพิ่มทุกก็จะนำไปสู่เพิ่มขึ้นเป็นค่าที่ดีและตามลําดับทั้งหมดที่คาดการณ์ยังจะเพิ่มขึ้นโดยคนี้ไม่เป็นความจริงถ้าตัดมือสัมผัส:จะต้องเพิ่มขึ้นน้อยกว่าคY ฉันβ 0Yฉันβ 0yiβ0cy^icβ0c

ในความเป็นจริงมีคุณสมบัติที่ดีและสะดวกสบายหลายประการของการถดถอยเชิงเส้นซึ่งขึ้นอยู่กับว่ามีการสกัดกั้นระยะที่เหมาะสม เช่นค่าเฉลี่ยของและค่าเฉลี่ยของมีค่าเท่ากันและ (ดังนั้น) ค่าสัมประสิทธิ์สหสัมพันธ์กำลังสองหลายเท่ากับค่าสัมประสิทธิ์การตัดสินใจ :ดูตัวอย่างหัวข้อนี้สำหรับ คำอธิบาย: การตีความทางเรขาคณิตหลายค่าสัมประสิทธิ์สหสัมพันธ์และค่าสัมประสิทธิ์การตัดสินใจ 2Yฉัน R R 2 ( R ) 2 = cos 2 ( Y , Y ) = Y2yiy^iRR2RR2

(R)2=cos2(y^,y)=y^2y2=R2,
RR2

การลงโทษการสกัดกั้นจะนำไปสู่สิ่งที่ไม่เป็นจริงอีกต่อไป


2

ระลึกถึงวัตถุประสงค์ของการหดตัวหรือทำให้เป็นปกติ มันคือการป้องกันอัลกอริทึมการเรียนรู้ให้พอดีกับข้อมูลการฝึกอบรมหรือเทียบเท่า - ป้องกันการเลือกค่าพารามิเตอร์ที่มีขนาดใหญ่โดยพลการ นี่เป็นโอกาสสำหรับชุดข้อมูลที่มีตัวอย่างการฝึกอบรมมากกว่าสองสามตัวอย่างในที่ที่มีสัญญาณรบกวน (การอภิปรายที่น่าสนใจมากเกี่ยวกับการมีอยู่ของเสียงรบกวนและผลกระทบของมันถูกกล่าวถึงใน "การเรียนรู้จากข้อมูล" แบบจำลองที่เรียนรู้เกี่ยวกับข้อมูลที่มีเสียงดังซึ่งไม่มีการทำให้เป็นปกติจะมีประสิทธิภาพต่ำในบางจุดของข้อมูลที่มองไม่เห็น

ด้วยสิ่งนี้ในใจคิดว่าคุณมีจุดข้อมูล 2D ที่คุณต้องการจัดเป็นสองชั้น การแก้ไขทั้งหมดยกเว้นพารามิเตอร์ไบอัสการเปลี่ยนแปลงคำศัพท์ไบแอสจะย้ายขอบเขตขึ้นหรือลง คุณสามารถพูดคุยเรื่องนี้กับพื้นที่มิติที่สูงขึ้น

อัลกอริทึมการเรียนรู้ไม่สามารถใส่ค่าที่มีขนาดใหญ่โดยพลการสำหรับคำอคติเนื่องจากสิ่งนี้จะส่งผลให้เกิดมูลค่าการสูญเสียขั้นต้น (รูปแบบจะไม่พอดีกับข้อมูลการฝึกอบรม) กล่าวอีกนัยหนึ่งเมื่อกำหนดชุดการฝึกอบรมคุณ (หรืออัลกอริทึมการเรียนรู้) จะไม่สามารถย้ายระนาบออกไปโดยไม่ตั้งใจจากความจริง

ดังนั้นจึงไม่มีเหตุผลที่จะลดขนาดคำอคติอัลกอริทึมการเรียนรู้จะค้นหาสิ่งที่ดีโดยไม่มีความเสี่ยงของการมีน้ำหนักเกิน

หมายเหตุสุดท้าย: ฉันเห็นในกระดาษบางฉบับว่าเมื่อทำงานในที่ว่างในมิติสูงสำหรับการจัดหมวดหมู่ไม่จำเป็นต้องเข้มงวดในการสร้างแบบจำลองคำอคติ สิ่งนี้อาจใช้ได้กับข้อมูลที่แยกได้เชิงเส้นเนื่องจากมีการเพิ่มมิติข้อมูลมากขึ้นมีความเป็นไปได้มากกว่าที่จะแยกทั้งสองคลาส


คุณสามารถให้การอ้างอิงสำหรับเอกสารบางฉบับที่ระบุว่า "เมื่อทำงานในพื้นที่มิติสูงสำหรับการจำแนกประเภทไม่จำเป็นต้องเข้มงวดในการสร้างแบบจำลองคำอคติ"?
chandresh

1

ระยะการดักจับนั้นไม่มีผลกระทบต่อการหดตัว สูตรทั่วไป "การหดตัว" (เช่นการทำให้เป็นมาตรฐาน) ทำให้คำศัพท์ในฟังก์ชั่นการสูญเสียเช่น:

RSS(β)=yiXiβ2

RegularizedLoss(β)=RSS(β)λf(β)

โดยที่มักจะเกี่ยวข้องกับบรรทัดฐาน lebesgue และเป็นเซนต์คิตส์และเนวิสที่ควบคุมน้ำหนักที่เราใส่ในเทอมการหดตัวf(β)λ

โดยการใส่คำย่อในฟังก์ชั่นการสูญเสียเช่นนี้มันมีผลกระทบต่อสัมประสิทธิ์ทั้งหมดในแบบจำลอง ฉันสงสัยว่าคำถามของคุณเกิดจากความสับสนเกี่ยวกับสัญกรณ์ซึ่งเป็น (ใน ) เป็นเวกเตอร์ของสัมประสิทธิ์ทั้งหมดรวม\โมเดลเชิงเส้นของคุณน่าจะเขียนได้ดีกว่าในฐานะโดยที่คือ "เมทริกซ์การออกแบบ" โดยที่ฉันหมายความว่ามันคือข้อมูลของคุณที่มีคอลัมน์ต่อท้ายซ้ายมือ )βP(β)β0y=Xβ+ϵX1s

ตอนนี้ฉันไม่สามารถพูดคุยกับการทำให้เป็นปกติสำหรับเครือข่ายประสาท เป็นไปได้ว่าสำหรับโครงข่ายประสาทเทียมคุณต้องการหลีกเลี่ยงการหดตัวของคำอคติหรือออกแบบฟังก์ชันการสูญเสียปกติที่แตกต่างจากสูตรที่อธิบายไว้ข้างต้น ฉันไม่รู้ แต่ฉันสงสัยอย่างยิ่งว่าเงื่อนไขน้ำหนักและอคตินั้นได้รับการรวมเข้าด้วยกันอย่างสม่ำเสมอ


2
มันขึ้นอยู่กับการประชุม แต่เช่นองค์ประกอบของการเรียนรู้ทางสถิติโดย Hastie และคณะ กำหนดการถดถอยของสันเขาซึ่งการสกัดกั้นไม่ได้ถูกลงโทษ (ดูคำตอบของฉัน) ฉันสงสัยว่านี่อาจเป็นมาตรฐานมากกว่าอย่างอื่น
อะมีบาพูดว่า Reinstate Monica

1

ฉันไม่แน่ใจว่าคำตอบข้างต้นโดย David Marx ค่อนข้างถูกต้อง อ้างอิงจากแอนดรูว์อึ้งโดยทั่วไปแล้วค่าสัมประสิทธิ์ความเอนเอียง / การสกัดกั้นโดยทั่วไปไม่ได้ทำให้เป็นมาตรฐานในการถดถอยเชิงเส้นและไม่ว่าในกรณีใดก็ตาม


1

ฉันจะให้คำอธิบายที่ง่ายที่สุดแล้วขยาย

Yเสื้อ=εเสื้อ
E[εเสื้อ]=E[Yเสื้อ]0

β

ββ0

Yเสื้อ=β0+εเสื้อ
E[Yเสื้อ]=β0+E[εเสื้อ]
E[εเสื้อ]=0β0=μ=E[Yเสื้อ]

รุ่นนี้ไม่ได้เซ็กซี่เหมือนรุ่นดั้งเดิม แต่มันค่อนข้างโง่ในความเป็นจริง อย่างไรก็ตามมันเป็นรูปแบบที่ถูกต้อง คุณสามารถใช้งาน ANOVA ได้เช่น

β0=E[Yเสื้อ]

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.