สิ่งที่คุณต้องการทำไม่มีอยู่เพราะมันเป็นเพราะการขาดคำที่ดีกว่าข้อบกพร่องทางคณิตศาสตร์
แต่ก่อนอื่นฉันจะเน้นว่าทำไมฉันถึงคิดว่าสถานที่ตั้งของคำถามของคุณดูดี จากนั้นฉันจะพยายามอธิบายว่าทำไมฉันจึงคิดว่าข้อสรุปที่คุณได้รับจากพวกเขาวางอยู่บนความเข้าใจผิดของโมเดลโลจิสติกและในที่สุดฉันจะแนะนำวิธีการอื่น
ฉันจะแสดงว่าการสังเกตnของคุณ(ตัวอักษรที่โดดเด่นยิ่งขึ้นหมายถึงเวกเตอร์) ซึ่งอยู่ในพื้นที่มิติp(รายการแรกของ x{ ( xxผม, yผม) }ni = 1nพีคือ 1) ด้วยp<n, y i ∈[0,1]และ f( xxxผมp < nYผม∈ [ 0 , 1 ]เป็นฟังก์ชันที่ซ้ำซากของ xฉ( xxผม) = f( xx'ผมββ)พูดเช่นเส้นโค้งโลจิสติกกับความคิดแก้ไข สำหรับการได้เปรียบผมก็จะคิดว่า nคือพอมีขนาดใหญ่เมื่อเทียบกับPxx'ผมββnพี
คุณถูกต้องว่าถ้าคุณตั้งใจจะใช้TVDเป็นเกณฑ์ในการประเมินรุ่นที่ติดตั้งแล้วมันก็สมเหตุสมผลที่จะคาดหวังว่าแบบของคุณเพื่อเพิ่มประสิทธิภาพของเกณฑ์เดียวกันในบรรดาผู้สมัครที่เป็นไปได้ทั้งหมดกับข้อมูลของคุณ ด้วยเหตุนี้
ββ* * * *= หาเรื่องนาทีββ∈ Rพี| | YY- ฉ( xx'ผมββ) | |1
ปัญหาคือข้อความแสดงข้อผิดพลาด :
และถ้าเราบังคับใช้ (เราแค่อยากให้แบบจำลองของเราปราศจากความเป็นกลาง )ต้องเป็นheteroskedastic เพราะนี่คือสามารถใช้เวลาเพียงสองค่า 0 และ 1 ดังนั้นให้
,ยังสามารถใช้เวลาเพียงสองค่า:เมื่อ , ซึ่งเกิดขึ้นกับความน่าจะเป็นและเมื่อE ( ϵ)εผม= yผม- ฉ( xx'ผมββ)ϵ ฉันy ฉันxE( ϵϵ )=0εผม Yผมε ฉัน 1-F( xxxผมεผมy i = 1 f ( x1 - f( xx'ผมββ)Yผม= 1- f ( xฉ( xx'ผมββ)y i = 1 1 - f ( x−f(xx′iββ)yi=1ซึ่งเกิดขึ้นกับความน่าจะเป็นเบต้า)1−f(xx′iββ)
การพิจารณาร่วมกันเหล่านี้บ่งบอกว่า:
var(ϵϵ)=E(ϵϵ2)=(1−f(xx′ββ))2f(xx′ββ)+(−f(xx′ββ))2(1−f(xx′ββ))=(1−f(xx′ββ))f(xx′ββ)=E(yy|xx)E(1−yy|xx)
ด้วยเหตุนี้ไม่คงที่ แต่เว้าโค้งที่มีรูปร่างและเป็น maximized เมื่อเป็นเช่นนั้น0.5xvar(ϵϵ) E ( y | xxxE(y|xx)≈.5
นี้โดยธรรมชาติ heteroskedasticity ของเศษมีผลกระทบ มันมีความหมายเหนือสิ่งอื่นใดที่เมื่อลดฟังก์ชั่นการสูญเสียน้อยที่สุด นั่นคือการติดตั้งไม่พอดีกับข้อมูลเลย แต่มีเพียงบางส่วนเท่านั้นที่ได้รับการจัดกลุ่มรอบสถานที่ที่เป็นเช่นนั้น . หากต้องการปัญญาสิ่งเหล่านี้เป็นจุดข้อมูลที่ให้ข้อมูลน้อยที่สุดในตัวอย่างของคุณ : มันสอดคล้องกับการสังเกตที่เป็นองค์ประกอบเสียงที่ใหญ่ที่สุด ดังนั้นของคุณจะถูกดึงไปทางเช่นไม่เกี่ยวข้องβl1xββ∗ E ( yxxβE(yy|xx)≈.5ββ∗=ββ:f(xx′ββ)≈.5
ทางออกหนึ่งที่ชัดเจนจากการแสดงออกข้างต้นคือการลดความต้องการของความเป็นกลาง วิธีที่นิยมใช้ในการประเมินอคติ (โดยมีการตีความแบบเบย์บางส่วน) คือการรวมคำที่หดตัว หากเราปรับขนาดการตอบสนองใหม่:
y+i=2(yi−.5),1≤i≤n
และเพื่อความสะดวกในการคำนวณแทนที่โดยฟังก์ชันโมโนโทนเดียวอีก - มันจะสะดวกสำหรับภาคต่อที่จะแสดงส่วนประกอบแรกของเวกเตอร์ของพารามิเตอร์เป็นและอันที่เหลือ - และรวมถึงคำหดตัว (เช่นหนึ่งในรูปแบบ ) ปัญหาการปรับให้เหมาะสมที่เกิดขึ้นจะกลายเป็น:g ( xf(xx′ββ)c p - 1 γg(xx,[c,γγ])=xx′[c,γγ]cp−1| | γγγ||γγ||2
[c∗,γγ∗]=argmin[[c,γγ]∈Rp∑i=1nmax(0,1−y+ixx′i[[c,γγ])+12||γγ||2
โปรดทราบว่าในปัญหาการหาค่าเหมาะที่สุดแบบใหม่ (รวมถึงนูน) การปรับโทษสำหรับการสังเกตอย่างเป็นหมวดหมู่อย่างถูกต้องคือ 0 และมันเพิ่มขึ้นแบบเส้นตรงด้วยสำหรับประเภทที่ไม่ได้จัดประเภท - ในการสูญเสีย การแก้ปัญหาการปรับให้เหมาะสมครั้งที่สองนี้คือสัมประสิทธิ์เชิงเส้น svm เชิงเส้น (พร้อมการแยกที่สมบูรณ์แบบ) ตรงข้ามกับมันสมเหตุสมผลที่จะเรียนรู้สิ่งเหล่านี้จากข้อมูลที่มีบทลงโทษประเภท TVD ('ประเภท' เนื่องจากคำว่าอคติ) . ดังนั้นการแก้ปัญหานี้มีการใช้อย่างกว้างขวาง ดูตัวอย่างแพคเกจการ R LiblineaRl 1 [ c ∗ , γxx′[[c,γ]l1 β[c∗,γγ∗] [ c ∗ , γββ∗[c∗,γγ∗]