คำถามติดแท็ก loss-functions

ฟังก์ชั่นที่ใช้ในการหาปริมาณความแตกต่างระหว่างข้อมูลที่สังเกตได้กับค่าที่ทำนายไว้ การย่อขนาดฟังก์ชั่นการสูญเสียเป็นวิธีการประมาณค่าพารามิเตอร์ของแบบจำลอง

2
เหตุใดจึงมีการกำหนด / การสูญเสียข้อมูลสองรายการที่แตกต่างกันในโลจิสติกส์
ฉันได้เห็นสูตรการสูญเสียโลจิสติกสองประเภท เราสามารถแสดงให้พวกเขามีความเหมือนที่แตกต่างเพียงอย่างเดียวคือความหมายของฉลากYyyy สูตร / สัญกรณ์ 1, :y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) โดยที่โดยที่ฟังก์ชันโลจิสติกแมปจำนวนจริงเป็น 0,1 ช่วงเวลาp=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)}βTxβTx\beta^T x สูตร / สัญกรณ์ 2, :y∈{−1,+1}y∈{−1,+1}y \in \{-1, +1\} L(y,βTx)=log(1+exp(−y⋅βTx))L(y,βTx)=log⁡(1+exp⁡(−y⋅βTx)) L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx})) การเลือกสัญกรณ์ก็เหมือนกับการเลือกภาษามีข้อดีข้อเสียที่จะใช้อย่างใดอย่างหนึ่ง ข้อดีและข้อเสียของเครื่องหมายทั้งสองนี้คืออะไร ความพยายามของฉันที่จะตอบคำถามนี้คือดูเหมือนว่าชุมชนสถิติชอบสัญกรณ์แรกและชุมชนวิทยาศาสตร์คอมพิวเตอร์ชอบสัญกรณ์ที่สอง สัญกรณ์แรกสามารถอธิบายได้ด้วยคำว่า "ความน่าจะเป็น" เนื่องจากฟังก์ชันโลจิสติกจะแปลงจำนวนจริงเป็นช่วงเวลา 0,1βTxβTx\beta^Tx และสัญกรณ์ที่สองนั้นรัดกุมกว่าและง่ายกว่าที่จะเปรียบเทียบกับการสูญเสียบานพับหรือการสูญเสีย 0-1 ฉันถูกไหม? ข้อมูลเชิงลึกอื่น ๆ

2
ฟังก์ชั่นการสูญเสียของอัตรากำไรขั้นต้นแข็ง SVM คืออะไร?
คนบอกว่าฟังก์ชั่นการสูญเสียการใช้ขอบนุ่ม SVM บานพับ:B)) อย่างไรก็ตามฟังก์ชั่นวัตถุประสงค์ที่แท้จริงที่ soft margin SVM พยายามลดให้น้อยที่สุดคือ \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) ผู้เขียนบางคนเรียกว่า\ | w \ | ^ 2 regularizer คำและ\ max (0,1-y_i (w ^ \ intercal x_i …

1
ทำไมฟังก์ชั่นต้นทุนของโครงข่ายประสาทเทียมจึงไม่นูน?
มีเธรดที่คล้ายกันที่นี่ ( ฟังก์ชั่นต้นทุนของเครือข่ายประสาทเทียมไม่ใช่แบบนูน? ) แต่ฉันไม่สามารถเข้าใจประเด็นในคำตอบที่นั่นและเหตุผลของฉันในการถามอีกครั้งโดยหวังว่าสิ่งนี้จะชี้แจงปัญหาบางอย่าง: ถ้าฉันใช้ผลรวมของฟังก์ชั่นค่าใช้จ่ายผลต่างยกกำลังสองในที่สุดฉันก็ปรับรูปแบบโดยที่คือค่าฉลากจริงในระหว่างการฝึก เฟสและเป็นค่าป้ายกำกับที่คาดการณ์ไว้ เนื่องจากนี่เป็นรูปสี่เหลี่ยมจัตุรัสจึงควรเป็นฟังก์ชันต้นทุนนูน แล้วอะไรคือสิ่งที่ทำให้นูนใน NN ไม่ได้? Y YΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2yyyy^y^\hat{y}

5
วิธีการควบคุมค่าใช้จ่ายของการจำแนกประเภทในป่าสุ่ม?
เป็นไปได้หรือไม่ที่จะควบคุมค่าใช้จ่ายในการจำแนกประเภทใน R แพ็คเกจแบบสุ่มป่าไม้ ? ในงานของฉันเองเชิงลบเท็จ (เช่นหายไปในข้อผิดพลาดที่บุคคลอาจมีโรค) มีราคาแพงกว่าบวกเท็จ แพ็คเกจrpartช่วยให้ผู้ใช้สามารถควบคุมค่าใช้จ่ายในการจำแนกประเภทได้โดยการระบุเมทริกซ์การสูญเสียไปยังการจัดประเภทน้ำหนักที่แตกต่างกัน มีอะไรที่คล้ายกันเกิดขึ้นเพื่อrandomForestอะไร? ตัวอย่างเช่นฉันควรใช้classwtตัวเลือกในการควบคุมเกณฑ์ของ Gini หรือไม่

3
การสูญเสียการฝึกอบรมเพิ่มขึ้นตามเวลา [ซ้ำ]
คำถามนี้มีคำตอบอยู่ที่นี่แล้ว : ฟังก์ชั่นการเปลี่ยนแปลงค่าใช้จ่ายสามารถเป็นบวกได้อย่างไร? (1 คำตอบ) ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทไม่ได้เรียนรู้ (5 คำตอบ) ปิดเมื่อเดือนที่แล้ว ฉันกำลังฝึกอบรมนางแบบ (Recurrent Neural Network) เพื่อจำแนกลำดับของ 4 ประเภท ขณะที่ฉันทำการฝึกฉันเห็นการสูญเสียการฝึกอบรมลดลงจนถึงจุดที่ฉันจัดประเภทตัวอย่างในชุดการฝึกได้มากกว่า 90% อย่างไรก็ตามอีกไม่กี่ยุคต่อมาฉันสังเกตเห็นว่าการสูญเสียการฝึกอบรมเพิ่มขึ้นและความแม่นยำลดลง ดูเหมือนว่าจะแปลกสำหรับฉันเพราะฉันคาดหวังว่าในชุดฝึกอบรมประสิทธิภาพจะดีขึ้นเมื่อเวลาไม่ลดลง ฉันกำลังใช้การสูญเสียเอนโทรปีและอัตราการเรียนรู้ของฉันคือ 0.0002 อัปเดต:ปรากฎว่าอัตราการเรียนรู้สูงเกินไป ด้วยอัตราการเรียนรู้ที่ต่ำพอที่ต่ำฉันไม่สังเกตพฤติกรรมนี้ อย่างไรก็ตามฉันยังพบสิ่งแปลกประหลาดนี้ คำอธิบายที่ดียินดีต้อนรับว่าทำไมสิ่งนี้ถึงเกิดขึ้น

6
แนวคิด 'พื้นฐาน' ของการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คืออะไร
ความคิด 'พื้นฐาน' สถิติสำหรับประมาณค่าพารามิเตอร์เป็นโอกาสสูงสุด ฉันสงสัยว่าอะไรคือความคิดที่สอดคล้องกันในการเรียนรู้ของเครื่อง Qn 1. เป็นธรรมหรือไม่ที่จะบอกว่าแนวคิด 'พื้นฐาน' ในการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คือ: 'ฟังก์ชั่นการสูญเสีย' [หมายเหตุ: มันเป็นความประทับใจของฉันที่อัลกอริทึมการเรียนรู้ของเครื่องมักจะปรับฟังก์ชั่นการสูญเสียให้เหมาะสมดังนั้นคำถามข้างต้น] Qn 2: มีวรรณกรรมใดบ้างที่พยายามลดช่องว่างระหว่างสถิติและการเรียนรู้ของเครื่อง? [หมายเหตุ: บางทีโดยฟังก์ชั่นการสูญเสียที่เกี่ยวข้องกับโอกาสสูงสุด (เช่น OLS เทียบเท่ากับโอกาสสูงสุดสำหรับข้อผิดพลาดที่กระจายตามปกติ ฯลฯ )]

3
คำอธิบายฟังก์ชั่นการสูญเสีย 0-1
ฉันพยายามเข้าใจว่าจุดประสงค์ของฟังก์ชั่นการสูญเสียคืออะไรและฉันก็ไม่เข้าใจ ดังนั้นเท่าที่ฉันเข้าใจฟังก์ชันการสูญเสียมีไว้สำหรับแนะนำตัวชี้วัดบางอย่างที่เราสามารถวัด "ต้นทุน" ของการตัดสินใจที่ไม่ถูกต้องด้วย สมมุติว่าฉันมีชุดข้อมูล 30 ชิ้นฉันแบ่งพวกมันเป็นชุดฝึกอบรม / ทดสอบเช่น 20/10 ฉันจะใช้ฟังก์ชันสูญเสีย 0-1 ดังนั้นสมมติว่าชุดฉลากระดับของฉันคือMและฟังก์ชั่นมีลักษณะเช่นนี้ : L ( i , j ) = { 0i = j1ฉัน≠ jฉัน, เจ∈ ML(ผม,J)={0ผม=J1ผม≠Jผม,J∈M L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M ดังนั้นฉันจึงสร้างแบบจำลองบางอย่างบนข้อมูลการฝึกอบรมของฉันสมมติว่าฉันใช้ตัวจําแนก Naive …

1
การเลือกระหว่างฟังก์ชั่นการสูญเสียสำหรับการจำแนกไบนารี
ฉันทำงานในโดเมนที่มีปัญหาซึ่งผู้คนมักจะรายงานROC-AUCหรือAveP (ความแม่นยำโดยเฉลี่ย) แต่ฉันเพิ่งพบเอกสารที่เพิ่มประสิทธิภาพการเข้าสู่ระบบการสูญเสียแทนในขณะที่คนอื่นยังรายงานบานพับขาดทุน ในขณะที่ฉันเข้าใจว่าการคำนวณของตัวชี้วัดเหล่านี้เป็นอย่างไรฉันมีความยากลำบากในการทำความเข้าใจการแลกเปลี่ยนระหว่างสิ่งเหล่านี้และสิ่งที่ดีสำหรับสิ่งที่แน่นอน เมื่อมาถึง ROC-AUC เทียบความแม่นยำจำหัวข้อนี้กล่าวถึงวิธีการROC-AUC-สูงสุดสามารถมองเห็นได้โดยใช้เกณฑ์การเพิ่มประสิทธิภาพของการสูญเสียที่ penalizes "การจัดอันดับเป็นลบจริงอย่างน้อยมีขนาดใหญ่เป็นบวกที่แท้จริง" (สมมติว่าสูงขึ้น คะแนนสอดคล้องกับผลบวก) นอกจากนี้เธรดอื่นนี้ยังให้การสนทนาที่เป็นประโยชน์ของROC-AUCตรงกันข้ามกับตัวชี้วัดที่แม่นยำ - เรียกคืน แต่สำหรับสิ่งที่ประเภทของปัญหาที่เกิดขึ้นจะเข้าสู่ระบบการสูญเสียเป็นที่ต้องการมากกว่าการพูด, ROC-AUC , AvePหรือ การสูญเสียบานพับ ? ที่สำคัญที่สุดคำถามประเภทใดที่ควรถามเกี่ยวกับปัญหาเมื่อเลือกระหว่างฟังก์ชั่นการสูญเสียเหล่านี้สำหรับการจำแนกแบบไบนารี

4
Bayesian และผู้ประเมินจุดประจำใช้เงื่อนไขอะไรได้บ้าง?
เมื่อพิจารณาก่อนหน้านี้ค่า ML (ความถี่ - ความเป็นไปได้สูงสุด) และ MAP (Bayesian - ค่าสูงสุดด้านหลัง) จะตรงกัน อย่างไรก็ตามโดยทั่วไปแล้วฉันกำลังพูดถึงตัวประมาณค่าที่ได้จากการเพิ่มประสิทธิภาพของฟังก์ชันการสูญเสีย กล่าวคือ x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) \qquad \; \,\text{ (Bayesian) } x^(.)=argminE(L(x−x^(Y))|x)(Frequentist)x^(.)=argminE(L(x−x^(Y))|x)(Frequentist) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x-\hat x(Y)) \; | …

2
เป็นวิธีปฏิบัติทั่วไปหรือไม่ที่จะลดความสูญเสียเฉลี่ยให้น้อยที่สุดแทนที่จะเป็นผลรวม?
Tensorflow มีตัวอย่างที่สอนเกี่ยวกับการจำแนกCIFAR-10 ในบทช่วยสอนการลดการสูญเสียเอนโทรปีโดยเฉลี่ยในชุดการสอนจะลดลง def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of shape [batch_size] Returns: Loss tensor of type float. """ # Calculate the average cross entropy loss …

2
จะเกิดอะไรขึ้นที่นี่เมื่อฉันใช้การสูญเสียกำลังสองในการตั้งค่าการถดถอยโลจิสติก
ฉันกำลังพยายามใช้การสูญเสียกำลังสองเพื่อทำการจำแนกเลขฐานสองบนชุดข้อมูลของเล่น ฉันกำลังใช้mtcarsชุดข้อมูลใช้ไมล์ต่อแกลลอนและน้ำหนักเพื่อทำนายประเภทการส่ง เนื้อเรื่องด้านล่างแสดงข้อมูลประเภทการส่งข้อมูลสองชนิดในสีที่ต่างกันและขอบเขตการตัดสินใจที่สร้างขึ้นโดยฟังก์ชั่นการสูญเสียที่แตกต่างกัน การสูญเสียกำลังสองคือ ∑i(yi−pi)2∑i(yi−pi)2\sum_i (y_i-p_i)^2โดยที่yiyiy_iคือเลเยอร์ความจริงพื้นดิน (0 หรือ 1) และpipip_iคือความน่าจะเป็นที่คาดการณ์pi=Logit−1(βTxi)pi=Logit−1(βTxi)p_i=\text{Logit}^{-1}(\beta^Tx_i). กล่าวคือฉันแทนที่การสูญเสียโลจิสติกด้วยการสูญเสียกำลังสองในการตั้งค่าการจัดหมวดหมู่ส่วนอื่น ๆ เหมือนกัน สำหรับตัวอย่างของเล่นที่มีmtcarsข้อมูลในหลาย ๆ กรณีฉันได้แบบจำลอง "คล้ายกัน" กับการถดถอยโลจิสติก (ดูรูปต่อไปนี้โดยมีเมล็ดสุ่ม 0) แต่ในบางสิ่ง (ถ้าเราทำset.seed(1)) การสูญเสียกำลังสองดูเหมือนจะไม่ได้ผล เกิดอะไรขึ้นที่นี่ การเพิ่มประสิทธิภาพไม่ได้มาบรรจบกัน? การสูญเสียโลจิสติกส์นั้นง่ายกว่าเมื่อเทียบกับการสูญเสียกำลังสอง? ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม รหัส d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- …

4
ภาพรวมของฟังก์ชั่นการสูญเสียที่ครอบคลุม?
ฉันกำลังพยายามมองโลกในมุมมองที่สำคัญบางอย่างเกี่ยวกับการเรียนรู้ของเครื่องและฉันก็สงสัยว่าถ้ามีการรักษาที่ครอบคลุมเกี่ยวกับความสูญเสียที่แตกต่างกัน (ยกกำลังสอง, บันทึก, บานพับ, พร็อกซี่ ฯลฯ ) ผมคิดว่าสิ่งที่ตามสายของที่ครอบคลุมมากขึ้นนำเสนออย่างเป็นทางการของโพสต์ที่ยอดเยี่ยมจอห์นแลงในความหมายฟังก์ชั่นการสูญเสีย

3
บานพับขาดทุนและข้อดีและข้อเสีย / ข้อ จำกัด
การสูญเสียบานพับสามารถกำหนดใช้และการสูญเสียล็อกสามารถกำหนดเป็นล็อก( 1 + ประสบการณ์( - Y ฉันW T xฉัน ) )สูงสุด ( 0 , 1 - yผมWTxผม)สูงสุด(0,1-YผมWTxผม)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)เข้าสู่ระบบ( 1 + ประสบการณ์( - yผมWTxผม) )เข้าสู่ระบบ(1+ประสบการณ์⁡(-YผมWTxผม))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) ฉันมีคำถามต่อไปนี้: มีข้อเสียของการสูญเสียบานพับ (เช่นไวต่อค่าผิดปกติตามที่ระบุไว้ในhttp://www.unc.edu/~yfliu/papers/rsvm.pdf ) หรือไม่? อะไรคือความแตกต่างข้อดีข้อเสียของหนึ่งเมื่อเทียบกับที่อื่น

2
เพราะเหตุใด K- ไม่ได้รับการปรับให้เหมาะสมโดยใช้การไล่ระดับสี
ฉันรู้ว่าk หมายถึงมักจะมีการเพิ่มประสิทธิภาพการใช้เพิ่มประสิทธิภาพของความคาดหวัง อย่างไรก็ตามเราสามารถปรับฟังก์ชั่นการสูญเสียของมันให้เป็นแบบเดียวกับที่เราเพิ่มประสิทธิภาพอื่น ๆ ! ฉันพบเอกสารบางอย่างที่ใช้การไล่ระดับสีแบบสโตแคสติกสำหรับวิธี k ขนาดใหญ่ แต่ฉันไม่ได้รับคำตอบ มีใครรู้บ้างไหมว่าเพราะเหตุใด เป็นเพราะความคาดหวังของการรวมกันมาเร็วขึ้น ? มีการรับประกันเป็นพิเศษหรือไม่? หรือมันเป็นเหตุผลทางประวัติศาสตร์ ?

2
การจำแนกประเภทที่มีป้ายกำกับที่มีเสียงดัง?
ฉันพยายามฝึกอบรมเครือข่ายประสาทเทียมเพื่อจัดหมวดหมู่ แต่ป้ายกำกับที่ฉันมีเสียงค่อนข้างดัง (ประมาณ 30% ของป้ายกำกับผิด) การสูญเสียข้ามเอนโทรปีใช้งานได้จริง แต่ฉันสงสัยว่ามีทางเลือกอื่นที่มีประสิทธิภาพมากกว่าในกรณีนี้หรือไม่? หรือการสูญเสียข้ามเอนโทรปีเหมาะสมที่สุดหรือไม่ ฉันไม่แน่ใจ แต่ฉันคิดว่าค่อนข้าง "ตัด" การสูญเสียข้ามเอนโทรปีดังนั้นการสูญเสียจุดข้อมูลหนึ่งจุดจะไม่เกินขอบเขตบน ขอบคุณ! ปรับปรุง ตามคำตอบของลูคัสผมได้ต่อไปนี้สำหรับสัญญาซื้อขายล่วงหน้าสำหรับการส่งออกการทำนายและใส่ของฟังก์ชัน softmax Zดังนั้นฉันเดาว่ามันคือการเพิ่มเทอมที่ราบรื่นลงในอนุพันธ์ สัญญาซื้อขายล่วงหน้าสำหรับการสูญเสียข้ามเอนโทรปีดั้งเดิม: z 3yyyzzz Pฉัน=0.3/N+0.7YฉันL=-Σทีฉันเข้าสู่ระบบ(Pฉัน)∂ลิตร37N37N\frac{3}{7N} pi=0.3/N+0.7yipi=0.3/N+0.7yip_i=0.3/N+0.7y_i l=−∑tilog(pi)l=−∑tilog⁡(pi)l=-\sum t_i\log(p_i) ∂l∂l∂yi=−ti∂log(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi∂l∂yi=−ti∂log⁡(pi)∂pi∂pi∂yi=−0.7tipi=−ti37N+yi\frac{\partial l}{\partial y_i}=-t_i\frac{\partial\log(p_i)}{\partial p_i}\frac{\partial p_i}{\partial y_i}=-0.7\frac{t_i}{p_i}=-\frac{t_i}{\frac{3}{7N}+y_i} ∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi∂l∂zi=0.7∑jtjpj∂yj∂zi=yi∑jtjyj37N+yj−tiyi37N+yi\frac{\partial l}{\partial z_i}=0.7\sum_j\frac{t_j}{p_j}\frac{\partial y_j}{\partial z_i}=y_i\sum_jt_j\frac{y_j}{\frac{3}{7N}+y_j}-t_i\frac{y_i}{\frac{3}{7N}+y_i}∂l∂yi=−tiyi∂l∂yi=−tiyi\frac{\partial l}{\partial y_i}=-\frac{t_i}{y_i} ∂l∂zi=yi−ti∂l∂zi=yi−ti\frac{\partial l}{\partial z_i}=y_i-t_i โปรดแจ้งให้เราทราบหากฉันผิด ขอบคุณ! อัปเดต ฉันเพิ่งอ่านบทความโดย Googleที่ใช้สูตรเดียวกันกับคำตอบของลูคัส แต่มีการตีความที่แตกต่างกัน ในส่วนที่ 7 การทำให้เป็นมาตรฐานโมเดลผ่านการปรับให้เรียบของฉลาก อย่างไรก็ตามการสูญเสียเอนโทรปีนี้อาจทำให้เกิดปัญหาสองประการ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.