คำถามติดแท็ก model-evaluation

ในการประเมินแบบจำลองทั้งในตัวอย่างหรือนอกตัวอย่าง

7
ทำไมความแม่นยำจึงไม่ใช่มาตรการที่ดีที่สุดสำหรับการประเมินแบบจำลองการจำแนก?
นี่เป็นคำถามทั่วไปที่ถูกถามทางอ้อมหลายครั้ง แต่ไม่มีคำตอบที่เชื่อถือได้ มันจะเป็นการดีถ้ามีคำตอบโดยละเอียดสำหรับการอ้างอิง ความถูกต้องของสัดส่วนของการจำแนกประเภทที่ถูกต้องในหมู่ทุกประเภทที่สามารถทำได้ง่ายและมากวัด "ที่ใช้งานง่าย" แต่มันอาจจะเป็นตัวชี้วัดที่ดีสำหรับข้อมูลที่ไม่สมดุล ทำไมสัญชาตญาณของเราทำให้เราเข้าใจผิดที่นี่และมีปัญหาอื่นใดกับมาตรการนี้

7
สุดยอดอัลกอริธึม PCA สำหรับฟีเจอร์มากมาย (> 10K)?
ก่อนหน้านี้ฉันเคยถามเรื่องนี้ใน StackOverflow แต่ดูเหมือนว่าอาจเหมาะสมกว่าที่นี่เนื่องจากไม่ได้รับคำตอบใด ๆ เกี่ยวกับ SO มันเป็นจุดตัดระหว่างสถิติกับการเขียนโปรแกรม ฉันต้องเขียนโค้ดบางอย่างเพื่อทำ PCA (การวิเคราะห์ส่วนประกอบหลัก) ฉันเรียกดูผ่านอัลกอริทึมที่รู้จักกันดีและใช้สิ่งนี้ซึ่งเท่าที่ฉันสามารถบอกได้เท่ากับอัลกอริทึม NIPALS มันใช้งานได้ดีสำหรับการค้นหาส่วนประกอบหลัก 2-3 ชิ้นแรก แต่ดูเหมือนจะช้ามากที่จะรวมกัน (ตามลำดับการทำซ้ำหลายร้อยถึงหลายพัน) นี่คือรายละเอียดของสิ่งที่ฉันต้องการ: อัลกอริทึมจะต้องมีประสิทธิภาพเมื่อจัดการกับคุณสมบัติจำนวนมาก (สั่ง 10,000 ถึง 20,000) และขนาดตัวอย่างตามลำดับไม่กี่ร้อย มันจะต้องสามารถนำไปใช้อย่างสมเหตุสมผลโดยไม่มีไลบรารี่พีชคณิตเชิงเส้น / เมทริกซ์ที่เหมาะสมเนื่องจากภาษาเป้าหมายคือ D ซึ่งยังไม่มีและแม้ว่ามันจะเป็นเช่นนั้นฉันก็ไม่ต้องการที่จะเพิ่มมันเป็นการพึ่งพาโครงการที่เป็นปัญหา . เป็นหมายเหตุด้านบนชุดข้อมูลเดียวกัน R ดูเหมือนว่าจะพบส่วนประกอบหลักทั้งหมดอย่างรวดเร็ว แต่ใช้การสลายตัวค่าเอกพจน์ซึ่งไม่ใช่สิ่งที่ฉันต้องการรหัสตัวเอง

5
การใช้งานที่เพิ่มประสิทธิภาพของอัลกอริทึมป่าสุ่ม
ฉันได้สังเกตเห็นว่ามีการใช้งานไม่กี่ของป่าสุ่มเช่น ALGLIB, วาฟเฟิลและบางส่วนแพคเกจ R randomForestเช่น ใครช่วยบอกฉันได้ไหมว่าห้องสมุดเหล่านี้ได้รับการปรับให้เหมาะสมที่สุดหรือไม่? โดยพื้นฐานแล้วพวกเขาเทียบเท่ากับป่าสุ่มตามรายละเอียดในองค์ประกอบของการเรียนรู้ทางสถิติหรือมีเทคนิคพิเศษมากมายหรือไม่? ฉันหวังว่าคำถามนี้เฉพาะเจาะจงเพียงพอ เป็นตัวอย่างของประเภทของคำตอบที่ฉันกำลังมองหาถ้ามีคนถามฉันว่าแพคเกจพีชคณิตเชิงเส้น BLAS ได้รับการปรับให้เหมาะสมที่สุดฉันจะบอกว่ามันได้รับการปรับปรุงอย่างมากและส่วนใหญ่ไม่คุ้มค่าที่จะพยายามปรับปรุง

3
วิธีการเลือกวิธีการจัดกลุ่ม? วิธีการตรวจสอบวิธีการแก้ปัญหาของคลัสเตอร์ (เพื่อรับประกันทางเลือกวิธีการ)?
หนึ่งในปัญหาที่ใหญ่ที่สุดที่มีการวิเคราะห์กลุ่มคือเราอาจต้องได้ข้อสรุปที่แตกต่างกันเมื่อใช้วิธีการจัดกลุ่มที่แตกต่างกัน (รวมถึงวิธีการเชื่อมโยงที่แตกต่างกันในการจัดกลุ่มแบบลำดับชั้น) ฉันต้องการทราบความคิดเห็นของคุณเกี่ยวกับเรื่องนี้ - คุณจะเลือกวิธีการอย่างไรและอย่างไร บางคนอาจพูดว่า "วิธีที่ดีที่สุดในการทำคลัสเตอร์คือให้คำตอบที่ถูกต้อง"; แต่ฉันอาจถามเพื่อตอบสนองว่าการวิเคราะห์กลุ่มควรเป็นเทคนิคที่ไม่ได้รับการสำรอง - ดังนั้นฉันจะรู้ได้อย่างไรว่าวิธีการหรือการเชื่อมโยงใดเป็นคำตอบที่ถูกต้อง? โดยทั่วไป: การจัดกลุ่มเพียงอย่างเดียวแข็งแกร่งเพียงพอที่จะพึ่งพาหรือไม่ หรือเราต้องการวิธีที่สองและรับผลการแบ่งปันเพื่อเป็นไปตามทั้งสองอย่าง? คำถามของฉันไม่เพียงเกี่ยวกับวิธีที่เป็นไปได้ในการตรวจสอบ / ประเมินประสิทธิภาพการจัดกลุ่ม แต่ยังมีความกว้างกว่า - เราเลือก / ชอบวิธีการจัดกลุ่ม / อัลกอริทึมมากกว่าวิธีอื่น นอกจากนี้ยังมีคำเตือนทั่วไปที่เราควรพิจารณาเมื่อเราเลือกวิธีการจัดกลุ่มข้อมูลของเราหรือไม่ ฉันรู้ว่ามันเป็นคำถามทั่วไปและยากที่จะตอบ ฉันแค่อยากจะรู้ว่าถ้าคุณมีความคิดเห็นหรือคำแนะนำใด ๆ หรือข้อเสนอแนะสำหรับฉันที่จะเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้

1
การใช้การตรวจสอบข้ามอย่างไม่ถูกต้อง (ประสิทธิภาพการรายงานสำหรับค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุด)
เมื่อเร็ว ๆ นี้ฉันเจอกระดาษที่เสนอให้ใช้ตัวจําแนกk-NNบนชุดข้อมูลเฉพาะ ผู้เขียนใช้ตัวอย่างข้อมูลทั้งหมดที่มีเพื่อดำเนินการตรวจสอบความถูกต้องข้าม k-fold สำหรับค่าk ที่แตกต่างกันและรายงานผลการตรวจสอบความถูกต้องข้ามของการกำหนดค่าพารามิเตอร์พารามิเตอร์ที่ดีที่สุด สำหรับความรู้ของฉันผลลัพธ์นี้มีความลำเอียงและพวกเขาควรจะมีชุดการทดสอบแยกต่างหากเพื่อให้ได้การประเมินความถูกต้องของตัวอย่างที่ไม่ได้ใช้ในการเพิ่มประสิทธิภาพพารามิเตอร์มากเกินไป ฉันถูกไหม? คุณสามารถให้ข้อมูลอ้างอิงบางส่วน (ควรเป็นบทความวิจัย) ที่อธิบายการใช้การตรวจสอบไขว้ในทางที่ผิดหรือไม่?

3
การประเมินการถดถอยโลจิสติกและการตีความความดีงามของ Hosmer-Lemeshow of Fit
ดังที่เราทุกคนรู้กันว่ามี 2 วิธีในการประเมินรูปแบบการถดถอยโลจิสติกส์และพวกเขากำลังทดสอบสิ่งที่แตกต่างกันมาก พลังการทำนาย: รับสถิติที่วัดว่าคุณสามารถทำนายตัวแปรตามได้ดีเพียงใดขึ้นอยู่กับตัวแปรอิสระ Pseudo R ^ 2 ที่รู้จักกันดีคือ McFadden (1974) และ Cox and Snell (1989) สถิติความถูกต้อง การทดสอบกำลังบอกว่าคุณสามารถทำได้ดียิ่งขึ้นด้วยการทำให้แบบจำลองมีความซับซ้อนมากขึ้นหรือไม่ซึ่งเป็นการทดสอบว่ามีเชิงเส้นหรือการโต้ตอบใด ๆ หรือไม่ ฉันใช้การทดสอบทั้งสองแบบกับโมเดลซึ่งเพิ่มกำลังสองและการโต้ตอบ อยู่แล้ว: >summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = …

3
การจำแนกประเภท / การประเมินผลสำหรับข้อมูลที่มีความไม่สมดุลสูง
ฉันจัดการกับปัญหาการตรวจจับการฉ้อโกง (เหมือนการให้คะแนนเครดิต) ดังนั้นจึงมีความสัมพันธ์ที่ไม่สมดุลระหว่างการสังเกตการณ์ที่เป็นการฉ้อโกงและไม่หลอกลวง http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlให้ภาพรวมที่ดีของตัวชี้วัดการจำแนกประเภทที่แตกต่างกัน Precision and Recallหรือkappaทั้งคู่ดูเหมือนจะเป็นทางเลือกที่ดี: วิธีหนึ่งที่จะพิสูจน์ผลลัพธ์ของตัวแยกประเภทดังกล่าวคือการเปรียบเทียบพวกเขากับตัวแยกประเภทพื้นฐานและแสดงให้เห็นว่าพวกเขาดีกว่าการทำนายโอกาสแบบสุ่ม เท่าที่ผมเข้าใจkappaอาจเป็นทางเลือกที่ดีกว่าเล็กน้อยที่นี่เป็นโอกาสสุ่มถูกนำเข้าบัญชี จากคัปปาของโคเฮนในภาษาอังกฤษธรรมดาฉันเข้าใจว่าkappaเกี่ยวข้องกับแนวคิดของการได้รับข้อมูล: [... ] ความแม่นยำที่สังเกตได้ 80% นั้นน่าประทับใจน้อยกว่ามากด้วยความแม่นยำที่คาดหวัง 75% เทียบกับความแม่นยำที่คาดหวัง 50% [... ] ดังนั้นคำถามของฉันจะเป็น: ถูกต้องหรือไม่ที่จะถือว่าkappaเป็นตัวชี้วัดการจำแนกประเภทที่เหมาะสมกว่าสำหรับปัญหานี้ เพียงใช้kappaป้องกันผลกระทบเชิงลบของความไม่สมดุลในอัลกอริทึมการจำแนกประเภทหรือไม่? การเรียนรู้แบบสุ่มตัวอย่างหรือการเรียนรู้แบบใช้ต้นทุนเป็นเรื่องที่จำเป็นหรือไม่(ดูที่http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )


1
เหตุใดจึงใช้คะแนน Normalized Gini แทน AUC เพื่อประเมินผล
การแข่งขันของ Kaggle การแข่งขันการทำนายความปลอดภัยอย่างปลอดภัยของ Porto Seguroใช้คะแนน Normalized Gini เป็นตัวชี้วัดการประเมินผลและสิ่งนี้ทำให้ฉันสงสัยเกี่ยวกับเหตุผลของการเลือกนี้ อะไรคือข้อดีของการใช้คะแนน gini ปกติแทนการวัดทั่วไปมากที่สุดเช่น AUC สำหรับการประเมิน?

1
Comparisson ของทั้งสองรุ่นเมื่อ ROC curves ข้ามซึ่งกันและกัน
มาตรการทั่วไปหนึ่งที่ใช้ในการเปรียบเทียบแบบจำลองการจำแนกสองแบบขึ้นไปคือการใช้พื้นที่ใต้กราฟ ROC (AUC) เป็นวิธีการประเมินประสิทธิภาพทางอ้อม ในกรณีนี้โมเดลที่มี AUC ขนาดใหญ่มักตีความว่าทำงานได้ดีกว่าโมเดลที่มี AUC ขนาดเล็กกว่า แต่ตาม Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ) เมื่อเส้นโค้งทั้งคู่ข้ามกันการเปรียบเทียบดังกล่าวไม่สามารถใช้งานได้อีกต่อไป ทำไมถึงเป็นเช่นนั้น? ตัวอย่างเช่นมีสิ่งใดที่สามารถตรวจสอบเกี่ยวกับแบบจำลอง A, B และ C ตาม ROC curves และ AUCs bellow?

2
ความสัมพันธ์ระหว่างค่า ph, Matthews และ Pearson สัมประสิทธิ์สหสัมพันธ์
ค่าสัมประสิทธิ์สหสัมพันธ์ของพีและแมทธิวเป็นแนวคิดเดียวกันหรือไม่? พวกมันเกี่ยวข้องกันอย่างไรหรือเทียบเท่ากับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันสำหรับตัวแปรไบนารีสองตัว? ฉันคิดว่าค่าไบนารีเป็น 0 และ 1 ความสัมพันธ์ของเพียร์สันระหว่างตัวแปรสุ่มสองเบอร์นูลลี่และคือ:yxxxyyy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - \mathbb{E}[x] \, \mathbb{E}[y]}{\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{n_{1 1} n - n_{1\bullet} n_{\bullet 1}}{\sqrt{n_{0\bullet}n_{1\bullet} n_{\bullet 0}n_{\bullet 1}}} ที่ไหน E[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11nE[x]=n1∙nVar[x]=n0∙n1∙n2E[y]=n∙1nVar[y]=n∙0n∙1n2E[xy]=n11n \mathbb{E}[x] = \frac{n_{1\bullet}}{n} \quad \text{Var}[x] = \frac{n_{0\bullet}n_{1\bullet}}{n^2} \quad \mathbb{E}[y] …

3
เหตุใดจึงไม่มีวิธีการพัก (การแยกข้อมูลเป็นการฝึกอบรมและการทดสอบ) ที่ใช้ในสถิติแบบดั้งเดิม
ในห้องเรียนของฉันเกี่ยวกับ data mining วิธี holdout ถูกนำเสนอเป็นวิธีการประเมินประสิทธิภาพของแบบจำลอง อย่างไรก็ตามเมื่อฉันเข้าชั้นเฟิสต์คลาสของฉันในโมเดลเชิงเส้นนี่ไม่ได้ถูกนำมาใช้เป็นวิธีการตรวจสอบความถูกต้องของแบบจำลอง การวิจัยออนไลน์ของฉันยังไม่แสดงจุดแยก เหตุใดจึงไม่ใช้วิธีการพักในสถิติแบบดั้งเดิม

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

2
อะไรคือความแตกต่างระหว่าง
ผมอ่านเกี่ยวกับเมตริกถดถอยในหลาม scikit การเรียนรู้ด้วยตนเองและแม้ว่าหนึ่งของพวกเขาแต่ละคนมีสูตรของตัวเองฉันไม่สามารถบอกสังหรณ์ใจว่าอะไรคือความแตกต่างระหว่างและคะแนนความแปรปรวนและดังนั้นเมื่อจะใช้อย่างใดอย่างหนึ่งหรืออื่นในการประเมิน โมเดลของฉันR2R2R^2

5
ทำไมคะแนน f เบต้ากำหนดเบต้าเช่นนั้น
นี่คือคะแนน F เบต้า: Fβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallFβ=(1+β2)⋅พีRอีคผมsผมโอn⋅Rอีคaล.ล.(β2⋅พีRอีคผมsผมโอn)+Rอีคaล.ล.F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} วิกิพีเดียบทความระบุว่าF_FβFβF_\beta "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision" ฉันไม่ได้รับความคิด ทำไมนิยามเช่นนั้น ฉันสามารถกำหนดแบบนี้:F βββ\betaFβFβF_\beta Fβ=(1+β)⋅precision⋅recall(β⋅precision)+recallFβ=(1+β)⋅พีRอีคผมsผมโอn⋅Rอีคaล.ล.(β⋅พีRอีคผมsผมโอn)+Rอีคaล.ล.F_\beta = (1 + \beta) \cdot \frac{\mathrm{precision} \cdot …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.