คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

4
KNN เป็นอัลกอริทึมการเรียนรู้ที่เลือกปฏิบัติหรือไม่?
ดูเหมือนว่า KNN เป็นอัลกอริทึมการเรียนรู้แบบเลือกปฏิบัติ แต่ฉันไม่พบแหล่งข้อมูลออนไลน์ใด ๆ ยืนยันสิ่งนี้ KNN เป็นอัลกอริทึมการเรียนรู้ที่เลือกปฏิบัติหรือไม่?

2
การจำแนกประเภทด้วยการไล่ระดับสีแบบไล่ระดับ: วิธีการทำนายใน [0,1]
คำถาม ฉันกำลังดิ้นรนเพื่อทำความเข้าใจว่าการทำนายนั้นจะอยู่ในช่วง[0,1][0,1][0,1]เมื่อทำการจำแนกไบนารีด้วยการไล่ระดับสีแบบค่อยเป็นค่อยไป สมมติว่าเรากำลังทำงานกับปัญหาการจำแนกเลขฐานสองและฟังก์ชันวัตถุประสงค์ของเราคือการสูญเสียบันทึก−∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))โดยที่yyyคือตัวแปรเป้าหมาย∈{0,1}∈{0,1}\in \{0,1\}และHHHคือโมเดลปัจจุบันของเรา เมื่อการฝึกอบรมผู้เรียนที่อ่อนแอต่อไปhihih_iดังกล่าวว่ารูปแบบใหม่ของเราคือHi=Hi−1+hiHi=Hi−1+hiH_i = H_{i-1} + h_iสิ่งที่เป็นกลไกที่ควรจะให้Hi∈[0,1]Hi∈[0,1]H_i \in [0,1] ? หรืออาจเป็นคำถามที่เกี่ยวข้องมากกว่านี้มีกลไกแบบนี้หรือไม่? ข้อมูลเพิ่มเติมเกี่ยวกับสิ่งที่ฉันทำ ฉันกำลังพยายามเพิ่มการไล่ระดับสีโดยใช้ต้นไม้การถดถอย สิ่งที่ฉันทำเพื่อหลีกเลี่ยงมันคือการคูณด้วยปัจจัยc ∈ [ 0 , c max ]เช่นนี้H + c max hไม่ไปต่ำกว่าศูนย์หรือสูงกว่าหนึ่งและฉันเลือกcในช่วงนี้ที่ย่อเล็กสุด ฟังก์ชั่นการสูญเสียhihih_ic∈[0,cmax]c∈[0,cmax]c \in [0,c_{\text{max}}]H+cmaxhH+cmaxhH + c_{\text{max}}hccc นี่ทำให้เกิดปัญหาต่อไปนี้: หลังจากรอบฉันมีจุดหนึ่งที่จำแนกอย่างสมบูรณ์และแบ่งที่ดีที่สุดที่มีการผลักลักษณนามในทิศทางของการไล่ระดับสีต้องการผลักดันจุดนี้เหนือจุดหนึ่งซึ่งฉันแน่ใจว่าจะไม่เกิดขึ้นโดย การตั้งค่า 0 ดังนั้นการวนซ้ำครั้งถัดไปทั้งหมดจะเลือกการแบ่งที่เหมือนกันและc = 0 ที่เหมือนกันc=0c=0c = 0c=0c=0c = 0 ฉันลองใช้ระเบียบปฏิบัติทั่วไป …


1
มันหมายความว่า AUC เป็นกฎการให้คะแนนแบบครึ่งหรือไม่?
กฎการให้คะแนนที่เหมาะสมคือกฎที่ขยายให้ใหญ่ที่สุดโดยโมเดล 'ของจริง' และไม่อนุญาตให้ 'ป้องกันความเสี่ยง' หรือเล่นเกมในระบบ (จงใจรายงานผลลัพธ์ที่แตกต่างกันเช่นความเชื่อที่แท้จริงของแบบจำลองเพื่อปรับปรุงคะแนน) คะแนน Brier นั้นถูกต้องความแม่นยำ (สัดส่วนจำแนกอย่างถูกต้อง) นั้นไม่เหมาะสมและมักท้อ บางครั้งฉันเห็นว่า AUC เรียกว่าเกณฑ์การให้คะแนนแบบกึ่งที่ทำให้ไม่แม่นยำอย่างสมบูรณ์ แต่มีความอ่อนไหวน้อยกว่ากฎที่เหมาะสม (ตัวอย่างเช่นที่นี่/stats//a/90705/53084 ) กฎการให้คะแนนแบบกึ่งถูกต้องหมายความว่าอย่างไร มันกำหนดไว้ที่ไหนสักแห่ง?

3
ตัวแบบโมฆะในการถดถอยคืออะไรและเกี่ยวข้องกับสมมติฐานว่างอย่างไร
ตัวแบบโมฆะในการถดถอยคืออะไรและความสัมพันธ์ระหว่างตัวแบบโมฆะกับสมมติฐานว่างคืออะไร? เพื่อความเข้าใจของฉันมันหมายถึงอะไร ใช้ "ค่าเฉลี่ยของตัวแปรตอบสนอง" เพื่อทำนายตัวแปรตอบสนองต่อเนื่องหรือไม่ ใช้ "การกระจายฉลาก" ในการทำนายตัวแปรการตอบสนองแบบแยก? หากเป็นกรณีนี้ดูเหมือนว่าจะไม่มีการเชื่อมต่อระหว่างสมมติฐานว่าง

2
สุดยอดแห่งการเรียนรู้ทั่วไปจากข้อมูลใน '69
ฉันพยายามที่จะเข้าใจบริบทของ Minsky และ Papert book ชื่อ "Perceptrons" ที่มีชื่อเสียงตั้งแต่ปี 1969 ดังนั้นจึงมีความสำคัญต่อเครือข่ายประสาท เท่าที่ฉันรู้แล้วยังไม่มีอัลกอริทึมการเรียนรู้แบบมีผู้ควบคุมอื่นยกเว้นสำหรับ perceptron: ต้นไม้ตัดสินใจเริ่มมีประโยชน์จริง ๆ ในปลายปี 70s ป่าสุ่มและ SVM เป็น 90s ดูเหมือนว่าวิธี jackknife เป็นที่รู้จักกันอยู่แล้ว แต่ไม่ได้ตรวจสอบ k-cross (70s) หรือ bootstrap (1979?) Wikipedia กล่าวว่ากรอบสถิติแบบคลาสสิกของ Neyman-Pearson และ Fisher ยังคงไม่เห็นด้วยใน '50s แม้ว่าจะมีความพยายามครั้งแรกในการอธิบายทฤษฎีลูกผสมอยู่ใน' 40s ดังนั้นคำถามของฉัน: อะไรคือวิธีการที่ทันสมัยของการแก้ปัญหาทั่วไปของการทำนายจากข้อมูล?

1
ฝึกพื้นฐานการสุ่มมาร์คอฟสำหรับการจำแนกพิกเซลในรูปภาพ
ฉันพยายามเรียนรู้วิธีใช้ Markov Random Fields เพื่อแบ่งส่วนพื้นที่ในรูปภาพ ฉันไม่เข้าใจพารามิเตอร์บางอย่างใน MRF หรือเหตุใดการเพิ่มความคาดหวังสูงสุดที่ฉันดำเนินการจึงล้มเหลวในการรวมเข้ากับโซลูชันในบางครั้ง เริ่มต้นจากทฤษฎีบทของเบย์ฉันมีp(x|y)=p(y|x)p(x)/p(y)p(x|y)=p(y|x)p(x)/p(y)p(x|y) = p(y|x) p(x) / p(y)โดยที่yyyคือค่าระดับสีเทาของพิกเซลและxxxเป็นป้ายกำกับคลาส ฉันเลือกที่จะใช้การแจกแจงแบบเกาส์สำหรับp(y|x)p(y|x)p(y|x)ในขณะที่p(x)p(x)p(x)เป็นแบบจำลองโดยใช้ MRF ฉันใช้ฟังก์ชันที่เป็นไปได้สำหรับ MRF ที่มีทั้งศักยภาพ clique pairwise และค่าที่เป็นไปได้สำหรับเลเบลคลาสของพิกเซลที่ถูกจัดประเภท ค่าพิกเซลที่อาจเกิดขึ้นเพียงครั้งเดียวเป็นบางส่วนคงที่αα\alphaที่ขึ้นอยู่บนฉลากระดับxxxxฟังก์ชันที่มีโอกาสเป็นคู่ได้รับการประเมินสำหรับเพื่อนบ้านที่เชื่อมต่อกัน 4 รายการและส่งกลับค่าบวกββ\betaหากเพื่อนบ้านมีป้ายกำกับคลาสเดียวกันกับพิกเซลนี้และ−β−β-\betaหากป้ายกำกับแตกต่างกัน ที่จุดในการขยายความคาดหวังสูงสุดที่ฉันต้องค้นหาค่าของα(x)α(x)\alpha(x)และββ\betaที่เพิ่มค่าที่คาดหวังของความเป็นไปได้สูงสุดที่บันทึกไว้ฉันใช้วิธีการหาค่าเหมาะที่สุดเชิงตัวเลข พบว่าค่าของββ\betaจะกลายเป็นลบจะเพิ่มขึ้นอย่างมากและการวนซ้ำหรือสองครั้งหลังจากนั้นภาพทั้งหมดจะถูกกำหนดให้กับหนึ่งป้ายเท่านั้นเท่านั้น (พื้นหลัง: การกำหนดป้ายชื่อชั้นเรียนโดยใช้พารามิเตอร์ MRF นั้นใช้ ICM) หากฉันลบอัลฟ่านั่นคือการใช้ศักยภาพของกลุ่มคู่เท่านั้นแล้วการเพิ่มความคาดหวังจะทำได้ดีαα\alpha โปรดอธิบายจุดประสงค์ของอัลฟ่าสำหรับแต่ละชั้นเรียนคืออะไร? ฉันคิดว่าพวกเขาจะเกี่ยวข้องกับจำนวนของคลาสนั้นที่ปรากฏในรูปภาพ แต่ไม่ปรากฏ เมื่อฉันได้ MRF ทำงานด้วยศักยภาพแบบคู่เท่านั้นฉันเปรียบเทียบมันกับแบบจำลองส่วนผสมแบบเกาส์ตรงไปข้างหน้าและพบว่าพวกมันให้ผลลัพธ์ที่เหมือนกันเกือบทั้งหมด ฉันคาดหวังว่าศักยภาพในการจับคู่จะทำให้ชั้นเรียนราบรื่นขึ้นเล็กน้อย แต่นั่นไม่ได้เกิดขึ้น กรุณาแนะนำที่ฉันผิด

2
แนวทางการฝึกอบรมสำหรับชุดข้อมูลที่มีความไม่สมดุลสูง
ฉันมีชุดข้อมูลการทดสอบที่ไม่สมดุลสูง ชุดบวกประกอบด้วย 100 กรณีในขณะที่ชุดลบประกอบด้วย 1500 กรณี ในด้านการฝึกอบรมฉันมีกลุ่มผู้สมัครที่ใหญ่กว่า: ชุดฝึกอบรมเชิงบวกมี 1200 รายและชุดฝึกอบรมเชิงลบมี 12,000 ราย สำหรับสถานการณ์ประเภทนี้ฉันมีหลายทางเลือก: 1) การใช้ SVM แบบถ่วงน้ำหนักสำหรับชุดฝึกอบรมทั้งหมด (P: 1200, N: 12000) 2) การใช้ SVM ตามชุดการฝึกอบรมตัวอย่าง (P: 1200, N: 1200) ตัวอย่างเชิงลบ 1200 รายการจะถูกสุ่มตัวอย่างจาก 12,000 กรณี มีคำแนะนำเชิงทฤษฎีในการตัดสินใจเลือกวิธีใดดีกว่า เนื่องจากชุดข้อมูลทดสอบมีความไม่สมดุลสูงฉันควรใช้ชุดฝึกอบรมที่ไม่สมดุลเช่นกันหรือไม่

4
ความแม่นยำการจำแนกต่ำจะทำอย่างไรต่อไป
ดังนั้นฉันเป็นมือใหม่ในสาขา ML และฉันพยายามจัดหมวดหมู่ เป้าหมายของฉันคือการทำนายผลของการแข่งขันกีฬา ฉันรวบรวมข้อมูลทางประวัติศาสตร์บางอย่างแล้วและตอนนี้พยายามฝึกฝนตัวจําแนก ฉันมีตัวอย่างประมาณ 1200 ตัวอย่าง 0.2 ของพวกเขาแยกออกเพื่อวัตถุประสงค์ในการทดสอบและอื่น ๆ ที่ฉันใส่ลงในการค้นหากริด ฉันได้ลอง SVM ด้วยเมล็ดแบบเชิงเส้น rbf และโพลิโนมินัลและป่าสุ่มไปแล้ว น่าเสียดายที่ฉันไม่สามารถรับความแม่นยำมากกว่า 0.5 ได้อย่างมีนัยสำคัญ (เช่นเดียวกับการสุ่มเลือกชั้นเรียน) หมายความว่าฉันไม่สามารถคาดการณ์ผลลัพธ์ของเหตุการณ์ที่ซับซ้อนเช่นนี้ได้หรือไม่ หรือฉันสามารถรับความแม่นยำอย่างน้อย 0.7-0.8 ถ้าเป็นไปได้แล้วฉันจะดูอะไรต่อไป รับข้อมูลเพิ่มเติมหรือไม่ (ฉันสามารถขยายชุดข้อมูลได้สูงสุด 5 ครั้ง) ลองตัวแยกประเภทอื่นหรือไม่ (การถดถอยโลจิสติก, kNN, ฯลฯ ) ประเมินชุดคุณสมบัติของฉันอีกครั้ง? มี ML-tools ใดที่ต้องวิเคราะห์ซึ่งคุณสมบัติใดที่เหมาะสมและไม่ใช้ บางทีฉันควรลดชุดคุณลักษณะ (ปัจจุบันฉันมีคุณสมบัติ 12 อย่าง) หรือไม่

3
ค้นหากริดบนการตรวจสอบความถูกต้องข้ามของ k-fold
ฉันมีชุดข้อมูล 120 ตัวอย่างในการตั้งค่าการตรวจสอบความถูกต้องไขว้ 10 เท่า ขณะนี้ฉันเลือกข้อมูลการฝึกอบรมของการค้างชำระครั้งแรกและทำการตรวจสอบความถูกต้องข้าม 5 เท่าเพื่อเลือกค่าของแกมม่าและ C โดยการค้นหากริด ฉันใช้ SVM กับเคอร์เนล RBF เนื่องจากฉันใช้การตรวจสอบข้าม 10 ครั้งเพื่อรายงานความแม่นยำการเรียกคืนฉันจะทำการค้นหากริดนี้ในข้อมูลการฝึกอบรมของแต่ละรายการที่ค้างอยู่ (มี 10 โฮลด์แต่ละคนมีการทดสอบ 10% และ 90% ข้อมูลการฝึกอบรม) นั่นจะไม่ใช้เวลานานเกินไปหรือ ถ้าฉันใช้แกมม่าและ C ของสิ่งที่ค้างอยู่ครั้งแรกและใช้มันสำหรับส่วนที่เหลือจาก 9 การตรวจสอบความถูกต้องแบบข้าม k-fold นั่นคือการละเมิดเพราะฉันจะใช้ข้อมูลรถไฟเพื่อรับแกมม่าและ C และใช้อีกครั้ง ส่วนของข้อมูลรถไฟเป็นการทดสอบในช่วงที่สอง

3
ตัวแปร Collinear ในการฝึกอบรม LDA หลายระดับ
ฉันฝึกอบรมลักษณนามหลายระดับ LDA กับ8 ชั้นเรียนของข้อมูล ขณะทำการฝึกซ้อมฉันได้รับคำเตือนว่า: " Variables are collinear " ฉันได้รับการฝึกอบรมมีความถูกต้องมากกว่า90% ฉันใช้ห้องสมุดscikits-LearnในPythonทำการฝึกอบรมและทดสอบข้อมูลหลายคลาส ฉันได้รับความแม่นยำในการทดสอบที่ดีเช่นกัน (ประมาณ85% -95% ) ฉันไม่เข้าใจว่าข้อผิดพลาด / คำเตือนหมายถึงอะไร กรุณาช่วยฉันออกไป.

1
ในทฤษฎีการเรียนรู้ทางสถิติไม่มีปัญหาเรื่องการกำหนดค่าส่วนเกินในชุดทดสอบหรือไม่?
ลองพิจารณาปัญหาเกี่ยวกับการจำแนกชุดข้อมูล MNIST ตามหน้าเว็บ MNIST ของ Yann LeCun , 'Ciresan et al.' ได้รับอัตราความผิดพลาด 0.23% สำหรับชุดทดสอบ MNIST โดยใช้ Convolutional Neural Network การฝึกอบรมชุดแสดงว่า MNIST Let 's เป็น , MNIST ชุดทดสอบเป็นD ทีอีs Tสมมติฐานสุดท้ายที่พวกเขาได้ใช้D T r ฉันnเป็นเอช1และอัตราความผิดพลาดของพวกเขาใน MNIST ทดสอบตั้งค่าการใช้เอช1เป็นอีทีอีs T ( เอช1 ) = 0.0023DtrainDtrainD_{train}DtestDtestD_{test}DtrainDtrainD_{train}h1h1h_{1}h1h1h_{1}Etest(h1)=0.0023Etest(h1)=0.0023E_{test}(h_{1}) = 0.0023 ในมุมมองของพวกเขาเนื่องจากถูกสุ่มตัวอย่างชุดทดสอบจากพื้นที่อินพุตโดยไม่คำนึงถึงh 1พวกเขาสามารถยืนยันได้ว่าประสิทธิภาพข้อผิดพลาดนอกตัวอย่างของสมมติฐานสุดท้ายของพวกเขาE o u t ( h 1 …

5
การเพิ่มข้อมูลการฝึกอบรมมีผลกระทบต่อความแม่นยำของระบบโดยรวมอย่างไร
บางคนสามารถสรุปให้ฉันด้วยตัวอย่างที่เป็นไปได้ในสถานการณ์ใดที่เพิ่มข้อมูลการฝึกอบรมจะช่วยปรับปรุงระบบโดยรวมได้ เมื่อใดที่เราตรวจพบว่าการเพิ่มข้อมูลการฝึกอบรมมากขึ้นอาจเป็นข้อมูลที่เกินความเหมาะสมและไม่ให้ความแม่นยำที่ดีกับข้อมูลการทดสอบ นี่เป็นคำถามที่ไม่เฉพาะเจาะจงมาก แต่ถ้าคุณต้องการที่จะตอบเฉพาะสถานการณ์ที่เฉพาะเจาะจงโปรดทำเช่นนั้น

3
คำแนะนำสำหรับการเรียนรู้ที่คำนึงถึงต้นทุนในการตั้งค่าที่ไม่สมดุล
ฉันมีชุดข้อมูลที่มีไม่กี่ล้านแถวและประมาณ 100 คอลัมน์ ฉันต้องการตรวจสอบประมาณ 1% ของตัวอย่างในชุดข้อมูลซึ่งเป็นของชั้นสามัญ ฉันมีข้อ จำกัด ความแม่นยำขั้นต่ำ แต่เนื่องจากค่าใช้จ่ายไม่สมมาตรฉันไม่กระตือรือร้นในการเรียกคืนใด ๆ (ตราบใดที่ฉันไม่เหลือ 10 การแข่งขันที่เป็นบวก!) มีวิธีใดบ้างที่คุณอยากแนะนำในการตั้งค่านี้? (ยินดีต้อนรับสู่ลิงก์ไปยังเอกสารลิงค์ไปยังการนำไปปฏิบัติ)

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.