สถิติและข้อมูลขนาดใหญ่ classification

3

การจำแนกประเภท / การประเมินผลสำหรับข้อมูลที่มีความไม่สมดุลสูง

ฉันจัดการกับปัญหาการตรวจจับการฉ้อโกง (เหมือนการให้คะแนนเครดิต) ดังนั้นจึงมีความสัมพันธ์ที่ไม่สมดุลระหว่างการสังเกตการณ์ที่เป็นการฉ้อโกงและไม่หลอกลวง http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlให้ภาพรวมที่ดีของตัวชี้วัดการจำแนกประเภทที่แตกต่างกัน Precision and Recallหรือkappaทั้งคู่ดูเหมือนจะเป็นทางเลือกที่ดี: วิธีหนึ่งที่จะพิสูจน์ผลลัพธ์ของตัวแยกประเภทดังกล่าวคือการเปรียบเทียบพวกเขากับตัวแยกประเภทพื้นฐานและแสดงให้เห็นว่าพวกเขาดีกว่าการทำนายโอกาสแบบสุ่ม เท่าที่ผมเข้าใจkappaอาจเป็นทางเลือกที่ดีกว่าเล็กน้อยที่นี่เป็นโอกาสสุ่มถูกนำเข้าบัญชี จากคัปปาของโคเฮนในภาษาอังกฤษธรรมดาฉันเข้าใจว่าkappaเกี่ยวข้องกับแนวคิดของการได้รับข้อมูล: [... ] ความแม่นยำที่สังเกตได้ 80% นั้นน่าประทับใจน้อยกว่ามากด้วยความแม่นยำที่คาดหวัง 75% เทียบกับความแม่นยำที่คาดหวัง 50% [... ] ดังนั้นคำถามของฉันจะเป็น: ถูกต้องหรือไม่ที่จะถือว่าkappaเป็นตัวชี้วัดการจำแนกประเภทที่เหมาะสมกว่าสำหรับปัญหานี้ เพียงใช้kappaป้องกันผลกระทบเชิงลบของความไม่สมดุลในอัลกอริทึมการจำแนกประเภทหรือไม่? การเรียนรู้แบบสุ่มตัวอย่างหรือการเรียนรู้แบบใช้ต้นทุนเป็นเรื่องที่จำเป็นหรือไม่(ดูที่http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )

22 classification unbalanced-classes precision-recall cohens-kappa model-evaluation

3

ตีความแกน y ของแปลงที่พึ่งพาบางส่วน

คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 5 ปีที่ผ่านมา ฉันได้อ่านหัวข้ออื่น ๆ เกี่ยวกับพล็อตพึ่งพาบางส่วนและส่วนใหญ่อยู่ในวิธีการที่คุณพล็อตพวกเขาด้วยแพคเกจที่แตกต่างกันไม่ใช่วิธีที่คุณสามารถตีความได้อย่างถูกต้องดังนั้น: ฉันอ่านและสร้างแผนการพึ่งพาบางส่วนในปริมาณที่พอใช้ ฉันรู้ว่าพวกเขาวัดผลกระทบเล็กน้อยของตัวแปรในฟังก์ชั่นƒS (withS) ด้วยค่าเฉลี่ยผลกระทบของตัวแปรอื่นทั้งหมด ((c) จากแบบจำลองของฉัน ค่า y ที่สูงกว่าหมายความว่าพวกเขามีอิทธิพลต่อการทำนายชั้นเรียนของฉันอย่างแม่นยำ อย่างไรก็ตามฉันไม่พอใจกับการตีความเชิงคุณภาพนี้ โมเดลของฉัน (ฟอเรสต์แบบสุ่ม) กำลังทำนายคลาสรอบคอบสองคลาส "ใช่ต้นไม้" และ "ไม่มีต้นไม้" TRI เป็นตัวแปรที่พิสูจน์แล้วว่าเป็นตัวแปรที่ดีสำหรับเรื่องนี้ สิ่งที่ฉันเริ่มคิดว่าค่า Y กำลังแสดงความน่าจะเป็นสำหรับการจำแนกประเภทที่ถูกต้อง ตัวอย่าง: y (0.2) แสดงว่าค่า TRI ของ> ~ 30 มีโอกาส 20% ในการระบุการจำแนกประเภท True Positive อย่างถูกต้อง อยู่ที่ไหนตรงกันข้าม y (-0.2) แสดงว่าค่า TRI …

22 r classification data-visualization random-forest interpretation

4

Shao ใช้ผลการตรวจสอบไขว้แบบลาก่อนออกเมื่อใด

ในบทความการเลือกโมเดลเชิงเส้นโดย Jun-Shao แสดงให้เห็นว่าสำหรับปัญหาของการเลือกตัวแปรในการถดถอยเชิงเส้นหลายตัวแปรวิธีของการตรวจสอบความถูกต้องแบบลาออกครั้งเดียว (LOOCV) คือ 'ไม่สอดคล้องเชิงเส้นกำกับ' ในภาษาอังกฤษธรรมดามีแนวโน้มที่จะเลือกรุ่นที่มีตัวแปรมากเกินไป ในการศึกษาแบบจำลอง Shao แสดงให้เห็นว่าแม้การสำรวจเพียง 40 ครั้งเท่านั้น LOOCV สามารถใช้เทคนิคการตรวจสอบข้ามแบบอื่นได้ต่ำกว่า บทความนี้ค่อนข้างขัดแย้งและไม่สนใจ (10 ปีหลังจากการตีพิมพ์เคมีของเพื่อนร่วมงานของฉันไม่เคยได้ยินเรื่องนี้มาก่อนและมีความสุขที่ใช้ LOOCV สำหรับการเลือกตัวแปร ... ) นอกจากนี้ยังมีความเชื่อ (ฉันมีความผิดในเรื่องนี้) ว่าผลลัพธ์ของมันขยายออกไปค่อนข้าง จำกัด ขอบเขตดั้งเดิม จากนั้นคำถาม: ผลลัพธ์เหล่านี้จะขยายไปไกลแค่ไหน? พวกเขาจะใช้กับปัญหาต่อไปนี้? การเลือกตัวแปรสำหรับการถดถอยโลจิสติก / GLM? การเลือกตัวแปรสำหรับการจำแนกประเภท Fisher LDA? การเลือกตัวแปรใช้ SVM พร้อมพื้นที่เคอร์เนล จำกัด (หรือไม่ จำกัด )? เปรียบเทียบรุ่นในการจำแนกประเภทพูดว่า SVM ใช้เมล็ดที่แตกต่างกันหรือไม่ เปรียบเทียบแบบจำลองในการถดถอยเชิงเส้นพูดเปรียบเทียบ MLR กับ Ridge Regression …

22 classification model-selection cross-validation

2

การเพิ่มน้ำหนักให้กับการถดถอยโลจิสติกสำหรับข้อมูลที่ไม่สมดุล

ฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกด้วยข้อมูลที่ไม่สมดุล (9: 1) ฉันต้องการลองใช้ตัวเลือกตุ้มน้ำหนักในglmฟังก์ชันใน R แต่ฉันไม่แน่ใจ 100% ว่ามันทำอะไร c(0,0,0,0,0,0,0,0,0,1)ช่วยบอกตัวแปรเอาท์พุทของฉันคือ ตอนนี้ฉันต้องการเพิ่มน้ำหนัก "1" 10 เท่า weights=c(1,1,1,1,1,1,1,1,1,1,1,10)ดังนั้นผมจึงให้น้ำหนักการโต้แย้ง เมื่อฉันทำเช่นนั้นมันจะได้รับการพิจารณาในการคำนวณความเป็นไปได้สูงสุด ฉันถูกไหม? การจำแนกประเภทของ "1" นั้นแย่กว่านั้นเพียง 10 เท่าจากนั้นการจัดประเภทผิดพลาดเป็น "0"

21 regression logistic classification unbalanced-classes weighted-data

3

จากกฎ Perceptron ไปยัง Gradient Descent: Perceptrons ที่มีฟังก์ชั่นการเปิดใช้งาน sigmoid แตกต่างจาก Logistic Regression อย่างไร

โดยพื้นฐานแล้วคำถามของฉันคือใน Multilayer Perceptrons, Perceptrons นั้นใช้กับฟังก์ชั่นการเปิดใช้งาน sigmoid ดังนั้นในการอัปเดตกฎจะถูกคำนวณดังนี้y^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Perceptron "sigmoid" นี้แตกต่างจากการถดถอยโลจิสติกอย่างไร ฉันจะบอกว่า sigmoid perceptron ชั้นเดียวเทียบเท่ากับการถดถอยโลจิสติกในแง่ที่ว่าทั้งสองใช้ในกฎการอัพเดท นอกจากนี้ทั้งสองส่งกลับในการทำนาย อย่างไรก็ตามในมัลติเลเยอร์ Perceptrons ฟังก์ชั่นการเปิดใช้งาน sigmoid จะใช้เพื่อคืนความน่าจะเป็นไม่ใช่สัญญาณเปิดปิดในทางตรงกันข้ามกับการถดถอยโลจิสติกและ perceptron ชั้นเดียวy^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}sign(y^=11+exp(−wTxi))sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}) ฉันคิดว่าการใช้คำว่า "Perceptron" อาจจะคลุมเครือเล็กน้อยดังนั้นให้ฉันให้พื้นหลังตามความเข้าใจในปัจจุบันของฉันเกี่ยวกับ perceptrons ชั้นเดียว: กฎ Perceptron แบบคลาสสิก ประการแรกคลาสสิก perceptron โดย F. Rosenblatt ที่เรามีฟังก์ชั่นขั้นตอน: Δ wd= η( yผม- yผม^) xฉันdYผม, yผม^∈ …

21 logistic classification neural-networks gradient-descent perceptron

2

เครือข่ายประสาทเทียมสำหรับอนุกรมเวลา?

ฉันต้องการที่จะทราบว่ามีรหัสในการฝึกอบรมโครงข่ายประสาทเทียมเพื่อการจำแนกประเภทอนุกรมเวลาหรือไม่ ฉันเคยเห็นเอกสารล่าสุด ( http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf ) แต่ฉันไม่แน่ใจว่ามีบางสิ่งอยู่หรือถ้าฉันทำรหัสด้วยตัวเอง

21 time-series classification neural-networks conv-neural-network

5

วิธีการควบคุมค่าใช้จ่ายของการจำแนกประเภทในป่าสุ่ม?

เป็นไปได้หรือไม่ที่จะควบคุมค่าใช้จ่ายในการจำแนกประเภทใน R แพ็คเกจแบบสุ่มป่าไม้ ? ในงานของฉันเองเชิงลบเท็จ (เช่นหายไปในข้อผิดพลาดที่บุคคลอาจมีโรค) มีราคาแพงกว่าบวกเท็จ แพ็คเกจrpartช่วยให้ผู้ใช้สามารถควบคุมค่าใช้จ่ายในการจำแนกประเภทได้โดยการระบุเมทริกซ์การสูญเสียไปยังการจัดประเภทน้ำหนักที่แตกต่างกัน มีอะไรที่คล้ายกันเกิดขึ้นเพื่อrandomForestอะไร? ตัวอย่างเช่นฉันควรใช้classwtตัวเลือกในการควบคุมเกณฑ์ของ Gini หรือไม่

21 r classification random-forest loss-functions metric

4

เหตุใดการแก้ปัญหาแบบกำลังสองน้อยที่สุดจึงให้ผลลัพธ์ไม่ดีในกรณีนี้

มีรูปภาพในหน้า 204 บทที่ 4 ของ "การจดจำรูปแบบและการเรียนรู้ของเครื่อง" โดย Bishop ซึ่งฉันไม่เข้าใจว่าทำไม Least Square solution จึงให้ผลลัพธ์ที่ไม่ดีที่นี่: ย่อหน้าก่อนหน้านี้เกี่ยวกับข้อเท็จจริงที่ว่าวิธีแก้ปัญหากำลังสองน้อยที่สุดนั้นไม่มีความทนทานต่อค่าผิดปกติอย่างที่คุณเห็นในภาพต่อไปนี้ แต่ฉันไม่เข้าใจว่าเกิดอะไรขึ้นในภาพอื่นและทำไม LS จึงให้ผลลัพธ์ที่แย่เช่นกัน

21 classification least-squares

5

วิธีที่ถูกต้องในการทดสอบความสำคัญของผลลัพธ์การจำแนกประเภทคืออะไร

มีหลายสถานการณ์ที่คุณสามารถฝึกตัวแยกประเภทที่แตกต่างกันหลายตัวหรือใช้วิธีการดึงคุณสมบัติที่แตกต่างกันหลายวิธี ในวรรณกรรมผู้เขียนมักจะให้ข้อผิดพลาดการจัดหมวดหมู่ค่าเฉลี่ยในชุดของการแยกแบบสุ่มของข้อมูล (เช่นหลังจากการตรวจสอบข้ามซ้อนสองเท่า) และบางครั้งก็ให้ความแตกต่างกับข้อผิดพลาดในการแยกเช่นกัน อย่างไรก็ตามสิ่งนี้ด้วยตัวมันเองไม่เพียงพอที่จะบอกได้ว่าตัวจําแนกประเภทหนึ่งดีกว่าตัวจําแนกอื่นอย่างมาก ฉันได้เห็นวิธีการที่แตกต่างมากมายในเรื่องนี้ - การใช้การทดสอบ Chi-squared, t-test, ANOVA พร้อมการทดสอบหลังเลิกเรียน ฯลฯ ควรใช้วิธีการใดเพื่อกำหนดนัยสำคัญทางสถิติ ภายใต้คำถามนั้นคือ: เราควรตั้งสมมติฐานอะไรเกี่ยวกับการแจกแจงคะแนนการจำแนกประเภท?

21 classification statistical-significance

4

วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?

หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

การเรียนรู้ของเครื่องเพื่อทำนายความน่าจะเป็นในชั้นเรียน

ฉันกำลังมองหาตัวแยกประเภทที่เอาต์พุตความน่าจะเป็นซึ่งเป็นตัวอย่างของหนึ่งในสองคลาส ฉันรู้ว่าการถดถอยโลจิสติกและเบย์ไร้เดียงสา แต่คุณสามารถบอกฉันเกี่ยวกับคนอื่น ๆ ที่ทำงานในลักษณะเดียวกันได้หรือไม่? นั่นคือตัวแยกประเภทที่ไม่ได้คาดคะเนคลาสที่เป็นของตัวอย่าง แต่ความน่าจะเป็นที่ตัวอย่างนั้นเหมาะสมกับคลาสเฉพาะหรือไม่ คะแนนโบนัสสำหรับความคิดที่คุณสามารถแบ่งปันเกี่ยวกับข้อดีและข้อเสียของตัวแยกประเภทที่แตกต่างกันเหล่านี้ (รวมถึงการถดถอยโลจิสติกและ Bayes ไร้เดียงสา) ตัวอย่างเช่นมีการจัดหมวดหมู่หลายชั้นที่ดีกว่าบ้างไหม?

20 machine-learning probability logistic classification naive-bayes

3

ทดสอบการแยกเชิงเส้น

มีวิธีทดสอบการแยกเชิงเส้นของชุดข้อมูลสองระดับในมิติที่สูงหรือไม่? คุณสมบัติเวคเตอร์ของฉันมีความยาว 40 ฉันรู้ว่าฉันสามารถใช้การทดลองการถดถอยโลจิสติกและกำหนดอัตราการเตือนภัยที่ผิดพลาดเพื่อสรุปว่าทั้งสองคลาสนั้นแยกกันเป็นเส้นตรงหรือไม่ แต่ก็เป็นการดีที่จะรู้ว่ามีกระบวนการมาตรฐานอยู่แล้ว

20 machine-learning classification

4

สรุปผลลัพธ์“ ใหญ่ p, เล็ก n”

ใครช่วยชี้ให้ฉันไปที่รายงานผลการสำรวจ "ใหญ่ , เล็ก "? ฉันสนใจในวิธีการแก้ปัญหานี้ปรากฏตัวในบริบทของการวิจัยที่แตกต่างกันเช่นการถดถอยการจำแนกการทดสอบ Hotelling ของฯลฯpพีpnnn

20 regression classification multivariate-analysis

1

k-fold การตรวจสอบความถูกต้องของการเรียนรู้ทั้งมวล

ฉันสับสนเกี่ยวกับวิธีแบ่งพาร์ติชันข้อมูลสำหรับการตรวจสอบความถูกต้องของวง k-fold สมมติว่าฉันมีกรอบการเรียนรู้ทั้งมวลสำหรับการจำแนก เลเยอร์แรกของฉันมีโมเดลการจัดหมวดหมู่เช่น svm แผนภูมิการตัดสินใจ เลเยอร์ที่สองของฉันมีโมเดลการลงคะแนนซึ่งรวมการทำนายจากเลเยอร์แรกและให้การทำนายขั้นสุดท้าย หากเราใช้การตรวจสอบความถูกต้อง 5 เท่าของ cross-cross ฉันคิดว่าจะใช้ 5 folds ดังนี้: 3 เท่าสำหรับการฝึกชั้นแรก 1 เท่าสำหรับฝึกซ้อมเลเยอร์ที่สอง 1 เท่าสำหรับการทดสอบ นี้เป็นวิธีที่ถูกต้องหรือไม่? ข้อมูลการฝึกอบรมสำหรับชั้นหนึ่งและชั้นสองควรเป็นอิสระหรือไม่? ฉันคิดว่าพวกเขาควรจะมีความเป็นอิสระเพื่อให้กรอบการเรียนรู้ทั้งมวลจะแข็งแกร่ง เพื่อนของฉันแนะนำข้อมูลการฝึกอบรมสำหรับเลเยอร์แรกและเลเยอร์ที่สองควรเหมือนกันเช่น 4 เท่าสำหรับการฝึกชั้นหนึ่งและชั้นสอง 1 เท่าสำหรับการทดสอบ ด้วยวิธีนี้เราจะมีข้อผิดพลาดที่แม่นยำยิ่งขึ้นของกรอบการเรียนรู้ทั้งมวลและการปรับกรอบซ้ำ ๆ จะมีความแม่นยำมากขึ้นเนื่องจากมีพื้นฐานจากข้อมูลการฝึกอบรมเพียงครั้งเดียว นอกจากนี้เลเยอร์ที่สองอาจมีอคติต่อข้อมูลการฝึกอบรมที่เป็นอิสระ คำแนะนำใด ๆ ที่ชื่นชมอย่างมาก

20 classification cross-validation ensemble

1

ประโยชน์ของการสุ่มแบบแบ่งชั้นและสุ่มตัวอย่างเพื่อสร้างข้อมูลการฝึกอบรมในการจำแนกประเภท

ฉันต้องการทราบว่ามีข้อได้เปรียบใด ๆ / บางส่วนของการใช้การสุ่มตัวอย่างแบบแบ่งชั้นแทนการสุ่มตัวอย่างแบบสุ่มหรือไม่เมื่อแยกชุดข้อมูลเดิมเข้ากับชุดการฝึกอบรมและการทดสอบสำหรับการจำแนก การสุ่มตัวอย่างแบบแบ่งชั้นจะทำให้มีอคติต่อลักษณนามมากกว่าการสุ่มตัวอย่างแบบสุ่มหรือไม่? แอพพลิเคชั่นที่ฉันต้องการใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อเตรียมข้อมูลเป็นตัวจําแนกประเภทลอเรนซ์ป่าซึ่งผ่านการฝึกอบรมเมื่อวันที่2323\frac{2}{3}ของชุดข้อมูลดั้งเดิม ก่อนตัวแยกประเภทยังมีขั้นตอนของการสร้างตัวอย่างสังเคราะห์ (SMOTE [1]) ซึ่งปรับขนาดของคลาสให้สมดุล [1] Chawla, Nitesh V. และอื่น ๆ " SMOTE: เทคนิคการสุ่มตัวอย่างแบบสังเคราะห์ส่วนน้อย " วารสารวิจัยปัญญาประดิษฐ์ 16 (2002): 321-357

20 classification cross-validation random-forest train stratification

คำถามติดแท็ก classification