คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

3
การจำแนกประเภท / การประเมินผลสำหรับข้อมูลที่มีความไม่สมดุลสูง
ฉันจัดการกับปัญหาการตรวจจับการฉ้อโกง (เหมือนการให้คะแนนเครดิต) ดังนั้นจึงมีความสัมพันธ์ที่ไม่สมดุลระหว่างการสังเกตการณ์ที่เป็นการฉ้อโกงและไม่หลอกลวง http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlให้ภาพรวมที่ดีของตัวชี้วัดการจำแนกประเภทที่แตกต่างกัน Precision and Recallหรือkappaทั้งคู่ดูเหมือนจะเป็นทางเลือกที่ดี: วิธีหนึ่งที่จะพิสูจน์ผลลัพธ์ของตัวแยกประเภทดังกล่าวคือการเปรียบเทียบพวกเขากับตัวแยกประเภทพื้นฐานและแสดงให้เห็นว่าพวกเขาดีกว่าการทำนายโอกาสแบบสุ่ม เท่าที่ผมเข้าใจkappaอาจเป็นทางเลือกที่ดีกว่าเล็กน้อยที่นี่เป็นโอกาสสุ่มถูกนำเข้าบัญชี จากคัปปาของโคเฮนในภาษาอังกฤษธรรมดาฉันเข้าใจว่าkappaเกี่ยวข้องกับแนวคิดของการได้รับข้อมูล: [... ] ความแม่นยำที่สังเกตได้ 80% นั้นน่าประทับใจน้อยกว่ามากด้วยความแม่นยำที่คาดหวัง 75% เทียบกับความแม่นยำที่คาดหวัง 50% [... ] ดังนั้นคำถามของฉันจะเป็น: ถูกต้องหรือไม่ที่จะถือว่าkappaเป็นตัวชี้วัดการจำแนกประเภทที่เหมาะสมกว่าสำหรับปัญหานี้ เพียงใช้kappaป้องกันผลกระทบเชิงลบของความไม่สมดุลในอัลกอริทึมการจำแนกประเภทหรือไม่? การเรียนรู้แบบสุ่มตัวอย่างหรือการเรียนรู้แบบใช้ต้นทุนเป็นเรื่องที่จำเป็นหรือไม่(ดูที่http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )

3
ตีความแกน y ของแปลงที่พึ่งพาบางส่วน
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 5 ปีที่ผ่านมา ฉันได้อ่านหัวข้ออื่น ๆ เกี่ยวกับพล็อตพึ่งพาบางส่วนและส่วนใหญ่อยู่ในวิธีการที่คุณพล็อตพวกเขาด้วยแพคเกจที่แตกต่างกันไม่ใช่วิธีที่คุณสามารถตีความได้อย่างถูกต้องดังนั้น: ฉันอ่านและสร้างแผนการพึ่งพาบางส่วนในปริมาณที่พอใช้ ฉันรู้ว่าพวกเขาวัดผลกระทบเล็กน้อยของตัวแปรในฟังก์ชั่นƒS (withS) ด้วยค่าเฉลี่ยผลกระทบของตัวแปรอื่นทั้งหมด ((c) จากแบบจำลองของฉัน ค่า y ที่สูงกว่าหมายความว่าพวกเขามีอิทธิพลต่อการทำนายชั้นเรียนของฉันอย่างแม่นยำ อย่างไรก็ตามฉันไม่พอใจกับการตีความเชิงคุณภาพนี้ โมเดลของฉัน (ฟอเรสต์แบบสุ่ม) กำลังทำนายคลาสรอบคอบสองคลาส "ใช่ต้นไม้" และ "ไม่มีต้นไม้" TRI เป็นตัวแปรที่พิสูจน์แล้วว่าเป็นตัวแปรที่ดีสำหรับเรื่องนี้ สิ่งที่ฉันเริ่มคิดว่าค่า Y กำลังแสดงความน่าจะเป็นสำหรับการจำแนกประเภทที่ถูกต้อง ตัวอย่าง: y (0.2) แสดงว่าค่า TRI ของ> ~ 30 มีโอกาส 20% ในการระบุการจำแนกประเภท True Positive อย่างถูกต้อง อยู่ที่ไหนตรงกันข้าม y (-0.2) แสดงว่าค่า TRI …

4
Shao ใช้ผลการตรวจสอบไขว้แบบลาก่อนออกเมื่อใด
ในบทความการเลือกโมเดลเชิงเส้นโดย Jun-Shao แสดงให้เห็นว่าสำหรับปัญหาของการเลือกตัวแปรในการถดถอยเชิงเส้นหลายตัวแปรวิธีของการตรวจสอบความถูกต้องแบบลาออกครั้งเดียว (LOOCV) คือ 'ไม่สอดคล้องเชิงเส้นกำกับ' ในภาษาอังกฤษธรรมดามีแนวโน้มที่จะเลือกรุ่นที่มีตัวแปรมากเกินไป ในการศึกษาแบบจำลอง Shao แสดงให้เห็นว่าแม้การสำรวจเพียง 40 ครั้งเท่านั้น LOOCV สามารถใช้เทคนิคการตรวจสอบข้ามแบบอื่นได้ต่ำกว่า บทความนี้ค่อนข้างขัดแย้งและไม่สนใจ (10 ปีหลังจากการตีพิมพ์เคมีของเพื่อนร่วมงานของฉันไม่เคยได้ยินเรื่องนี้มาก่อนและมีความสุขที่ใช้ LOOCV สำหรับการเลือกตัวแปร ... ) นอกจากนี้ยังมีความเชื่อ (ฉันมีความผิดในเรื่องนี้) ว่าผลลัพธ์ของมันขยายออกไปค่อนข้าง จำกัด ขอบเขตดั้งเดิม จากนั้นคำถาม: ผลลัพธ์เหล่านี้จะขยายไปไกลแค่ไหน? พวกเขาจะใช้กับปัญหาต่อไปนี้? การเลือกตัวแปรสำหรับการถดถอยโลจิสติก / GLM? การเลือกตัวแปรสำหรับการจำแนกประเภท Fisher LDA? การเลือกตัวแปรใช้ SVM พร้อมพื้นที่เคอร์เนล จำกัด (หรือไม่ จำกัด )? เปรียบเทียบรุ่นในการจำแนกประเภทพูดว่า SVM ใช้เมล็ดที่แตกต่างกันหรือไม่ เปรียบเทียบแบบจำลองในการถดถอยเชิงเส้นพูดเปรียบเทียบ MLR กับ Ridge Regression …

2
การเพิ่มน้ำหนักให้กับการถดถอยโลจิสติกสำหรับข้อมูลที่ไม่สมดุล
ฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกด้วยข้อมูลที่ไม่สมดุล (9: 1) ฉันต้องการลองใช้ตัวเลือกตุ้มน้ำหนักในglmฟังก์ชันใน R แต่ฉันไม่แน่ใจ 100% ว่ามันทำอะไร c(0,0,0,0,0,0,0,0,0,1)ช่วยบอกตัวแปรเอาท์พุทของฉันคือ ตอนนี้ฉันต้องการเพิ่มน้ำหนัก "1" 10 เท่า weights=c(1,1,1,1,1,1,1,1,1,1,1,10)ดังนั้นผมจึงให้น้ำหนักการโต้แย้ง เมื่อฉันทำเช่นนั้นมันจะได้รับการพิจารณาในการคำนวณความเป็นไปได้สูงสุด ฉันถูกไหม? การจำแนกประเภทของ "1" นั้นแย่กว่านั้นเพียง 10 เท่าจากนั้นการจัดประเภทผิดพลาดเป็น "0"

3
จากกฎ Perceptron ไปยัง Gradient Descent: Perceptrons ที่มีฟังก์ชั่นการเปิดใช้งาน sigmoid แตกต่างจาก Logistic Regression อย่างไร
โดยพื้นฐานแล้วคำถามของฉันคือใน Multilayer Perceptrons, Perceptrons นั้นใช้กับฟังก์ชั่นการเปิดใช้งาน sigmoid ดังนั้นในการอัปเดตกฎจะถูกคำนวณดังนี้y^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Perceptron "sigmoid" นี้แตกต่างจากการถดถอยโลจิสติกอย่างไร ฉันจะบอกว่า sigmoid perceptron ชั้นเดียวเทียบเท่ากับการถดถอยโลจิสติกในแง่ที่ว่าทั้งสองใช้ในกฎการอัพเดท นอกจากนี้ทั้งสองส่งกลับในการทำนาย อย่างไรก็ตามในมัลติเลเยอร์ Perceptrons ฟังก์ชั่นการเปิดใช้งาน sigmoid จะใช้เพื่อคืนความน่าจะเป็นไม่ใช่สัญญาณเปิดปิดในทางตรงกันข้ามกับการถดถอยโลจิสติกและ perceptron ชั้นเดียวy^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}sign(y^=11+exp(−wTxi))sign⁡(y^=11+exp⁡(−wTxi))\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}) ฉันคิดว่าการใช้คำว่า "Perceptron" อาจจะคลุมเครือเล็กน้อยดังนั้นให้ฉันให้พื้นหลังตามความเข้าใจในปัจจุบันของฉันเกี่ยวกับ perceptrons ชั้นเดียว: กฎ Perceptron แบบคลาสสิก ประการแรกคลาสสิก perceptron โดย F. Rosenblatt ที่เรามีฟังก์ชั่นขั้นตอน: Δ wd= η( yผม- yผม^) xฉันdYผม, yผม^∈ …

2
เครือข่ายประสาทเทียมสำหรับอนุกรมเวลา?
ฉันต้องการที่จะทราบว่ามีรหัสในการฝึกอบรมโครงข่ายประสาทเทียมเพื่อการจำแนกประเภทอนุกรมเวลาหรือไม่ ฉันเคยเห็นเอกสารล่าสุด ( http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf ) แต่ฉันไม่แน่ใจว่ามีบางสิ่งอยู่หรือถ้าฉันทำรหัสด้วยตัวเอง

5
วิธีการควบคุมค่าใช้จ่ายของการจำแนกประเภทในป่าสุ่ม?
เป็นไปได้หรือไม่ที่จะควบคุมค่าใช้จ่ายในการจำแนกประเภทใน R แพ็คเกจแบบสุ่มป่าไม้ ? ในงานของฉันเองเชิงลบเท็จ (เช่นหายไปในข้อผิดพลาดที่บุคคลอาจมีโรค) มีราคาแพงกว่าบวกเท็จ แพ็คเกจrpartช่วยให้ผู้ใช้สามารถควบคุมค่าใช้จ่ายในการจำแนกประเภทได้โดยการระบุเมทริกซ์การสูญเสียไปยังการจัดประเภทน้ำหนักที่แตกต่างกัน มีอะไรที่คล้ายกันเกิดขึ้นเพื่อrandomForestอะไร? ตัวอย่างเช่นฉันควรใช้classwtตัวเลือกในการควบคุมเกณฑ์ของ Gini หรือไม่

4
เหตุใดการแก้ปัญหาแบบกำลังสองน้อยที่สุดจึงให้ผลลัพธ์ไม่ดีในกรณีนี้
มีรูปภาพในหน้า 204 บทที่ 4 ของ "การจดจำรูปแบบและการเรียนรู้ของเครื่อง" โดย Bishop ซึ่งฉันไม่เข้าใจว่าทำไม Least Square solution จึงให้ผลลัพธ์ที่ไม่ดีที่นี่: ย่อหน้าก่อนหน้านี้เกี่ยวกับข้อเท็จจริงที่ว่าวิธีแก้ปัญหากำลังสองน้อยที่สุดนั้นไม่มีความทนทานต่อค่าผิดปกติอย่างที่คุณเห็นในภาพต่อไปนี้ แต่ฉันไม่เข้าใจว่าเกิดอะไรขึ้นในภาพอื่นและทำไม LS จึงให้ผลลัพธ์ที่แย่เช่นกัน

5
วิธีที่ถูกต้องในการทดสอบความสำคัญของผลลัพธ์การจำแนกประเภทคืออะไร
มีหลายสถานการณ์ที่คุณสามารถฝึกตัวแยกประเภทที่แตกต่างกันหลายตัวหรือใช้วิธีการดึงคุณสมบัติที่แตกต่างกันหลายวิธี ในวรรณกรรมผู้เขียนมักจะให้ข้อผิดพลาดการจัดหมวดหมู่ค่าเฉลี่ยในชุดของการแยกแบบสุ่มของข้อมูล (เช่นหลังจากการตรวจสอบข้ามซ้อนสองเท่า) และบางครั้งก็ให้ความแตกต่างกับข้อผิดพลาดในการแยกเช่นกัน อย่างไรก็ตามสิ่งนี้ด้วยตัวมันเองไม่เพียงพอที่จะบอกได้ว่าตัวจําแนกประเภทหนึ่งดีกว่าตัวจําแนกอื่นอย่างมาก ฉันได้เห็นวิธีการที่แตกต่างมากมายในเรื่องนี้ - การใช้การทดสอบ Chi-squared, t-test, ANOVA พร้อมการทดสอบหลังเลิกเรียน ฯลฯ ควรใช้วิธีการใดเพื่อกำหนดนัยสำคัญทางสถิติ ภายใต้คำถามนั้นคือ: เราควรตั้งสมมติฐานอะไรเกี่ยวกับการแจกแจงคะแนนการจำแนกประเภท?

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
การเรียนรู้ของเครื่องเพื่อทำนายความน่าจะเป็นในชั้นเรียน
ฉันกำลังมองหาตัวแยกประเภทที่เอาต์พุตความน่าจะเป็นซึ่งเป็นตัวอย่างของหนึ่งในสองคลาส ฉันรู้ว่าการถดถอยโลจิสติกและเบย์ไร้เดียงสา แต่คุณสามารถบอกฉันเกี่ยวกับคนอื่น ๆ ที่ทำงานในลักษณะเดียวกันได้หรือไม่? นั่นคือตัวแยกประเภทที่ไม่ได้คาดคะเนคลาสที่เป็นของตัวอย่าง แต่ความน่าจะเป็นที่ตัวอย่างนั้นเหมาะสมกับคลาสเฉพาะหรือไม่ คะแนนโบนัสสำหรับความคิดที่คุณสามารถแบ่งปันเกี่ยวกับข้อดีและข้อเสียของตัวแยกประเภทที่แตกต่างกันเหล่านี้ (รวมถึงการถดถอยโลจิสติกและ Bayes ไร้เดียงสา) ตัวอย่างเช่นมีการจัดหมวดหมู่หลายชั้นที่ดีกว่าบ้างไหม?

3
ทดสอบการแยกเชิงเส้น
มีวิธีทดสอบการแยกเชิงเส้นของชุดข้อมูลสองระดับในมิติที่สูงหรือไม่? คุณสมบัติเวคเตอร์ของฉันมีความยาว 40 ฉันรู้ว่าฉันสามารถใช้การทดลองการถดถอยโลจิสติกและกำหนดอัตราการเตือนภัยที่ผิดพลาดเพื่อสรุปว่าทั้งสองคลาสนั้นแยกกันเป็นเส้นตรงหรือไม่ แต่ก็เป็นการดีที่จะรู้ว่ามีกระบวนการมาตรฐานอยู่แล้ว

4
สรุปผลลัพธ์“ ใหญ่ p, เล็ก n”
ใครช่วยชี้ให้ฉันไปที่รายงานผลการสำรวจ "ใหญ่ , เล็ก "? ฉันสนใจในวิธีการแก้ปัญหานี้ปรากฏตัวในบริบทของการวิจัยที่แตกต่างกันเช่นการถดถอยการจำแนกการทดสอบ Hotelling ของฯลฯpพีpnnn

1
k-fold การตรวจสอบความถูกต้องของการเรียนรู้ทั้งมวล
ฉันสับสนเกี่ยวกับวิธีแบ่งพาร์ติชันข้อมูลสำหรับการตรวจสอบความถูกต้องของวง k-fold สมมติว่าฉันมีกรอบการเรียนรู้ทั้งมวลสำหรับการจำแนก เลเยอร์แรกของฉันมีโมเดลการจัดหมวดหมู่เช่น svm แผนภูมิการตัดสินใจ เลเยอร์ที่สองของฉันมีโมเดลการลงคะแนนซึ่งรวมการทำนายจากเลเยอร์แรกและให้การทำนายขั้นสุดท้าย หากเราใช้การตรวจสอบความถูกต้อง 5 เท่าของ cross-cross ฉันคิดว่าจะใช้ 5 folds ดังนี้: 3 เท่าสำหรับการฝึกชั้นแรก 1 เท่าสำหรับฝึกซ้อมเลเยอร์ที่สอง 1 เท่าสำหรับการทดสอบ นี้เป็นวิธีที่ถูกต้องหรือไม่? ข้อมูลการฝึกอบรมสำหรับชั้นหนึ่งและชั้นสองควรเป็นอิสระหรือไม่? ฉันคิดว่าพวกเขาควรจะมีความเป็นอิสระเพื่อให้กรอบการเรียนรู้ทั้งมวลจะแข็งแกร่ง เพื่อนของฉันแนะนำข้อมูลการฝึกอบรมสำหรับเลเยอร์แรกและเลเยอร์ที่สองควรเหมือนกันเช่น 4 เท่าสำหรับการฝึกชั้นหนึ่งและชั้นสอง 1 เท่าสำหรับการทดสอบ ด้วยวิธีนี้เราจะมีข้อผิดพลาดที่แม่นยำยิ่งขึ้นของกรอบการเรียนรู้ทั้งมวลและการปรับกรอบซ้ำ ๆ จะมีความแม่นยำมากขึ้นเนื่องจากมีพื้นฐานจากข้อมูลการฝึกอบรมเพียงครั้งเดียว นอกจากนี้เลเยอร์ที่สองอาจมีอคติต่อข้อมูลการฝึกอบรมที่เป็นอิสระ คำแนะนำใด ๆ ที่ชื่นชมอย่างมาก

1
ประโยชน์ของการสุ่มแบบแบ่งชั้นและสุ่มตัวอย่างเพื่อสร้างข้อมูลการฝึกอบรมในการจำแนกประเภท
ฉันต้องการทราบว่ามีข้อได้เปรียบใด ๆ / บางส่วนของการใช้การสุ่มตัวอย่างแบบแบ่งชั้นแทนการสุ่มตัวอย่างแบบสุ่มหรือไม่เมื่อแยกชุดข้อมูลเดิมเข้ากับชุดการฝึกอบรมและการทดสอบสำหรับการจำแนก การสุ่มตัวอย่างแบบแบ่งชั้นจะทำให้มีอคติต่อลักษณนามมากกว่าการสุ่มตัวอย่างแบบสุ่มหรือไม่? แอพพลิเคชั่นที่ฉันต้องการใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อเตรียมข้อมูลเป็นตัวจําแนกประเภทลอเรนซ์ป่าซึ่งผ่านการฝึกอบรมเมื่อวันที่2323\frac{2}{3}ของชุดข้อมูลดั้งเดิม ก่อนตัวแยกประเภทยังมีขั้นตอนของการสร้างตัวอย่างสังเคราะห์ (SMOTE [1]) ซึ่งปรับขนาดของคลาสให้สมดุล [1] Chawla, Nitesh V. และอื่น ๆ " SMOTE: เทคนิคการสุ่มตัวอย่างแบบสังเคราะห์ส่วนน้อย " วารสารวิจัยปัญญาประดิษฐ์ 16 (2002): 321-357

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.