คำถามติดแท็ก threshold

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
เกณฑ์ความน่าจะเป็นการจำแนกประเภท
ฉันมีคำถามเกี่ยวกับการจำแนกประเภทโดยทั่วไป ให้ f เป็นตัวจําแนกซึ่งส่งออกชุดของความน่าจะเป็นที่ให้ข้อมูลบางตัว D โดยปกติเราจะบอกว่า: ดีถ้า P (c | D)> 0.5 เราจะกำหนด class 1 มิฉะนั้น 0 (ปล่อยให้นี่เป็นเลขฐานสอง การจำแนกประเภท). คำถามของฉันคือถ้าฉันพบว่าถ้าฉันจำแนกเป็น 1 ยังมีความน่าจะเป็นที่ใหญ่กว่า: เช่น 0.2 ตัวแยกประเภทจะทำงานได้ดีขึ้น การใช้เกณฑ์ใหม่นี้ถูกต้องตามกฎหมายหรือไม่เมื่อทำการจัดประเภท ฉันจะตีความความจำเป็นสำหรับการจำแนกประเภทที่ต่ำกว่าที่ถูกผูกไว้ในบริบทของข้อมูลที่เปล่งสัญญาณขนาดเล็ก แต่ยังคงมีความสำคัญสำหรับปัญหาการจำแนก ฉันรู้ว่านี่เป็นวิธีหนึ่งที่จะทำ แต่ถ้านี่ไม่ใช่การคิดที่ถูกต้องอะไรจะเป็นการแปลงข้อมูลบางอย่างซึ่งเน้นคุณลักษณะของแต่ละบุคคลในลักษณะที่คล้ายคลึงกัน

5
คำถามเชิงปรัชญาเกี่ยวกับการถดถอยโลจิสติก: เหตุใดค่าเกณฑ์ที่เหมาะสมที่สุดจึงไม่ผ่านการฝึกอบรม
โดยปกติแล้วในการถดถอยโลจิสติกเราพอดีแบบและได้รับการคาดการณ์ในชุดการฝึกอบรม จากนั้นเราจะตรวจสอบความถูกต้องของการคาดการณ์การฝึกอบรมเหล่านี้ (บางอย่างเช่นที่นี่ ) และตัดสินใจค่าเกณฑ์ที่เหมาะสมโดยพิจารณาจาก ROC curve ทำไมเราไม่รวมการตรวจสอบข้ามเขตแดนเข้ากับรูปแบบที่แท้จริงและฝึกอบรมทุกสิ่งตั้งแต่ต้นจนจบ

1
เกณฑ์ที่เหมาะสมที่สุดของ F1 คืออะไร จะคำนวณอย่างไร?
ฉันใช้ h2o.glm () ฟังก์ชันใน R ซึ่งให้ตารางฉุกเฉินในผลลัพธ์พร้อมกับสถิติอื่น ๆ ตารางฉุกเฉินจะนำไปสู่ ​​" Cross Tab ตามเกณฑ์ที่เหมาะสมที่สุดของ F1 " Wikipediaกำหนดคะแนน F1 หรือคะแนน F เป็นค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน แต่ไม่พบความแม่นยำและการเรียกคืนเฉพาะเมื่อผลลัพธ์ของค่าที่คาดการณ์ไว้ของการถดถอยโลจิสติก (ตัวอย่าง) ถูกแปลงเป็นไบนารีโดยใช้การตัดยอด ตอนนี้จากการตัดออกฉันจำได้ว่าอะไรคือความเชื่อมโยงระหว่างคะแนน F1 และเกณฑ์ที่เหมาะสม เกณฑ์ที่เหมาะสมที่สุดคำนวณอย่างไร เกณฑ์ที่เหมาะสมที่สุดของ F1 คำนวณอย่างไร ขออภัยถ้าฉันพลาดบางอย่างฉันยังใหม่ต่อสถิติที่นี่
13 threshold 

3
เหตุใดคำอคติใน SVM จึงถูกประเมินแยกต่างหากแทนที่จะเป็นมิติเพิ่มเติมในเวกเตอร์คุณลักษณะ
ไฮเปอร์เพลนที่ดีที่สุดใน SVM ถูกกำหนดเป็น: w⋅x+b=0,w⋅x+b=0,\mathbf w \cdot \mathbf x+b=0, โดยที่หมายถึงขีด จำกัด หากเรามีการแมปซึ่งแมปพื้นที่อินพุตกับบางพื้นที่เราสามารถกำหนด SVM ในช่องว่างโดยที่ hiperplane ที่ดีที่สุดจะเป็น:ϕ Z Zbbbϕϕ\mathbf \phiZZZZZZ w⋅ϕ(x)+b=0.w⋅ϕ(x)+b=0.\mathbf w \cdot \mathbf \phi(\mathbf x)+b=0. อย่างไรก็ตามเราสามารถกำหนดการแมปเพื่อให้ ,แล้ว hiperplane ที่ดีที่สุดจะถูกกำหนดเป็น ϕ 0 ( x ) = 1 ∀ x w ⋅ ϕ ( x ) = 0ϕϕ\phiϕ0(x)=1ϕ0(x)=1\phi_0(\mathbf x)=1∀x∀x\forall \mathbf xw⋅ϕ(x)=0.w⋅ϕ(x)=0.\mathbf w \cdot …
11 svm  threshold 

2
จะเปลี่ยน threshold สำหรับการจำแนกใน R สุ่มป่าได้อย่างไร
วรรณกรรมแบบจำลองการกระจายพันธุ์ทุกชนิดชี้ให้เห็นว่าเมื่อทำนายการมีอยู่ของสายพันธุ์โดยใช้แบบจำลองที่มีความน่าจะเป็นผลลัพธ์ (เช่น RandomForests) การเลือกเกณฑ์ความน่าจะเป็นที่จะจำแนกประเภทของสิ่งมีชีวิตที่มีอยู่จริง ไม่พึ่งพาค่าเริ่มต้น 0.5 เสมอไป ฉันต้องการความช่วยเหลือในเรื่องนี้! นี่คือรหัสของฉัน: library(randomForest) library(PresenceAbsence) #build model RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500) #eventually I will apply this to (predict for) new data but for first I predict back to training data …

5
การกำหนดเกณฑ์อัตโนมัติสำหรับการตรวจจับความผิดปกติ
ฉันกำลังทำงานกับอนุกรมเวลาของคะแนนความผิดปกติ (พื้นหลังคือการตรวจจับความผิดปกติในเครือข่ายคอมพิวเตอร์) ทุกนาทีฉันได้รับคะแนนความผิดปกติซึ่งบอกฉันว่า "ไม่คาดฝัน" หรือผิดปกติสถานะปัจจุบันของเครือข่ายคืออะไร ยิ่งคะแนนสูงเท่าไรสถานะปัจจุบันก็ยิ่งผิดปกติมากเท่านั้น คะแนนที่ใกล้เคียงกับ 5 เป็นไปได้ในทางทฤษฎี แต่เกิดขึ้นแทบจะไม่เคยเกิดขึ้นเลยxเสื้อ∈ [ 0 , 5 ]xเสื้อ∈[0,5]x_t \in [0, 5] ตอนนี้ฉันต้องการอัลกอริธึมหรือสูตรที่กำหนดเกณฑ์โดยอัตโนมัติสำหรับอนุกรมเวลาผิดปกตินี้ ทันทีที่คะแนนผิดปกติเกินเกณฑ์นี้สัญญาณเตือนจะเริ่มทำงาน การแจกแจงความถี่ด้านล่างเป็นตัวอย่างสำหรับอนุกรมเวลาที่ผิดปกติมากกว่า 1 วัน อย่างไรก็ตามมันไม่ปลอดภัยที่จะสมมติว่าซีรีย์ความผิดปกติทุกครั้งจะมีลักษณะเช่นนั้น ในตัวอย่างพิเศษนี้เกณฑ์ความผิดปกติเช่น. 99-quantile จะเข้าท่าเนื่องจากคะแนนไม่กี่อันทางขวามากถือได้ว่าเป็นความผิดปกติ และการแจกแจงความถี่เดียวกันกับอนุกรมเวลา (ช่วงนั้นมีค่าตั้งแต่ 0 ถึง 1 เนื่องจากไม่มีคะแนนความผิดปกติสูงกว่าในอนุกรมเวลา): แต่น่าเสียดายที่การแจกแจงความถี่อาจมีรูปร่างที่ .99-quantile คือไม่ได้มีประโยชน์ ตัวอย่างด้านล่าง หางขวาอยู่ในระดับต่ำมากดังนั้นหากใช้. 99-quantile เป็นจุดเริ่มต้นสิ่งนี้อาจส่งผลให้เกิดผลบวกปลอมหลายอย่าง การแจกแจงความถี่นี้ดูเหมือนจะไม่มีความผิดปกติดังนั้นเกณฑ์ควรอยู่นอกการกระจายที่ประมาณ 0.25 สรุปแล้วความแตกต่างระหว่างสองตัวอย่างนี้คือตัวอย่างแรกดูเหมือนว่าจะมีความผิดปกติในขณะที่อีกอันหนึ่งไม่มี จากมุมมองที่ไร้เดียงสาของฉันอัลกอริทึมควรพิจารณาสองกรณีนี้: หากการแจกแจงความถี่มีหางขวาขนาดใหญ่ (เช่นคะแนนผิดปกติสองเท่า) ดังนั้น. 99-quantile อาจเป็นเกณฑ์ที่ดี หากการแจกแจงความถี่มีหางขวาสั้นมาก …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.