คำถามติดแท็ก predictive-models

แบบจำลองเชิงทำนายเป็นแบบจำลองทางสถิติซึ่งมีจุดประสงค์หลักคือการทำนายการสังเกตอื่น ๆ ของระบบอย่างเหมาะสมเมื่อเทียบกับแบบจำลองที่มีจุดประสงค์เพื่อทดสอบสมมติฐานเฉพาะหรืออธิบายปรากฏการณ์ทางกลไก ดังนั้นโมเดลการทำนายที่ให้ความสำคัญกับความสามารถในการตีความและความสำคัญกับประสิทธิภาพก็จะน้อยลง

2
นี่เป็นวิธีการถดถอยที่ล้ำสมัยหรือไม่?
ฉันได้ติดตามการแข่งขัน Kaggle มาเป็นเวลานานและฉันได้ตระหนักว่ากลยุทธ์การชนะจำนวนมากเกี่ยวข้องกับการใช้ "threes ใหญ่" อย่างน้อยหนึ่งอย่าง: การใส่ถุงการส่งเสริมและการซ้อน สำหรับการถดถอยแทนที่จะมุ่งเน้นไปที่การสร้างแบบจำลองการถดถอยที่ดีที่สุดที่เป็นไปได้การสร้างแบบจำลองการถดถอยหลายแบบเช่นการถดถอยเชิงเส้นแบบทั่วไป (ทั่วไป) การสุ่มป่า KNN NN และ SVM และการผสมผสานผลลัพธ์เป็นวิธีที่สมเหตุสมผล - ดำเนินการแต่ละวิธีเป็นจำนวนมากครั้ง แน่นอนความเข้าใจที่มั่นคงของแต่ละวิธีคือกุญแจสำคัญและเรื่องราวที่ใช้งานง่ายสามารถบอกได้ตามแบบจำลองการถดถอยเชิงเส้น แต่ฉันสงสัยว่านี่เป็นวิธีการที่ทันสมัยเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดหรือไม่

1
ความสำคัญของตัวแปรเชิงสัมพันธ์สำหรับการส่งเสริม
ฉันกำลังมองหาคำอธิบายว่าวิธีคำนวณความสำคัญของตัวแปรแบบสัมพันธ์ในต้นไม้ที่เพิ่มขึ้นแบบไล่ระดับสีซึ่งไม่ธรรมดา / ง่ายเกินไป: มาตรการจะขึ้นอยู่กับจำนวนครั้งที่ตัวแปรถูกเลือกสำหรับการแยกถ่วงน้ำหนักด้วยการปรับปรุงยกกำลังสองกับรูปแบบเป็นผลของแต่ละแยกและเฉลี่ยมากกว่าต้นไม้ทั้งหมด [ Elith และคณะ 2008, คู่มือการทำงานเพื่อเพิ่มความแข็งแกร่งให้กับต้นไม้ถดถอย ] และนั่นก็เป็นนามธรรมน้อยกว่า: ผม2J^( T) = ∑t = 1J- 1ผม2เสื้อ^1 ( vเสื้อ= j )ผมJ2^(T)=Σเสื้อ=1J-1ผมเสื้อ2^1(โวลต์เสื้อ=J)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) โดยที่การรวมอยู่เหนือโหนดที่ไม่ใช่เทอร์มินัลของโหนดทรี ,คือตัวแปรการแยกที่เชื่อมโยงกับโหนดและเป็นการปรับปรุงเชิงประจักษ์ในข้อผิดพลาดกำลังสอง เป็นผลมาจากการแยกหมายถึงโดยที่คือการตอบสนองของลูกสาวด้านซ้ายและขวาตามลำดับและเป็นจำนวนเงินที่สอดคล้องกันของน้ำหนัก J T v t t ^ i 2 t i 2 ( R l , R r ) = w l w rเสื้อเสื้อtJJJTTTโวลต์เสื้อโวลต์เสื้อv_{t}เสื้อเสื้อtผม2เสื้อ^ผมเสื้อ2^\hat{i_{t}^2}ผม2( …

6
ความประหยัดควรเป็นมาตรฐานทองคำหรือไม่
แค่ความคิด: แบบจำลองทางเลือกมักเป็นตัวเลือกเริ่มต้นในการเลือกรุ่น แต่วิธีนี้ล้าสมัยไปมากแค่ไหน? ฉันอยากรู้ว่าแนวโน้มของเราที่มีต่อช่วงเวลาที่เป็น parsimony นั้นเป็นเพียงช่วงเวลาหนึ่งของกฎ abaci และสไลด์ (หรือคอมพิวเตอร์ที่ไม่ทันสมัยอย่างจริงจังมากขึ้น) พลังการคำนวณของวันนี้ทำให้เราสามารถสร้างแบบจำลองที่ซับซ้อนมากขึ้นพร้อมความสามารถในการทำนายที่มากขึ้น จากผลของเพดานที่เพิ่มขึ้นในพลังการคำนวณนี้เรายังคงต้องหันเหความสนใจไปยังความเรียบง่ายหรือไม่ แน่นอนว่าโมเดลที่เรียบง่ายนั้นง่ายต่อการเข้าใจและตีความ แต่ในยุคของชุดข้อมูลที่มีจำนวนเพิ่มขึ้นเรื่อย ๆ พร้อมกับจำนวนตัวแปรที่มากขึ้นและการเปลี่ยนไปสู่การมุ่งเน้นที่ความสามารถในการทำนายมากขึ้น คิด?

3
สาเหตุที่แท้จริงของปัญหาความไม่สมดุลของชนชั้นคืออะไร?
ฉันได้คิดมากเกี่ยวกับ "ปัญหาความไม่สมดุลในชั้นเรียน" ในการเรียนรู้ของเครื่องจักร / สถิติเมื่อเร็ว ๆ นี้และฉันรู้สึกลึกลงไปในความรู้สึกที่ฉันไม่เข้าใจว่าเกิดอะไรขึ้น ก่อนอื่นให้ฉันกำหนด (หรือพยายาม) กำหนดคำของฉัน: ปัญหาระดับความไม่สมดุลในเครื่อง / การเรียนรู้ทางสถิติคือการสังเกตว่าบางจำแนกไบนารี (*) ขั้นตอนวิธีการทำงานได้ไม่ดีเมื่อสัดส่วนของ 0 เรียน 1 ชั้นเรียนเป็นเบ้มาก ดังนั้นในข้างต้นตัวอย่างเช่นถ้ามีหนึ่งร้อย000ชั้นเรียนสำหรับทุกเดียว111ชั้นผมจะบอกว่าความไม่สมดุลของระดับคือ111ที่จะ100100100หรือ1%1%1\% % งบส่วนใหญ่ของปัญหาที่ฉันได้เห็นขาดสิ่งที่ฉันคิดว่าเป็นคุณสมบัติที่เพียงพอ (สิ่งที่รูปแบบการต่อสู้ปัญหาไม่สมดุลคือปัญหา) และนี่คือแหล่งที่มาของความสับสนของฉัน การสำรวจข้อความมาตรฐานในการเรียนรู้ของเครื่อง / สถิติกลับมีน้อย: องค์ประกอบของสถิติเอนและรู้เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติไม่ได้มี "ชั้นไม่สมดุล" ในดัชนี การเรียนรู้ของเครื่องสำหรับ Predictive Data Analyticsยังไม่มี "คลาสที่ไม่สมดุล" ในดัชนี เมอร์ฟี่เครื่องเรียนรู้: การน่าจะเป็นมุมมองที่ ไม่มี "ระดับความไม่สมดุล * ในดัชนีอ้างอิงไปยังส่วนบนของ SVM ที่ผมพบว่าความคิดเห็นยั่วเย้าดังต่อไปนี้. มันเป็นเรื่องที่ควรค่าแก่การจดจำว่าปัญหาทั้งหมดเหล่านี้และการวิเคราะห์พฤติกรรมที่ได้รับการเสนอเพื่อแก้ไขปัญหาเหล่านี้เกิดขึ้นโดยพื้นฐานเพราะ SVM ไม่ได้สร้างแบบจำลองความไม่แน่นอนในการใช้ความน่าจะเป็นดังนั้นคะแนนเอาท์พุท ความคิดเห็นนี้ไม่พูดที่หลอกลวงกับสัญชาตญาณและประสบการณ์ของฉัน: ที่งานก่อนหน้าของฉันเราเป็นประจำจะพอดีกับการถดถอยโลจิสติกและการไล่ระดับสีได้แรงหนุนรุ่นต้นไม้ (เพื่อลดทวินามบันทึก-โอกาส) …

3
ไม่ว่าจะ rescale ตัวบ่งชี้ / ไบนารี / ตัวจำลองการคาดการณ์สำหรับ LASSO
สำหรับ LASSO (และขั้นตอนการเลือกรุ่นอื่น ๆ ) มันเป็นสิ่งสำคัญที่จะช่วยลดการคาดการณ์ ทั่วไป คำแนะนำของ ผมต่อไปนี้เป็นเพียงการใช้ 0 เฉลี่ย 1 การฟื้นฟูส่วนเบี่ยงเบนมาตรฐานของตัวแปรอย่างต่อเนื่อง แต่จะทำอย่างไรกับหุ่น? เช่นบางตัวอย่างที่นำมาใช้จากโรงเรียนภาคฤดูร้อน (ยอดเยี่ยม) เดียวกันฉันเชื่อมโยงกับ rescales ตัวแปรต่อเนื่องให้อยู่ระหว่าง 0 และ 1 (ไม่ดีกับค่าผิดปกติแม้ว่า) อาจเทียบได้กับหุ่น แต่ถึงอย่างนั้นก็ไม่ได้รับประกันว่าสัมประสิทธิ์ควรจะมีขนาดเท่ากันและทำให้ถูกลงโทษในทำนองเดียวกันเหตุผลสำคัญสำหรับการช่วยชีวิตไม่ใช่?

2
เหตุใดค่า p จึงทำให้เข้าใจผิดหลังจากทำการเลือกตามลำดับขั้นตอน
ลองพิจารณาตัวอย่างเช่นโมเดลการถดถอยเชิงเส้น ฉันได้ยินมาว่าในการขุดข้อมูลหลังจากทำการเลือกตามขั้นตอนตามเกณฑ์ AIC มันทำให้เข้าใจผิดว่าการดูค่า p เพื่อทดสอบสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยจริงแต่ละตัวมีค่าเป็นศูนย์ ฉันได้ยินมาว่าควรพิจารณาตัวแปรทั้งหมดที่เหลือในตัวแบบว่ามีสัมประสิทธิ์การถดถอยที่แท้จริงแตกต่างจากศูนย์แทน มีใครอธิบายได้ไหม ขอขอบคุณ.

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
เมื่อความสัมพันธ์สามารถเป็นประโยชน์โดยไม่มีสาเหตุได้อย่างไร
สัตว์เลี้ยงพูดถึงนักสถิติหลายคนคือ "สหสัมพันธ์ไม่ได้บอกเป็นนัยถึงสาเหตุ" นี่เป็นเรื่องจริง แต่สิ่งหนึ่งที่ดูเหมือนว่าส่อให้เห็นในที่นี้คือความสัมพันธ์มีค่าเพียงเล็กน้อยหรือไม่มีเลย มันเป็นเรื่องจริงเหรอ? มันไร้ประโยชน์หรือไม่ที่จะมีความรู้ว่าตัวแปรสองตัวมีความสัมพันธ์กัน? ฉันไม่สามารถจินตนาการได้ว่าเป็นกรณี ฉันไม่คุ้นเคยกับการวิเคราะห์เชิงทำนายอย่างน่ากลัว แต่ดูเหมือนว่าหากXเป็นตัวทำนายYมันจะมีประโยชน์ในการทำนายค่าในอนาคตที่YอิงตามXโดยไม่คำนึงถึงสาเหตุ ฉันเห็นคุณค่าของสหสัมพันธ์อย่างไม่ถูกต้องหรือไม่? และถ้าไม่นักสถิติหรือนักวิทยาศาสตร์ข้อมูลอาจใช้ความสัมพันธ์โดยไม่มีสาเหตุในสถานการณ์ใด

4
การทำนายด้วยคุณสมบัติที่ต่อเนื่องและจัดหมวดหมู่
เทคนิคการสร้างแบบจำลองการทำนายบางอย่างได้รับการออกแบบมาเพื่อการจัดการตัวทำนายอย่างต่อเนื่องในขณะที่เทคนิคอื่น ๆ นั้นดีกว่าสำหรับการจัดการกับตัวแปรเด็ดขาด แน่นอนว่ามีเทคนิคในการแปลงประเภทหนึ่งไปเป็นอีกประเภทหนึ่ง (discretization, ตัวแปรจำลอง) อย่างไรก็ตามมีเทคนิคการสร้างแบบจำลองการคาดการณ์ที่ออกแบบมาเพื่อจัดการอินพุตทั้งสองประเภทในเวลาเดียวกันโดยไม่ต้องเปลี่ยนประเภทของคุณสมบัติหรือไม่ ถ้าเป็นเช่นนั้นเทคนิคการสร้างแบบจำลองเหล่านี้มีแนวโน้มที่จะทำงานได้ดีขึ้นกับข้อมูลที่พวกเขาเป็นแบบธรรมชาติมากขึ้น? สิ่งที่ใกล้เคียงที่ฉันรู้จะเป็นที่มักจะต้นไม้ตัดสินใจจัดการกับข้อมูลที่ไม่ต่อเนื่องได้ดีและพวกเขาจัดการข้อมูลอย่างต่อเนื่องโดยไม่ต้องมีขึ้นด้านหน้าไม่ต่อเนื่อง อย่างไรก็ตามนี่ไม่ใช่สิ่งที่ฉันกำลังมองหาเนื่องจากการแยกคุณสมบัติอย่างต่อเนื่องได้อย่างมีประสิทธิภาพเป็นเพียงการแยกส่วนแบบไดนามิก สำหรับการอ้างอิงต่อไปนี้เป็นคำถามที่เกี่ยวข้องและไม่ซ้ำกัน: ต้นไม้การตัดสินใจแยกควรนำมาใช้อย่างไรเมื่อทำนายตัวแปรต่อเนื่อง ฉันสามารถใช้การถดถอยแบบหลายครั้งได้หรือไม่เมื่อฉันมีตัวทำนายที่เป็นหมวดหมู่และแบบต่อเนื่องผสมกัน? มันสมเหตุสมผลไหมที่จะรักษาข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง? การวิเคราะห์ข้อมูลตัวแปรอย่างต่อเนื่องและเป็นหมวดหมู่

1
มีอัลกอริทึมใดบ้างที่รวมการจำแนกและการถดถอย
ฉันสงสัยว่ามีอัลกอริทึมใดที่สามารถจำแนกและถดถอยได้ในเวลาเดียวกัน ตัวอย่างเช่นฉันต้องการให้อัลกอริทึมเรียนรู้ลักษณนามและในเวลาเดียวกันภายในแต่ละเลเบลมันก็เรียนรู้เป้าหมายอย่างต่อเนื่อง ดังนั้นสำหรับตัวอย่างการฝึกอบรมแต่ละรายการจะมีป้ายกำกับหมวดหมู่และค่าต่อเนื่อง ฉันสามารถฝึกลักษณนามก่อนแล้วจึงฝึก regressor ภายในแต่ละ label แต่ฉันแค่คิดว่าถ้ามีอัลกอริทึมที่สามารถทำทั้งสองอย่างได้มันจะวิเศษมาก

4
การ oversampling, undersampling และ SMOTE มีปัญหาอะไรบ้าง
ในคำถามล่าสุดที่ได้รับอย่างดีทิมถามว่าเมื่อใดที่ข้อมูลไม่สมดุลจริง ๆ เป็นปัญหาในการเรียนรู้ของเครื่อง ? สถานที่ตั้งของคำถามคือว่ามีเป็นจำนวนมากของการเรียนรู้วรรณคดีเครื่องถกสมดุลระดับและปัญหาของการเรียนการขาดดุล แนวคิดคือชุดข้อมูลที่มีความไม่สมดุลระหว่างคลาสบวกและลบทำให้เกิดปัญหาสำหรับการจัดหมวดหมู่การเรียนรู้ของเครื่องบางอย่าง (ฉันรวมถึงแบบจำลองความน่าจะเป็นที่นี่) อัลกอริทึมและควรหาวิธี "สมดุล" ชุดข้อมูล แยกระหว่างคลาสบวกและลบ ความรู้สึกทั่วไปของคำตอบที่ได้รับการโหวตขึ้นมาก็คือ "ไม่ใช่อย่างน้อยถ้าคุณมีความคิดในการสร้างแบบจำลอง" ม. เฮนรี่แอล. ในความเห็นที่โหวตแล้วว่าเป็นคำตอบที่ยอมรับแล้ว [... ] ไม่มีปัญหาในระดับต่ำเมื่อใช้ข้อมูลที่ไม่สมดุล จากประสบการณ์ของฉันคำแนะนำในการ "หลีกเลี่ยงข้อมูลที่ไม่สมดุล" เป็นข้อมูลเฉพาะของอัลกอริทึมหรือภูมิปัญญาที่สืบทอดมา ฉันเห็นด้วยกับ AdamO ว่าโดยทั่วไปแล้วข้อมูลที่ไม่สมดุลทำให้เกิดปัญหาทางแนวคิดกับโมเดลที่ระบุไว้อย่างดี AdamO ให้เหตุผลว่า "ปัญหา" กับความสมดุลของชั้นเรียนเป็นหนึ่งในความหายากของชั้นเรียน ดังนั้นอย่างน้อยในการถดถอย (แต่ฉันสงสัยว่าในทุกสถานการณ์) ปัญหาเดียวของข้อมูลที่ไม่สมดุลคือคุณมีขนาดตัวอย่างเล็ก หากวิธีการใดเหมาะสมกับจำนวนคนในคลาส rarer ไม่ควรมีปัญหาหากสมาชิกสัดส่วนของพวกเขาไม่สมดุล หากนี่เป็นปัญหาจริงในมือคำถามนี้จะเปิดทิ้งไว้: จุดประสงค์ของวิธีการ resampling ทั้งหมดที่มีวัตถุประสงค์เพื่อสร้างความสมดุลให้กับชุดข้อมูลคือ: เห็นได้ชัดว่าพวกเขาไม่ได้แก้ไขปัญหาของการมีตัวอย่างขนาดเล็กโดยปริยายคุณไม่สามารถสร้างข้อมูลจากอะไร!

2
แบบผสมมีประโยชน์เหมือนแบบจำลองทำนายหรือไม่
ฉันสับสนเล็กน้อยเกี่ยวกับข้อดีของแบบจำลองผสมในเรื่องการสร้างแบบจำลองการทำนาย เนื่องจากแบบจำลองการทำนายมักจะหมายถึงการคาดการณ์ค่าของการสังเกตที่ไม่ทราบมาก่อนหน้านี้ดูเหมือนว่าชัดเจนว่าวิธีเดียวที่แบบจำลองผสมอาจมีประโยชน์ก็คือความสามารถในการทำนายระดับประชากร (นั่นคือไม่เพิ่มผลกระทบแบบสุ่ม) อย่างไรก็ตามปัญหาคือในประสบการณ์ของฉันการคาดการณ์ระดับประชากรที่ใช้แบบจำลองแบบผสมนั้นแย่กว่าการคาดการณ์ตามแบบจำลองการถดถอยมาตรฐานที่มีผลกระทบคงที่เท่านั้น ดังนั้นโมเดลของแบบผสมที่เกี่ยวข้องกับปัญหาการทำนายคืออะไร แก้ไข ปัญหามีดังต่อไปนี้: ฉันติดตั้งโมเดลผสม (ทั้งเอฟเฟกต์คงที่และสุ่ม) และโมเดลเชิงเส้นมาตรฐานที่มีเอฟเฟกต์คงที่เท่านั้น เมื่อฉันทำการตรวจสอบข้ามฉันได้รับลำดับชั้นของความแม่นยำในการทำนายต่อไปนี้: 1) แบบจำลองผสมเมื่อทำนายโดยใช้เอฟเฟกต์แบบคงที่และแบบสุ่ม (แต่งานนี้แน่นอนสำหรับการสังเกตด้วยระดับเอฟเฟ็กต์ตัวแปรแบบสุ่มเท่านั้น) เหมาะสำหรับแอปพลิเคชั่นทำนายผลจริง!); 2) โมเดลเชิงเส้นมาตรฐาน 3) รูปแบบผสมเมื่อใช้การคาดคะเนระดับประชากร (เพื่อให้มีเอฟเฟกต์แบบสุ่มโยนออกมา) ดังนั้นความแตกต่างเพียงอย่างเดียวระหว่างแบบจำลองเชิงเส้นมาตรฐานและแบบจำลองผสมจึงมีค่าที่แตกต่างกันของค่าสัมประสิทธิ์เนื่องจากวิธีการประมาณค่าที่แตกต่างกัน (เช่นมีผลกระทบ / ตัวทำนายแบบเดียวกันในทั้งสองแบบ แต่มีสัมประสิทธิ์สัมพันธ์ต่างกัน) ดังนั้นความสับสนของฉันจึงเพิ่มขึ้นเป็นคำถามทำไมฉันถึงเคยใช้แบบจำลองผสมเป็นแบบจำลองการทำนายเนื่องจากการใช้แบบจำลองผสมเพื่อสร้างการทำนายระดับประชากรดูเหมือนว่าเป็นกลยุทธ์ที่ด้อยกว่าเมื่อเทียบกับแบบจำลองเชิงเส้นมาตรฐาน

3
การตรวจสอบข้ามระบบหรือการบูตสแตรปเพื่อประเมินประสิทธิภาพการจัดหมวดหมู่?
วิธีการสุ่มตัวอย่างที่เหมาะสมที่สุดในการประเมินประสิทธิภาพของตัวจําแนกในชุดข้อมูลเฉพาะและเปรียบเทียบกับตัวจําแนกอื่น ๆ คืออะไร? การตรวจสอบความถูกต้องไขว้นั้นดูเหมือนจะเป็นแบบมาตรฐาน แต่ฉันได้อ่านวิธีการเช่น. 632 bootstrap เป็นตัวเลือกที่ดีกว่า การติดตามผล: การเลือกตัวชี้วัดประสิทธิภาพส่งผลกระทบต่อคำตอบหรือไม่ (ถ้าฉันใช้ AUC แทนความแม่นยำ) เป้าหมายสูงสุดของฉันคือสามารถพูดด้วยความมั่นใจว่าวิธีการเรียนรู้ของเครื่องวิธีหนึ่งดีกว่าอีกชุดหนึ่งสำหรับชุดข้อมูลเฉพาะ

3
ฉันจะตีความเมทริกซ์ความสับสนของ Sklearn ได้อย่างไร
ฉันใช้เมทริกซ์ความสับสนเพื่อตรวจสอบประสิทธิภาพของตัวจําแนกของฉัน ฉันกำลังใช้ Scikit-Learn ฉันสับสนเล็กน้อย ฉันจะตีความผลลัพธ์ได้อย่างไร from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, 0, 2]]) ฉันจะตัดสินใจได้อย่างไรว่าค่าที่คาดการณ์นี้ดีหรือไม่

5
การวิเคราะห์ข้อมูลเชิงสำรวจเป็นสิ่งสำคัญหรือไม่เมื่อทำการสร้างแบบจำลองการทำนายอย่างหมดจด?
เมื่อสร้างแบบจำลองการทำนายโดยใช้เทคนิคการเรียนรู้ของเครื่องจุดประสงค์ของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) คืออะไร? การข้ามไปสู่การสร้างคุณลักษณะและการสร้างแบบจำลองของคุณเป็นเรื่องที่ถูกต้องหรือไม่? สถิติเชิงพรรณนามีความสำคัญอย่างไรใน EDA สำคัญ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.