คำถามติดแท็ก model-selection

การเลือกแบบจำลองเป็นปัญหาในการตัดสินว่าแบบจำลองจากชุดใดมีประสิทธิภาพดีที่สุด วิธีการที่นิยม ได้แก่R2เกณฑ์ AIC และ BIC ชุดทดสอบและการตรวจสอบความถูกต้องข้าม การเลือกคุณสมบัติเป็นส่วนย่อยของการเลือกรุ่น

6
เปรียบเทียบ R-squared จาก Random Forest สองรุ่นที่แตกต่างกัน
ฉันใช้แพ็คเกจสุ่มป่าไม้ใน R เพื่อพัฒนาโมเดลฟอเรสต์แบบสุ่มเพื่อพยายามอธิบายผลลัพธ์อย่างต่อเนื่องในชุดข้อมูล "กว้าง" ที่มีตัวทำนายมากกว่าตัวอย่าง โดยเฉพาะฉันเหมาะสมกับโมเดล RF หนึ่งตัวที่อนุญาตให้กระบวนการเลือกชุดตัวแปรพยากรณ์ 75 ตัวที่ฉันคิดว่าสำคัญ ฉันกำลังทดสอบว่าตัวแบบนั้นทำนายผลที่แท้จริงสำหรับชุดการทดสอบที่สงวนไว้อย่างไรโดยใช้วิธีการโพสต์ที่นี่ก่อนหน้านี้คือ ... หรือใน R: 1 - sum((y-predicted)^2)/sum((y-mean(y))^2) แต่ตอนนี้ฉันมีตัวแปรทำนายอีก 25 ตัวที่ฉันสามารถเพิ่มได้ เมื่อใช้ชุดตัวทำนาย ~ 100 ตัวR²จะสูงกว่า ฉันต้องการที่จะทดสอบทางสถิติในคำอื่น ๆ เมื่อใช้ชุดของ ~ 100 ทำนายที่จะทดสอบแบบจำลองอย่างมีนัยสำคัญที่ดีกว่าในการทดสอบข้อมูลกว่ารุ่นพอดีโดยใช้ ~ 75 พยากรณ์ นั่นคือR²จากการทดสอบโมเดล RF บนชุดข้อมูลแบบเต็มสูงกว่าR²อย่างมากจากการทดสอบโมเดล RF บนชุดข้อมูลที่ลดลง นี่เป็นสิ่งสำคัญสำหรับฉันที่จะทดสอบเพราะนี่คือข้อมูลนำร่องและการได้รับผู้ทำนายเพิ่มอีก 25 คนนั้นมีค่าใช้จ่ายสูงและฉันจำเป็นต้องรู้ว่าฉันควรจ่ายเงินเพื่อวัดผู้ทำนายเหล่านั้นในการศึกษาติดตามครั้งใหญ่กว่าหรือไม่ ฉันพยายามคิดถึงวิธี resampling / permutation บางอย่าง แต่ไม่มีสิ่งใดในใจ

2
มีแบบจำลองสถิติพอดี (เช่น AIC หรือ BIC) ที่สามารถใช้สำหรับสัมบูรณ์แทนการเปรียบเทียบแบบเปรียบเทียบได้หรือไม่
ฉันไม่คุ้นเคยกับวรรณกรรมนี้ดังนั้นโปรดยกโทษให้ฉันถ้านี่เป็นคำถามที่ชัดเจน เนื่องจาก AIC และ BIC ขึ้นอยู่กับการเพิ่มโอกาสให้มากที่สุดดูเหมือนว่าพวกเขาสามารถนำมาใช้เพื่อทำการเปรียบเทียบแบบเปรียบเทียบระหว่างชุดของแบบจำลองที่พยายามให้พอดีกับชุดข้อมูลที่กำหนด ตามความเข้าใจของฉันมันไม่สมเหตุสมผลเลยที่จะคำนวณ AIC สำหรับรุ่น A บนชุดข้อมูล 1 คำนวณ AIC สำหรับรุ่น B ในชุดข้อมูล 2 จากนั้นเปรียบเทียบค่า AIC ทั้งสองและตัดสินว่า (เช่น) รุ่น A เหมาะกับชุดข้อมูล 1 ดีกว่ารุ่น B เหมาะกับชุดข้อมูล 2 หรือบางทีฉันเข้าใจผิดและนั่นเป็นสิ่งที่สมเหตุสมผลที่ต้องทำ โปรดแจ้งให้เราทราบ คำถามของฉันคือ: มีแบบจำลองสถิติพอดีที่สามารถใช้สำหรับสัมบูรณ์แทนการเปรียบเทียบแบบเปรียบเทียบได้หรือไม่ สำหรับโมเดลเชิงเส้นบางอย่างเช่นจะทำงานได้ มันมีช่วงที่กำหนดไว้และมีระเบียบวินัยความคิดเฉพาะเกี่ยวกับสิ่งที่เป็นค่า "ดี" ฉันกำลังมองหาบางอย่างที่กว้างกว่าและคิดว่าฉันสามารถเริ่มต้นด้วยการส่งผู้เชี่ยวชาญมาที่นี่ ฉันแน่ใจว่ามีบางคนเคยคิดเกี่ยวกับสิ่งนี้มาก่อน แต่ฉันไม่รู้จักคำศัพท์ที่เหมาะสมเพื่อทำการค้นหาที่มีประสิทธิภาพใน Google ScholarR2R2R^2 ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม

3
การเลือกแบบเบส์และช่วงเวลาที่น่าเชื่อถือ
ฉันมีชุดข้อมูลที่มีสามตัวแปรโดยที่ตัวแปรทั้งหมดเป็นเชิงปริมาณ อนุญาตเรียกว่า ,และx_2ฉันเหมาะสมกับโมเดลการถดถอยในมุมมองแบบเบย์ผ่าน MCMC ด้วยyyyx1x1x_1x2x2x_2rjags ฉันทำการวิเคราะห์เชิงสำรวจและสแกตเตอร์ล็อตของแนะนำว่าควรใช้เทอมกำลังสอง จากนั้นฉันติดตั้งสองรุ่นy×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 ในรูปแบบที่ 1 ขนาดผลของแต่ละพารามิเตอร์ไม่เล็กและช่วงเวลาที่มีความน่าเชื่อถือ 95% ไม่ได้มีค่าที่0000 ในรูปแบบที่ 2 ขนาดของผลของพารามิเตอร์และมีขนาดเล็กและแต่ละช่วงเวลาที่น่าเชื่อถือสำหรับพารามิเตอร์ทั้งหมดมี0β3β3\beta_3β4β4\beta_4000 ความจริงที่ว่าช่วงเวลาที่น่าเชื่อถือมีเพียงพอที่จะบอกได้ว่าพารามิเตอร์นั้นไม่มีนัยสำคัญใช่หรือไม่000 จากนั้นฉันปรับรูปแบบต่อไปนี้ (3)y=β0+β1∗x1+β2∗x2+β3∗x22y=β0+β1∗x1+β2∗x2+β3∗x22y=\beta_0+\beta_1*x_1+\beta_2*x_2+\beta_3*x^2_2 ขนาดผลของแต่ละพารามิเตอร์ไม่เล็ก แต่มีข้อยกเว้นของช่วงเวลาที่น่าเชื่อถือว่ามี0β1β1\beta_1000 วิธีใดที่เหมาะสมในการเลือกตัวแปรในสถิติแบบเบย์ แก้ไข:ฉันสามารถใช้ Lasso ในรูปแบบการถดถอยใด ๆ เช่นรุ่นเบต้าหรือไม่ ฉันใช้โมเดลที่มีการกระจายตัวแปรโดยที่ โดยที่เป็นเวกเตอร์ ฉันควรใช้ Laplace ก่อนหน้าในด้วยหรือไม่log(σ)=−δδXlog(σ)=−δδXlog(\sigma)=-\pmb{\delta}Xδδδδ\pmb{\delta}δδδδ\pmb{\delta} EDIT2:ฉันติดตั้งสองรุ่นโดยหนึ่งมี Gaussian Priori สำหรับ ,และอีกรุ่นด้วย Laplace (เลขชี้กำลังสองเท่า)βjβj\beta_jδjδj\delta_j ค่าประมาณสำหรับแบบเกาส์เซคือ Mean SD Naive SE Time-series SE B[1] -1.17767 …

3
โมเดลผสมเชิงเส้นทั่วไป: การเลือกรูปแบบ
คำถาม / หัวข้อนี้เกิดขึ้นในการสนทนากับเพื่อนร่วมงานและฉันกำลังมองหาความคิดเห็นเกี่ยวกับเรื่องนี้: ฉันกำลังสร้างแบบจำลองข้อมูลบางอย่างโดยใช้การถดถอยโลจิสติกเอฟเฟกต์แบบสุ่มแม่นยำกว่าการถดถอยโลจิสติกแบบตัดขวางที่แม่นยำ สำหรับผลกระทบคงที่ฉันมี 9 ตัวแปรที่น่าสนใจและเข้ามาพิจารณา ฉันต้องการเลือกรูปแบบบางอย่างเพื่อค้นหาตัวแปรที่มีความสำคัญและให้รูปแบบ "ดีที่สุด" (เอฟเฟกต์หลักเท่านั้น) ความคิดแรกของฉันคือการใช้ AIC เพื่อเปรียบเทียบแบบจำลองที่แตกต่างกัน แต่ด้วย 9 ตัวแปรฉันไม่ตื่นเต้นเกินไปที่จะเปรียบเทียบ 2 ^ 9 = 512 รุ่นที่แตกต่างกัน (คำหลัก: การขุดลอกข้อมูล) ฉันพูดคุยเรื่องนี้กับเพื่อนร่วมงานและเขาบอกฉันว่าเขาจำได้ว่าอ่านเกี่ยวกับการใช้การเลือกแบบจำลองแบบขั้นตอน (หรือไปข้างหน้า) กับ GLMM แต่แทนที่จะใช้ p-value (เช่นจากการทดสอบอัตราส่วนความน่าจะเป็นสำหรับ GLMM) เราควรใช้ AIC เป็นเกณฑ์ในการเข้า / ออก ฉันพบความคิดนี้ที่น่าสนใจมาก แต่ฉันไม่พบการอ้างอิงใด ๆ ที่กล่าวถึงเรื่องนี้เพิ่มเติมและเพื่อนร่วมงานของฉันจำไม่ได้ว่าเขาอ่านที่ไหน หนังสือหลายเล่มแนะนำให้ใช้ AIC เพื่อเปรียบเทียบแบบจำลอง แต่ฉันไม่พบการสนทนาใด ๆ เกี่ยวกับการใช้สิ่งนี้พร้อมกับขั้นตอนการเลือกรุ่นแบบขั้นตอนหรือแบบส่งต่อ ดังนั้นฉันมีสองคำถามโดยทั่วไป: มีอะไรผิดปกติหรือไม่หากใช้ AIC …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
เหตุใดจึงใช้เกณฑ์ข้อมูล (ไม่ได้ปรับ ) เพื่อเลือกลำดับความล่าช้าที่เหมาะสมในรุ่นอนุกรมเวลา
ในโมเดลอนุกรมเวลาเช่น ARMA-GARCH เพื่อเลือกความล่าช้าหรือลำดับของเกณฑ์ข้อมูลที่แตกต่างกันของโมเดลเช่น AIC, BIC, SIC เป็นต้น คำถามของฉันง่ายมากเหตุใดเราจึงไม่ใช้การปรับเพื่อเลือกรุ่นที่เหมาะสม เราสามารถเลือกรูปแบบที่นำไปสู่มูลค่าที่สูงขึ้นของการปรับ 2 เนื่องจากทั้งสองปรับและเกณฑ์ข้อมูลลงโทษสำหรับจำนวน regressors เพิ่มเติมในรูปแบบที่ซึ่งอดีตลงโทษและต่อมาลงโทษค่าโอกาส R2R2R^2R2R2R^2R2R2R^2R2R2R^2

4
การตีความค่า AIC
ค่าทั่วไปของ AIC ที่ฉันเห็นสำหรับโมเดลโลจิสติกอยู่ในหลักพันเป็นอย่างน้อยเป็นร้อย เช่นในhttp://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ AIC คือ 727.39 แม้ว่าจะมีการกล่าวเสมอว่าควรใช้ AIC เพื่อเปรียบเทียบแบบจำลองเท่านั้น แต่ฉันต้องการเข้าใจว่าค่า AIC นั้นหมายถึงอะไร ตามสูตร A Iค= - 2 บันทึก( L ) + 2 KAIC=−2log⁡(L)+2KAIC= -2 \log(L)+ 2K โดยที่ L = ความเป็นไปได้สูงสุดจากตัวประมาณ MLE K คือจำนวนพารามิเตอร์ ในตัวอย่างด้านบน K = 8 ดังนั้นด้วยเลขคณิตอย่างง่าย: 727.9 = -2*log(L)+ 2*8 Hence, 711.39 = -2*log(L) Hence, log (L)= …

1
ตัวเลือกรุ่นดั้งเดิม (?) พร้อม k-fold CV
เมื่อใช้ k-fold CV เพื่อเลือกระหว่างโมเดลการถดถอยฉันมักจะคำนวณข้อผิดพลาด CV แยกต่างหากสำหรับแต่ละรุ่นพร้อมกับข้อผิดพลาดมาตรฐาน SE และฉันเลือกรุ่นที่ง่ายที่สุดภายใน 1 SE ของรุ่นที่มีข้อผิดพลาด CV ต่ำสุด (1 กฎข้อผิดพลาดมาตรฐานดูตัวอย่างได้ที่นี่ ) อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันได้รับแจ้งว่าด้วยวิธีนี้ฉันประเมินค่าความแปรปรวนสูงเกินไปและในกรณีเฉพาะในการเลือกระหว่างสองรุ่น A และ B ฉันควรดำเนินการต่อไปในลักษณะที่แตกต่างกัน: สำหรับแต่ละเท่าของความยาวให้คำนวณความแตกต่างจุดระหว่างทั้งสองแบบจำลองการทำนายจากนั้นคำนวณความแตกต่างของค่าเฉลี่ยกำลังสองสำหรับการพับKKKยังไม่มีข้อความKNKN_KMSDK=Σยังไม่มีข้อความKi = 1(Y^ฉัน-Y^B i)2ยังไม่มีข้อความK---------------√MSDK=∑i=1NK(y^Ai−y^Bi)2NKMSD_K=\sqrt{\frac{\sum_{i=1}^{N_K}\left(\hat{y}_{Ai}-\hat{y}_{Bi}\right)^2}{N_K}} ค่าเฉลี่ยข้ามเท่าปกติและใช้ข้อผิดพลาดความแตกต่าง CV นี้ (พร้อมกับข้อผิดพลาดมาตรฐาน) เป็นตัวประมาณสำหรับข้อผิดพลาดทั่วไปMSDKMSDKMSD_K คำถาม: สิ่งนี้สมเหตุสมผลสำหรับคุณหรือไม่ ฉันรู้ว่ามีเหตุผลทางทฤษฎีที่อยู่เบื้องหลังการใช้ข้อผิดพลาด CV เป็นตัวประมาณข้อผิดพลาดในการวางนัยทั่วไป (ฉันไม่ทราบว่าเหตุผลเหล่านี้คืออะไร แต่ฉันรู้ว่ามีอยู่จริง!) ฉันไม่รู้ว่ามีเหตุผลทางทฤษฎีที่อยู่เบื้องหลังการใช้ข้อผิดพลาด CV "แตกต่าง" นี้หรือไม่ ฉันไม่รู้ว่าสิ่งนี้สามารถนำมาเปรียบเทียบกับแบบจำลองมากกว่าสองรุ่นได้หรือไม่ การคำนวณความแตกต่างของแบบจำลองทุกคู่ดูเหมือนจะมีความเสี่ยง (การเปรียบเทียบหลายทาง): คุณจะทำอย่างไรถ้าคุณมีมากกว่าสองแบบ? แก้ไข: สูตรของฉันผิดทั้งหมดตัวชี้วัดที่ถูกต้องอธิบายไว้ที่นี่และมันซับซ้อนกว่ามาก ฉันมีความสุขที่ฉันถามที่นี่ก่อนที่จะใช้สูตรไม่ได้! …

1
เมื่อใดกฎการให้คะแนนที่เหมาะสมจะมีการประมาณค่าทั่วไปในการจัดหมวดหมู่ที่ดีกว่า
วิธีการทั่วไปในการแก้ปัญหาการจำแนกประเภทคือการระบุคลาสของแบบจำลองผู้สมัครแล้วทำการเลือกรูปแบบโดยใช้ขั้นตอนบางอย่างเช่นการตรวจสอบความถูกต้องข้าม โดยปกติคนหนึ่งเลือกรุ่นที่มีความถูกต้องสูงสุดหรือบางฟังก์ชั่นที่เกี่ยวข้องที่ข้อมูลปัญหาถอดรหัสเฉพาะเช่น\FβFβ\text{F}_\beta สมมติว่าเป้าหมายสุดท้ายคือการสร้างลักษณนามที่แม่นยำ (ซึ่งคำจำกัดความความถูกต้องอีกครั้งขึ้นอยู่กับปัญหา) ในสถานการณ์ที่ดีกว่าในการเลือกรูปแบบโดยใช้กฎการให้คะแนนที่เหมาะสมเมื่อเทียบกับสิ่งที่ไม่เหมาะสมเช่นความแม่นยำ ฯลฯ นอกจากนี้เราจะไม่สนใจปัญหาของความซับซ้อนของแบบจำลองและสมมติว่าเราพิจารณาทุกโมเดลที่มีโอกาสเท่ากัน ก่อนหน้านี้ฉันจะบอกว่าไม่เคย การจำแนกเป็นปัญหาง่ายกว่าการถดถอย [1], [2] และเราสามารถหาขอบเขตที่แคบกว่าสำหรับอดีตได้มากกว่าในภายหลัง ( ) นอกจากนี้ยังมีกรณีเมื่อพยายามที่จะถูกต้องตรงกับความน่าจะได้ผลในการที่ไม่ถูกต้องขอบเขตการตัดสินใจหรืออิง อย่างไรก็ตามจากการสนทนาที่นี่และรูปแบบการลงคะแนนของชุมชนเกี่ยวกับปัญหาดังกล่าวฉันได้ตั้งคำถามกับมุมมองนี้* * * *∗* Devroye, Luc ทฤษฎีความน่าจะเป็นของการจดจำรูปแบบ ฉบับ 31. สปริงเกอร์, 1996. มาตรา 6.7 Kearns, Michael J. และ Robert E. Schapire การเรียนรู้ที่ไม่มีการแจกแจงอย่างมีประสิทธิภาพเกี่ยวกับแนวคิดความน่าจะเป็น รากฐานของวิทยาศาสตร์คอมพิวเตอร์, 1990. การดำเนินการ, การประชุมวิชาการประจำปีครั้งที่ 31 IEEE, 1990 ( ∗ )(∗)(*)ข้อความนี้อาจจะเลอะเทอะเล็กน้อย ฉันหมายถึงเฉพาะที่ได้รับข้อมูลฉลากของรูปแบบด้วยและดูเหมือนจะง่ายต่อการประเมินขอบเขตการตัดสินใจมากกว่าการประมาณความน่าจะเป็นแบบมีเงื่อนไขอย่างแม่นยำS= { (x1,Y1) , …

1
ความเท่าเทียมกันของ AIC และ p-values ​​ในการเลือกแบบจำลอง
ในความคิดเห็นต่อคำตอบของคำถามนี้พบว่าการใช้ AIC ในการเลือกแบบจำลองนั้นเทียบเท่ากับการใช้ค่า p-0.154 ฉันลองใน R ที่ฉันใช้อัลกอริทึมการเลือกชุดย่อย "ย้อนกลับ" เพื่อโยนตัวแปรออกจากสเปคแบบเต็ม ครั้งแรกโดยการทิ้งตัวแปรที่มีค่า p-value สูงสุดและหยุดเมื่อ p-value ทั้งหมดต่ำกว่า 0.154 และอันดับที่สองโดยการวางตัวแปรซึ่งส่งผลให้ AIC ต่ำที่สุดเมื่อถูกลบออกจนกว่าจะไม่มีการปรับปรุงใด ๆ ปรากฎว่าพวกเขาให้ผลลัพธ์แบบคร่าวๆเมื่อฉันใช้ค่า p-0.154 เป็นเกณฑ์ จริงหรือไม่ ถ้ามีใครรู้ว่าทำไมหรือสามารถอ้างถึงแหล่งที่อธิบายได้ ป.ล. ฉันไม่สามารถถามคนที่แสดงความคิดเห็นหรือเขียนความเห็นได้เพราะเพิ่งสมัครใช้งาน ฉันรู้ว่านี่ไม่ใช่วิธีที่เหมาะสมที่สุดในการเลือกแบบจำลองและการอนุมานเป็นต้น

2
เคอร์เนล SVM ใดที่จะใช้สำหรับปัญหาการจำแนกประเภทไบนารี
ฉันเป็นผู้เริ่มต้นเมื่อพูดถึงการสนับสนุนเครื่องเวกเตอร์ มีแนวทางบางอย่างที่บอกว่าเคอร์เนลใด (เช่นเส้นตรงพหุนาม) เหมาะที่สุดสำหรับปัญหาเฉพาะหรือไม่? ในกรณีของฉันฉันต้องจำแนกหน้าเว็บตามว่ามีข้อมูลเฉพาะหรือไม่เช่นฉันมีปัญหาการจำแนกเลขฐานสอง คุณสามารถพูดโดยทั่วไปว่าเคอร์เนลใดเหมาะที่สุดสำหรับงานนี้? หรือฉันต้องลองหลายชุดในชุดข้อมูลเฉพาะของฉันเพื่อค้นหาชุดที่ดีที่สุด โดยวิธีการที่ฉันใช้ห้องสมุดหลามscikit เรียนรู้ที่ใช้ประโยชน์จากห้องสมุด libSVM

2
การคำนวณปัญหาการตีความ regsubsets และคำถามทั่วไปเกี่ยวกับขั้นตอนการเลือกรุ่น
regsubsets()ฉันต้องการที่จะเลือกใช้แบบจำลอง ฉันมีชื่อไฟล์ชื่อ olympiadaten (อัปโหลดข้อมูลแล้ว: http://www.sendspace.com/file/8e27d0 ) ฉันแนบไฟล์ข้อมูลนี้ก่อนแล้วจึงเริ่มวิเคราะห์รหัสของฉันคือ: attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + Schoolyears + ExpMilitary + Mortality + PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2) summary(a) plot(a,scale="adjr2") summary(lm(Gesamt~ExpHealth)) สกรีนช็อตของพล็อต: ปัญหาคือตอนนี้ที่ฉันต้องการให้พอดีกับรุ่นที่ดีที่สุดอีกครั้ง "ด้วยตนเอง" และได้ดูมัน แต่ค่าของ R กำลังสองปรับไม่เหมือนในการส่งออก regsubsets? นี่เป็นกรณีสำหรับรุ่นอื่นเช่นเมื่อฉันทำแบบจำลองที่ง่ายที่สุดในกราฟิก: summary(lm(Gesamt~ExpHealth)) กราฟิกบอกว่ามันควรจะมีค่า R ที่ได้รับการปรับประมาณ …

4
การเลือกแบบจำลองและสมรรถนะของแบบจำลองในการถดถอยโลจิสติกส์
ฉันมีคำถามเกี่ยวกับการเลือกแบบจำลองและประสิทธิภาพของตัวแบบในการถดถอยโลจิสติก ฉันมีสามแบบซึ่งตั้งอยู่บนสมมติฐานที่แตกต่างกันสามแบบ สองรุ่นแรก (ให้ตั้งชื่อพวกเขาว่า z และ x) จะมีตัวแปรอธิบายเพียงตัวเดียวในแต่ละรุ่นและรุ่นที่สาม (ให้ชื่อมันด้วย) มีความซับซ้อนมากขึ้น ฉันใช้ AIC สำหรับการเลือกตัวแปรสำหรับรุ่น w แล้ว AIC เพื่อเปรียบเทียบว่าสามรุ่นใดที่อธิบายตัวแปรตามได้ดีที่สุด ฉันพบว่าโมเดล w มีค่า AIC ต่ำที่สุดและตอนนี้ต้องการทำสถิติประสิทธิภาพสำหรับโมเดลนั้นเพื่อให้ได้แนวคิดเกี่ยวกับพลังการทำนายของโมเดล เนื่องจากทั้งหมดที่ฉันรู้คือว่ารุ่นนี้ดีกว่าอีกสองคน แต่ไม่ดีเท่าไหร่ เนื่องจากฉันใช้ข้อมูลทั้งหมดเพื่อเรียนรู้รูปแบบ (เพื่อให้สามารถเปรียบเทียบทั้งสามรุ่น) ฉันจะทำอย่างไรกับประสิทธิภาพของโมเดล จากสิ่งที่ฉันรวบรวมฉันไม่สามารถทำการตรวจสอบความถูกต้องไขว้กันของ k-fold ในรุ่นสุดท้ายที่ฉันได้รับจากการเลือกแบบจำลองโดยใช้ AIC แต่ต้องเริ่มจากจุดเริ่มต้นด้วยตัวแปรอธิบายรวมอยู่ด้วยใช่ไหม ฉันคิดว่ามันเป็นรุ่นสุดท้ายที่ฉันเลือกกับ AIC ที่ฉันต้องการทราบว่ามันทำงานได้ดีเพียงใด แต่ตระหนักว่าฉันได้รับการฝึกอบรมเกี่ยวกับข้อมูลทั้งหมดเพื่อให้โมเดลนั้นมีความลำเอียง ดังนั้นถ้าฉันควรเริ่มจากจุดเริ่มต้นด้วยตัวแปรอธิบายทั้งหมดในทุกเท่าฉันจะได้แบบจำลองขั้นสุดท้ายที่แตกต่างกันสำหรับบางเท่าฉันสามารถเลือกแบบจำลองจากการพับซึ่งให้พลังการทำนายที่ดีที่สุดและนำไปใช้กับชุดข้อมูลแบบเต็มเพื่อเปรียบเทียบ AIC กับอีกสองรุ่น (z และ x)? หรือมันทำงานอย่างไร ส่วนที่สองของคำถามของฉันคือคำถามพื้นฐานเกี่ยวกับการกำหนดพารามิเตอร์มากเกินไป ฉันมี 156 จุดข้อมูล 52 เป็น 1 …

4
การลดจำนวนตัวแปรในการถดถอยหลายครั้ง
ฉันมีชุดข้อมูลขนาดใหญ่ซึ่งประกอบด้วยค่าของตัวแปรทางการเงินหลายร้อยตัวที่สามารถใช้ในการถดถอยหลายครั้งเพื่อทำนายพฤติกรรมของกองทุนดัชนีในช่วงเวลาหนึ่ง ฉันต้องการลดจำนวนของตัวแปรให้เหลือเพียงสิบหรือมากกว่านั้นในขณะที่ยังคงรักษาพลังการทำนายได้มากที่สุด เพิ่มเติม: ชุดของตัวแปรที่ลดลงจะต้องเป็นชุดย่อยของชุดตัวแปรดั้งเดิมเพื่อที่จะรักษาความหมายทางเศรษฐกิจของตัวแปรดั้งเดิมไว้ ตัวอย่างเช่นฉันไม่ควรลงท้ายด้วยชุดค่าผสมเชิงเส้นหรือมวลรวมของตัวแปรดั้งเดิม ความคิด (อาจไร้เดียงสา) บางอย่างเกี่ยวกับวิธีการทำเช่นนี้: ดำเนินการถดถอยเชิงเส้นที่เรียบง่ายกับตัวแปรแต่ละตัวและเลือกสิบมีขนาดใหญ่ที่สุดค่า แน่นอนไม่มีการรับประกันว่าตัวแปรที่ดีที่สุดสิบตัวที่รวมกันจะเป็นกลุ่มที่ดีที่สุดของสิบคนR2R2R^2 ทำการวิเคราะห์ส่วนประกอบหลักและลองค้นหาตัวแปรสิบตัวแรกที่มีความสัมพันธ์มากที่สุดกับแกนหลักสองสามตัวแรก ฉันไม่คิดว่าฉันสามารถทำการถดถอยแบบลำดับชั้นได้เนื่องจากตัวแปรนั้นไม่ซ้อนกันจริงๆ การลองชุดค่าผสมที่เป็นไปได้ทั้งหมดของตัวแปรสิบตัวนั้นเป็นไปไม่ได้เนื่องจากไม่มีชุดค่าผสมมากเกินไป มีวิธีการมาตรฐานในการจัดการกับปัญหานี้ในการลดจำนวนตัวแปรในการถดถอยหลายครั้งหรือไม่? ดูเหมือนว่านี่จะเป็นปัญหาที่พบได้บ่อยพอที่จะมีวิธีการมาตรฐาน คำตอบที่เป็นประโยชน์มากคือคำตอบที่ไม่เพียง แต่กล่าวถึงวิธีมาตรฐาน แต่ยังให้ภาพรวมของวิธีการและสาเหตุ อีกวิธีหนึ่งถ้าไม่มีวิธีการแบบมาตรฐาน แต่มีหลายวิธีที่มีจุดแข็งและจุดอ่อนที่แตกต่างกันคำตอบที่มีประโยชน์มากก็คือคำตอบที่เป็นประโยชน์ ความคิดเห็นของ whuber ด้านล่างแสดงว่าคำขอในย่อหน้าสุดท้ายนั้นกว้างเกินไป แต่ฉันจะยอมรับว่าเป็นคำตอบที่ดีสำหรับรายการของวิธีการที่สำคัญบางทีอาจมีคำอธิบายสั้น ๆ ของแต่ละวิธี เมื่อฉันมีเงื่อนไขฉันสามารถขุดรายละเอียดในแต่ละตัวเอง

1
การบัญชีสำหรับพารามิเตอร์ที่ไม่ต่อเนื่องหรือไบนารีในเกณฑ์ข้อมูลเบย์
BIC ลงโทษตามจำนวนพารามิเตอร์ เกิดอะไรขึ้นถ้าพารามิเตอร์บางตัวเป็นตัวแปรตัวบ่งชี้ไบนารีบางประเภท นับเป็นพารามิเตอร์แบบเต็มหรือไม่ แต่ผมสามารถรวมพารามิเตอร์ไบนารีในตัวแปรที่ไม่ต่อเนื่องหนึ่งที่จะนำค่าใน\} สิ่งเหล่านี้จะนับเป็นพารามิเตอร์หรือพารามิเตอร์เดียวหรือไม่ม.ม.m{ 0 , 1 , . . ,2ม.- 1 }{0,1,...,2ม.-1}\{0,1,...,2^m-1\}ม.ม.m

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.