คำถามติดแท็ก modeling

แท็กนี้อธิบายกระบวนการสร้างแบบจำลองการเรียนรู้ทางสถิติหรือเครื่อง เพิ่มแท็กเฉพาะเสมอ

2
การทดสอบย้อนกลับหรือการตรวจสอบความถูกต้องข้ามเมื่อกระบวนการสร้างแบบจำลองเป็นแบบโต้ตอบ
ฉันมีตัวแบบทำนายผลซึ่งฉันต้องการทดสอบกลับ (เช่นนำชุดข้อมูลของฉัน "ย้อนกลับ" ไปยังจุดก่อนหน้าในเวลาและดูว่าตัวแบบนั้นจะทำแบบมุ่งหวังได้อย่างไร) ปัญหาคือว่าบางรุ่นของฉันถูกสร้างขึ้นผ่านกระบวนการโต้ตอบ ตัวอย่างเช่นทำตามคำแนะนำในกลยุทธ์การสร้างแบบจำลองการถดถอยของ Frank Harrell ในแบบจำลองหนึ่งฉันใช้ splines ลูกบาศก์แบบ จำกัด เพื่อจัดการความสัมพันธ์แบบไม่เชิงเส้นที่เป็นไปได้ระหว่างคุณลักษณะและการตอบสนอง ฉันจัดสรรระดับความเป็นอิสระของแต่ละอิสระขึ้นอยู่กับการรวมกันของความรู้ในโดเมนและการวัดความแข็งแกร่งของสมาคม แต่องศาอิสระที่ฉันต้องการอนุญาตให้แบบจำลองของฉันขึ้นอยู่กับขนาดของชุดข้อมูลซึ่งแตกต่างกันอย่างมากเมื่อทำการทดสอบย้อนหลัง หากฉันไม่ต้องการแยกองศาอิสระแยกจากกันในแต่ละครั้งที่รุ่นถูกทดสอบซ้ำตัวเลือกอื่นของฉันคืออะไร สำหรับตัวอย่างอื่นฉันกำลังตรวจจับค่าผิดปกติผ่านการหาจุดที่มีเลเวอเรจสูง ถ้าฉันมีความสุขที่จะทำสิ่งนี้ด้วยมือฉันจะดูที่จุดข้อมูลที่มีประโยชน์สูงแต่ละจุดตรวจสอบอย่างมีเหตุผลว่าข้อมูลนั้นสะอาดและกรองออกหรือทำความสะอาดด้วยมือ แต่สิ่งนี้ขึ้นอยู่กับความรู้เกี่ยวกับโดเมนจำนวนมากดังนั้นฉันจึงไม่ทราบวิธีการดำเนินการอัตโนมัติ ฉันขอขอบคุณคำแนะนำและวิธีแก้ปัญหาทั้งสอง (ก) ถึงปัญหาทั่วไปของการสร้างส่วนโต้ตอบอัตโนมัติของกระบวนการสร้างแบบจำลองหรือ (ข) คำแนะนำเฉพาะสำหรับสองกรณีนี้ ขอบคุณ!

5
การถดถอยโลจิสติกในข้อมูลขนาดใหญ่
ฉันมีชุดข้อมูลประมาณ 5,000 ฟีเจอร์ สำหรับข้อมูลนั้นฉันใช้การทดสอบ Chi Square เป็นครั้งแรกเพื่อเลือกคุณสมบัติ หลังจากนั้นฉันได้ประมาณ 1,500 ตัวแปรซึ่งแสดงความสัมพันธ์อย่างมีนัยสำคัญกับตัวแปรตอบกลับ ตอนนี้ฉันต้องพอดีกับการถดถอยโลจิสติกในที่ ฉันใช้แพ็คเกจ glmulti สำหรับ R (แพ็คเกจ glmulti ให้การเลือกเซตย่อยที่มีประสิทธิภาพสำหรับ vlm) แต่สามารถใช้คุณสมบัติได้ครั้งละ 30 คุณสมบัติเท่านั้นประสิทธิภาพในการทำงานลดลงเนื่องจากจำนวนแถวในชุดข้อมูลของฉันอยู่ที่ประมาณ 20,000 มีวิธีการหรือเทคนิคอื่น ๆ ในการแก้ปัญหาข้างต้นหรือไม่? ถ้าฉันไปตามวิธีข้างต้นมันจะใช้เวลามากเกินไปในการปรับให้เข้ากับโมเดล

4
การสร้างแบบจำลองสำหรับคะแนนฟุตบอล
ใน Dixon, Coles ( 1997 ) พวกเขาใช้การประเมินความเป็นไปได้สูงสุดสำหรับโมเดล Poisson อิสระทั้งสองที่แก้ไขใน (4.3) เพื่อทำแบบจำลองคะแนนในฟุตบอล ฉันพยายามใช้ R เพื่อ "ทำซ้ำ" อัลฟ่าและเบต้ารวมถึงพารามิเตอร์เอฟเฟกต์โฮม (หน้า 274, ตารางที่ 4) โดยไม่ใช้แพ็คเกจใด ๆ (โดยใช้รุ่นปัวซองอิสระทั่วไปก็ดีเช่นกัน) ฉันลองใช้bivpoisแพ็คเกจ แต่ไม่แน่ใจว่าจะแก้ไขพารามิเตอร์ได้อย่างไร ฉันจะขอบคุณเป็นอย่างยิ่งหากใครสามารถช่วยฉันด้วยรหัส R เพื่อสร้างแบบจำลองข้อมูล - คะแนนจากทีมเหย้าและทีมเยือนสำหรับซีซั่น 2012/13 ในพรีเมียร์ลีกอังกฤษ

3
รูปแบบใดที่สามารถใช้เมื่อมีการละเมิดสมมติฐานความแปรปรวนคงที่
เนื่องจากเราไม่สามารถพอดีกับแบบจำลอง ARIMA เมื่อมีการละเมิดสมมติฐานความแปรปรวนคงที่รูปแบบใดที่สามารถใช้เพื่อให้พอดีกับอนุกรมเวลาแบบไม่แปร

2
จะสร้างแบบจำลองผลรวมของตัวแปรสุ่มของเบอร์นูลลี่สำหรับข้อมูลที่ต้องพึ่งพาได้อย่างไร
ฉันมีคำถามเกือบเหมือนกัน: ฉันจะสร้างแบบจำลองผลรวมของตัวแปรสุ่มของเบอร์นูลลี่ได้อย่างมีประสิทธิภาพได้อย่างไร แต่การตั้งค่าแตกต่างกันมาก: S=Σi = 1 , NXผมS=∑i=1,NXiS=\sum_{i=1,N}{X_i}, P(Xผม= 1 ) =พีผมP(Xi=1)=piP(X_{i}=1)=p_i, ยังไม่มีข้อความNN~ 20 พีผมpip_i~ 0.1 เรามีข้อมูลสำหรับผลลัพธ์ของตัวแปรสุ่มของ Bernoulli: Xฉัน, JXi,jX_{i,j} , SJ=Σi = 1 , NXฉัน, JSj=∑i=1,NXi,jS_j=\sum_{i=1,N}{X_{i,j}} ถ้าเราประเมิน พีผมpip_i ด้วยการประเมินความเป็นไปได้สูงสุด (และรับ พี^ML Eผมp^iMLE\hat p^{MLE}_i) ปรากฎว่า P^{ S= 3 } (พี^ML Eผม)P^{S=3}(p^iMLE)\hat P\{S=3\} (\hat p^{MLE}_i) มีขนาดใหญ่กว่าเกณฑ์อื่นที่คาดไว้: P^{ S= 3 } (พี^ML …

1
ฉันควรสลับข้อมูลของฉันอีกครั้งหรือไม่
เรามีตัวอย่างชีวภาพชุดหนึ่งที่ค่อนข้างแพง เราวางตัวอย่างเหล่านี้ผ่านชุดการทดสอบเพื่อสร้างข้อมูลที่ใช้สำหรับสร้างแบบจำลองการทำนาย เพื่อจุดประสงค์นี้เราได้แบ่งกลุ่มตัวอย่างเป็นชุดฝึกอบรม (70%) และชุดทดสอบ (30%) เราสร้างแบบจำลองได้สำเร็จและนำไปใช้กับชุดการทดสอบเพื่อค้นหาว่าประสิทธิภาพนั้น "น้อยกว่าความเหมาะสม" ผู้ทำการทดลองต้องการปรับปรุงการทดสอบทางชีวภาพเพื่อสร้างแบบจำลองที่ดีขึ้น โดยมีเงื่อนไขว่าเราไม่สามารถรับตัวอย่างใหม่ได้คุณขอแนะนำให้เราสุ่มตัวอย่างใหม่เพื่อสร้างชุดการฝึกอบรมและการตรวจสอบความถูกต้องใหม่หรือติดกับส่วนเดิม (เราไม่มีข้อบ่งชี้ว่าการแบ่งนั้นเป็นปัญหาอย่างหนึ่ง)

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

10
คุณจะวาดโมเดลสมการเชิงโครงสร้าง / MPLUS ได้อย่างไร
ฉันกำลังมองหาเครื่องมือซอฟต์แวร์ (โดยเฉพาะโอเพนซอร์ซ) เพื่อวาดสมการเชิงโครงสร้าง / แบบผสมอย่างมีประสิทธิภาพและสวยงาม หลังจากดูเป็น xfig และ graphviz ตอนนี้ฉันติดอยู่กับแพ็คเกจกราฟิกแบบเวกเตอร์ทั่วไปinkscapeเพราะดูเหมือนยืดหยุ่นที่สุด ฉันต้องการสำรวจชุมชน stat.stackexchange: คุณจะวาดสมการโครงสร้าง / ตัวแบบผสมได้อย่างไร คุณใช้ซอฟต์แวร์อะไร

2
การวัดความดีพอดีในโมเดลที่รวมการแจกแจงสองแบบ
ฉันมีข้อมูลที่มีจุดสูงสุดสองเท่าที่ฉันพยายามทำแบบจำลองและมีการทับซ้อนกันระหว่างจุดสูงสุดที่ฉันไม่สามารถปฏิบัติกับพวกเขาได้อย่างอิสระ ฮิสโตแกรมของข้อมูลอาจมีลักษณะดังนี้: ฉันได้สร้างแบบจำลองสองแบบสำหรับสิ่งนี้: แบบหนึ่งใช้การแจกแจงแบบปัวซงสองแบบส่วนอีกแบบใช้การแจกแจงแบบทวินามลบสองตัว วิธีที่เหมาะสมในการบอกว่าแบบจำลองใดที่เหมาะสมกับข้อมูลมากขึ้น ความคิดเริ่มต้นของฉันคือฉันสามารถใช้การทดสอบ Kolmogorov-Smirnov เพื่อเปรียบเทียบแต่ละแบบจำลองกับข้อมูลจากนั้นทำการทดสอบอัตราส่วนความน่าจะเป็นเพื่อดูว่าแบบทดสอบมีความเหมาะสมดีกว่าหรือไม่ มันสมเหตุสมผลหรือไม่ ถ้าเป็นเช่นนั้นฉันไม่แน่ใจว่าจะทำการทดสอบอัตราส่วนความน่าจะเป็นอย่างไร ไคสแควร์เหมาะสมหรือไม่และฉันมีอิสระในระดับใด? หากช่วยได้รหัส R บางตัว (ง่ายมาก) สำหรับรุ่นอาจมีลักษณะดังนี้: ## inital data points a <- read.table("data") #create model data model.pois = c(rpois(1000000,200),rpois(500000,250)) model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5) #Kolmogorov-Smirnov test #use ks.boot, since it's count data that may contain duplicate values kpois = ks.boot(model.pois,a) knb = …

3
การคำนวณเซตย่อยที่ดีที่สุดของตัวทำนายสำหรับการถดถอยเชิงเส้น
สำหรับการเลือกตัวทำนายในการถดถอยเชิงเส้นหลายตัวแปรด้วย พีpp ตัวทำนายที่เหมาะสมวิธีการใดบ้างที่สามารถหาเซตย่อย 'ที่เหมาะสมที่สุด' ของตัวทำนายโดยไม่ต้องทดสอบทั้งหมดอย่างชัดเจน 2พี2p2^pย่อย? ใน 'การเอาตัวรอดวิเคราะห์' Hosmer & Lemeshow อ้างอิงถึงวิธีของ Kuk แต่ฉันไม่พบกระดาษต้นฉบับ ทุกคนสามารถอธิบายวิธีนี้หรือเป็นเทคนิคที่ทันสมัยกว่านี้ได้อีกหรือไม่ อาจมีข้อผิดพลาดกระจายตามปกติ

4
การคำนวณอัตราส่วนของข้อมูลตัวอย่างที่ใช้สำหรับการปรับแบบจำลอง / การฝึกอบรมและการตรวจสอบความถูกต้อง
ระบุขนาดตัวอย่าง "N" ที่ฉันวางแผนจะใช้ในการคาดการณ์ข้อมูล มีวิธีใดบ้างในการแบ่งข้อมูลเพื่อให้ฉันใช้บางวิธีเพื่อสร้างแบบจำลองและข้อมูลส่วนที่เหลือเพื่อตรวจสอบความถูกต้องของแบบจำลอง ฉันรู้ว่าไม่มีคำตอบขาวดำสำหรับเรื่องนี้ แต่มันน่าสนใจที่จะรู้ "กฎง่ายๆ" หรืออัตราส่วนที่ใช้ ฉันรู้จักมหาวิทยาลัยอีกครั้งหนึ่งในอาจารย์ของเราเคยพูดแบบจำลอง 60% และตรวจสอบความถูกต้อง 40%
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.