คำถามติดแท็ก predictor

หมายถึงตัวแปรที่ใช้ในแบบจำลองเพื่อทำนายการตอบสนอง แท็กนี้ยังสามารถใช้สำหรับXตัวแปรในการสร้างแบบจำลองเชิงอธิบายและเชิงพรรณนาไม่ใช่แค่การสร้างแบบจำลองเชิงคาดการณ์ โครงสร้างเดียวกันนี้มีหลายชื่อในบริบทที่แตกต่างกัน ได้แก่ : ตัวแปรอิสระ, ตัวแปรอธิบาย, ตัวแปร regressor, โควาเรียต ฯลฯ แท็กนี้สามารถใช้สำหรับคำที่มีความหมายเหมือนกันเหล่านี้

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

2
การพยากรณ์อนุกรมเวลารายชั่วโมงโดยมีรายวันรายสัปดาห์และรายปี
การแก้ไขที่สำคัญ: ฉันต้องการจะพูดขอบคุณมากสำหรับเดฟและนิคจนถึงตอนนี้สำหรับคำตอบของพวกเขา ข่าวดีก็คือฉันได้วนไปทำงาน (หลักการยืมมาจากโพสต์ของศ. Hydnman ในการพยากรณ์ชุด) ในการรวมการสืบค้นที่คงค้าง: a) ฉันจะเพิ่มจำนวนการทำซ้ำสูงสุดสำหรับ auto.arima ได้อย่างไร - ดูเหมือนว่ามีตัวแปรภายนอกจำนวนมาก auto.arima กำลังกดปุ่มการทำซ้ำสูงสุดก่อนที่จะมาบรรจบกับรุ่นสุดท้าย โปรดแก้ไขฉันหากฉันเข้าใจผิด b) หนึ่งคำตอบจาก Nick เน้นว่าการคาดคะเนของฉันสำหรับช่วงเวลารายชั่วโมงนั้นมาจากช่วงเวลารายชั่วโมงเท่านั้นและไม่ได้รับอิทธิพลจากเหตุการณ์ที่เกิดขึ้นก่อนหน้านี้ในวันนั้น สัญชาตญาณของฉันจากการจัดการกับข้อมูลนี้บอกฉันว่าสิ่งนี้ไม่ควรทำให้เกิดปัญหาสำคัญ แต่ฉันเปิดรับข้อเสนอแนะเกี่ยวกับวิธีจัดการกับสิ่งนี้ c) เดฟชี้ให้เห็นว่าฉันต้องการวิธีการที่ซับซ้อนกว่านี้ในการระบุเวลารอคอย / เวลาล่าช้าโดยรอบตัวแปรตัวทำนายของฉัน ใครบ้างมีประสบการณ์กับวิธีการเขียนโปรแกรมนี้ใน R? ฉันคาดหวังว่าจะมีข้อ จำกัด แต่ฉันต้องการใช้โครงการนี้ให้ไกลที่สุดเท่าที่จะทำได้และฉันไม่สงสัยเลยว่าสิ่งนี้จะต้องใช้กับผู้อื่นที่นี่เช่นกัน d) แบบสอบถามใหม่ แต่เกี่ยวข้องกับงานที่ทำโดยอัตโนมัติ - auto.arima พิจารณาผู้จดทะเบียนเมื่อเลือกคำสั่งซื้อหรือไม่ ฉันพยายามที่จะคาดการณ์การเข้าชมร้านค้า ฉันต้องการความสามารถในการบัญชีสำหรับวันหยุดที่เคลื่อนไหวปีอธิกสุรทินและกิจกรรมประปราย บนพื้นฐานนี้ฉันรวบรวมว่า ARIMAX เป็นทางออกที่ดีที่สุดของฉันโดยใช้ตัวแปรภายนอกเพื่อลองและจำลองแบบฤดูกาลตามฤดูกาลรวมถึงปัจจัยต่างๆดังกล่าวข้างต้น ข้อมูลจะถูกบันทึกตลอด 24 ชั่วโมงทุก ๆ ชั่วโมง นี่เป็นการพิสูจน์ว่าเป็นปัญหาเนื่องจากจำนวนศูนย์ในข้อมูลของฉันโดยเฉพาะอย่างยิ่งในช่วงเวลาของวันที่เห็นปริมาณการเข้าชมต่ำมากบางครั้งก็ไม่มีเลยเมื่อเปิดร้าน นอกจากนี้เวลาเปิดทำการค่อนข้างไม่แน่นอน นอกจากนี้เวลาในการคำนวณยังมีขนาดใหญ่มากเมื่อทำการคาดการณ์ว่าเป็นอนุกรมเวลาที่สมบูรณ์หนึ่งชุดที่มีข้อมูลย้อนหลัง …

3
ทำไมคนเราถึงใช้อายุที่เท่ากันในการศึกษาความสัมพันธ์ทางพันธุกรรม?
ทำไมคนเราถึงใช้อายุและอายุเท่ากันในการศึกษาความสัมพันธ์ทางพันธุกรรม? ฉันสามารถเข้าใจการใช้อายุถ้ามันได้รับการระบุว่าเป็นตัวแปรสำคัญ

2
อนุญาตให้ใช้ค่าเฉลี่ยในชุดข้อมูลเพื่อปรับปรุงความสัมพันธ์ได้หรือไม่
ฉันมีชุดข้อมูลที่มีตัวแปรตามและตัวแปรอิสระ ทั้งคู่ไม่ใช่อนุกรมเวลา ฉันมี 120 ข้อสังเกต ค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ 0.43 หลังจากการคำนวณนี้ฉันได้เพิ่มคอลัมน์สำหรับตัวแปรทั้งสองโดยมีค่าเฉลี่ยสำหรับการสังเกตทุก 12 ครั้งทำให้เกิดคอลัมน์ใหม่ 2 คอลัมน์ที่มีการสังเกต 108 ครั้ง (คู่) ค่าสัมประสิทธิ์สหสัมพันธ์ของคอลัมน์เหล่านี้คือ 0.77 ดูเหมือนว่าฉันจะปรับปรุงความสัมพันธ์ในลักษณะนี้ อนุญาตให้ทำเช่นนี้หรือไม่ ฉันเพิ่มอำนาจการอธิบายของตัวแปรอิสระโดยใช้ค่าเฉลี่ยหรือไม่

1
การใช้เปอร์เซ็นไทล์เป็นตัวทำนาย - เป็นความคิดที่ดีหรือไม่?
ฉันกำลังคิดเกี่ยวกับปัญหาที่จะทำนายการใช้จ่ายของลูกค้าโดยใช้การถดถอยเชิงเส้น ฉันกำลังพิจารณาว่าฟีเจอร์ใดที่จะใช้เป็นอินพุตและสงสัยว่ามันจะโอเคที่จะใช้เปอร์เซ็นไทล์ของตัวแปรเป็นอินพุต ตัวอย่างเช่นฉันสามารถใช้รายได้ของ บริษัท เป็นอินพุท สิ่งที่ฉันสงสัยคือฉันสามารถใช้เปอร์เซ็นต์รายได้ของ บริษัท แทนได้หรือไม่ อีกตัวอย่างหนึ่งจะเป็นลักษณนามอุตสาหกรรมเด็ดขาด (NAICS) - ถ้าฉันดูค่าใช้จ่ายเฉลี่ยต่อรหัส NAICS แล้วกำหนดรหัส NAICS ให้กับ 'NAICS Percentile' ซึ่งเป็นตัวแปรอธิบายที่ถูกต้องที่ฉันสามารถใช้ได้หรือไม่ เพียงแค่สงสัยว่ามีปัญหาใด ๆ ที่ควรระวังเมื่อใช้เปอร์เซ็นไทล์หรือไม่ ในบางวิธีเทียบเท่ากับการปรับขนาดประเภทหรือไม่

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.