คำถามติดแท็ก censoring

กระบวนการเซ็นเซอร์ให้ข้อมูลที่มีข้อมูลเพียงบางส่วน ตัวอย่างที่พบบ่อยที่สุดของการเซ็นเซอร์คือ * การเซ็นเซอร์ที่ถูกต้อง * ในการวิเคราะห์การอยู่รอดซึ่งเวลาที่เหตุการณ์จะเกิดขึ้นนั้นนานกว่าช่วงเวลาหนึ่งเท่านั้นเนื่องจากเหตุการณ์ไม่ได้เกิดขึ้นเมื่อการศึกษาสิ้นสุดลง

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
พวกเรามีปัญหาเรื่อง“ สงสาร upvotes” หรือไม่?
ฉันรู้ว่านี่อาจฟังดูเหมือนว่าเป็นหัวข้อนอก แต่ได้ยินฉัน ที่ Stack Overflow และที่นี่เราได้รับคะแนนโหวตจากโพสต์ทั้งหมดนี้เก็บไว้ในรูปแบบตาราง เช่น: โพสต์ id ผู้มีสิทธิเลือกตั้ง ID ลงคะแนนประเภท datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... และต่อไป โหวตประเภท 2 คือ upvote, โหวตโหวต 3 คือ downvote คุณสามารถสอบถามรุ่นนี้ของข้อมูลนี้แบบไม่เปิดเผยชื่อได้ที่http://data.stackexchange.com มีการรับรู้ว่าหากโพสต์ถึงคะแนน -1 หรือต่ำกว่าก็มีแนวโน้มที่จะ upvoted นี่อาจเป็นเพียงการยืนยันความลำเอียงหรือมันอาจจะหยั่งรากในความเป็นจริง เราจะวิเคราะห์ข้อมูลนี้เพื่อยืนยันหรือปฏิเสธสมมติฐานนี้อย่างไร เราจะวัดผลกระทบของอคตินี้อย่างไร

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
การเซ็นเซอร์และการตัดทอนแตกต่างกันอย่างไร
ในหนังสือแบบจำลองทางสถิติและวิธีการสำหรับข้อมูลอายุการใช้งานเขียนไว้: การเซ็นเซอร์:เมื่อการสังเกตไม่สมบูรณ์เนื่องจากสาเหตุบางอย่างแบบสุ่ม การตัดปลาย:เมื่อธรรมชาติที่ไม่สมบูรณ์ของการสังเกตเกิดจากกระบวนการคัดเลือกอย่างเป็นระบบซึ่งมีอยู่ในการออกแบบการศึกษา อะไรคือความหมายของ "กระบวนการคัดเลือกอย่างเป็นระบบซึ่งมีอยู่ในการออกแบบการศึกษา" ในคำจำกัดความของการตัดทอน? การเซ็นเซอร์และการตัดทอนแตกต่างกันอย่างไร

3
วิธีการจำลองการกระจายตัวที่มีรูปร่างแปลก ๆ นี้ (เกือบจะเป็น reverse-J)
ตัวแปรตามของฉันที่แสดงด้านล่างไม่ตรงกับการกระจายหุ้นใด ๆ ที่ฉันรู้ การถดถอยเชิงเส้นทำให้เกิดการตกค้างที่ไม่ปกติและเอียงไปทางขวาซึ่งสัมพันธ์กับการทำนาย Y ในวิธีที่แปลก (พล็อตที่ 2) คำแนะนำสำหรับการเปลี่ยนแปลงหรือวิธีอื่น ๆ เพื่อให้ได้ผลลัพธ์ที่ถูกต้องที่สุดและแม่นยำที่สุดในการคาดการณ์? หากเป็นไปได้ฉันต้องการหลีกเลี่ยงการจัดหมวดหมู่ที่เงอะงะพูดว่า 5 ค่า (เช่น 0, lo%, med%, hi%, 1)

3
การประมาณค่าเมทริกซ์ความแปรปรวนร่วมแบบไม่เอนเอียงสำหรับข้อมูลการตรวจสอบแบบทวีคูณ
การวิเคราะห์ทางเคมีของตัวอย่างด้านสิ่งแวดล้อมมักจะถูกตรวจสอบด้านล่างที่ข้อ จำกัด การรายงาน หลังสามารถเปลี่ยนแปลงได้ตามสัดส่วนของค่าตัวแปรอื่น ๆ ตัวอย่างเช่นตัวอย่างที่มีความเข้มข้นสูงของสารประกอบหนึ่งอาจต้องทำให้เจือจางเพื่อการวิเคราะห์ส่งผลให้เกิดสัดส่วนเงินเฟ้อของการ จำกัด การเซ็นเซอร์สำหรับสารประกอบอื่น ๆ ทั้งหมดที่วิเคราะห์ในเวลาเดียวกันในตัวอย่างนั้น อีกตัวอย่างหนึ่งบางครั้งการปรากฏตัวของสารประกอบสามารถเปลี่ยนการตอบสนองของการทดสอบกับสารประกอบอื่น ๆ ("การแทรกแซงเมทริกซ์"); เมื่อตรวจพบโดยห้องปฏิบัติการมันจะขยายขีด จำกัด การรายงานตามที่กำหนด ฉันกำลังมองหาวิธีที่ใช้งานได้จริงเพื่อประเมินเมทริกซ์ความแปรปรวนร่วม -Vovance ทั้งหมดสำหรับชุดข้อมูลดังกล่าวโดยเฉพาะอย่างยิ่งเมื่อสารประกอบจำนวนมากประสบการเซ็นเซอร์มากกว่า 50% ซึ่งมักเป็นกรณี แบบจำลองการแจกแจงแบบดั้งเดิมคือลอการิทึมของความเข้มข้น (จริง) มีการกระจายแบบหลายช่วงและสิ่งนี้ดูเหมือนจะเหมาะสมในทางปฏิบัติดังนั้นวิธีแก้ปัญหาสำหรับสถานการณ์นี้จะเป็นประโยชน์ (โดย "ใช้งานจริง" ฉันหมายถึงวิธีการที่สามารถเข้ารหัสได้อย่างน่าเชื่อถือในสภาพแวดล้อมซอฟต์แวร์ที่มีอยู่อย่างน้อยหนึ่งอย่างเช่น R, Python, SAS และอื่น ๆ ในวิธีที่ดำเนินการอย่างรวดเร็วพอที่จะรองรับการคำนวณซ้ำซ้ำเช่นเกิดขึ้นในหลาย ๆ และสิ่งใดที่มีเสถียรภาพพอสมควร [ซึ่งเป็นเหตุผลที่ฉันลังเลที่จะสำรวจการใช้งานข้อผิดพลาดแม้ว่าวิธีการแบบเบย์โดยทั่วไปยินดีต้อนรับ] ขอบคุณล่วงหน้าสำหรับความคิดของคุณในเรื่องนี้

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
อะไรคือ“ ความคาดหวังความเป็นไปได้สูงสุดที่ตั้งเป้าหมายไว้”?
ฉันพยายามทำความเข้าใจกับเอกสารของ Mark van der Laan เขาเป็นนักสถิติเชิงทฤษฎีที่ Berkeley ที่ทำงานกับปัญหาที่ทับซ้อนกันอย่างมีนัยสำคัญกับการเรียนรู้ของเครื่อง ปัญหาหนึ่งสำหรับฉัน (นอกเหนือจากคณิตศาสตร์ลึก) คือเขามักจะอธิบายวิธีการเรียนรู้ของเครื่องที่คุ้นเคยโดยใช้คำศัพท์ที่แตกต่างกันโดยสิ้นเชิง หนึ่งในแนวคิดหลักของเขาคือ "ความคาดหวังสูงสุดตามเป้าหมาย" TMLE ใช้ในการวิเคราะห์ข้อมูลเชิงการเซ็นเซอร์จากการทดลองที่ไม่มีการควบคุมในลักษณะที่ช่วยให้การประเมินผลกระทบแม้ในที่ที่มีปัจจัยรบกวน ฉันสงสัยอย่างยิ่งว่ามีแนวคิดแบบเดียวกันหลายอย่างอยู่ภายใต้ชื่ออื่นในสาขาอื่น แต่ฉันยังไม่เข้าใจดีพอที่จะจับคู่มันกับอะไรก็ได้โดยตรง ความพยายามในการเชื่อมช่องว่างกับ "การวิเคราะห์ข้อมูลเชิงคำนวณ" อยู่ที่นี่: การเข้าสู่ยุคของวิทยาศาสตร์ข้อมูล: การเรียนรู้แบบเป้าหมายและการบูรณาการสถิติและการวิเคราะห์ข้อมูลเชิงคำนวณ และการแนะนำสำหรับนักสถิติอยู่ที่นี่: การอนุมานสาเหตุเชิงสาเหตุสูงสุดตามเป้าหมาย: ส่วนที่ 1 จากวินาที: ในบทความนี้เราพัฒนาตัวประมาณความน่าจะเป็นเป้าหมายสูงสุดเฉพาะของผลกระทบเชิงสาเหตุของการแทรกแซงจุดเวลาหลายจุด สิ่งนี้เกี่ยวข้องกับการใช้การสูญเสียการเรียนรู้ระดับสูงเพื่อรับการประเมินเบื้องต้นของปัจจัยที่ไม่ทราบของสูตรการคำนวณ G และต่อมาใช้ฟังก์ชันพารามิเตอร์ความผันผวนที่เหมาะสมที่สุดที่เป็นเป้าหมายเฉพาะพารามิเตอร์ การประมาณค่าพารามิเตอร์ความผันผวนด้วยการประมาณค่าความน่าจะเป็นสูงสุดและวนซ้ำขั้นตอนการอัปเดตของปัจจัยเริ่มต้นจนถึงการลู่เข้า ขั้นตอนการอัพเดทโอกาสสูงสุดที่เป็นเป้าหมายซ้ำ ๆ นี้ทำให้ตัวประมาณค่าผลลัพธ์ของผลลัพธ์เชิงสาเหตุมีความแข็งแกร่งเป็นสองเท่าในแง่ที่ว่ามีความสอดคล้องกันหากตัวประมาณค่าเริ่มต้นสอดคล้องกัน หรือตัวประมาณของฟังก์ชันความผันผวนที่เหมาะสมนั้นสอดคล้องกัน ฟังก์ชั่นความผันผวนที่ดีที่สุดจะถูกระบุอย่างถูกต้องหากการแจกแจงแบบมีเงื่อนไขของโหนดในกราฟเชิงสาเหตุระบุการแทรกแซงอย่างใดอย่างหนึ่ง ในคำศัพท์ของเขา "การเรียนรู้ขั้นสูง" คือการเรียนรู้ทั้งมวลด้วยทฤษฎีที่มีน้ำหนักที่ไม่เป็นลบ แต่สิ่งที่เขาหมายถึงโดย "การใช้ฟังก์ชั่นความผันผวนที่ดีที่สุดเฉพาะพารามิเตอร์เป้าหมายพารามิเตอร์ หรือแบ่งเป็นสามคำถามที่แตกต่างกัน TMLE มีการเรียนรู้แบบขนานในเครื่องเรียนรู้ว่าอะไรคือ "รูปแบบพารามิเตอร์ที่มีประโยชน์น้อยที่สุด" และ "ฟังก์ชันความผันผวน" ในสาขาอื่นคืออะไร

5
ข้อมูลที่ถูกตรวจสอบอย่างถูกต้องคืออะไร?
ฉันได้อ่านคำอธิบายที่แตกต่างของข้อมูลเซ็นเซอร์: A) ตามที่อธิบายไว้ในหัวข้อนี้ข้อมูลที่ไม่มีเงื่อนไขด้านล่างหรือสูงกว่าเกณฑ์ที่กำหนดจะถูกเซ็นเซอร์ ข้อมูลที่ไม่มีเงื่อนไขหมายถึงข้อมูลสูงกว่าหรือต่ำกว่าเกณฑ์ที่กำหนด แต่เราไม่ทราบค่าที่แน่นอน ข้อมูลจะถูกทำเครื่องหมายที่ค่าต่ำสุดหรือสูงกว่าเกณฑ์ในตัวแบบการถดถอย มันตรงกับคำอธิบายในงานนำเสนอนี้ซึ่งฉันพบว่าชัดเจนมาก (สไลด์ที่ 2 ในหน้าแรก) กล่าวอีกนัยหนึ่งว่าYYYถูก จำกัด ด้วยค่าต่ำสุดค่าสูงสุดหรือทั้งคู่เพราะเราไม่ทราบค่าจริงนอกช่วงนั้น B) เพื่อนบอกผมว่าเราสามารถใช้รูปแบบข้อมูลเซ็นเซอร์บางส่วนที่ไม่รู้จัก YYYสังเกตให้เรามีอย่างน้อยข้อมูลบางอย่างเกี่ยวกับการ จำกัด ไม่รู้จักYiYiY_iผลลัพธ์ ตัวอย่างเช่นเราต้องการประเมินราคาสุดท้ายสำหรับการประมูลแบบเงียบและแบบเปิดโดยพิจารณาจากเกณฑ์เชิงคุณภาพ (ประเภทของสินค้า, ประเทศ, ความมั่งคั่งของผู้เสนอราคาเป็นต้น) ในขณะที่การประมูลแบบเปิดเราทราบราคาสุดท้ายทั้งหมดYiYiY_iสำหรับการประมูลแบบเงียบเรารู้เพียงแค่การประมูลครั้งแรก (พูด $ 1,000) แต่ไม่ใช่ราคาสุดท้าย ฉันบอกว่าในกรณีนี้ข้อมูลถูกเซ็นเซอร์จากด้านบนและควรใช้โมเดลการถดถอยแบบเซ็นเซอร์ C) ในที่สุดก็มีความหมายที่กำหนดโดยWikipediaที่YYYหายไปโดยสิ้นเชิง แต่มีตัวทำนาย ฉันไม่แน่ใจว่าตัวอย่างนี้แตกต่างจากข้อมูลที่ถูกตัดทอนอย่างไร ดังนั้นข้อมูลที่ถูกเซ็นเซอร์คืออะไร?

2
คำอธิบายของคนธรรมดาเกี่ยวกับการเซ็นเซอร์ในการวิเคราะห์การเอาตัวรอด
ฉันได้อ่านเกี่ยวกับการเซ็นเซอร์ว่ามันคืออะไรและมันจำเป็นต้องนำมาใช้ในการวิเคราะห์การอยู่รอด แต่ฉันต้องการที่จะได้ยินคำจำกัดความทางคณิตศาสตร์ของมันน้อยลง ทุกคนสามารถให้คำอธิบายแก่ฉันเกี่ยวกับ 1) การเซ็นเซอร์และ 2) มันมีผลอย่างไรกับเส้นโค้ง Kaplan-Meier และการถดถอยของ Cox

1
การสร้างแบบจำลองเมื่อตัวแปรตามมี "ตัด"
ขออภัยล่วงหน้าหากคำศัพท์ใด ๆ ที่ฉันใช้ไม่ถูกต้อง ฉันยินดีต้อนรับการแก้ไขใด ๆ หากสิ่งที่ฉันอธิบายว่าเป็น "การตัด" ใช้ชื่ออื่นให้แจ้งให้ฉันทราบและฉันสามารถอัปเดตคำถามได้ สถานการณ์ที่ฉันสนใจคือ: คุณมีตัวแปรอิสระและตัวแปรที่ขึ้นอยู่กับเดียว ฉันจะปล่อยให้มันคลุมเครือ แต่สมมติว่ามันค่อนข้างตรงไปตรงมาที่จะได้แบบจำลองการถดถอยที่ดีสำหรับตัวแปรเหล่านี้xx\bf{x}yyy แต่รูปแบบที่คุณกำลังเล็งที่จะสร้างเป็นตัวแปรอิสระและตัวแปรตามที่บางค่าคงที่ในช่วงของปี อย่างเท่าเทียมกันข้อมูลที่คุณมีการเข้าถึงไม่ได้รวมปีเท่านั้นWxx\bf{x}w=min(y,a)w=min(y,a)w = \min(y,a)aaayyyyyywww ตัวอย่างนี้เป็นตัวอย่างที่ค่อนข้างไม่สมจริงหากคุณพยายามทำตัวเป็นแบบอย่างว่าจะมีคนเก็บเงินบำนาญของพวกเขาเป็นเวลากี่ปี ในกรณีนี้xx\bf{x}อาจเป็นข้อมูลที่เกี่ยวข้องเช่นเพศน้ำหนักชั่วโมงการออกกำลังกายต่อสัปดาห์ ฯลฯ ตัวแปร 'พื้นฐาน' yyyจะเป็นอายุขัย อย่างไรก็ตามตัวแปรที่คุณสามารถเข้าถึงได้และพยายามทำนายในแบบจำลองของคุณคือw=min(0,y−r)w=min(0,y−r)w = \min(0, y-r)โดยที่ r คืออายุเกษียณ (สมมติว่ามันเรียบง่ายคงที่) มีวิธีที่ดีในการจัดการกับปัญหานี้ในการสร้างแบบจำลองการถดถอยหรือไม่?

2
อายุเฉลี่ยของอคติสำหรับการรับรองชื่อปรมาจารย์ตามกลุ่มอายุหรือไม่
มันได้รับการรู้จักกันสำหรับค่อนข้างบางเวลานั้นอายุที่อายุน้อยที่สุดที่ผู้เล่นหมากรุกจะมีคุณสมบัติสำหรับชื่อแกรนด์มาสเตอร์ได้ลดลงอย่างมีนัยสำคัญตั้งแต่ปี 1950 และในปัจจุบันมีอยู่เกือบ 30 ผู้เล่นที่กลายเป็นแกรนด์มาสเตอร์ก่อนวันเกิดปีที่ อย่างไรก็ตามมีคำถามเกี่ยวกับ Chess Stack Exchange ที่ถามว่าอายุเฉลี่ยของการเป็นปรมาจารย์คืออะไร? . มีคนโพสต์คำตอบที่เขา (ฉันคิดว่ามันเป็นเขา) ดูที่หกส่วนย่อยของ grandmasters และพบผลลัพธ์ต่อไปนี้: สำหรับผู้เล่นที่เกิดหลังปี 1945 ค่าเฉลี่ยจะสูงกว่า 26 ปีเล็กน้อย สำหรับผู้เล่นที่เกิดหลังปี 1970 ค่าเฉลี่ยจะสูงกว่า 23 ปีเล็กน้อย สำหรับผู้เล่นที่เกิดหลังปี 1975 ค่าเฉลี่ยจะสูงกว่าอายุ 22 ปีเล็กน้อย สำหรับผู้เล่นที่เกิดหลังปี 1980 ค่าเฉลี่ยอยู่ที่ 21 ปี สำหรับผู้เล่นที่เกิดหลังปี 1985 ค่าเฉลี่ยจะขี้อายเพียง 20 ปี สำหรับผู้เล่นที่เกิดหลังปี 2533 อายุเฉลี่ย 18.5 ปี (ยังไม่ชัดเจนสำหรับฉันเลยว่ากลุ่มแรกมีgrandmasters ทั้งหมดที่เกิดหลังปี 1945 (ซึ่งทำให้มันเป็น …

1
การใช้เครื่องมือการเรียนรู้เครื่องมาตรฐานกับข้อมูลที่ตรวจสอบแล้ว
ฉันกำลังพัฒนาแอพพลิเคชั่นพยากรณ์ซึ่งมีวัตถุประสงค์เพื่อให้ผู้นำเข้าสามารถคาดการณ์ความต้องการผลิตภัณฑ์ของตนจากเครือข่ายลูกค้าของผู้จัดจำหน่าย ตัวเลขยอดขายเป็นตัวแทนที่ดีสำหรับความต้องการตราบใดที่มีสินค้าคงคลังเพียงพอที่จะเติมเต็มความต้องการ เมื่อสินค้าคงคลังถูกดึงลงมาที่ศูนย์แม้ว่า (สถานการณ์ที่เรากำลังมองหาเพื่อช่วยให้ลูกค้าหลีกเลี่ยง) เราไม่ทราบมากว่าเราพลาดเป้าหมายโดย ลูกค้าจะทำยอดขายได้เท่าใดพวกเขามีอุปทานเพียงพอหรือไม่ วิธีการ ML แบบอิงการถดถอยแบบมาตรฐานที่ใช้การขายเป็นตัวแปรเป้าหมายอย่างง่ายจะสร้างการประมาณที่ไม่สอดคล้องกันของความสัมพันธ์ระหว่างเวลาตัวแปรอธิบายของฉันและความต้องการ การสร้างแบบจำลองบิทเป็นวิธีที่เห็นได้ชัดที่สุดในการแก้ปัญหา: http://en.wikipedia.org/wiki/Tobit_model ฉันสงสัยเกี่ยวกับการปรับ ML ป่าสุ่ม, GBMS, SVM และเครือข่ายประสาทที่ยังบัญชีสำหรับโครงสร้างเซ็นเซอร์ข้อมูลด้านซ้ายมือ ในระยะสั้นฉันจะใช้เครื่องมือการเรียนรู้ของเครื่องกับข้อมูลการถดถอยที่ถูกเซ็นเซอร์ด้านซ้ายเพื่อรับการประมาณการที่สอดคล้องกันของความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระของฉันได้อย่างไร การตั้งค่าแรกจะเป็นโซลูชั่นที่มีอยู่ใน R ตามด้วย Python ไชโย แอรอน

2
การเซ็นเซอร์ / การตัดปลายใน JAGS
ฉันมีคำถามเกี่ยวกับวิธีแก้ไขปัญหาการตรวจสอบใน JAGS ฉันสังเกตการผสมแบบสองตัวแปรตามปกติซึ่งค่า X มีข้อผิดพลาดในการวัด ฉันต้องการจำลอง 'ค่าเฉลี่ย' ที่แท้จริงของค่าการตรวจสอบที่สังเกตได้ ⌈xtrue+ϵ⌉=xobserved ϵ∼N(0,sd=.5)⌈xtrue+ϵ⌉=xobserved ϵ∼N(0,sd=.5)\begin{align*} \lceil x_{true}+\epsilon \rceil = x_{observed} \ \epsilon \sim N(0,sd=.5) \end{align*} นี่คือสิ่งที่ฉันมีตอนนี้: for (i in 1:n){ x[i,1:2]~dmnorm(mu[z[i],1:2], tau[z[i],1:2,1:2]) z[i]~dcat(prob[ ]) } Y ยังมีข้อผิดพลาดในการวัด สิ่งที่ฉันต้องการทำคืออะไรเช่นนี้: for (i in 1:n){ x_obs[i] ~ dnorm(x_true[i],prec_x)I(x_true[i],) y_obs[i] ~ dnorm(y_true[i],prec_y) c(x_true[i]:y_true[i])~dmnorm(mu[ z [ i ],1:2], tau[z[i],1:2,1:2]) …

1
อะไรคือความหมายและความแปรปรวนของตัวแปรหลายตัวแปรที่ถูกตัด 0
ให้จะอยู่ใน d เมทริกซ์ความแปรปรวนร่วมและความแปรปรวนร่วมของ (ด้วย elementwise ที่คำนวณได้สูงสุด) คืออะไรZ∼N(μ,Σ)Z∼N(μ,Σ)Z \sim \mathcal N(\mu, \Sigma)RdRd\mathbb R^dZ+=max(0,Z)Z+=max(0,Z)Z_+ = \max(0, Z) สิ่งนี้เกิดขึ้นเช่นเพราะถ้าเราใช้ฟังก์ชั่นการเปิดใช้งาน ReLU ภายในเครือข่ายที่ลึกและสมมติว่าผ่าน CLT ที่อินพุตไปยังเลเยอร์ที่กำหนดนั้นเป็นปกติประมาณนี่คือการแจกแจงของเอาท์พุต (ฉันแน่ใจว่ามีคนจำนวนมากคำนวณไว้ก่อนหน้านี้ แต่ฉันไม่พบผลลัพธ์ที่ปรากฏในที่ใด ๆ ในวิธีที่อ่านได้อย่างสมเหตุสมผล)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.