คำถามติดแท็ก stratification

เทคนิคการสุ่มตัวอย่างที่ประชากรที่สนใจแบ่งออกเป็นส่วนย่อย ("ชั้น") ตามลักษณะที่รู้จักกันในทุกหน่วยก่อนการสุ่มตัวอย่าง

3
การทำความเข้าใจการตรวจสอบความถูกต้องข้ามกลุ่ม
ความแตกต่างระหว่างคืออะไรแซดข้ามการตรวจสอบและการตรวจสอบข้าม ? Wikipedia พูดว่า: ในการตรวจสอบความถูกต้องไขว้ของ k-stratifiedการพับจะถูกเลือกเพื่อให้ค่าการตอบสนองเฉลี่ยมีค่าเท่ากันในการพับทั้งหมด ในกรณีของการจำแนกแบบแบ่งขั้วหมายความว่าแต่ละการพับมีสัดส่วนที่เท่ากันของฉลากระดับสองประเภท แต่ฉันยังคงสับสน อะไรmean response valueหมายถึงในบริบทนี้? ทำไมอันดับ 1 ถึงสำคัญ หนึ่งจะประสบความสำเร็จ # 1 ในทางปฏิบัติอย่างไร

2
เหตุใดจึงต้องใช้การตรวจสอบข้ามแบบแบ่งชั้น ทำไมสิ่งนี้จึงไม่ได้สร้างความเสียหายแปรปรวนที่เกี่ยวข้องกับผลประโยชน์?
ฉันได้รับการบอกว่าเป็นประโยชน์ในการใช้การตรวจสอบความถูกต้องข้ามกลุ่มโดยเฉพาะอย่างยิ่งเมื่อคลาสการตอบกลับไม่สมดุล หากจุดประสงค์หนึ่งของการตรวจสอบข้ามจุดประสงค์คือเพื่อช่วยให้บัญชีสุ่มตัวอย่างข้อมูลการฝึกอบรมเดิมของเราแน่นอนว่าแต่ละครั้งที่การแจกจ่ายคลาสเดียวกันจะทำงานกับสิ่งนี้เว้นแต่ว่าคุณแน่ใจว่าชุดการฝึกอบรมดั้งเดิมของคุณมีการแจกจ่ายชั้นตัวแทน ตรรกะของฉันมีข้อบกพร่องหรือไม่ แก้ไข ฉันสนใจว่าวิธีนี้จะทำลายผลดีของ CV หรือไม่ ฉันสามารถดูว่าทำไมมันเป็นสิ่งจำเป็นถ้าคุณมีตัวอย่างขนาดเล็ก / คลาสที่ไม่สมดุลมาก / ทั้งคู่เพื่อหลีกเลี่ยงการไม่มีตัวแทนคนเดียวของคลาสรองลงมา กระดาษแอปเปิ้ลต่อแอปเปิ้ลในการศึกษาการตรวจสอบข้าม: ข้อผิดพลาดในการวัดประสิทธิภาพลักษณนามส่งต่อกรณีสำหรับการแบ่งชั้นเป็นอย่างดี แต่ข้อโต้แย้งทั้งหมดดูเหมือนจะเป็นจำนวน 'การแบ่งชั้นเป็น ข้อมูล. คือคำตอบง่ายๆ"เราใช้มันโดยไม่จำเป็นเพราะเราไม่ค่อยมีข้อมูลเพียงพอ" ?

1
ประโยชน์ของการสุ่มแบบแบ่งชั้นและสุ่มตัวอย่างเพื่อสร้างข้อมูลการฝึกอบรมในการจำแนกประเภท
ฉันต้องการทราบว่ามีข้อได้เปรียบใด ๆ / บางส่วนของการใช้การสุ่มตัวอย่างแบบแบ่งชั้นแทนการสุ่มตัวอย่างแบบสุ่มหรือไม่เมื่อแยกชุดข้อมูลเดิมเข้ากับชุดการฝึกอบรมและการทดสอบสำหรับการจำแนก การสุ่มตัวอย่างแบบแบ่งชั้นจะทำให้มีอคติต่อลักษณนามมากกว่าการสุ่มตัวอย่างแบบสุ่มหรือไม่? แอพพลิเคชั่นที่ฉันต้องการใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อเตรียมข้อมูลเป็นตัวจําแนกประเภทลอเรนซ์ป่าซึ่งผ่านการฝึกอบรมเมื่อวันที่2323\frac{2}{3}ของชุดข้อมูลดั้งเดิม ก่อนตัวแยกประเภทยังมีขั้นตอนของการสร้างตัวอย่างสังเคราะห์ (SMOTE [1]) ซึ่งปรับขนาดของคลาสให้สมดุล [1] Chawla, Nitesh V. และอื่น ๆ " SMOTE: เทคนิคการสุ่มตัวอย่างแบบสังเคราะห์ส่วนน้อย " วารสารวิจัยปัญญาประดิษฐ์ 16 (2002): 321-357

1
การติดตั้ง Cox-model กับ strata และ strata-covariate
ในกลยุทธ์การสร้างแบบจำลองการถดถอยโดย Harrell (รุ่นที่สอง) มีส่วน (S. 20.1.7) ที่กล่าวถึงโมเดล Cox รวมถึงการทำงานร่วมกันระหว่าง covariate ที่มีผลกระทบหลักต่อการอยู่รอดเราต้องการประเมินเช่นกัน (อายุในตัวอย่างด้านล่าง) และ covariate ที่มีเอฟเฟกต์หลักที่เราไม่ต้องการประเมิน (เพศในตัวอย่างด้านล่าง) เป็นรูปธรรม: สมมติว่าในความเป็นอันตราย (ไม่ทราบจริง)ตามแบบจำลองh(t)h(t)h(t) h(t)={hf(t)exp(β1age),hm(t)exp((β1+β2)age),for female patiensfor male patiensh(t)={hf(t)exp⁡(β1age),for female patienshm(t)exp⁡((β1+β2)age),for male patiensh(t) = \begin{cases} h_f(t) \exp(\beta_1 \textrm{age}), & \textrm{for female patiens} \\ h_m(t) \exp((\beta_1 + \beta_2) \textrm{age}), & \textrm{for male patiens} \end{cases} โดยที่ ,ไม่เป็นความจริงจริงไม่ควรประเมินฟังก์ชั่นอันตรายพื้นฐานและ …

2
ทางเลือกการกระจายเชิงประจักษ์
เงินรางวัล: เงินรางวัลเต็มจำนวนจะมอบให้กับผู้ที่ให้การอ้างอิงถึงเอกสารเผยแพร่ใด ๆ ที่ใช้หรือกล่าวถึงตัวประมาณF~F~\tilde{F}ด้านล่าง แรงจูงใจ: ส่วนนี้อาจไม่สำคัญสำหรับคุณและฉันสงสัยว่ามันจะไม่ช่วยให้คุณได้รับรางวัล แต่เนื่องจากมีคนถามเกี่ยวกับแรงจูงใจนี่คือสิ่งที่ฉันกำลังทำอยู่ ฉันกำลังทำงานกับปัญหาทฤษฎีกราฟเชิงสถิติ มาตรฐานวัตถุหนาแน่นกราฟ จำกัดW:[0,1]2→[0,1]W:[0,1]2→[0,1]W : [0,1]^2 \to [0,1]เป็นฟังก์ชันสมมาตรในแง่ที่ว่าW(u,v)=W(v,u)W(u,v)=W(v,u)W(u,v) = W(v,u) ) การสุ่มตัวอย่างกราฟบนnnnจุดยอดสามารถคิดได้ว่าเป็นการสุ่มตัวอย่างnnnค่าเครื่องแบบในช่วงหน่วย ( UiUiU_iสำหรับi=1,…,ni=1,…,ni = 1, \dots, n) แล้วน่าจะเป็นของขอบนั้น(i,j)(i,j)(i,j)เป็นW(Ui,Uj)W(Ui,Uj)W(U_i, U_j) ) ให้ถ้อยคำเมทริกซ์ที่เกิดจะเรียกว่าAAA WWW∬ W > 0 f A f f f ∑ A Wf=W/∬Wf=W/∬Wf = W / \iint W∬W>0∬W>0\iint W > 0fffAAAfffffffff∑A∑A\sum AWWW แต่น่าเสียดายที่วิธีการที่ผมพบว่าการแสดงความสอดคล้องเมื่อเราได้ลิ้มลองจากการจัดจำหน่ายที่มีความหนาแน่นฉวิธีสร้างนั้นต้องการให้ฉันสุ่มตารางคะแนน …

1
การแบ่งประเภทแบ่งชั้นด้วยป่าสุ่ม (หรือตัวแยกประเภทอื่น)
ดังนั้นฉันจึงมีเมทริกซ์ประมาณ 60 x 1,000 ฉันมองว่ามันเป็นวัตถุ 60 ชิ้นที่มีคุณสมบัติ 1,000 รายการ วัตถุ 60 ชิ้นถูกจัดกลุ่มเป็น 3 คลาส (a, b, c) วัตถุ 20 ชิ้นในแต่ละชั้นและเรารู้การจำแนกที่แท้จริง ฉันต้องการทำการเรียนรู้ภายใต้การดูแลในชุดตัวอย่างการฝึกอบรม 60 ชุดนี้และฉันสนใจทั้งความแม่นยำของตัวจําแนก (และตัวชี้วัดที่เกี่ยวข้อง) รวมถึงการเลือกคุณสมบัติของคุณสมบัติ 1,000 รายการ ก่อนชื่อของฉันเป็นอย่างไร ตอนนี้คำถามจริง: ฉันสามารถโยนฟอเรสต์แบบสุ่มตามที่ระบุไว้หรือตัวแยกประเภทอื่น ๆ แต่มีความละเอียดอ่อน - ฉันสนใจเฉพาะความแตกต่างของคลาส c จากคลาส a และ b เท่านั้น ฉันสามารถเรียนสระว่ายน้ำ a และ b แต่มีวิธีที่ดีในการใช้ความรู้เบื้องต้นว่าวัตถุที่ไม่ใช่ c ทั้งหมดน่าจะสร้างกลุ่มที่แตกต่างกันสองกลุ่มหรือไม่? ฉันต้องการใช้ฟอเรสต์แบบสุ่มหรือตัวแปรเนื่องจากมันแสดงให้เห็นว่ามีประสิทธิภาพสำหรับข้อมูลที่คล้ายกับของฉัน แต่ฉันมั่นใจได้ว่าจะลองวิธีอื่น

2
การสุ่มตัวอย่างด้วยการแทนที่ด้วย R randomForest
การใช้งาน RandomForest ไม่อนุญาตให้มีการสุ่มตัวอย่างเกินจำนวนการสังเกตแม้ว่าจะสุ่มตัวอย่างด้วยการเปลี่ยน ทำไมนี้ ทำงานได้ดี: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) สิ่งที่ฉันต้องการจะทำ: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency ข้อผิดพลาดที่คล้ายกันโดยไม่มีตัวอย่างแบ่งชั้น: rf …

3
แบบหลายระดับกับรุ่นที่แยกต่างหากสำหรับแต่ละระดับ
อะไรคือข้อดีและข้อเสียของการใช้ตัวแบบแยกกับแบบจำลองหลายระดับ? โดยเฉพาะอย่างยิ่งสมมติว่าการศึกษาตรวจสอบผู้ป่วยที่ซ้อนกันภายในการปฏิบัติของแพทย์ที่ซ้อนอยู่ภายในประเทศ ข้อดี / ข้อเสียของการใช้โมเดลแยกกันสำหรับแต่ละประเทศเทียบกับแบบจำลองซ้อนสามระดับคืออะไร

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
ลบรายการซ้ำออกจากชุดการฝึกอบรมเพื่อจัดหมวดหมู่
ให้เราบอกว่าฉันมีหลายแถวสำหรับปัญหาการจำแนก: X1, . . .Xยังไม่มีข้อความ, วายX1,...Xยังไม่มีข้อความ,YX_1, ... X_N, Y ที่ไหน X1, . . . ,Xยังไม่มีข้อความX1,...,Xยังไม่มีข้อความX_1, ..., X_N คือคุณสมบัติ / ตัวพยากรณ์และ YYY เป็นคลาสที่การรวมคุณสมบัติของแถวเป็นของ การรวมคุณสมบัติหลายอย่างและคลาสของพวกเขาถูกทำซ้ำในชุดข้อมูลซึ่งฉันใช้เพื่อให้พอดีกับตัวจําแนก ฉันแค่สงสัยว่ามันเป็นที่ยอมรับในการลบรายการที่ซ้ำกัน (โดยทั่วไปฉันทำgroup by X1 ... XN Yใน SQL)? ขอบคุณ PS: นี่เป็นเพียงชุดข้อมูลไบนารีที่มีคลาสของนักบวชค่อนข้างเบ้
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.