คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

4
การเปรียบเทียบค่าสัมประสิทธิ์การถดถอยโลจิสติกในแบบจำลอง?
ฉันได้พัฒนาโมเดล logit เพื่อนำไปใช้กับชุดข้อมูลข้ามภาคหกชุด สิ่งที่ฉันพยายามเปิดเผยคือการเปลี่ยนแปลงผลกระทบที่สำคัญของตัวแปรอิสระ (IV) ที่กำหนดต่อการควบคุมตัวแปรตาม (DV) สำหรับคำอธิบายอื่น ๆ ในช่วงเวลาและเวลาที่ต่างกัน คำถามของฉันคือ: ฉันจะประเมินขนาดที่เพิ่มขึ้น / ลดลงในความสัมพันธ์ระหว่าง IV และ DV ได้อย่างไร ฉันสามารถดูขนาด (สัมประสิทธิ์) ที่แตกต่างกันของค่าสัมประสิทธิ์ของแบบจำลองหรือฉันจำเป็นต้องทำตามกระบวนการอื่นหรือไม่? ถ้าฉันต้องการทำอย่างอื่นมันคืออะไรและสามารถทำได้ / ฉันจะทำใน SPSS ได้อย่างไร? นอกจากนี้ภายในรุ่นเดียว ฉันสามารถเปรียบเทียบขนาดสัมพัทธ์ของตัวแปรอิสระตามคะแนนที่ไม่ได้มาตรฐานได้หรือไม่หากทั้งหมดถูกเข้ารหัส 0-1 หรือฉันจำเป็นต้องแปลงให้เป็นคะแนนมาตรฐานหรือไม่ มีปัญหาเกี่ยวข้องกับคะแนนมาตรฐานหรือไม่
11 logistic  spss 

6
ทำนายค่าหลังจากเรียกใช้ฟังก์ชัน mlogit ใน R
นี่คือสิ่งที่ฉันต้องการทำ แต่ดูเหมือนจะไม่มีpredictวิธีสำหรับ mlogit ความคิดใด ๆ library(mlogit) data("Fishing", package = "mlogit") Fish <- mlogit.data(Fishing, varying = c(2:9), shape = "wide", choice = "mode") Fish_fit<-Fish[-1,] Fish_test<-Fish[1,] m <- mlogit(mode ~price+ catch | income, data = Fish_fit) predict(m,newdata=Fish_test)

4
การคำนวณขนาดตัวอย่างสำหรับการถดถอยโลจิสติกแบบหลายตัวแปร
หนึ่งจะคำนวณขนาดตัวอย่างที่จำเป็นสำหรับการศึกษาที่กลุ่มของเรื่องจะมีตัวแปรอย่างต่อเนื่องเดียวที่วัดได้ในเวลาของการผ่าตัดแล้วสองปีต่อมาพวกเขาจะถูกจัดประเภทเป็นผลการทำงานหรือผลลัพธ์ที่บกพร่อง เราต้องการดูว่าการวัดนั้นสามารถทำนายผลลัพธ์ที่ไม่ดีได้หรือไม่ ในบางจุดเราอาจต้องการจุดตัดในตัวแปรต่อเนื่องด้านบนซึ่งเราจะพยายามแทรกแซงเพื่อลดความน่าจะเป็นของผลลัพธ์ที่บกพร่อง ความคิดใด ๆ การนำ R ไปใช้ใด ๆ

4
การทดสอบ Chi-Squared หลายรายการ
ฉันมีข้อมูลข้ามประเภทในตาราง 2 x 2 x 6 ขอเรียกมิติresponse, และA ฉันพอดีกับการถดถอยโลจิสติกข้อมูลกับรูปแบบB response ~ A * Bการวิเคราะห์ความเบี่ยงเบนของโมเดลนั้นบอกว่าทั้งคำศัพท์และปฏิสัมพันธ์ของพวกมันมีความสำคัญ อย่างไรก็ตามเมื่อดูสัดส่วนของข้อมูลดูเหมือนว่ามีเพียง 2 หรือมากกว่านั้นBเท่านั้นที่รับผิดชอบต่อผลกระทบที่สำคัญเหล่านี้ ฉันต้องการทดสอบเพื่อดูว่าระดับใดเป็นต้นเหตุ ตอนนี้แนวทางของฉันคือทำการทดสอบแบบไคสแควร์จำนวน 6 ครั้งบนตารางขนาด 2x2 ตารางresponse ~ Aแล้วจึงปรับค่า p จากการทดสอบเหล่านั้นสำหรับการเปรียบเทียบหลาย ๆ แบบ (โดยใช้การปรับแบบโฮล์ม) คำถามของฉันคือว่ามีวิธีการที่ดีกว่าในการแก้ไขปัญหานี้หรือไม่ มีวิธีการสร้างแบบจำลองหลักการมากขึ้นหรือวิธีการเปรียบเทียบการทดสอบแบบไคสแควร์หลายวิธีหรือไม่

1
ทำไมการตีความ SVM จึงเป็นความผิดประเภท
ความเข้าใจของฉันเกี่ยวกับ SVM คือมันคล้ายกับการถดถอยโลจิสติกส์ (LR) นั่นคือผลรวมถ่วงน้ำหนักของคุณสมบัติถูกส่งผ่านไปยังฟังก์ชัน sigmoid เพื่อให้ได้โอกาสในการเป็นสมาชิกของชั้นเรียน แต่แทนที่จะเป็นการสูญเสียข้ามเอนโทรปี ฟังก์ชั่นการฝึกอบรมจะดำเนินการโดยใช้การสูญเสียบานพับ ประโยชน์ของการใช้การสูญเสียบานพับคือเราสามารถทำเทคนิคตัวเลขต่าง ๆ เพื่อให้เคอร์เนลมีประสิทธิภาพมากขึ้น อย่างไรก็ตามข้อเสียเปรียบคือโมเดลที่ได้นั้นมีข้อมูลน้อยกว่าโมเดล LR ที่สอดคล้องกัน ตัวอย่างเช่นหากไม่มีเคอร์เนล (โดยใช้เคอร์เนลเชิงเส้น) ขอบเขตการตัดสินใจ SVM จะยังคงอยู่ในตำแหน่งเดิมที่ LR จะส่งออกความน่าจะเป็นที่ 0.5 แต่คนหนึ่งไม่สามารถบอกได้ว่าความน่าจะเป็นของการสลายตัวของคลาสนั้น ขอบเขตการตัดสินใจ คำถามสองข้อของฉันคือ: การตีความของฉันถูกต้องหรือไม่ การใช้การสูญเสียบานพับทำให้ไม่ถูกต้องในการตีความผลลัพธ์ SVM ว่าเป็นความน่าจะเป็นอย่างไร

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
ฉันจะฝึกอบรมการถดถอย (โลจิสติก) ใน R โดยใช้ฟังก์ชั่นการสูญเสีย L1 ได้อย่างไร
ฉันสามารถฝึกการถดถอยโลจิสติกในการRใช้ glm(y ~ x, family=binomial(logit))) แต่ IIUC สิ่งนี้จะปรับให้เหมาะสมกับความน่าจะเป็นของบันทึก มีวิธีฝึกโมเดลด้วยฟังก์ชั่นการสูญเสียเชิงเส้น ( ) หรือไม่ซึ่งในกรณีนี้จะเหมือนกับระยะการเปลี่ยนแปลงทั้งหมดหรือไม่L1L1L_1 เช่นได้รับเวกเตอร์เป็นตัวเลขและบิต (ตรรกะ) เวกเตอร์ฉันต้องการสร้างฟังก์ชัน monotonic (ในความเป็นจริงเพิ่มขึ้น) ที่เช่นนั้นถูกย่อให้เล็กสุดxxxf ∑ | f ( x ) - y |yyyfff∑|f(x)−y|∑|f(x)−y|\sum |f(x)-y| ดูสิ่งนี้ด้วย ฉันจะฝึกอบรมการถดถอยโลจิสติกใน R โดยใช้ฟังก์ชั่นการสูญเสีย L1 ได้อย่างไร
11 logistic 

2
การถดถอยโลจิสติก: การตีความตัวแปรอย่างต่อเนื่อง
ฉันมีคำถามสองสามข้อเกี่ยวกับการตีความอัตราส่วนอัตราต่อรองสำหรับตัวแปรต่อเนื่องในการถดถอยโลจิสติก ฉันรู้สึกว่านี่เป็นคำถามพื้นฐานเกี่ยวกับการถดถอยโลจิสติกส์ (และอาจเกี่ยวกับการถดถอยทั่วไป) และถึงแม้ว่าฉันรู้สึกละอายเล็กน้อยที่ไม่รู้คำตอบฉันจะกลืนความภาคภูมิใจและถามพวกเขาเพื่อที่ฉันจะได้รู้ อนาคต! นี่คือสถานการณ์ของฉัน ... ฉันกำลังดูตัวอย่างของเยาวชนที่ถูกตัดสินซึ่งเป็นส่วนหนึ่งของการทดลองของพวกเขาได้รับการลงทะเบียนในโปรแกรมการฝึกอบรมทักษะการทำงาน / ชีวิต ฉันต้องการเห็นว่าอายุที่พวกเขาได้รับการปล่อยตัวจากโปรแกรมทำนายการจ้างงานหกเดือนหลังการปล่อยตัวจากโปรแกรม (โปรดทราบว่ามีตัวทำนายอื่น ๆ ในโมเดล แต่ฉันได้ยกเว้นพวกเขาเพราะพวกเขาไม่มีนัยสำคัญทางสถิติและฉันต้องการให้ชัดเจนที่สุดเท่าที่จะทำได้) ทำนาย: อายุที่ออกจากโปรแกรมการฝึกอบรม (อายุเฉลี่ย = 17.4, SD = 1.2, ช่วง 14.3-20.5) ผลลัพธ์: ลูกจ้างหรือไม่ (ลูกจ้าง = 1, ไม่ใช่ลูกจ้าง = 0) ผลลัพธ์: อัตราต่อรอง 3.01 (p <.005) (ฉันไม่รวมความดีของสถิติพอดี ฯลฯ เพราะฉันกำลังหาคำตอบเกี่ยวกับการตีความอัตราส่วนอัตราต่อรองเท่านั้นฉันรู้สึกสบายใจกับการประเมินแบบพอดี CI ของ ฯลฯ ) ใส่ลงไปในคำ: เมื่ออายุเพิ่มขึ้นหนึ่งปีอัตราต่อรองของการจ้างงานเพิ่มขึ้นหกเดือนหลังจำหน่ายเพิ่มขึ้นสามหน่วย คำถาม: 1) เมื่อฉันพูดว่า …

1
วิธีการเลือกความน่าจะเป็นทางลัดสำหรับ Logistic Regression ที่หายาก
ฉันมีการสังเกต 100,000 ครั้ง (ตัวแปรตัวบ่งชี้จำลอง 9 ตัว) พร้อม 1,000 ผลบวก การถดถอยโลจิสติกควรทำงานได้ดีในกรณีนี้ แต่ความเป็นไปได้ที่จะตัดตัวฉัน ในวรรณกรรมทั่วไปเราเลือกตัด 50% เพื่อทำนาย 1s และ 0s ฉันทำสิ่งนี้ไม่ได้เพราะแบบจำลองของฉันให้ค่าสูงสุด ~ 1% ดังนั้นเกณฑ์อาจอยู่ที่ 0.007 หรือที่ใดที่หนึ่งโดยรอบ ฉันเข้าใจROCเส้นโค้งและพื้นที่ใต้เส้นโค้งสามารถช่วยฉันเลือกระหว่างรุ่น LR สองชุดสำหรับชุดข้อมูลเดียวกันได้อย่างไร อย่างไรก็ตาม ROC ไม่ได้ช่วยฉันเลือกความน่าจะเป็นทางลัดที่เหมาะสมที่สามารถใช้ในการทดสอบแบบจำลองกับข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง ฉันควรใช้ค่า cutoff ที่ลดmisclassification rateหรือไม่ ( http://www2.sas.com/proceedings/sugi31/210-31.pdf ) เพิ่ม -> สำหรับอัตราเหตุการณ์ที่ต่ำเช่นนี้อัตราการผิดพลาดของฉันได้รับผลกระทบจากผลบวกปลอมจำนวนมาก ในขณะที่อัตราโดยรวมนั้นดูดีเนื่องจากขนาดของจักรวาลทั้งหมดยังใหญ่ แต่แบบจำลองของฉันไม่ควรมีผลบวกผิด ๆ มากมาย (เพราะเป็นแบบจำลองการคืนทุน) 5/10 coeff มีความสำคัญ

1
การทดสอบอัตราส่วนความน่าจะเป็นและการทดสอบ Wald ให้ข้อสรุปที่แตกต่างกันสำหรับ glm ใน R
ฉันทำซ้ำเช่นจากทั่วไปเชิงเส้นและรูปแบบผสม MWE ของฉันอยู่ด้านล่าง: Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), data=Data) summary(object=fm1) เอาท์พุต Call: glm(formula = NoPositive/NoofPlates ~ log(Dilution), family …

2
แปลงตัวแปรต่อเนื่องสำหรับการถดถอยโลจิสติก
ฉันมีข้อมูลการสำรวจขนาดใหญ่ตัวแปรผลลัพธ์ไบนารีและตัวแปรอธิบายมากมายรวมถึงไบนารีและต่อเนื่อง ฉันกำลังสร้างชุดแบบจำลอง (ทดลองกับทั้ง GLM และ GLM แบบผสม) และใช้วิธีการทางทฤษฎีข้อมูลเพื่อเลือกแบบจำลองชั้นนำ ฉันตรวจสอบคำอธิบายอย่างระมัดระวัง (ทั้งแบบต่อเนื่องและแบบแบ่งหมวดหมู่) สำหรับความสัมพันธ์และฉันใช้เฉพาะในรูปแบบเดียวกันที่มีค่าสัมประสิทธิ์ Pearson หรือ Phicorr น้อยกว่า 0.3 ฉันต้องการให้โอกาสต่อเนื่องของตัวแปรทั้งหมดในการแข่งขันกับนางแบบชั้นนำ จากประสบการณ์ของฉันการเปลี่ยนสิ่งที่ต้องการโดยยึดตามความเบ้ปรับปรุงโมเดลที่พวกเขาเข้าร่วม (AIC ที่ต่ำกว่า) คำถามแรกของฉันคือ: การปรับปรุงนี้เพราะการเปลี่ยนแปลงช่วยเพิ่มความเป็นเชิงเส้นกับ logit หรือไม่ หรือการแก้ไขความเบ้ช่วยปรับปรุงความสมดุลของตัวแปรอธิบายอย่างใดด้วยการทำให้ข้อมูลสมมาตรมากขึ้น? ฉันหวังว่าฉันจะเข้าใจเหตุผลทางคณิตศาสตร์ที่อยู่เบื้องหลังเรื่องนี้ แต่สำหรับตอนนี้ถ้าใครบางคนสามารถอธิบายสิ่งนี้ในแง่ง่ายนั่นจะเป็นการดี หากคุณมีการอ้างอิงใด ๆ ที่ฉันสามารถใช้ได้ฉันจะขอบคุณมันจริงๆ เว็บไซต์อินเทอร์เน็ตหลายแห่งบอกว่าเพราะความเป็นมาตรฐานไม่ใช่ข้อสันนิษฐานในการถดถอยโลจิสติกแบบไบนารีอย่าเปลี่ยนตัวแปร แต่ฉันรู้สึกว่าถ้าไม่เปลี่ยนตัวแปรของฉันฉันจะเสียเปรียบเมื่อเทียบกับคนอื่น ๆ และอาจส่งผลกระทบต่อสิ่งที่โมเดลชั้นนำและเปลี่ยนการอนุมาน (ดีมันมักจะไม่ได้ ตัวแปรของฉันบางอย่างทำงานได้ดีขึ้นเมื่อบันทึกการเปลี่ยนแปลงบางอย่างเมื่อยกกำลังสอง (ทิศทางที่แตกต่างกันของความลาดเอียง) และบางตัวแปรที่ไม่ได้เปลี่ยนแปลง ใครบางคนจะสามารถให้แนวทางแก่ฉันในการระวังการเปลี่ยนตัวแปรอธิบายสำหรับการถดถอยโลจิสติกและถ้าไม่ทำมันทำไมไม่

5
การทำคลัสเตอร์เป็นวิธีการแยกข้อมูลสำหรับการถดถอยโลจิสติก
ฉันพยายามที่จะทำนายความสำเร็จหรือความล้มเหลวของนักเรียนตามคุณลักษณะบางอย่างที่มีรูปแบบการถดถอยโลจิสติก เพื่อปรับปรุงประสิทธิภาพของแบบจำลองฉันได้คิดถึงการแบ่งนักเรียนออกเป็นกลุ่มต่าง ๆ โดยพิจารณาจากความแตกต่างที่ชัดเจนและการสร้างแบบจำลองแยกกันสำหรับแต่ละกลุ่ม แต่ฉันคิดว่ามันอาจเป็นเรื่องยากที่จะระบุกลุ่มเหล่านี้โดยการสอบดังนั้นฉันจึงคิดว่าจะแยกนักเรียนออกเป็นกลุ่มโดยการรวมกลุ่มกับคุณลักษณะของพวกเขา นี่เป็นวิธีปฏิบัติทั่วไปในการสร้างแบบจำลองดังกล่าวหรือไม่? คุณจะแนะนำให้ฉันแบ่งมันออกเป็นกลุ่มชัดเจน (ตัวอย่างเช่นนักเรียนภาคเรียนแรกกับนักเรียนที่กลับมา) จากนั้นทำการจัดกลุ่มในกลุ่มเหล่านั้นหรือกลุ่มจากจุดเริ่มต้น หากต้องการพยายามชี้แจง: สิ่งที่ฉันหมายถึงคือฉันกำลังพิจารณาใช้อัลกอริทึมการจัดกลุ่มเพื่อแยกชุดฝึกอบรมสำหรับการถดถอยโลจิสติกออกเป็นกลุ่ม จากนั้นฉันจะทำการแยกการถดถอยแบบโลจิสติกส์สำหรับแต่ละกลุ่มเหล่านั้น จากนั้นเมื่อใช้การถดถอยโลจิสติกในการทำนายผลลัพธ์สำหรับนักเรียนฉันจะเลือกรูปแบบที่จะใช้ขึ้นอยู่กับกลุ่มที่พวกเขาเหมาะสมที่สุด บางทีฉันอาจทำสิ่งเดียวกันโดยรวมตัวระบุกลุ่มตัวอย่างเช่น 1 ถ้านักเรียนกลับมาและเป็น 0 ถ้าไม่ใช่ ตอนนี้คุณมีฉันคิดว่ามันอาจจะเป็นประโยชน์ในการจัดกลุ่มชุดข้อมูลการฝึกอบรมและการใช้ป้ายชื่อกลุ่มของพวกเขาเป็นคุณสมบัติในการถดถอยโลจิสติกมากกว่าการสร้างแบบจำลองการถดถอยโลจิสติกแยกสำหรับแต่ละประชากร หากมีประโยชน์ที่จะรวมตัวระบุกลุ่มสำหรับผู้ที่ส่งคืนนักเรียนกับนักเรียนใหม่อาจเป็นประโยชน์หรือไม่ที่จะขยายรายการกลุ่ม การจัดกลุ่มดูเหมือนเป็นวิธีธรรมชาติในการทำเช่นนี้ ฉันหวังว่าชัดเจน ...

2
เหตุใดค่าสัมประสิทธิ์การถดถอยแบบลอจิสติกแบบ exponentiated ถือเป็น“ อัตราส่วนอัตราต่อรอง”
การถดถอยโลจิสติกแบบจำลองอัตราต่อรองของเหตุการณ์เป็นชุดทำนาย นั่นคือ log (p / (1-p)) โดยที่ p คือความน่าจะเป็นของผลลัพธ์บางอย่าง ดังนั้นการตีความของสัมประสิทธิ์การถดถอยโลจิสติกดิบสำหรับบางตัวแปร (x) จะต้องอยู่ในระดับอัตราการเข้าสู่ระบบ นั่นคือถ้าสัมประสิทธิ์สำหรับ x = 5 เรารู้ว่าการเปลี่ยนแปลง 1 หน่วยใน x กระเทยเป็น 5 การเปลี่ยนแปลงในระดับสเกลอัตราต่อรองที่ผลจะเกิดขึ้น อย่างไรก็ตามฉันมักจะเห็นคนตีความค่าสัมประสิทธิ์การถดถอยโลจิสติกแบบ exponentiatedเป็นอัตราส่วนอัตราต่อรอง อย่างไรก็ตาม exp อย่างชัดเจน (log (p / (1-p))) = p / (1-p) ซึ่งเป็นอัตราต่อรอง เท่าที่ฉันเข้าใจอัตราการต่อรองคืออัตราต่อรองของเหตุการณ์หนึ่งที่เกิดขึ้น (เช่น p / (1-p) สำหรับกิจกรรม A) เหนืออัตราต่อรองของเหตุการณ์อื่นที่เกิดขึ้น (เช่น p / (1-p) สำหรับเหตุการณ์ …

2
การทดสอบสัมประสิทธิ์นัยสำคัญในการถดถอยโลจิสติก Lasso
[คำถามที่คล้ายกันถูกถามที่นี่โดยไม่มีคำตอบ] ฉันมีโมเดลการถดถอยโลจิสติกที่มีการทำให้เป็นมาตรฐาน L1 (การถดถอยโลจิสติก Lasso) และฉันต้องการทดสอบค่าสัมประสิทธิ์ที่เหมาะสมสำหรับความสำคัญและรับค่า p ของพวกเขา ฉันรู้ว่าการทดสอบของ Wald (ตัวอย่าง) เป็นตัวเลือกในการทดสอบความสำคัญของสัมประสิทธิ์ส่วนบุคคลในการถดถอยแบบเต็มโดยไม่มีการทำให้เป็นมาตรฐาน แต่ด้วย Lasso ฉันคิดว่าปัญหาอื่น ๆ เกิดขึ้นซึ่งไม่อนุญาตให้ใช้สูตร Wald ตามปกติ ตัวอย่างเช่นการประมาณค่าความแปรปรวน neded สำหรับการทดสอบไม่เป็นไปตามการแสดงออกปกติ กระดาษ Lasso ดั้งเดิม http://statweb.stanford.edu/~tibs/lasso/lasso.pdf แนะนำให้ใช้ขั้นตอนการบูตบู๊ตเพื่อประเมินความแปรปรวนของสัมประสิทธิ์ซึ่งอาจต้องใช้ (อีกครั้งฉันคิดว่า) สำหรับการทดสอบ (ส่วน 2.5 วรรคสุดท้ายของหน้า 272 และจุดเริ่มต้นที่ 273): วิธีการหนึ่งคือผ่าน bootstrap:สามารถแก้ไขได้หรือเราอาจปรับให้เหมาะสมกับสำหรับตัวอย่าง bootstrap แต่ละตัวอย่าง การแก้ไขนั้นคล้ายคลึงกับการเลือกชุดย่อยที่ดีที่สุด ( จากคุณสมบัติ ) แล้วใช้ข้อผิดพลาดมาตรฐานกำลังสองน้อยที่สุดสำหรับชุดย่อยนั้นเสื้อเสื้อtเสื้อเสื้อtเสื้อเสื้อt สิ่งที่ฉันเข้าใจคือ: ติดตั้ง Lasso regression ซ้ำ ๆ …

1
การสร้างแบบจำลองอนุกรมเวลาไบนารีที่สัมพันธ์กันโดยอัตโนมัติ
อะไรคือวิธีปกติในการสร้างแบบจำลองอนุกรมเวลาไบนารี? มีกระดาษหรือหนังสือที่มีการรักษาไหม? ฉันคิดว่ากระบวนการแบบไบนารีที่มีความสัมพันธ์แบบอัตโนมัติที่แข็งแกร่ง บางอย่างเช่นสัญลักษณ์ของกระบวนการ AR (1) เริ่มต้นที่ศูนย์ Sayและ มีสัญญาณรบกวนสีขาว\ epsilon_t จากนั้นอนุกรมเวลาแบบไบนารี่(Y_t) _ {t \ ge 0} ที่กำหนดโดย Y_t = \ text {sign} (X_t) จะแสดงความสัมพันธ์อัตโนมัติซึ่งฉันต้องการแสดงด้วยรหัสต่อไปนี้X0= 0X0=0X_0 = 0Xt + 1= β1Xเสื้อ+ ϵเสื้อ,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, εเสื้อϵt\epsilon_t( Yเสื้อ)t ≥ 0(Yt)t≥0(Y_t)_{t \ge 0}Yเสื้อ= sign ( Xเสื้อ)Yt=sign(Xt) Y_t = \text{sign}(X_t) set.seed(1) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.