คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

2
การจำลองการวิเคราะห์กำลังถดถอยของโลจิสติกส์ - การทดลองที่ออกแบบมา
คำถามนี้เป็นคำถามในการตอบสนองต่อคำตอบที่ได้รับจาก @ Greg หิมะในเรื่องที่เกี่ยวกับคำถามที่Proc GLMPOWERผมถามเกี่ยวกับการวิเคราะห์การใช้พลังงานที่มีการถดถอยโลจิสติกและเอสเอ ถ้าฉันออกแบบการทดลองและวิเคราะห์ผลลัพธ์ในการถดถอยแบบลอจิสติกแบบแฟคทอเรียลฉันจะใช้การจำลอง (และที่นี่ ) เพื่อทำการวิเคราะห์พลังงานได้อย่างไร นี่คือตัวอย่างง่ายๆที่มีตัวแปรสองตัวตัวแรกใช้กับค่าที่เป็นไปได้สามค่าคือ {0.03, 0.06, 0.09} และตัวที่สองคือตัวบ่งชี้จำลอง {0,1} สำหรับแต่ละครั้งเราประเมินอัตราการตอบกลับสำหรับแต่ละชุดค่าผสม (จำนวนผู้ตอบ / จำนวนผู้ที่ทำการตลาด) นอกจากนี้เราต้องการให้มีการรวมกันครั้งแรกหลายเท่าของปัจจัยอื่น ๆ (ซึ่งถือได้ว่ามีค่าเท่ากัน) เนื่องจากชุดค่าผสมครั้งแรกนี้เป็นรุ่นทดลองและจริงของเรา นี่คือการตั้งค่าที่กำหนดไว้ในหลักสูตร SAS ที่กล่าวถึงในคำถามที่เชื่อมโยง รูปแบบที่จะใช้ในการวิเคราะห์ผลลัพธ์จะเป็นการถดถอยโลจิสติกโดยมีเอฟเฟกต์หลักและการโต้ตอบ (การตอบสนองคือ 0 หรือ 1) mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) ฉันจะจำลองชุดข้อมูลที่ใช้กับรุ่นนี้เพื่อทำการวิเคราะห์พลังงานได้อย่างไร เมื่อฉันรันสิ่งนี้ผ่าน SAS Proc GLMPOWER(การใช้STDDEV =0.05486016 ซึ่งสอดคล้องกับsqrt(p(1-p))ตำแหน่ง p คือค่าเฉลี่ยถ่วงน้ำหนักของอัตราการตอบกลับที่แสดง): data …

2
แบบจำลองการถดถอยโลจิสติกไม่ได้มาบรรจบกัน
ฉันได้รับข้อมูลบางอย่างเกี่ยวกับเที่ยวบินของสายการบิน (ในกรอบข้อมูลที่เรียกว่าflights) และฉันต้องการดูว่าเวลาเที่ยวบินมีผลต่อความน่าจะเป็นของการมาถึงล่าช้าหรือไม่ (หมายถึง 10 นาทีหรือมากกว่า) ฉันคิดว่าฉันใช้การถดถอยโลจิสติกโดยมีเวลาเที่ยวบินเป็นตัวทำนายและไม่ว่าแต่ละเที่ยวบินจะล่าช้าหรือไม่ (กลุ่มเบอร์นูลิส) เป็นคำตอบ ฉันใช้รหัสต่อไปนี้ ... flights$BigDelay <- flights$ArrDelay >= 10 delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ... แต่ได้ผลลัพธ์ต่อไปนี้ > flights$BigDelay <- flights$ArrDelay >= 10 > delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, …
39 r  logistic  separation 

3
จำเป็นต้องมีมาตรฐานก่อนการถดถอยโลจิสติกที่เหมาะสมหรือไม่
คำถามของฉันคือเราจำเป็นต้องสร้างมาตรฐานให้กับชุดข้อมูลเพื่อให้แน่ใจว่าตัวแปรทั้งหมดมีขนาดเท่ากันระหว่าง [0,1] ก่อนการถดถอยโลจิสติกที่เหมาะสม สูตรคือ: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} ชุดข้อมูลของฉันมี 2 ตัวแปรพวกเขาอธิบายสิ่งเดียวกันสำหรับสองช่องทาง แต่ปริมาณนั้นแตกต่างกัน สมมติว่าเป็นจำนวนการเข้าชมของลูกค้าในร้านค้าสองแห่งและที่นี่คือว่าลูกค้าซื้อหรือไม่ เพราะลูกค้าสามารถเยี่ยมชมร้านค้าทั้งสองหรือร้านค้าครั้งแรกสองครั้งร้านค้าที่สองก่อนที่เขาจะทำการซื้อ แต่จำนวนการเข้าชมของลูกค้าทั้งหมดสำหรับร้านค้าที่ 1 นั้นใหญ่กว่าร้านที่สองถึง 10 เท่า เมื่อฉันเหมาะสมกับการถดถอยโลจิสติกนี้โดยไม่มีมาตรฐาน, coef(store1)=37, coef(store2)=13; coef(store1)=133, coef(store2)=11ถ้าฉันมาตรฐานข้อมูลแล้ว บางสิ่งเช่นนี้ วิธีใดที่เหมาะสมกว่า ถ้าฉันทำโมเดลต้นไม้ตัดสินใจให้เหมาะสมล่ะ ฉันรู้ว่าโมเดลโครงสร้างแบบต้นไม้ไม่จำเป็นต้องมีมาตรฐานเพราะตัวแบบเองจะปรับมันอย่างใด แต่การตรวจสอบกับคุณทุกคน

2
การตีความเอาท์พุทของ R สำหรับการถดถอยแบบทวินาม
ฉันค่อนข้างใหม่กับการทดสอบข้อมูลทวินาม แต่จำเป็นต้องทำและตอนนี้ฉันไม่แน่ใจว่าจะตีความผลลัพธ์ได้อย่างไร ตัวแปร y คือตัวแปรตอบสนองเป็นแบบทวินามและปัจจัยที่อธิบายได้นั้นมีความต่อเนื่อง นี่คือสิ่งที่ฉันได้รับเมื่อสรุปผลลัพธ์: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- …

3
เปรียบเทียบ SVM และการถดถอยโลจิสติก
ใครช่วยกรุณาเล่าให้ฉันฟังหน่อยว่าจะเลือก SVM หรือ LR ได้ไหม? ฉันต้องการที่จะเข้าใจสัญชาตญาณเบื้องหลังสิ่งที่แตกต่างระหว่างเกณฑ์การปรับให้เหมาะสมของการเรียนรู้ไฮเปอร์เพลนของทั้งสองโดยมีจุดมุ่งหมายที่เกี่ยวข้องดังนี้: SVM: พยายามเพิ่มระยะห่างระหว่างเวกเตอร์สนับสนุนที่ใกล้ที่สุด LR: เพิ่มความน่าจะเป็นระดับหลังให้มากที่สุด ลองพิจารณาพื้นที่ของคุณสมบัติเชิงเส้นสำหรับทั้ง SVM และ LR ความแตกต่างบางประการที่ฉันรู้แล้ว: SVM นั้นถูกกำหนดไว้แล้ว (แต่เราสามารถใช้แบบจำลอง Platts สำหรับคะแนนความน่าจะเป็น) ในขณะที่ LR นั้นน่าจะเป็น สำหรับพื้นที่เคอร์เนล SVM นั้นเร็วกว่า (จัดเก็บเพียงสนับสนุนเวกเตอร์)

1
เหตุใดค่า p ของฉันจึงแตกต่างกันระหว่างเอาต์พุตการถดถอยโลจิสติกการทดสอบไคสแควร์และช่วงความมั่นใจสำหรับ OR
ฉันได้สร้างการถดถอยโลจิสติกที่ตัวแปรผลลัพธ์จะหายหลังจากได้รับการรักษา ( CureเทียบกับNo Cure) ผู้ป่วยทั้งหมดในการศึกษานี้ได้รับการรักษา ฉันสนใจที่จะดูว่ามีโรคเบาหวานเกี่ยวข้องกับผลลัพธ์นี้หรือไม่ ใน R ผลลัพธ์การถดถอยโลจิสติกของฉันมีลักษณะดังนี้: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.2735 0.1306 9.749 <2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees …

2
การถดถอยโลจิสติกกับ LDA เป็นตัวแยกประเภทสองระดับ
ฉันพยายามที่จะตัดหัวของฉันรอบความแตกต่างทางสถิติระหว่างการวิเคราะห์จำแนกเชิงเส้นและโลจิสติกการถดถอย ความเข้าใจของฉันถูกต้องหรือไม่สำหรับปัญหาการจำแนกประเภทสองชั้น LDA คาดการณ์ฟังก์ชันความหนาแน่นปกติสองฟังก์ชัน (หนึ่งรายการสำหรับแต่ละคลาส) ที่สร้างขอบเขตเชิงเส้นตรงที่พวกเขาตัดกันในขณะที่การถดถอยโลจิสติก สร้างขอบเขต แต่ไม่ถือว่าฟังก์ชันความหนาแน่นสำหรับแต่ละคลาสหรือไม่

2
การถดถอยโลจิสติก Multinomial เทียบกับการถดถอยโลจิสติกไบนารีหนึ่งส่วนที่เหลือ
ให้บอกว่าเรามีตัวแปรตามมีหมวดหมู่น้อยและชุดของตัวแปรอิสระ YYY อะไรคือข้อดีของการถดถอยโลจิสติกพหุนามมากกว่าชุดของการถดถอยโลจิสติกไบนารี (เช่นรูปแบบOne-vs-Rest )? โดยชุดของไบนารีโลจิสติกการถดถอยฉันหมายความว่าสำหรับแต่ละประเภทเราสร้างแยกต่างหากแบบการถดถอยโลจิสติกไบนารีที่มีเป้าหมาย = 1 เมื่อY = Y ฉันและ 0 มิฉะนั้นYผม∈ Yyi∈Yy_{i} \in YY= yผมY=yiY=y_{i}

1
การถดถอยโลจิสติก: การทดสอบ anova ไคสแควร์กับความสำคัญของค่าสัมประสิทธิ์ (anova () เทียบกับสรุป () ใน R)
ฉันมีโมเดล GLM โลจิสติกส์พร้อมตัวแปร 8 ตัว ฉันรันการทดสอบไคสแควร์ใน R anova(glm.model,test='Chisq')และตัวแปร 2 ตัวกลายเป็นการคาดการณ์เมื่อสั่งที่ด้านบนของการทดสอบและไม่มากเมื่อสั่งที่ด้านล่าง summary(glm.model)แสดงให้เห็นว่าค่าสัมประสิทธิ์ของพวกเขาจะไม่มีนัยสำคัญสูง (p-value) ในกรณีนี้ดูเหมือนว่าตัวแปรจะไม่สำคัญ ฉันอยากถามว่าการทดสอบความสำคัญของตัวแปรใดดีขึ้น - ค่าสัมประสิทธิ์นัยสำคัญในการสรุปแบบจำลองหรือการทดสอบไคสแควanova()ร์ นอกจากนี้ - เมื่อใดอย่างใดอย่างหนึ่งดีกว่าอีก ฉันเดาว่ามันเป็นคำถามที่กว้างขวาง แต่พอยน์เตอร์ใด ๆ เกี่ยวกับสิ่งที่ต้องพิจารณาจะได้รับการชื่นชม

4
เหตุใดการถดถอยของโลจิสติกจึงไม่เสถียรเมื่อมีการแยกคลาสอย่างชัดเจน
ทำไมการถดถอยโลจิสติกจึงไม่เสถียรเมื่อชั้นเรียนถูกแยกออกจากกัน คลาสที่แยกกันอย่างดีหมายถึงอะไร ฉันจะขอบคุณจริง ๆ ถ้ามีคนอธิบายตัวอย่างได้

1
สัมประสิทธิ์การถดถอยแบบลอจิสติกเปลี่ยนแปลงเปลี่ยนแปลงหรือไม่?
ถ้าฉันมีชุดข้อมูลที่มีคลาสบวกที่หายากมากและฉันลบกลุ่มตัวอย่างที่เป็นลบจากนั้นทำการถดถอยโลจิสติกฉันต้องปรับค่าสัมประสิทธิ์การถดถอยเพื่อสะท้อนความจริงที่ว่าฉันเปลี่ยนความชุกของคลาสบวกหรือไม่ ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลที่มีตัวแปร 4 ตัวคือ Y, A, B และ C Y, A และ B เป็นเลขฐานสอง, C เป็นแบบต่อเนื่อง สำหรับการสังเกต 11,100 Y = 0 และสำหรับ 900 Y = 1: set.seed(42) n <- 12000 r <- 1/12 A <- sample(0:1, n, replace=TRUE) B <- sample(0:1, n, replace=TRUE) C <- rnorm(n) Y <- ifelse(10 * …

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
องศาอิสระในการทดสอบ Hosmer-Lemeshow
สถิติการทดสอบสำหรับการทดสอบHosmer-Lemeshow (HLT) สำหรับความดีของพอดี (GOF) ของแบบจำลองการถดถอยโลจิสติกถูกกำหนดดังนี้: ตัวอย่างจะถูกแบ่งออกเป็น deciles, D_1, D_2, \ dots, D_ {d} , ต่อหนึ่ง decile คำนวณปริมาณต่อไปนี้:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , คือจำนวนที่สังเกตได้ของจำนวนคดีที่เป็นบวกใน decile DdDdD_d ; O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i)คือจำนวนที่สังเกตได้จากจำนวนลบในช่วงDdDdD_d ; E1d=∑i∈Ddπ^iE1d=∑i∈Ddπ^iE_{1d}=\displaystyle \sum_{i \in D_d} \hat{\pi}_iคือจำนวนคดีโดยประมาณที่เป็นบวกในช่วงDdDdD_d ; E0d=∑i∈Dd(1−π^i)E0d=∑i∈Dd(1−π^i)E_{0d}= \displaystyle \sum_{i \in D_d} (1-\hat{\pi}_i)คือจำนวนผู้ติดลบโดยประมาณในช่วงDdDdD_d ; …

2
การถดถอยโลจิสติก: Bernoulli กับตัวแปรตอบสนองแบบทวินาม
ฉันต้องการทำการถดถอยโลจิสติกด้วยการตอบสนองทวินามต่อไปนี้และด้วยX1X1X_1และX2X2X_2เป็นตัวทำนายของฉัน ฉันสามารถนำเสนอข้อมูลเดียวกับการตอบสนองของ Bernoulli ในรูปแบบต่อไปนี้ ผลลัพธ์การถดถอยโลจิสติกสำหรับชุดข้อมูล 2 ชุดนี้ส่วนใหญ่จะเหมือนกัน ส่วนเบี่ยงเบนความเบี่ยงเบนและ AIC นั้นแตกต่างกัน (ความแตกต่างระหว่างการเบี่ยงเบนแบบ null และการเบี่ยงเบนที่เหลืออยู่เหมือนกันในทั้งสองกรณี - 0.228) ต่อไปนี้คือผลลัพธ์การถดถอยจาก R ชุดข้อมูลเรียกว่า binom.data และ bern.data นี่คือเอาต์พุตทวินาม Call: glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, family = binomial, data = binom.data) Deviance Residuals: [1] 0 0 0 Coefficients: Estimate Std. Error z …

6
ความแตกต่างระหว่างการถดถอยโลจิสติกและเครือข่ายประสาทคืออะไร?
เราจะอธิบายความแตกต่างระหว่างการถดถอยโลจิสติกและเครือข่ายประสาทเทียมให้กับผู้ชมที่ไม่มีพื้นฐานด้านสถิติได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.