คำถามติดแท็ก logistic

โดยทั่วไปหมายถึงกระบวนการทางสถิติที่ใช้ฟังก์ชันลอจิสติกซึ่งเป็นรูปแบบต่าง ๆ ส่วนใหญ่ของการถดถอยโลจิสติก

4
การขยายการถดถอยโลจิสติกสำหรับผลลัพธ์ในช่วงระหว่าง 0 ถึง 1
ฉันมีปัญหาการถดถอยที่ผลจะไม่เคร่งครัด 0, 1 แต่ในช่วงของตัวเลขจริงทั้งหมด 0-1 รวม1]Y= [ 0 , 0.12 , 0.31 , . . , 1 ]Y=[0,0.12,0.31,...,1]Y = [ 0, 0.12, 0.31, ..., 1 ] ปัญหานี้ได้รับการกล่าวถึงในกระทู้นี้แล้วแม้ว่าคำถามของฉันจะแตกต่างกันเล็กน้อย ฉันไม่สามารถใช้การถดถอยเชิงเส้นด้วยเหตุผลเดียวกับที่ใช้การถดถอยแบบโลจิสติกส์ ในการถดถอยเชิงเส้น A) ค่า IV ที่มีขนาดใหญ่มากจะบิดเบือนผลลัพธ์ที่คาดการณ์ไว้ที่ 1 และ B) ผลลัพธ์ของการถดถอยเชิงเส้นจะไม่ถูกผูกไว้กับขีด จำกัด 0,1 ดูที่ฟังก์ชันต้นทุนโลจิสติกส์จากตำราฉันรวบรวมว่าสมการถูกออกแบบมาเพื่อคำนวณ ราคามากกว่า 0 ต่อเมื่อและไม่มีค่าเท่ากัน 0 หรือ 1ราคา= - yเข้าสู่ระบบ( h ( …

1
การกระจายข้อผิดพลาดสำหรับการถดถอยเชิงเส้นและโลจิสติก
ด้วยข้อมูลอย่างต่อเนื่องการถดถอยเชิงเส้นถือว่าข้อผิดพลาดมีการกระจาย N (0, )Y=β1+β2X2+uY=β1+β2X2+uY=\beta_1+\beta_2X_2+uσ2σ2\sigma^2 1) เราคิดว่า Var (Y | x) เป็นเช่นเดียวกัน ~ N (0, ) หรือไม่σ2σ2\sigma^2 2) การกระจายข้อผิดพลาดนี้ในการถดถอยโลจิสติกคืออะไร? เมื่อข้อมูลอยู่ในรูปแบบของบันทึก 1 ต่อกรณีที่ "Y" คือ 1 หรือ 0 เป็นข้อผิดพลาดกระจาย Bernoulli (เช่นความแปรปรวนคือ p (1-p)) และเมื่อข้อมูลอยู่ในรูปแบบ # ประสบความสำเร็จจากการทดลอง #of มันถือว่าเป็นทวินาม (เช่นความแปรปรวนคือ np (1-p)) โดยที่ p คือความน่าจะเป็นที่ Y เป็น 1 หรือไม่

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

4
การเลือกแบบจำลองและสมรรถนะของแบบจำลองในการถดถอยโลจิสติกส์
ฉันมีคำถามเกี่ยวกับการเลือกแบบจำลองและประสิทธิภาพของตัวแบบในการถดถอยโลจิสติก ฉันมีสามแบบซึ่งตั้งอยู่บนสมมติฐานที่แตกต่างกันสามแบบ สองรุ่นแรก (ให้ตั้งชื่อพวกเขาว่า z และ x) จะมีตัวแปรอธิบายเพียงตัวเดียวในแต่ละรุ่นและรุ่นที่สาม (ให้ชื่อมันด้วย) มีความซับซ้อนมากขึ้น ฉันใช้ AIC สำหรับการเลือกตัวแปรสำหรับรุ่น w แล้ว AIC เพื่อเปรียบเทียบว่าสามรุ่นใดที่อธิบายตัวแปรตามได้ดีที่สุด ฉันพบว่าโมเดล w มีค่า AIC ต่ำที่สุดและตอนนี้ต้องการทำสถิติประสิทธิภาพสำหรับโมเดลนั้นเพื่อให้ได้แนวคิดเกี่ยวกับพลังการทำนายของโมเดล เนื่องจากทั้งหมดที่ฉันรู้คือว่ารุ่นนี้ดีกว่าอีกสองคน แต่ไม่ดีเท่าไหร่ เนื่องจากฉันใช้ข้อมูลทั้งหมดเพื่อเรียนรู้รูปแบบ (เพื่อให้สามารถเปรียบเทียบทั้งสามรุ่น) ฉันจะทำอย่างไรกับประสิทธิภาพของโมเดล จากสิ่งที่ฉันรวบรวมฉันไม่สามารถทำการตรวจสอบความถูกต้องไขว้กันของ k-fold ในรุ่นสุดท้ายที่ฉันได้รับจากการเลือกแบบจำลองโดยใช้ AIC แต่ต้องเริ่มจากจุดเริ่มต้นด้วยตัวแปรอธิบายรวมอยู่ด้วยใช่ไหม ฉันคิดว่ามันเป็นรุ่นสุดท้ายที่ฉันเลือกกับ AIC ที่ฉันต้องการทราบว่ามันทำงานได้ดีเพียงใด แต่ตระหนักว่าฉันได้รับการฝึกอบรมเกี่ยวกับข้อมูลทั้งหมดเพื่อให้โมเดลนั้นมีความลำเอียง ดังนั้นถ้าฉันควรเริ่มจากจุดเริ่มต้นด้วยตัวแปรอธิบายทั้งหมดในทุกเท่าฉันจะได้แบบจำลองขั้นสุดท้ายที่แตกต่างกันสำหรับบางเท่าฉันสามารถเลือกแบบจำลองจากการพับซึ่งให้พลังการทำนายที่ดีที่สุดและนำไปใช้กับชุดข้อมูลแบบเต็มเพื่อเปรียบเทียบ AIC กับอีกสองรุ่น (z และ x)? หรือมันทำงานอย่างไร ส่วนที่สองของคำถามของฉันคือคำถามพื้นฐานเกี่ยวกับการกำหนดพารามิเตอร์มากเกินไป ฉันมี 156 จุดข้อมูล 52 เป็น 1 …

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
การถดถอยโลจิสติกส์: จัดกลุ่มและไม่จัดกลุ่มตัวแปร (ใช้ R)
ฉันกำลังอ่าน A. Agresti (2007), การแนะนำการวิเคราะห์ข้อมูลเชิงหมวดหมู่ , อันดับที่ 2 รุ่นและไม่แน่ใจว่าฉันเข้าใจย่อหน้านี้ (หน้า 106, 4.2.1) ถูกต้อง (แม้ว่าควรง่าย): ในตารางที่ 3.1 เกี่ยวกับการกรนและโรคหัวใจในบทก่อนหน้า 254 คนรายงานการกรนทุกคืนซึ่ง 30 คนเป็นโรคหัวใจ หากไฟล์ข้อมูลมีการจัดกลุ่มข้อมูลไบนารีเส้นหนึ่งในไฟล์ข้อมูลจะรายงานข้อมูลเหล่านี้ว่าเป็นโรคหัวใจ 30 รายจากขนาดตัวอย่าง 254 ถ้าไฟล์ข้อมูลมีข้อมูลไบนารีที่ไม่ได้จัดกลุ่มแต่ละบรรทัดในไฟล์ข้อมูลหมายถึง แยกกันดังนั้น 30 บรรทัดประกอบด้วย 1 สำหรับโรคหัวใจและ 224 บรรทัดประกอบด้วย 0 สำหรับโรคหัวใจ ค่า ML และค่า SE จะเหมือนกันสำหรับไฟล์ข้อมูลทั้งสองประเภท การแปลงชุดข้อมูลที่ไม่จัดกลุ่ม (ขึ้นอยู่กับ 1 อิสระ 1) จะใช้เวลามากกว่า "บรรทัด" เพื่อรวมข้อมูลทั้งหมด! ในตัวอย่างต่อไปนี้ชุดข้อมูลแบบง่าย (ไม่สมจริง!) …

1
ทำอย่างไรจึงจะพอดีกับแบรดลีย์ - เทอร์รี่ - ลูซใน R โดยไม่มีสูตรที่ซับซ้อน?
แบรดลีย์ - เทอร์รี่ – ลูซ (BTL) โมเดลกล่าวว่าโดยที่คือความน่าจะเป็นที่วัตถุถูกตัดสินให้เป็น "ดีกว่า", ที่หนักกว่า ฯลฯ กว่า objectและและเป็นพารามิเตอร์พีJฉัน= l o gผมเสื้อ- 1(δJ-δผม)พีJผม=ล.โอก.ผมเสื้อ-1(δJ-δผม)p_{ji} = logit^{-1}(\delta_j - \delta_i)พีฉันเจพีผมJp_{ij}JJjผมผมiδผมδผม\delta_iδJδJ\delta_j ดูเหมือนว่าจะเป็นตัวเลือกสำหรับฟังก์ชัน glm โดยมี family = binomial อย่างไรก็ตามสูตรจะคล้ายกับ "ความสำเร็จ ~ S1 + S2 + S3 + S4 + ... " โดยที่ Sn เป็นตัวแปรจำลองนั่นคือ 1 ถ้าวัตถุ n เป็นวัตถุแรกในการเปรียบเทียบ -1 ถ้าเป็น วินาทีและ 0 …

2
ลบรายการซ้ำออกจากชุดการฝึกอบรมเพื่อจัดหมวดหมู่
ให้เราบอกว่าฉันมีหลายแถวสำหรับปัญหาการจำแนก: X1, . . .Xยังไม่มีข้อความ, วายX1,...Xยังไม่มีข้อความ,YX_1, ... X_N, Y ที่ไหน X1, . . . ,Xยังไม่มีข้อความX1,...,Xยังไม่มีข้อความX_1, ..., X_N คือคุณสมบัติ / ตัวพยากรณ์และ YYY เป็นคลาสที่การรวมคุณสมบัติของแถวเป็นของ การรวมคุณสมบัติหลายอย่างและคลาสของพวกเขาถูกทำซ้ำในชุดข้อมูลซึ่งฉันใช้เพื่อให้พอดีกับตัวจําแนก ฉันแค่สงสัยว่ามันเป็นที่ยอมรับในการลบรายการที่ซ้ำกัน (โดยทั่วไปฉันทำgroup by X1 ... XN Yใน SQL)? ขอบคุณ PS: นี่เป็นเพียงชุดข้อมูลไบนารีที่มีคลาสของนักบวชค่อนข้างเบ้

2
การถดถอยโลจิสติกแบบถ่วงน้ำหนัก
ฉันกำลังดูปัญหาการถดถอยโลจิสติกน้อย ("ปกติ" และ "เงื่อนไข") โดยหลักการแล้วฉันต้องการให้น้ำหนักแต่ละกรณีอินพุตเพื่อให้ glm มุ่งเน้นไปที่การทำนายกรณีที่มีน้ำหนักสูงกว่าอย่างถูกต้องด้วยค่าใช้จ่ายที่อาจเป็นไปได้ในการจำแนกกรณีที่มีน้ำหนักต่ำกว่า แน่นอนว่าสิ่งนี้เคยทำมาก่อน ใครช่วยชี้ให้ฉันดูวรรณกรรมที่เกี่ยวข้อง (หรืออาจแนะนำให้ฟังก์ชั่นความน่าจะเป็นที่แก้ไขแล้ว) ขอบคุณ!
9 logistic 

1
การทดสอบการเปลี่ยนแปลงแบบสุ่มสำหรับการเลือกคุณสมบัติ
ฉันสับสนเกี่ยวกับการวิเคราะห์การเปลี่ยนแปลงสำหรับการเลือกคุณสมบัติในบริบทการถดถอยโลจิสติก คุณสามารถให้คำอธิบายที่ชัดเจนเกี่ยวกับการทดสอบการเปลี่ยนรูปแบบสุ่มและนำไปใช้กับการเลือกคุณสมบัติได้อย่างไร อาจเป็นไปได้ด้วยอัลกอริทึมและตัวอย่างที่แน่นอน ในที่สุดมันเปรียบเทียบกับวิธีการหดตัวแบบอื่นเช่น Lasso หรือ LAR อย่างไร

1
ฉันจะประเมิน GEE / logistic model ได้อย่างไรเมื่อเพื่อนร่วมทุนมีข้อมูลที่ขาดหายไป
ฉันมีโมเดลสมการการประมาณ (GEE) สองแบบทั่วไปกับข้อมูลของฉัน: 1) โมเดลที่ 1: ผลลัพธ์คือระยะยาวใช่ / ไม่ใช่ตัวแปร (A) (ปี 1,2,3,4,5) พร้อมตัวทำนายแบบต่อเนื่องตามยาว (B) เป็นเวลา 1 ปี 1,2,3,4,5 2) รุ่นที่ 2: ผลลัพธ์เป็นตัวแปรตามยาวเหมือนกันใช่ / ไม่ใช่ (A) แต่ตอนนี้ตัวทำนายของฉันได้รับการแก้ไขที่ค่าปี 1 นั่นคือบังคับให้เป็นค่าคงที่เวลา (B) เนื่องจากการวัดที่ขาดหายไปในตัวทำนายระยะยาวของฉันในเวลาไม่กี่จุดสำหรับกรณีที่แตกต่างกันจำนวนจุดข้อมูลในรุ่น 2 จึงสูงกว่าในรุ่น 1 ฉันต้องการทราบว่าการเปรียบเทียบใดที่ฉันสามารถทำได้อย่างถูกต้องระหว่างอัตราส่วนอัตราต่อรองค่า p และความพอดีของทั้งสองรุ่นเช่น: หาก OR สำหรับตัวทำนาย B มีขนาดใหญ่กว่าในโมเดล 1 ฉันสามารถพูดได้อย่างถูกต้องหรือไม่ว่าความสัมพันธ์ระหว่าง A และ B นั้นแข็งแกร่งกว่าใน model1 ฉันจะประเมินได้อย่างไรว่าโมเดลใดดีกว่าสำหรับข้อมูลของฉัน ฉันถูกต้องในการคิดหรือไม่ว่าการเปรียบเทียบหลอกหลอก …
9 logistic  gee 

3
การรักษาระดับตัวแปรเด็ดขาด 'ไม่ทราบ / ปฏิเสธ'
ฉันกำลังสร้างแบบจำลองการทำนายโรคเบาหวานโดยใช้การถดถอยโลจิสติก ชุดข้อมูลที่ใช้คือ ระบบเฝ้าระวังปัจจัยเสี่ยง (BRFSS)ของศูนย์ควบคุมโรค (CDC) หนึ่งในตัวแปรอิสระคือความดันโลหิตสูง มันเป็นหมวดหมู่ที่มีระดับต่อไปนี้ 'ใช่', 'ไม่', 'ไม่ทราบ / ปฏิเสธ' ฉันควรลบแถวเหล่านั้นด้วย 'ไม่ทราบ / ปฏิเสธ' ในขณะที่สร้างแบบจำลองหรือไม่ มีความแตกต่างอะไรในการรักษาหรือลบแถวเหล่านั้นออกจากแบบจำลอง

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

1
อะไรคือความแตกต่างในทางปฏิบัติและการตีความระหว่างทางเลือกและการถดถอยโลจิสติก?
คำถามล่าสุดเกี่ยวกับทางเลือกในการถดถอยโลจิสติกใน Rให้ผลหลากหลายของคำตอบรวมถึง randomForest, gbm, rpart, bayesglm และโมเดลเสริมทั่วไป อะไรคือความแตกต่างในทางปฏิบัติและการตีความระหว่างวิธีการเหล่านี้กับการถดถอยโลจิสติก พวกเขาตั้งสมมติฐานอะไรบ้าง (หรือไม่ทำให้) สัมพันธ์กับการถดถอยโลจิสติกส์? เหมาะสำหรับการทดสอบสมมติฐานหรือไม่? เป็นต้น
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.