คำถามติดแท็ก categorical-data

ข้อมูลหมวดหมู่ (เรียกอีกอย่างว่าเล็กน้อย) สามารถใช้ค่าที่เป็นไปได้จำนวน จำกัด ที่เรียกว่าหมวดหมู่ ค่าหมวดหมู่ "ป้ายกำกับ" จะไม่ "วัด" โปรดใช้แท็ก [ลำดับข้อมูล] สำหรับประเภทข้อมูลที่แยก แต่สั่งซื้อ

2
เป็นไปได้ไหมที่จะสร้าง“ ชุดขนาน” โดยใช้ R
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ขอบคุณคำถาม Tormod (โพสต์ที่นี่ ) ฉันเจอพล็อตชุดแบบขนาน นี่คือตัวอย่างสำหรับลักษณะที่ปรากฏ: (เป็นภาพของชุดข้อมูลไททานิกการแสดงยกตัวอย่างเช่นผู้หญิงส่วนใหญ่ที่ไม่รอดชีวิตอยู่ในชั้นที่สาม ... ) ฉันชอบที่จะสามารถทำซ้ำพล็อตดังกล่าวกับอาร์ได้หรือไม่? ขอบคุณ Tal

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
“ ตัวแปรดัมมี่” กับ“ ตัวแปรตัวบ่งชี้” สำหรับข้อมูลเล็กน้อย / หมวดหมู่
"ตัวแปร Dummy" และ "ตัวแปรตัวบ่งชี้"เป็นคำที่ใช้บ่อยในการติดป้ายกำกับเพื่ออธิบายความเป็นสมาชิกในหมวดหมู่ที่มีการเข้ารหัส 0/1; โดยปกติ 0: ไม่ใช่สมาชิกของหมวดหมู่ 1: สมาชิกของหมวดหมู่ เมื่อวันที่ 11/26/2014 การค้นหาอย่างรวดเร็วบน scholar.google.com (พร้อมเครื่องหมายคำพูด) จะแสดง "ตัวแปรจำลอง" ในบทความประมาณ 318,000 รายการและใช้ "ตัวแปรตัวบ่งชี้" ในบทความประมาณ 112,000 รายการ คำว่า "ตัวแปรดัมมี่" มีความหมายในคณิตศาสตร์ที่ไม่ใช่เชิงสถิติของ " ตัวแปรที่ผูกมัด " ซึ่งมีแนวโน้มที่จะเอื้อต่อการใช้ "ตัวแปรจำลอง" ในบทความที่จัดทำดัชนีมากขึ้น คำถามที่เชื่อมโยงตามหัวข้อของฉัน: คำเหล่านี้มีความหมายเหมือนกันเสมอหรือไม่ (ภายในสถิติ) คำใดคำหนึ่งเหล่านี้เคยใช้กับการเข้ารหัสเด็ดขาดในรูปแบบอื่น ๆ (เช่นเอฟเฟ็กต์โค้ด , การเข้ารหัสเฮลเมอร์ ฯลฯ ) หรือไม่? เหตุผลทางสถิติหรือทางวินัยมีอะไรที่จะชอบหนึ่งคำมากกว่าที่อื่น?

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
การผสมข้อมูลอย่างต่อเนื่องและไบนารีกับ Linear SVM หรือไม่
ดังนั้นฉันจึงได้เล่นรอบกับ SVM และฉันสงสัยว่านี่เป็นสิ่งที่ดีที่จะทำ: ฉันมีชุดคุณสมบัติแบบต่อเนื่อง (0 ถึง 1) และชุดคุณสมบัติแบบหมวดหมู่ที่ฉันแปลงเป็นตัวแปรจำลอง ในกรณีพิเศษนี้ฉันเข้ารหัสวันที่ของการวัดในตัวแปรจำลอง: มี 3 ช่วงเวลาที่ฉันมีข้อมูลจากและฉันจองหมายเลขฟีเจอร์ 3 หมายเลขสำหรับพวกเขา: 20: 21: 22: ดังนั้นขึ้นอยู่กับช่วงเวลาที่ข้อมูลมาคุณสมบัติที่แตกต่างจะได้รับ 1 กำหนด; คนอื่นจะได้รับ 0 SVM จะทำงานอย่างถูกต้องกับสิ่งนี้หรือสิ่งนี้เป็นสิ่งที่ไม่ดีที่ต้องทำหรือไม่? ฉันใช้ SVMLight และเคอร์เนลเชิงเส้น

2
จะทำการถดถอยด้วยเอฟเฟ็กต์โค้ดแทนที่จะใช้การจำลองแบบ dummy ใน R ได้อย่างไร
ขณะนี้ฉันกำลังทำงานกับตัวแบบการถดถอยที่ฉันมีตัวแปรเด็ดขาด / ตัวประกอบเป็นตัวแปรอิสระเท่านั้น ตัวแปรตามของฉันคืออัตราส่วนการแปลง logit มันค่อนข้างง่ายเพียงเรียกใช้การถดถอยปกติใน R เนื่องจาก R รู้วิธีการกำหนดรหัสโดยอัตโนมัติทันทีที่พวกมันอยู่ในประเภท "factor" อย่างไรก็ตามการเข้ารหัสประเภทนี้ก็หมายความว่าหนึ่งประเภทจากแต่ละตัวแปรนั้นถูกใช้เป็นพื้นฐานทำให้ยากต่อการตีความ อาจารย์ของฉันบอกให้ฉันใช้เอฟเฟ็กต์โค้ดแทน (-1 หรือ 1) เพราะนี่หมายถึงการใช้ความหมายที่ยิ่งใหญ่สำหรับการสกัดกั้น ไม่มีใครรู้วิธีจัดการกับสิ่งนั้น? จนถึงตอนนี้ฉันได้ลอง: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + …

1
การถดถอยโลจิสติก glmnet สามารถจัดการตัวแปรตัวประกอบ (หมวดหมู่) ได้โดยตรงโดยไม่ต้องใช้ตัวแปรจำลองหรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ฉันกำลังสร้างการถดถอยโลจิสติกใน R โดยใช้วิธี LASSO ด้วยฟังก์ชั่นcv.glmnetสำหรับการเลือกlambdaและglmnetสำหรับรุ่นสุดท้าย ฉันรู้ข้อเสียทั้งหมดเกี่ยวกับการเลือกรุ่นอัตโนมัติแล้ว แต่ฉันต้องทำต่อไป ปัญหาของฉันคือฉันต้องรวมตัวแปรปัจจัย (หมวดหมู่) ในแบบจำลองมีวิธีใดที่จะทำได้โดยไม่ต้องสร้างตัวแปรจำลองจำนวนมากหรือไม่ ตัวแปรนี้เกือบทุกสายและไม่ใช่ตัวเลข

2
เราสามารถใช้ตัวแปรอิสระอย่างเด็ดขาดในการวิเคราะห์จำแนกหรือไม่?
ในการวิเคราะห์จำแนกจำแนกตัวแปรตามเป็นหมวด แต่ฉันสามารถใช้ตัวแปรเด็ดขาด (เช่นสถานะที่อยู่อาศัย: ชนบทเมือง) พร้อมกับตัวแปรต่อเนื่องอื่น ๆ เป็นตัวแปรอิสระในการวิเคราะห์จำแนกเชิงเส้น?

2
จะไปจากข้อมูลอย่างต่อเนื่องเพื่อจัดหมวดหมู่ผิดเสมอ?
เมื่อฉันอ่านเกี่ยวกับวิธีการตั้งค่าข้อมูลของคุณสิ่งหนึ่งที่ฉันมักจะเจอคือการเปลี่ยนข้อมูลต่อเนื่องเป็นข้อมูลเชิงหมวดหมู่ไม่ใช่ความคิดที่ดีเนื่องจากคุณอาจทำข้อสรุปที่ผิดได้เป็นอย่างดีหากกำหนดเกณฑ์ไม่ดี อย่างไรก็ตามปัจจุบันฉันมีข้อมูลบางอย่าง (ค่า PSA สำหรับผู้ป่วยมะเร็งต่อมลูกหมาก) ซึ่งฉันคิดว่าฉันทามติร่วมกันคือถ้าคุณอายุต่ำกว่า 4 คุณอาจไม่ได้รับมันหากคุณอยู่สูงกว่าคุณมีความเสี่ยง สูงกว่า 10 และ 20 คุณอาจมีมัน อะไรแบบนั้น. ในกรณีนั้นจะยังไม่ถูกต้องหรือไม่ที่จะจัดหมวดหมู่ค่า PSA ต่อเนื่องของฉันเป็นกลุ่มที่สมมติว่า 0-4, 4-10 และ> 10 หรือว่าจริง ๆ แล้วก็โอเคตั้งแต่เกณฑ์ "ตั้งใจดี" เพื่อพูด

3
ทำไมความสัมพันธ์จึงไม่เป็นประโยชน์เมื่อตัวแปรตัวใดตัวหนึ่งจัดอยู่ในหมวดหมู่?
นี่เป็นการตรวจสอบลำไส้เล็กน้อยโปรดช่วยฉันดูว่าฉันเข้าใจผิดแนวคิดนี้หรือไม่และในทางใด ฉันมีความเข้าใจหน้าที่การใช้งานของความสัมพันธ์ แต่ฉันรู้สึกจับใจเล็กน้อยเพื่ออธิบายหลักการที่อยู่เบื้องหลังความเข้าใจการทำงานนั้นอย่างมั่นใจ เมื่อฉันเข้าใจแล้วความสัมพันธ์เชิงสถิติ (เมื่อเทียบกับการใช้คำทั่วไปมากขึ้น) เป็นวิธีที่จะเข้าใจตัวแปรสองตัวต่อเนื่องและวิธีการที่พวกเขาทำหรือไม่มีแนวโน้มที่จะขึ้นหรือลงในลักษณะที่คล้ายกัน เหตุผลที่คุณไม่สามารถเรียกใช้สหสัมพันธ์บนกล่าวคือหนึ่งตัวแปรต่อเนื่องและตัวแปรเด็ดขาดหนึ่งอันเนื่องจากคุณไม่สามารถคำนวณ ค่าความแปรปรวนร่วมระหว่างตัวแปรทั้งสองได้เนื่องจากตัวแปรหมวดหมู่ตามคำนิยามไม่สามารถให้ค่าเฉลี่ยได้ดังนั้นจึงไม่สามารถป้อนค่าแรกได้ ขั้นตอนของการวิเคราะห์ทางสถิติ นั่นถูกต้องใช่ไหม?

1
ตกลงเพื่อผสมข้อมูลเด็ดขาดและต่อเนื่องสำหรับ SVM (รองรับ Vector Machines) หรือไม่
ฉันมีชุดข้อมูลเช่น +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 | SHOP & HOUSE | …

1
การเขียนโค้ดประเภทใดบ้างที่มีให้สำหรับตัวแปรเด็ดขาด (ใน R) และคุณจะใช้เมื่อใด
หากคุณพอดีกับโมเดลเชิงเส้นหรือโมเดลผสมมีโค้ดหลายชนิดที่พร้อมใช้งานในการแปลง varibale หมวดหมู่หรือชื่อเป็นตัวแปรจำนวนหนึ่งที่มีการประมาณพารามิเตอร์เช่นพารามิเตอร์จำลอง (การกำหนดค่าเริ่มต้น R) และเอฟเฟกต์การเข้ารหัส ฉันได้ยินมาว่าเอฟเฟกต์การเขียนโค้ด (บางครั้งเรียกว่าการเบี่ยงเบนหรือการเข้ารหัสความคมชัด) เป็นที่ต้องการเมื่อคุณมีปฏิสัมพันธ์ แต่อะไรคือความแตกต่างที่เป็นไปได้และคุณจะใช้ความคมชัดประเภทใด บริบทเป็นแบบผสมในการใช้ R lme4แต่ฉันคิดว่าการตอบสนองในวงกว้างนั้นใช้ได้ ขออภัยถ้าฉันพลาดคำถามที่คล้ายกัน แก้ไข: ลิงก์ที่มีประโยชน์สองลิงก์คือ: เอฟเฟ็กต์การเข้ารหัสและการจำลองดัมมี่อธิบาย

2
วิธีการสำหรับการรวม / ลดหมวดหมู่ในข้อมูลลำดับหรือข้อมูลระบุ?
ฉันกำลังดิ้นรนเพื่อหาวิธีลดจำนวนหมวดหมู่ในข้อมูลที่ระบุหรือลำดับ ตัวอย่างเช่นสมมติว่าฉันต้องการสร้างแบบจำลองการถดถอยบนชุดข้อมูลที่มีปัจจัยจำนวนเล็กน้อยและปัจจัยอันดับหนึ่ง แม้ว่าฉันจะไม่มีปัญหากับขั้นตอนนี้ แต่บ่อยครั้งที่ฉันพบเจอกับสถานการณ์ที่คุณสมบัติเล็กน้อยโดยไม่มีการสังเกตในชุดการฝึกอบรม แต่ต่อมามีอยู่ในชุดข้อมูลการตรวจสอบความถูกต้อง สิ่งนี้นำไปสู่และเกิดข้อผิดพลาดตามธรรมชาติเมื่อแบบจำลองถูกนำเสนอด้วยคดีที่มองไม่เห็น อีกสถานการณ์ที่ฉันต้องการรวมหมวดหมู่เป็นเพียงเมื่อมีหมวดหมู่มากเกินไปโดยมีข้อสังเกตเล็กน้อย ดังนั้นคำถามของฉันคือ: ในขณะที่ฉันรู้ว่ามันอาจจะดีที่สุดที่จะรวมชื่อหลายคน (และลำดับ) ประเภทขึ้นอยู่กับข้อมูลพื้นฐานที่แท้จริงของโลกก่อนที่พวกเขาเป็นตัวแทนที่มีระบบวิธีการ ( Rแพคเกจดีกว่า) ใช้ได้? คุณจะทำแนวทางและคำแนะนำเกี่ยวกับเกณฑ์การตัดและอื่น ๆ คำตอบที่ได้รับความนิยมมากที่สุดในวรรณกรรมคืออะไร มีกลยุทธ์อื่นนอกเหนือจากการรวมหมวดหมู่เล็กน้อยขนาดเล็กเข้ากับหมวดหมู่ "OTHERS" ใหม่หรือไม่? หากคุณมีข้อเสนอแนะอื่น ๆ

8
ฝึกฝน Neural Network เพื่อแยกแยะตัวเลขคู่และคู่
คำถาม: เป็นไปได้ไหมที่จะฝึก NN ให้แยกแยะระหว่างเลขคี่กับเลขคู่โดยใช้เป็นตัวเลขเท่านั้น? ฉันมีชุดข้อมูลต่อไปนี้: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 ฉันฝึก NN ด้วยเซลล์ประสาทอินพุตสองตัว (อันหนึ่งคือตัวแปรหมายเลข, อีกอันคือเซลล์ประสาทอคติ), เก้าเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่และเซลล์ประสาทเอาท์พุทหนึ่งโดยใช้อัลกอริธึมทางพันธุกรรมที่ง่ายมาก: ในแต่ละช่วงเวลา "ต่อกัน; ส่วนที่มีข้อผิดพลาดสูงที่สุดจะหายไปและจะถูกแทนที่ด้วยผู้ชนะที่ได้รับการแก้ไข สคริปต์สามารถแก้ปัญหาง่าย ๆ อย่างเช่นตัวดำเนินการ AND, OR และ XOR แต่ติดอยู่ในขณะที่พยายามจัดหมวดหมู่ตัวเลขคี่และคู่ ตอนนี้สิ่งที่ดีที่สุดที่จะจัดการคือการระบุหมายเลข 53 จาก 100 และใช้เวลาหลายชั่วโมง ไม่ว่าฉันจะทำให้ปกติหรือไม่อินพุตดูเหมือนจะไม่แตกต่างกัน หากฉันต้องการที่จะโกงฉันสามารถประมวลผลข้อมูลล่วงหน้าและป้อน% 2 …

3
การแทนที่ตัวแปรด้วย WoE (น้ำหนักของหลักฐาน) ใน Logistic Regression
นี่เป็นคำถามเกี่ยวกับการฝึกฝนหรือวิธีการตามด้วยเพื่อนร่วมงานของฉัน ในขณะที่ทำแบบจำลองการถดถอยโลจิสติกฉันได้เห็นผู้คนแทนที่ตัวแปรเด็ดขาด (หรือตัวแปรต่อเนื่องซึ่งถูก binned) ด้วยน้ำหนักของหลักฐาน (WoE) นี้จะกระทำเพื่อที่จะสร้างความต่อเนื่องสัมพันธ์ระหว่าง regressor และตัวแปรตาม เท่าที่ฉันเข้าใจเมื่อสร้างแบบจำลองแล้วตัวแปรในสมการไม่ใช่ตัวแปรในชุดข้อมูล แต่ตัวแปรในสมการนั้นเป็นความสำคัญหรือน้ำหนักของตัวแปรในการแยกตัวแปรตาม ! คำถามของฉันคือตอนนี้เราจะตีความรูปแบบหรือค่าสัมประสิทธิ์แบบจำลองได้อย่างไร ตัวอย่างเช่นสำหรับสมการต่อไปนี้: log(p1−p)=β0+β1x1log⁡(p1−p)=β0+β1x1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 เราสามารถพูดได้ว่า เป็นเพิ่มขึ้นเมื่อเทียบกับในอัตราส่วนที่แปลกสำหรับ 1 เพิ่มขึ้นหน่วยในตัวแปร x_1x 1exp(β1)exp⁡(β1)\exp(\beta_1) x1x1x_1 แต่ถ้าตัวแปรถูกแทนที่ด้วย WoE แล้วการตีความจะถูกเปลี่ยนเป็น: การเพิ่มขึ้นของอัตราส่วนคี่สำหรับการเพิ่ม 1 หน่วยในความสำคัญ / น้ำหนักของตัวแปร ฉันได้เห็นการฝึกฝนนี้ในอินเทอร์เน็ต แต่ไม่มีที่ไหนที่ฉันพบคำตอบของคำถามนี้ ลิงก์นี้จากชุมชนนี้เองเกี่ยวข้องกับข้อความค้นหาที่คล้ายกันซึ่งมีคนเขียนไว้: WoE แสดงความสัมพันธ์เชิงเส้นกับลอการิทึมธรรมชาติของอัตราต่อรองซึ่งเป็นตัวแปรตามในการถดถอยโลจิสติก ดังนั้นคำถามของการสะกดผิดแบบไม่ได้เกิดขึ้นในการถดถอยโลจิสติกเมื่อเราใช้ WoE แทนค่าจริงของตัวแปร แต่ฉันก็ยังไม่ได้คำอธิบาย โปรดช่วยฉันเข้าใจสิ่งที่ฉันหายไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.