คำถามติดแท็ก many-categories

ตัวแปรหมวดหมู่ที่มีระดับจำนวนมากและวิธีการทางสถิติสำหรับการทำงานกับตัวแปรดังกล่าว (ตัวอย่าง: เชือกที่หลอมรวม)

6
วิธีหลักในการยุบตัวแปรเด็ดขาดที่มีหลายระดับ?
เทคนิคใดบ้างที่มีให้สำหรับการยุบ (หรือรวมกำไร) หลายหมวดหมู่ถึงสองสามเพื่อจุดประสงค์ในการใช้พวกมันเป็นอินพุท (ตัวทำนาย) ในแบบจำลองทางสถิติ พิจารณาตัวแปรเช่นนักศึกษาวิทยาลัยที่สำคัญ (วินัยที่เลือกโดยนักศึกษาระดับปริญญาตรี) มันไม่มีการเรียงลำดับและจัดหมวดหมู่ แต่อาจมีหลายระดับที่แตกต่างกัน สมมติว่าฉันต้องการใช้วิชาเอกเป็นตัวทำนายในตัวแบบการถดถอย การใช้ระดับเหล่านี้ตามที่เป็นอยู่สำหรับการสร้างแบบจำลองจะนำไปสู่ปัญหาทุกประเภทเพราะมีจำนวนมาก ความแม่นยำทางสถิติจำนวนมากจะถูกนำไปใช้และผลลัพธ์นั้นยากต่อการตีความ เราไม่ค่อยสนใจวิชาเอกที่เฉพาะเจาะจง - เรามีแนวโน้มที่จะสนใจในหมวดหมู่กว้าง ๆ (กลุ่มย่อย) ของวิชาเอก แต่มันก็ไม่ชัดเจนเสมอไปว่าจะแบ่งระดับออกเป็นหมวดหมู่ระดับสูงกว่านี้ได้อย่างไรหรือแม้กระทั่งจำนวนหมวดหมู่ระดับสูงที่จะใช้ สำหรับข้อมูลทั่วไปฉันยินดีที่จะใช้การวิเคราะห์ปัจจัยเมทริกซ์ตัวประกอบหรือเทคนิคการสร้างแบบจำลองที่ไม่ต่อเนื่องแฝง แต่วิชาเอกเป็นหมวดหมู่พิเศษร่วมกันดังนั้นฉันลังเลที่จะใช้ประโยชน์จากความแปรปรวนร่วมของพวกเขาเพื่ออะไร นอกจากนี้ฉันไม่สนใจหมวดหมู่ที่สำคัญด้วยตัวเอง ฉันดูแลเกี่ยวกับการผลิตประเภทระดับสูงที่มีความเชื่อมโยงกันด้วยความเคารพต่อผลการถดถอยของฉัน ในกรณีผลไบนารีที่แนะนำให้ฉันบางสิ่งบางอย่างเช่นการวิเคราะห์ discriminant เชิงเส้น (LDA) เพื่อสร้างหมวดหมู่ระดับที่สูงขึ้นที่เพิ่มประสิทธิภาพการเลือกปฏิบัติสูงสุด แต่ LDA เป็นเทคนิคที่ จำกัด และรู้สึกเหมือนถูกขุดลอกข้อมูลสกปรกให้ฉัน ยิ่งกว่านั้นการแก้ปัญหาแบบต่อเนื่องใด ๆ ก็ยากที่จะตีความ ในขณะเดียวกันบางสิ่งที่อยู่บนพื้นฐานของความแปรปรวนร่วมเช่นการวิเคราะห์การติดต่อหลายทาง (MCA) ดูเหมือนว่าฉันสงสัยในกรณีนี้เพราะการพึ่งพาอาศัยกันของตัวแปรหุ่นที่ไม่เหมือนใคร ตัวแปรเดียวกัน แก้ไข : เพื่อให้ชัดเจนนี่คือการยุบหมวดหมู่ (ไม่ได้เลือกหมวดหมู่) และหมวดหมู่เป็นตัวทำนายหรือตัวแปรอิสระ ในการเข้าใจถึงปัญหาย้อนหลังปัญหานี้ดูเหมือนจะเป็นเวลาที่เหมาะสมในการ "ทำให้เป็นปกติ" ทั้งหมดและปล่อยให้พระเจ้าจัดเรียง 'em out …

6
ปรับปรุงการจัดหมวดหมู่ด้วยตัวแปรเด็ดขาดมากมาย
ฉันกำลังทำงานกับชุดข้อมูลที่มี 200,000 ตัวอย่างและประมาณ 50 คุณสมบัติต่อตัวอย่าง: 10 ตัวแปรต่อเนื่องและอีก 40 รายการเป็นตัวแปรเด็ดขาด (ประเทศ, ภาษา, สาขาวิทยาศาสตร์ ฯลฯ ) สำหรับตัวแปรจัดหมวดหมู่เหล่านี้คุณมี 150 ประเทศที่แตกต่างกัน 50 ภาษา 50 สาขาวิทยาศาสตร์ ฯลฯ ... จนถึงแนวทางของฉันคือ: สำหรับตัวแปรเด็ดขาดแต่ละตัวที่มีค่าที่เป็นไปได้มากให้ใช้เพียงอันเดียวที่มีตัวอย่างมากกว่า 10,000 ตัวอย่างที่รับค่านี้ ซึ่งจะลดลงเหลือ 5-10 หมวดหมู่แทนที่จะเป็น 150 สร้างตัวแปรดัมมี่สำหรับแต่ละหมวดหมู่ (ถ้า 10 ประเทศจากนั้นสำหรับแต่ละตัวอย่างเพิ่มเวกเตอร์ไบนารีขนาด 10) ป้อนฟอเรสต์ฟอเรสต์แบบสุ่ม (ตรวจสอบความถูกต้องของพารามิเตอร์และอื่น ๆ ... ) ด้วยข้อมูลนี้ ขณะนี้ด้วยวิธีนี้ฉันจัดการเพื่อให้ได้ความแม่นยำ 65% เท่านั้นและฉันรู้สึกว่าสามารถทำได้มากกว่านี้ โดยเฉพาะอย่างยิ่งฉันไม่พอใจกับ 1) เนื่องจากฉันรู้สึกว่าฉันไม่ควรลบ "ค่าที่เกี่ยวข้องน้อยที่สุด" ตามจำนวนตัวอย่างที่พวกเขามีโดยพลการเนื่องจากค่าที่แสดงน้อยกว่าเหล่านี้อาจเป็นการเลือกปฏิบัติมากกว่า …

6
มีปัญหากับแผนภูมิวงกลม
ดูเหมือนว่าจะมีการอภิปรายเพิ่มขึ้นเกี่ยวกับแผนภูมิวงกลม ข้อโต้แย้งหลักที่ต่อต้านมันดูเหมือนจะเป็น: การรับรู้พื้นที่มีพลังงานน้อยกว่าความยาว แผนภูมิวงกลมมีอัตราส่วนข้อมูลต่อจุดต่อพิกเซลที่ต่ำมาก อย่างไรก็ตามฉันคิดว่าพวกเขาจะมีประโยชน์เมื่อแสดงสัดส่วน ฉันเห็นด้วยที่จะใช้ตารางในกรณีส่วนใหญ่ แต่เมื่อคุณเขียนรายงานธุรกิจและคุณเพิ่งรวมหลายร้อยตารางแล้วทำไมไม่มีแผนภูมิวงกลม ฉันอยากรู้ว่าชุมชนคิดอย่างไรกับหัวข้อนี้ การอ้างอิงเพิ่มเติมยินดีต้อนรับ ฉันมีลิงก์สองสามข้อ: http://www.juiceanalytics.com/writing/the-problem-with-pie-charts/ http://www.usf.uni-osnabrueck.de/~breiter/tools/piechart/warning.en.html เพื่อสรุปคำถามนี้ฉันตัดสินใจที่จะสร้างตัวอย่างของแผนภูมิวงกลมกับแผนภูมิวาฟเฟิล

7
จะแสดงภูมิศาสตร์หรือรหัสไปรษณีย์ในรูปแบบการเรียนรู้ของเครื่องหรือระบบผู้แนะนำได้อย่างไร
ฉันกำลังสร้างแบบจำลองและฉันคิดว่าที่ตั้งทางภูมิศาสตร์น่าจะดีในการทำนายตัวแปรเป้าหมายของฉัน ฉันมีรหัสไปรษณีย์ของผู้ใช้แต่ละคน ฉันไม่แน่ใจเกี่ยวกับวิธีที่ดีที่สุดในการรวมรหัสไปรษณีย์เป็นคุณลักษณะตัวทำนายในโมเดลของฉัน แม้ว่ารหัสไปรษณีย์จะเป็นตัวเลข แต่ก็ไม่ได้มีความหมายอะไรเลยถ้าตัวเลขนั้นขึ้นหรือลง ฉันสามารถรวบรวมรหัสไปรษณีย์ 30,000 รหัสแล้วรวมเป็นคุณลักษณะหรือคอลัมน์ใหม่ (เช่น {user_1: {61822: 1, 62118: 0, 62444: 0, ฯลฯ }} อย่างไรก็ตามดูเหมือนว่ามันจะเพิ่มตัน คุณสมบัติของรุ่นของฉัน มีความคิดเกี่ยวกับวิธีที่ดีที่สุดในการจัดการกับสถานการณ์นี้หรือไม่?

5
ป่าสุ่มของ R ไม่สามารถจัดการได้มากกว่า 32 ระดับ วิธีแก้ปัญหาคืออะไร
แพ็คเกจสุ่มป่าของ R ไม่สามารถจัดการกับปัจจัยที่มีมากกว่า 32 ระดับ เมื่อได้รับมากกว่า 32 ระดับจะส่งข้อความแจ้งข้อผิดพลาด: ไม่สามารถจัดการตัวทำนายเชิงหมวดหมู่ที่มีมากกว่า 32 หมวดหมู่ แต่ข้อมูลที่ฉันมีมีหลายปัจจัย บางอันมี 1,000+ ระดับและบางอันมี 100+ ระดับ มันยังมี 'สถานะ' ของสหรัฐอเมริกาซึ่งก็คือ 52 ดังนั้นนี่คือคำถามของฉัน ทำไมถึงมีข้อ จำกัด เช่นนี้? RandomForest ปฏิเสธที่จะเรียกใช้แม้ในกรณีง่าย ๆ > d <- data.frame(x=factor(1:50), y=1:50) > randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with …

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
เอฟเฟกต์คงที่และเอฟเฟกต์แบบสุ่มเมื่อความเป็นไปได้ทั้งหมดรวมอยู่ในรูปแบบเอฟเฟกต์แบบผสม
ในรูปแบบเอฟเฟ็กต์แบบผสมคำแนะนำคือการใช้เอฟเฟกต์แบบคงที่เพื่อประเมินพารามิเตอร์หากรวมระดับที่เป็นไปได้ทั้งหมด (เช่นทั้งชายและหญิง) ขอแนะนำให้ใช้เอฟเฟกต์แบบสุ่มเพื่ออธิบายตัวแปรหากระดับที่รวมอยู่เป็นเพียงตัวอย่างแบบสุ่มจากประชากร (ผู้ป่วยที่ลงทะเบียนจากจักรวาลของผู้ป่วยที่เป็นไปได้) และคุณต้องการประเมินค่าเฉลี่ยและความแปรปรวนของประชากรแทนวิธีการ ของระดับปัจจัยบุคคล ฉันสงสัยว่าคุณจำเป็นต้องใช้เหตุผลแบบคงที่ในลักษณะนี้หรือไม่ พิจารณาการศึกษาว่าขนาดเท้า / รองเท้าเปลี่ยนแปลงอย่างไรผ่านการพัฒนาและมีความสัมพันธ์กับการพูดความสูงน้ำหนักและอายุ SideSide{\rm Side}ชัดเจนจะต้องรวมอยู่ในรูปแบบใดบัญชีสำหรับความจริงที่ว่าการวัดในช่วงหลายปีที่ซ้อนกันอยู่ในเท้าที่กำหนดและไม่เป็นอิสระ ยิ่งกว่านั้นทางขวาและซ้ายเป็นไปได้ทั้งหมดที่มีอยู่ นอกจากนี้อาจเป็นความจริงที่ว่าสำหรับผู้เข้าร่วมที่ได้รับเท้าขวาของพวกเขามีขนาดใหญ่กว่า (หรือเล็กกว่า) จากซ้ายของพวกเขา อย่างไรก็ตามถึงแม้ว่าขนาดเท้าจะแตกต่างกันบ้างระหว่างเท้าสำหรับทุกคน แต่ก็ไม่มีเหตุผลที่จะเชื่อว่าเท้าขวาโดยเฉลี่ยจะมีขนาดใหญ่กว่าเท้าซ้าย หากพวกเขาอยู่ในตัวอย่างของคุณนี่อาจเป็นเพราะบางอย่างเกี่ยวกับพันธุศาสตร์ของคนในตัวอย่างของคุณแทนที่จะเป็นสิ่งที่อยู่ภายในถึงเท้าขวา ในที่สุดดูเหมือนว่าเป็นพารามิเตอร์ที่สร้างความรำคาญไม่ใช่สิ่งที่คุณสนใจจริงๆ sideside{\rm side} ให้ฉันสังเกตว่าฉันทำตัวอย่างนี้ขึ้น มันอาจจะไม่ดีเลย มันเป็นเพียงการทำความเข้าใจ สำหรับสิ่งที่ฉันรู้การมีเท้าขวาขนาดใหญ่และเท้าซ้ายขนาดเล็กเป็นสิ่งจำเป็นเพื่อความอยู่รอดในยุคหิน ในกรณีเช่นนี้มันจะสมเหตุสมผลหรือไม่ที่จะรวมในโมเดลเป็นเอฟเฟกต์แบบสุ่ม? อะไรคือข้อดีและข้อเสียของการใช้เอฟเฟกต์คงที่และแบบสุ่มที่นี่ sideside{\rm side}

2
การเข้ารหัสคุณสมบัติเด็ดขาดเป็นตัวเลขสำหรับการเรียนรู้ของเครื่อง
อัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากเช่นเครือข่ายประสาทคาดหวังว่าจะจัดการกับตัวเลข ดังนั้นเมื่อคุณมีข้อมูลที่เป็นหมวดหมู่คุณจะต้องแปลงเป็น ตามหมวดหมู่ฉันหมายถึงตัวอย่างเช่น: แบรนด์รถยนต์: Audi, BMW, Chevrolet ... รหัสผู้ใช้: 1, 25, 26, 28 ... แม้ว่ารหัสผู้ใช้จะเป็นตัวเลข แต่เป็นเพียงป้ายกำกับและไม่ได้หมายถึงความต่อเนื่องเช่นอายุหรือจำนวนเงิน ดังนั้นวิธีการพื้นฐานดูเหมือนว่าจะใช้เวกเตอร์ไบนารีเพื่อเข้ารหัสหมวดหมู่: ออดี้: 1, 0, 0 ... BMW: 0, 1, 0 ... เชฟโรเลต: 0, 0, 1 ... ไม่เป็นไรเมื่อมีหมวดหมู่น้อย แต่นอกเหนือจากนั้นก็ดูไม่มีประสิทธิภาพ ตัวอย่างเช่นเมื่อคุณมีรหัสผู้ใช้ 10,000 รหัสการเข้ารหัสมันคือ 10,000 คุณสมบัติ คำถามคือจะมีวิธีที่ดีกว่า บางทีอาจเกี่ยวข้องกับความน่าจะเป็นหรือไม่

2
วิธีการสำหรับการรวม / ลดหมวดหมู่ในข้อมูลลำดับหรือข้อมูลระบุ?
ฉันกำลังดิ้นรนเพื่อหาวิธีลดจำนวนหมวดหมู่ในข้อมูลที่ระบุหรือลำดับ ตัวอย่างเช่นสมมติว่าฉันต้องการสร้างแบบจำลองการถดถอยบนชุดข้อมูลที่มีปัจจัยจำนวนเล็กน้อยและปัจจัยอันดับหนึ่ง แม้ว่าฉันจะไม่มีปัญหากับขั้นตอนนี้ แต่บ่อยครั้งที่ฉันพบเจอกับสถานการณ์ที่คุณสมบัติเล็กน้อยโดยไม่มีการสังเกตในชุดการฝึกอบรม แต่ต่อมามีอยู่ในชุดข้อมูลการตรวจสอบความถูกต้อง สิ่งนี้นำไปสู่และเกิดข้อผิดพลาดตามธรรมชาติเมื่อแบบจำลองถูกนำเสนอด้วยคดีที่มองไม่เห็น อีกสถานการณ์ที่ฉันต้องการรวมหมวดหมู่เป็นเพียงเมื่อมีหมวดหมู่มากเกินไปโดยมีข้อสังเกตเล็กน้อย ดังนั้นคำถามของฉันคือ: ในขณะที่ฉันรู้ว่ามันอาจจะดีที่สุดที่จะรวมชื่อหลายคน (และลำดับ) ประเภทขึ้นอยู่กับข้อมูลพื้นฐานที่แท้จริงของโลกก่อนที่พวกเขาเป็นตัวแทนที่มีระบบวิธีการ ( Rแพคเกจดีกว่า) ใช้ได้? คุณจะทำแนวทางและคำแนะนำเกี่ยวกับเกณฑ์การตัดและอื่น ๆ คำตอบที่ได้รับความนิยมมากที่สุดในวรรณกรรมคืออะไร มีกลยุทธ์อื่นนอกเหนือจากการรวมหมวดหมู่เล็กน้อยขนาดเล็กเข้ากับหมวดหมู่ "OTHERS" ใหม่หรือไม่? หากคุณมีข้อเสนอแนะอื่น ๆ

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
การลดจำนวนระดับของตัวแปรทำนายการจัดหมวดหมู่แบบไม่เรียงลำดับ
ฉันต้องการฝึกอบรมลักษณนามพูด SVM หรือฟอเรสต์แบบสุ่มหรือลักษณนามอื่น ๆ หนึ่งในคุณสมบัติในชุดข้อมูลเป็นตัวแปรเด็ดขาดที่มี 1,000 ระดับ เป็นวิธีที่ดีที่สุดในการลดจำนวนระดับในตัวแปรนี้คืออะไร ใน R มีฟังก์ชั่นที่เรียกว่าcombine.levels()ในแพ็คเกจHmiscซึ่งรวมระดับที่ไม่บ่อยนัก แต่ฉันกำลังมองหาคำแนะนำอื่น ๆ

3
ปัญหาเกี่ยวกับการเข้ารหัสแบบร้อนและการเข้ารหัสแบบจำลอง
ฉันตระหนักถึงความจริงที่ว่าตัวแปรเด็ดขาดที่มีระดับ k ควรถูกเข้ารหัสด้วยตัวแปร k-1 ในการเข้ารหัสดัมมี่ (คล้ายกับตัวแปรเด็ดขาดหลายค่า) ฉันสงสัยว่าปัญหาหนึ่งเกิดขึ้นกับการเข้ารหัสแบบร้อนแรงเพียงใด (เช่นการใช้ตัวแปร k แทน) ผ่านการเข้ารหัสแบบจำลองสำหรับวิธีการถดถอยที่แตกต่างกันส่วนใหญ่เป็นการถดถอยเชิงเส้นการถดถอยเชิงเส้นที่ถูกลงโทษ (Lasso, Ridge, ElasticNet) เครื่องเร่งการไล่ระดับสี) ฉันรู้ว่าในการถดถอยเชิงเส้นปัญหาความหลากหลายเชิงเส้นเกิดขึ้น (แม้ว่าในทางปฏิบัติฉันได้ติดตั้งการถดถอยเชิงเส้นโดยใช้ OHE โดยไม่มีปัญหาใด ๆ ) อย่างไรก็ตามการเข้ารหัสแบบจำลองไม่จำเป็นต้องใช้ในพวกเขาทั้งหมดและผลลัพธ์ที่ได้จะผิดไปอย่างไรหากใช้การเข้ารหัสแบบร้อนแรง? การมุ่งเน้นของฉันอยู่ที่การคาดการณ์ในตัวแบบการถดถอยที่มีตัวแปรหมวดหมู่ (ความสำคัญสูง) จำนวนมากดังนั้นฉันจึงไม่สนใจช่วงความมั่นใจ

3
แพ็คเกจ R สำหรับการรวมระดับปัจจัยสำหรับการจัดทำดัชนี?
หากสงสัยว่ามีใครวิ่งข้ามแพ็คเกจ / ฟังก์ชั่นใน R ที่จะรวมระดับของปัจจัยที่มีสัดส่วนของระดับทั้งหมดในปัจจัยน้อยกว่าขีด จำกัด บางอย่าง? โดยเฉพาะอย่างยิ่งหนึ่งในขั้นตอนแรกในการเตรียมข้อมูลที่ฉันดำเนินการคือการยุบปัจจัยที่กระจัดกระจายในระดับต่างๆ (พูดในระดับที่เรียกว่า 'อื่น ๆ ') ที่ไม่ได้ประกอบด้วยอย่างน้อย 2% ของทั้งหมด สิ่งนี้ทำโดยไม่ได้รับอนุญาตและทำเมื่อวัตถุประสงค์คือเพื่อจำลองกิจกรรมบางอย่างในการตลาด (ไม่ใช่การตรวจจับการฉ้อโกงซึ่งเหตุการณ์เหล่านั้นมีความสำคัญน้อยมาก) ฉันกำลังมองหาฟังก์ชั่นที่จะยุบระดับจนกระทั่งได้สัดส่วนตามเกณฑ์ UPDATE: ขอบคุณคำแนะนำที่ดีเหล่านี้ฉันเขียนฟังก์ชั่นได้อย่างง่ายดาย ฉันรู้ว่ามันเป็นไปได้ที่จะยุบระดับด้วยสัดส่วน <ต่ำสุดและยังคงมีระดับที่ถูกถอดรหัสเป็น <ต่ำสุดซึ่งต้องการการเพิ่มระดับต่ำสุดพร้อมสัดส่วน> ต่ำสุด มีแนวโน้มที่จะมีประสิทธิภาพมากขึ้น แต่ดูเหมือนจะทำงาน การปรับปรุงต่อไปคือการหาวิธีจับ "กฎ" สำหรับการใช้ตรรกะการยุบกับข้อมูลใหม่ (ชุดการตรวจสอบหรือข้อมูลในอนาคต) collapseFactors<- function(tableName,minPercent=5,fillIn ="RECODED" ) { for (i in 1:ncol(tableName)) { if(is.factor(tableName[,i]) == TRUE) #process just factors { sortedTable<-sort(prop.table(table(tableName[,i]))) numberToCollapse<-length(sortedTable[sortedTable<(minPercent/100)]) if …

1
วิธีการลงโทษสำหรับข้อมูลเด็ดขาด: การรวมระดับในปัจจัย
โมเดลที่ถูกปรับแต่งสามารถใช้เพื่อประเมินโมเดลที่มีจำนวนพารามิเตอร์เท่ากับหรือมากกว่าขนาดตัวอย่าง สถานการณ์นี้อาจเกิดขึ้นในตัวแบบบันทึกการเชิงเส้นของตารางกระจัดกระจายขนาดใหญ่ของข้อมูลเด็ดขาดหรือการนับ ในการตั้งค่าเหล่านี้มักเป็นที่ต้องการหรือเป็นประโยชน์ในการยุบตารางด้วยการรวมระดับของปัจจัยที่ระดับเหล่านั้นไม่สามารถแยกแยะในแง่ของวิธีที่พวกเขาโต้ตอบกับปัจจัยอื่น ๆ สองคำถาม: มีวิธีใช้แบบจำลองที่มีการลงโทษเช่น LASSO หรือ elastic net เพื่อทดสอบการยุบตัวของระดับภายในแต่ละปัจจัยหรือไม่? หากคำตอบสำหรับคำถามแรกคือใช่สามารถและควรตั้งค่านี้ในลักษณะที่การล่มสลายของระดับและการประมาณค่าสัมประสิทธิ์แบบเกิดขึ้นในขั้นตอนเดียว?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.