คำถามติดแท็ก categorical-data

ข้อมูลหมวดหมู่ (เรียกอีกอย่างว่าเล็กน้อย) สามารถใช้ค่าที่เป็นไปได้จำนวน จำกัด ที่เรียกว่าหมวดหมู่ ค่าหมวดหมู่ "ป้ายกำกับ" จะไม่ "วัด" โปรดใช้แท็ก [ลำดับข้อมูล] สำหรับประเภทข้อมูลที่แยก แต่สั่งซื้อ

3
ปัญหาเกี่ยวกับการเข้ารหัสแบบร้อนและการเข้ารหัสแบบจำลอง
ฉันตระหนักถึงความจริงที่ว่าตัวแปรเด็ดขาดที่มีระดับ k ควรถูกเข้ารหัสด้วยตัวแปร k-1 ในการเข้ารหัสดัมมี่ (คล้ายกับตัวแปรเด็ดขาดหลายค่า) ฉันสงสัยว่าปัญหาหนึ่งเกิดขึ้นกับการเข้ารหัสแบบร้อนแรงเพียงใด (เช่นการใช้ตัวแปร k แทน) ผ่านการเข้ารหัสแบบจำลองสำหรับวิธีการถดถอยที่แตกต่างกันส่วนใหญ่เป็นการถดถอยเชิงเส้นการถดถอยเชิงเส้นที่ถูกลงโทษ (Lasso, Ridge, ElasticNet) เครื่องเร่งการไล่ระดับสี) ฉันรู้ว่าในการถดถอยเชิงเส้นปัญหาความหลากหลายเชิงเส้นเกิดขึ้น (แม้ว่าในทางปฏิบัติฉันได้ติดตั้งการถดถอยเชิงเส้นโดยใช้ OHE โดยไม่มีปัญหาใด ๆ ) อย่างไรก็ตามการเข้ารหัสแบบจำลองไม่จำเป็นต้องใช้ในพวกเขาทั้งหมดและผลลัพธ์ที่ได้จะผิดไปอย่างไรหากใช้การเข้ารหัสแบบร้อนแรง? การมุ่งเน้นของฉันอยู่ที่การคาดการณ์ในตัวแบบการถดถอยที่มีตัวแปรหมวดหมู่ (ความสำคัญสูง) จำนวนมากดังนั้นฉันจึงไม่สนใจช่วงความมั่นใจ

5
เหตุใดจึงควรหลีกเลี่ยงการถูก Binning ที่ค่าใช้จ่ายทั้งหมด?
ดังนั้นผมจึงได้อ่านโพสต์ไม่กี่เกี่ยวกับสาเหตุที่ Binning ควรเสมอที่จะหลีกเลี่ยง ข้อมูลอ้างอิงยอดนิยมสำหรับการอ้างสิทธิ์ว่าเป็นลิงก์นี้ การหลบหลีกที่สำคัญคือจุดที่ binning (หรือจุดตัด) นั้นค่อนข้างมีข้อ จำกัด รวมถึงการสูญเสียข้อมูลที่เกิดขึ้นและเส้นโค้งนั้นควรเป็นที่ต้องการ อย่างไรก็ตามฉันกำลังทำงานกับ Spotify API ซึ่งมีมาตรการความเชื่อมั่นอย่างต่อเนื่องสำหรับคุณสมบัติหลายประการของพวกเขา ดูที่คุณลักษณะหนึ่ง "instrumentalness" สถานะอ้างอิง: ทำนายว่าแทร็กไม่มีเสียงร้องหรือไม่ เสียง“ Ooh” และ“ aah” นั้นถือเป็นเครื่องมือในบริบทนี้ แร็พหรือแทร็กคำพูดนั้นชัดเจนว่า "แกนนำ" ยิ่งมีค่าใกล้กับ 1.0 มากเท่าไหร่โอกาสที่แทร็กจะไม่มีเนื้อหาเสียงร้องก็ยิ่งมากขึ้นเท่านั้น ค่าที่สูงกว่า 0.5 มีวัตถุประสงค์เพื่อเป็นตัวแทนเครื่องมือแต่ความมั่นใจสูงกว่าเมื่อค่าเข้าใกล้ 1.0 ด้วยการกระจายข้อมูลที่เบ้ไปทางซ้ายอย่างมาก (ประมาณ 90% ของกลุ่มตัวอย่างแทบจะไม่สูงกว่า 0 ฉันพบว่าเหมาะสมที่จะเปลี่ยนคุณสมบัตินี้ให้เป็นคุณสมบัติสองประเภท: "เครื่องมือ" (ตัวอย่างทั้งหมดที่มีค่าสูงกว่า 0.5) และ "non_instrumental "(สำหรับตัวอย่างทั้งหมดที่มีค่าต่ำกว่า 0.5) มันผิดหรือเปล่า? และอะไรจะเป็นทางเลือกเมื่อข้อมูล (ต่อเนื่อง) เกือบทั้งหมดของฉันหมุนรอบค่าเดียว? จากสิ่งที่ฉันเข้าใจเกี่ยวกับเส้นโค้งพวกเขาจะไม่ทำงานกับปัญหาการจำแนกประเภท …

1
อะไรคืออันตรายของการคำนวณสหสัมพันธ์ของเพียร์สัน (แทนที่จะเป็น tetrachoric) สำหรับตัวแปรไบนารีในการวิเคราะห์ปัจจัย?
ฉันทำการวิจัยเกี่ยวกับเกมเพื่อการศึกษาและบางโครงการในปัจจุบันของฉันเกี่ยวข้องกับการใช้ข้อมูลจากBoardGameGeek (BGG) และVideoGameGeek (VGG) เพื่อตรวจสอบความสัมพันธ์ระหว่างองค์ประกอบการออกแบบของเกม (เช่น "ตั้งอยู่ในสงครามโลกครั้งที่สอง", "เกี่ยวข้องกับลูกเต๋ากลิ้ง" ) และการจัดอันดับผู้เล่นของเกมเหล่านั้น (เช่นคะแนนจาก 10) องค์ประกอบการออกแบบเหล่านี้แต่ละรายการสอดคล้องกับแท็กในระบบ BGG หรือ VGG ดังนั้นองค์ประกอบแต่ละรายการจึงเป็นตัวแปรแบบแยกส่วน เกมมี 1 สำหรับทุกแท็กที่มีอยู่ในฐานข้อมูลของมันและ 0 สำหรับทุกแท็กที่ไม่มีอยู่ มีแท็กเหล่านี้อยู่หลายสิบแท็กดังนั้นฉันต้องการใช้การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) เพื่อสร้าง "แนว" จำนวนที่จัดการได้ซึ่งจับรูปแบบในการออกแบบเกม ให้คำปรึกษากับแหล่งข้อมูลหลายแห่งฉันเข้าใจว่าเนื่องจากฉันทำงานกับตัวแปรแบบแบ่งขั้วฉันควรใช้ความสัมพันธ์แบบpolychoric ( tetrachoricโดยเฉพาะที่นี่) แทนที่จะเป็นแบบเพียร์สันเมื่อมากับปัจจัยของฉัน (มีตัวเลือกอื่น ๆ เช่นการวิเคราะห์ลักษณะแฝง ออกไปข้างนอก แต่นี่คือสิ่งที่ฉันกำลังสำรวจ) จากความอยากรู้ฉันได้รับปัจจัยสองชุดหนึ่งชุดโดยใช้สหสัมพันธ์ของเพียร์สันและอีกชุดหนึ่งที่ใช้สหสัมพันธ์พอลิคอซิค (ปัจจัยจำนวนเดียวกันในแต่ละครั้ง) ปัญหาของฉันคือปัจจัยที่คำนวณโดยใช้สหสัมพันธ์ของเพียร์สันทำให้เข้าใจได้ง่ายขึ้นและตีความได้ง่ายกว่าปัจจัยที่คำนวณโดยใช้สหสัมพันธ์ของพอลิคอริก กล่าวอีกนัยหนึ่ง "ประเภท" จากชุดแรกของปัจจัยทำให้เข้าใจง่ายและสอดคล้องกับความเข้าใจของฉันเกี่ยวกับวิธีการออกแบบเกมโดยทั่วไป นั่นไม่ใช่กรณีสำหรับปัจจัยชุดที่สอง ในอีกด้านหนึ่งฉันต้องการตรวจสอบให้แน่ใจว่าฉันทำตามข้อสันนิษฐานของการทดสอบที่ฉันใช้อยู่แม้ว่ามันจะทำให้ผลลัพธ์ของฉันออกมาสวยน้อยลง ในอีกด้านหนึ่งฉันรู้สึกว่าส่วนหนึ่งของเป้าหมายของการวิเคราะห์ปัจจัยและการสร้างแบบจำลอง (กว้างขึ้น) คือการหาสิ่งที่มีประโยชน์และข้อมูลที่เป็นประโยชน์มากขึ้นก็จะปรากฏขึ้นเมื่อฉัน "ผิดกฎ" จำเป็นต้องมีแบบจำลองที่มีประโยชน์เพียงพอที่จะเกินดุลที่ละเมิดสมมติฐานของการทดสอบนี้หรือไม่? อะไรคือผลที่ตามมาจากการใช้เพียร์สันสหสัมพันธ์แทนที่จะเป็นพอลิคอร์ติก?

3
เหตุใดจึงควรทำการเปลี่ยนแปลง WOE ของตัวพยากรณ์เชิงหมวดหมู่ในการถดถอยโลจิสติก
การเปลี่ยนแปลงน้ำหนักของหลักฐาน (WOE) ของตัวแปรเด็ดขาดมีประโยชน์เมื่อใด ตัวอย่างสามารถเห็นได้ในการแปลง WOE (ดังนั้นสำหรับการตอบสนอง , & ตัวทำนายหมวดหมู่ที่มีหมวดหมู่ , & ประสบความสำเร็จจากการทดลองภายในหมวดหมู่ที่ของตัวทำนายนี้, WOE สำหรับหมวดหมู่ที่ถูกกำหนดให้เป็นk y j n j j jyyykkkyjyjy_jnjnjn_jjjjjjj เข้าสู่ระบบYJΣkJYJΣkJ( nJ- yJ)nJ- yJlog⁡yj∑jkyj∑jk(nj−yj)nj−yj\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} & การเปลี่ยนแปลงประกอบด้วยการเข้ารหัสแต่ละหมวดหมู่ของตัวทำนายหมวดหมู่ด้วย WOE เพื่อสร้างตัวทำนายแบบต่อเนื่องใหม่) ฉันต้องการเรียนรู้สาเหตุที่การแปลง WOE ช่วยการถดถอยโลจิสติกส์ ทฤษฎีที่อยู่เบื้องหลังสิ่งนี้คืออะไร?

4
แผนภาพนี้เรียกว่าอะไร
ใครสามารถบอกฉันว่าชื่อของแผนภาพประเภทนี้ (ถ้ามี) คืออะไร? ทุกคนสามารถแนะนำเครื่องมือใด ๆ แต่ง่าย ๆ ในการพล็อตแผนภาพดังกล่าวได้หรือไม่?

2
ควรจำแนกประเภทของข้อมูล (ชื่อ / ลำดับ / ช่วงเวลา / อัตราส่วน) จริงหรือไม่?
ตัวอย่างเช่นนี่คือคำจำกัดความที่ฉันได้รับจากหนังสือเรียนมาตรฐาน Variable - ลักษณะของประชากรหรือกลุ่มตัวอย่าง อดีต ราคาหุ้นหรือเกรดจากการทดสอบ ข้อมูล - ค่าที่สังเกตได้จริง ดังนั้นสำหรับรายงานสองคอลัมน์ [ชื่อ | รายได้] ชื่อคอลัมน์จะเป็นตัวแปรและค่าที่สังเกตได้จริง {dave | 100K}, {jim | 200K} จะเป็นข้อมูล ดังนั้นถ้าฉันบอกว่าคอลัมน์ [ชื่อ] เป็นข้อมูลที่ระบุและ [รายได้] เป็นข้อมูลอัตราส่วนฉันจะไม่ถูกต้องมากกว่าที่จะอธิบายว่ามันเป็นตัวแปรชนิดหนึ่งแทนที่จะเป็นประเภทข้อมูลที่ตำราเรียนส่วนใหญ่ทำหรือไม่ ฉันเข้าใจว่านี่อาจเป็นความหมายและก็ไม่เป็นไรนั่นคือทั้งหมดที่มีเช่นกัน แต่ฉันกลัวว่าฉันอาจจะพลาดบางสิ่งบางอย่างที่นี่

1
จะตีความการทดสอบ Cochran-Mantel-Haenszel ได้อย่างไร
ฉันกำลังทดสอบความเป็นอิสระของตัวแปรสองตัวคือ A และ B แบ่งเป็นชั้น ๆ โดย C. A และ B เป็นตัวแปรไบนารีและ C คือหมวดหมู่ (5 ค่า) ทำการทดสอบที่แม่นยำของฟิชเชอร์สำหรับ A และ B (ชั้นทั้งหมดรวมกัน) ฉันได้รับ: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * โดยที่ OR เป็นอัตราต่อรอง (ประมาณและช่วงความมั่นใจ 95%) …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
Multinomial-Dirichlet model ที่มีการแจกแจง hyperprior ในพารามิเตอร์ความเข้มข้น
ฉันจะพยายามอธิบายปัญหาในมือโดยทั่วไปที่สุด ฉันกำลังสร้างแบบจำลองการสังเกตเป็นการกระจายอย่างมีนัยสำคัญกับพารามิเตอร์ความน่าจะเป็นเวกเตอร์ทีต้า จากนั้นผมถือว่า theta พารามิเตอร์เวกเตอร์ต่อไปนี้ก่อน Dirichletกระจายกับพารามิเตอร์\α1, α2, … , αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k เป็นไปได้หรือไม่ที่จะกำหนดให้มีการแจกแจงเหนือพารามิเตอร์ ? มันจะต้องเป็นการกระจายหลายตัวแปรเช่นการแจกแจงแบบแบ่งหมวดหมู่และแบบดิริชเล็ตหรือไม่? ดูเหมือนว่าอัลฟาจะเป็นบวกเสมอดังนั้นแกมม่าไฮเพอร์ไพน์จึงควรทำงานα1,α2, … ,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k ไม่แน่ใจว่ามีใครลองปรับรุ่น overparametrized (อาจจะ) แต่ดูเหมือนว่าสมเหตุสมผลสำหรับฉันที่จะคิดว่าอัลฟ่าไม่ควรได้รับการแก้ไข แต่มาจากการกระจายแกมม่า โปรดพยายามให้ข้อมูลอ้างอิงบางอย่างแก่ฉัน, ให้ข้อมูลเชิงลึกเกี่ยวกับวิธีที่ฉันสามารถลองวิธีการดังกล่าวในทางปฏิบัติ

2
ความหลากหลายทางชีวภาพเป็นนัยในตัวแปรเด็ดขาดหรือไม่?
ฉันสังเกตว่าในขณะที่ tinkering กับแบบจำลองการถดถอยหลายตัวแปรมีผลกระทบความสัมพันธ์แบบหลายค่าขนาดเล็ก แต่เห็นได้ชัดซึ่งวัดจากปัจจัยเงินเฟ้อความแปรปรวนภายในหมวดหมู่ของตัวแปรเด็ดขาด (หลังจากไม่รวมหมวดหมู่อ้างอิงแน่นอน) ตัวอย่างเช่นสมมติว่าเรามีชุดข้อมูลที่มีตัวแปรต่อเนื่อง y และตัวแปรเด็ดขาดหนึ่งชุด x ซึ่งมีค่า k ที่ไม่เหมือนกันซึ่งเป็นไปได้ เรารหัสผู้ค่าที่เป็นไปตามที่ 0/1 ตัวแปรหุ่นdots, แล้วเราจะเรียกใช้ตัวแบบการถดถอย{k-1} คะแนน VIF สำหรับตัวแปรจำลองกลายเป็นไม่ใช่ศูนย์ ในความเป็นจริงเมื่อจำนวนหมวดหมู่เพิ่มขึ้น VIF ก็เพิ่มขึ้น การจัดกึ่งกลางของตัวแปรจำลองจะไม่เปลี่ยน VIFskkkx1,x2,…,xkx1,x2,…,xkx_1, x_2,\dots ,x_ky=b0+b1x1+b2x2+⋯+bk−1xk−1y=b0+b1x1+b2x2+⋯+bk−1xk−1y = b_0 + b_1x_1 + b_2x_2 + \dots + b_{k-1}x_{k-1}k−1k−1k-1 คำอธิบายที่เข้าใจง่ายดูเหมือนว่าสภาพที่ไม่เกิดร่วมกันของหมวดหมู่ภายในตัวแปรเด็ดขาดนั้นทำให้เกิดความหลากหลายทางสัณฐานวิทยาเล็กน้อย นี่เป็นการค้นพบที่ไม่สำคัญหรือเป็นปัญหาที่ควรพิจารณาเมื่อสร้างแบบจำลองการถดถอยด้วยตัวแปรเชิงหมวดหมู่หรือไม่

2
ความสัมพันธ์ระหว่างตัวแปรสองขั้วและตัวแปรต่อเนื่อง
ฉันพยายามที่จะหาความสัมพันธ์ระหว่างคู่และตัวแปรต่อเนื่อง จากการทำงานภาคพื้นดินของฉันในเรื่องนี้ฉันพบว่าฉันต้องใช้การทดสอบแบบอิสระและเงื่อนไขที่จำเป็นสำหรับมันคือการกระจายตัวของตัวแปรจะต้องเป็นปกติ ฉันทำการทดสอบ Kolmogorov-Smirnov เพื่อทดสอบความปกติและพบว่าตัวแปรต่อเนื่องไม่ปกติและเอียง (ประมาณ 4,000 จุดข้อมูล) ฉันทำการทดสอบ Kolmogorov-Smirnov สำหรับตัวแปรทั้งหมด ฉันควรแบ่งพวกเขาออกเป็นกลุ่มและทำแบบทดสอบหรือไม่? กล่าวคือถ้าฉันมีrisk level( 0= ไม่เสี่ยง1= เสี่ยง) และระดับคอเลสเตอรอลฉันควร: แบ่งพวกมันออกเป็นสองกลุ่มอย่างเช่น Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS พาพวกเขาไปด้วยกันและทำการทดสอบ? (ฉันใช้กับชุดข้อมูลทั้งหมดเท่านั้น) หลังจากนั้นฉันควรทำอย่างไรหากมันยังไม่ปกติ แก้ไข: สถานการณ์ข้างต้นเป็นเพียงคำอธิบายที่ฉันพยายามให้สำหรับปัญหาของฉัน ฉันมีชุดข้อมูลซึ่งมีตัวแปรมากกว่า 1,000 รายการและตัวอย่างประมาณ 4000 รายการ พวกมันมีทั้งต่อเนื่องหรือเด็ดขาดในธรรมชาติ งานของฉันคือการทำนายตัวแปรแบบแบ่งขั้วตามตัวแปรเหล่านี้ (อาจเกิดขึ้นกับแบบจำลองการถดถอยโลจิสติก) ดังนั้นฉันคิดว่าการตรวจสอบเบื้องต้นจะเกี่ยวข้องกับการค้นหาความสัมพันธ์ระหว่างโดมิโนและตัวแปรต่อเนื่อง ฉันพยายามที่จะดูว่าการกระจายตัวของตัวแปรเป็นอย่างไรและด้วยเหตุนี้จึงพยายามไปทดสอบ …

3
วิธีจัดการกับตัวแปรเด็ดขาดที่ไม่ใช่แบบไบนารีในการถดถอยโลจิสติก (SPSS)
ฉันต้องทำการถดถอยโลจิสติกแบบไบนารีด้วยตัวแปรอิสระจำนวนมาก ส่วนใหญ่เป็นไบนารี แต่ตัวแปรเด็ดขาดบางส่วนมีมากกว่าสองระดับ วิธีที่ดีที่สุดในการจัดการกับตัวแปรดังกล่าวคืออะไร? ตัวอย่างเช่นสำหรับตัวแปรที่มีค่าที่เป็นไปได้สามค่าฉันคิดว่าต้องสร้างตัวแปรจำลองสองตัว จากนั้นในขั้นตอนการถดถอยแบบชาญฉลาดควรทดสอบตัวแปรจำลองทั้งสองพร้อมกันหรือทดสอบแยกกัน ฉันจะใช้ SPSS แต่ฉันจำไม่ได้ดีดังนั้น: SPSS จะจัดการกับสถานการณ์นี้ได้อย่างไร ยิ่งไปกว่านั้นสำหรับตัวแปรหมวดหมู่ตามลำดับมันเป็นสิ่งที่ดีหรือไม่ที่จะใช้ตัวแปรจำลองที่สร้างสเกลตามลำดับขึ้นมาใหม่? (ตัวอย่างเช่นการใช้สามตัวแปรดัมมี่สำหรับ 4 รัฐตัวแปรลำดับใส่0-0-0ระดับ , ระดับ2 , ระดับ3และระดับ4แทน, , และสำหรับ 4 ระดับ.)1111-0-02221-1-03331-1-14440-0-01-0-00-1-00-0-1

2
เป็นไปได้ไหมที่จะอ่านคอลัมน์ CSV โดยตรงเป็นข้อมูลหมวดหมู่?
ฉันจำเป็นต้องวิเคราะห์ด้วย R ข้อมูลจากการสำรวจทางการแพทย์ (พร้อมคอลัมน์มากกว่า 100 คอลัมน์) ที่มาในรูปแบบ CSV ฉันจะใช้เสียงอึกทึกสำหรับการวิเคราะห์เริ่มต้น แต่เบื้องหลังมันยังคงเป็นอาร์ ถ้าฉันread.csv ()ไฟล์คอลัมน์ที่มีรหัสตัวเลขจะถือว่าเป็นข้อมูลตัวเลข ฉันรู้ว่าฉันสามารถสร้างคอลัมน์เด็ดขาดจากพวกเขาด้วยfactor ()แต่การทำเพื่อ 100+ คอลัมน์เป็นความเจ็บปวด ฉันหวังว่าจะมีวิธีที่ดีกว่าในการบอกให้ R นำเข้าคอลัมน์เป็นปัจจัยโดยตรง หรืออย่างน้อยก็แปลงพวกมันให้เข้าที่หลังจากนั้น ขอบคุณ!

4
วิธีการพิสูจน์ทางสถิติว่าคอลัมน์มีข้อมูลหมวดหมู่หรือไม่ใช้ Python
ฉันมี data frame ใน python ที่ฉันต้องการค้นหาตัวแปรเด็ดขาดทั้งหมด การตรวจสอบประเภทของคอลัมน์นั้นไม่ได้ผลเสมอไปเพราะintประเภทยังสามารถจัดหมวดหมู่ได้ ดังนั้นฉันจึงขอความช่วยเหลือในการค้นหาวิธีทดสอบสมมติฐานที่ถูกต้องเพื่อระบุว่าคอลัมน์นั้นเป็นหมวดหมู่หรือไม่ ฉันพยายามทดสอบไคสแควร์ด้านล่าง แต่ไม่แน่ใจว่าดีพอหรือไม่ import numpy as np data = np.random.randint(0,5,100) import scipy.stats as ss ss.chisquare(data) กรุณาแนะนำ

1
วิธีการลงโทษสำหรับข้อมูลเด็ดขาด: การรวมระดับในปัจจัย
โมเดลที่ถูกปรับแต่งสามารถใช้เพื่อประเมินโมเดลที่มีจำนวนพารามิเตอร์เท่ากับหรือมากกว่าขนาดตัวอย่าง สถานการณ์นี้อาจเกิดขึ้นในตัวแบบบันทึกการเชิงเส้นของตารางกระจัดกระจายขนาดใหญ่ของข้อมูลเด็ดขาดหรือการนับ ในการตั้งค่าเหล่านี้มักเป็นที่ต้องการหรือเป็นประโยชน์ในการยุบตารางด้วยการรวมระดับของปัจจัยที่ระดับเหล่านั้นไม่สามารถแยกแยะในแง่ของวิธีที่พวกเขาโต้ตอบกับปัจจัยอื่น ๆ สองคำถาม: มีวิธีใช้แบบจำลองที่มีการลงโทษเช่น LASSO หรือ elastic net เพื่อทดสอบการยุบตัวของระดับภายในแต่ละปัจจัยหรือไม่? หากคำตอบสำหรับคำถามแรกคือใช่สามารถและควรตั้งค่านี้ในลักษณะที่การล่มสลายของระดับและการประมาณค่าสัมประสิทธิ์แบบเกิดขึ้นในขั้นตอนเดียว?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.