สถิติและข้อมูลขนาดใหญ่ categorical-data

5

เป็นวิธีที่ดีที่สุดในการเห็นภาพความสัมพันธ์ระหว่างตัวแปรที่ไม่ต่อเนื่องและตัวแปรต่อเนื่องคืออะไร?

วิธีที่ดีที่สุดในการแสดงความสัมพันธ์ระหว่าง: ตัวแปรต่อเนื่องและไม่ต่อเนื่อง ตัวแปรที่แยกกันสองตัว จนถึงตอนนี้ฉันได้ใช้แผนการกระจายเพื่อดูความสัมพันธ์ระหว่างตัวแปรต่อเนื่อง อย่างไรก็ตามในกรณีที่จุดข้อมูลตัวแปรไม่ต่อเนื่องถูกสะสมในช่วงเวลาที่แน่นอน ดังนั้นเส้นที่ดีที่สุดอาจจะลำเอียง

19 data-visualization categorical-data random-variable

5

ฉันจะศึกษา“ ความสัมพันธ์” ระหว่างตัวแปรต่อเนื่องและตัวแปรเด็ดขาดได้อย่างไร

การวัด "สหสัมพันธ์" ที่มีความหมายเพื่อศึกษาความสัมพันธ์ระหว่างตัวแปรทั้งสองประเภทนี้คืออะไร? ใน R ทำอย่างไร?

19 r correlation categorical-data association-measure

5

วิธีการ Recode ตัวแปรเด็ดขาดเป็นตัวแปรตัวเลขเมื่อใช้ SVM หรือ Neural Network

หากต้องการใช้ SVM หรือ Neural Network จะต้องแปลง (เข้ารหัส) ตัวแปรหมวดหมู่เป็นตัวแปรตัวเลขวิธีปกติในกรณีนี้คือใช้ค่าไบนารี 0-1 กับค่าหมวดหมู่ k-th ที่แปลงเป็น (0,0, .. ., 1,0, ... 0) (1 อยู่ในตำแหน่ง k-th) มีวิธีการอื่นในการทำเช่นนี้หรือไม่โดยเฉพาะอย่างยิ่งเมื่อมีค่าหมวดหมู่จำนวนมาก (เช่น 100,000) เช่นนั้นการเป็นตัวแทน 0-1 จะแนะนำมิติเพิ่มเติมเพิ่มเติมจำนวนมาก (อินพุตยูนิต) ใน Neural Network ซึ่งไม่ต้องการหรือคาดหวัง ? ฉันถามเกี่ยวกับกลยุทธ์ทั่วไป

19 machine-learning neural-networks categorical-data svm categorical-encoding

4

ด้วยข้อมูลหมวดหมู่จะมีกลุ่มที่ไม่มีตัวแปรที่เกี่ยวข้องหรือไม่

เมื่อพยายามอธิบายการวิเคราะห์กลุ่มมันเป็นเรื่องปกติที่คนจะเข้าใจผิดเกี่ยวกับกระบวนการที่เกี่ยวข้องกับว่าตัวแปรมีความสัมพันธ์กันหรือไม่ วิธีหนึ่งที่จะทำให้ผู้คนสับสนได้ก็คือเรื่องแบบนี้: สิ่งนี้แสดงความแตกต่างอย่างชัดเจนระหว่างคำถามที่ว่ามีกลุ่มและคำถามที่เกี่ยวข้องกับตัวแปรหรือไม่ อย่างไรก็ตามนี่แสดงให้เห็นถึงความแตกต่างสำหรับข้อมูลต่อเนื่องเท่านั้น ฉันมีปัญหาในการคิดแบบอะนาล็อกกับข้อมูลที่เป็นหมวดหมู่: ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no เราจะเห็นได้ว่ามีกลุ่มชัดเจนสองกลุ่มคือคนที่มีทั้งคุณสมบัติ A และ B และกลุ่มที่ไม่มี อย่างไรก็ตามถ้าเราดูตัวแปร (เช่นด้วยการทดสอบไคสแควร์) พวกมันจะเกี่ยวข้องกันอย่างชัดเจน: tab # B # A yes no # yes 4 …

19 clustering categorical-data independence

4

Non-transitivity of correlation: ความสัมพันธ์ระหว่างเพศและขนาดของสมองและระหว่างขนาดของสมองกับ IQ แต่ไม่มีความสัมพันธ์กันระหว่างเพศและ IQ

ฉันพบคำอธิบายต่อไปนี้ในบล็อกและฉันต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับการไม่สัมพันธ์ของความสัมพันธ์: เรามีข้อเท็จจริงที่ปฏิเสธไม่ได้ดังต่อไปนี้: โดยเฉลี่ยมีความแตกต่างของปริมาณสมองระหว่างชายและหญิง มีความสัมพันธ์ระหว่าง IQ กับขนาดสมอง ความสัมพันธ์คือ 0.33 และสอดคล้องกับ 10% ของความแปรปรวนของไอคิว จากสถานที่เหล่านี้ 1 และ 2 ดูเหมือนว่าจะมีเหตุผลจากนั้นผู้หญิงโดยเฉลี่ยมีไอคิวต่ำกว่าผู้ชาย แต่มันเป็นความเข้าใจผิด! ในสถิติความสัมพันธ์ไม่ได้เป็นสกรรมกริยา หลักฐานคือคุณเพียงแค่ต้องดูผลลัพธ์ของการทดสอบ IQ และพวกเขาแสดงให้เห็นว่า IQ ของชายและหญิงไม่แตกต่างกันโดยเฉลี่ย ฉันต้องการที่จะเข้าใจความสัมพันธ์ที่ไม่ไวของความลึกนี้สักหน่อย หากความสัมพันธ์ระหว่าง IQ และขนาดสมองเท่ากับ 0.9 (ซึ่งฉันรู้ว่าไม่ใช่ (1)) จะอนุมานหรือไม่ว่าผู้หญิงโดยเฉลี่ยมีไอคิวต่ำกว่าผู้ชาย ได้โปรดฉันไม่ได้อยู่ที่นี่เพื่อพูดคุยเกี่ยวกับ IQ (และข้อ จำกัด ของการทดสอบ), การรังเกียจผู้หญิง, ทัศนคติของผู้หญิง, ความเย่อหยิ่งและอื่น ๆ (2) ฉันแค่ต้องการที่จะเข้าใจเหตุผลเชิงตรรกะที่อยู่เบื้องหลังการเข้าใจผิด (1) ซึ่งฉันรู้ว่ามันไม่ได้เป็น: ยุคมีสมองที่ใหญ่กว่า homo sapiens แต่ไม่ฉลาดขึ้น (2) ฉันเป็นผู้หญิงและโดยรวมฉันไม่คิดว่าตัวเองหรือผู้หญิงคนอื่นฉลาดน้อยกว่าผู้ชายฉันไม่สนใจเกี่ยวกับการทดสอบไอคิวเพราะสิ่งที่นับเป็นคุณค่าของคนและมันไม่ได้ขึ้นอยู่กับ …

18 correlation categorical-data mean descriptive-statistics neuroscience

2

การตีความของ betas เมื่อมีหลายตัวแปรเด็ดขาด

ผมเข้าใจแนวคิดที่ว่าเบต้า 0เป็นค่าเฉลี่ยสำหรับเมื่อตัวแปรเด็ดขาดจะมีค่าเท่ากับ 0 (หรือกลุ่มอ้างอิง) ทำให้การตีความท้ายว่าค่าสัมประสิทธิ์การถดถอยคือความแตกต่างในค่าเฉลี่ยของทั้งสองประเภท ถึงแม้จะมี> 2 ประเภทฉันจะถือว่าแต่ละβอธิบายความแตกต่างระหว่างของประเภทที่ค่าเฉลี่ยและการอ้างอิงβ^0β^0\hat\beta_0β^β^\hat\beta แต่จะเกิดอะไรขึ้นถ้ามีตัวแปรเพิ่มเติมเข้ามาในโมเดลหลายตัวแปร? ตอนนี้การสกัดกั้นหมายความว่าอะไรมันไม่สมเหตุสมผลที่จะเป็นค่าเฉลี่ยสำหรับการอ้างอิงของตัวแปรเด็ดขาดสองอัน ตัวอย่างเช่นหากเพศ (M (ref) / F) และ Race (white (ref) / black) ทั้งคู่อยู่ในแบบจำลอง เป็นβ 0ค่าเฉลี่ยสำหรับผู้ชายสีขาวเท่านั้น? เราตีความความเป็นไปได้อื่น ๆ อย่างไรβ^0β^0\hat\beta_0 ในฐานะที่เป็นข้อความแยกต่างหาก: คำสั่งที่ตรงกันข้ามนั้นทำหน้าที่เป็นวิธีในการตรวจสอบการดัดแปลงเอฟเฟกต์หรือไม่? หรือเพียงแค่เห็นเอฟเฟกต์ ( ) ในระดับที่ต่างกันβ^β^\hat\beta

18 multiple-regression categorical-data interpretation regression-coefficients contrast

1

วิธีจัดการกับ SVM ด้วยคุณลักษณะที่เป็นหมวดหมู่

ฉันมีช่องว่าง 35 มิติ (คุณลักษณะ) ปัญหาการวิเคราะห์ของฉันคือการจำแนกอย่างง่าย จาก 35 มิติมากกว่า 25 รายการเป็นหมวดหมู่และแต่ละแอตทริบิวต์มีค่ามากกว่า 50 ประเภท ในสถานการณ์สมมตินั้นการแนะนำตัวแปรตัวจำลองก็ไม่ได้ผลสำหรับฉันเช่นกัน ฉันจะเรียกใช้ SVM บนพื้นที่ซึ่งมีแอตทริบิวต์ที่กำหนดไว้มากมายได้อย่างไร

18 categorical-data svm

5

สถิติสรุปใดที่จะใช้กับตัวแปรเด็ดขาดหรือเชิงคุณภาพ

เพียงเพื่อชี้แจงเมื่อฉันหมายถึงสถิติสรุปฉันหมายถึงช่วงค่าเฉลี่ย, ควอไทล์มัธยฐาน, ความแปรปรวน, ส่วนเบี่ยงเบนมาตรฐาน เมื่อทำการสรุป univariate ซึ่งเป็นหมวดหมู่หรือเชิงคุณภาพเมื่อพิจารณาทั้งกรณีที่มีชื่อและลำดับก็ทำให้รู้สึกถึงการหาค่าเฉลี่ยมัธยฐานช่วงควอไทล์ความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานหรือไม่ ถ้าเป็นเช่นนั้นจะแตกต่างจากถ้าคุณสรุปตัวแปรต่อเนื่องและอย่างไร

18 categorical-data descriptive-statistics

2

การตรวจจับความผิดปกติพร้อมคุณสมบัติหลอกตา

TL; DR เป็นวิธีที่แนะนำให้จัดการกับอะไร discreteข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? เป็นวิธีที่แนะนำให้จัดการกับอะไร categoricalข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? คำตอบนี้แนะนำให้ใช้ข้อมูลแบบไม่ต่อเนื่องเพื่อกรองผลลัพธ์ อาจแทนที่ค่าหมวดหมู่ด้วยโอกาสในการสังเกต Intro นี่เป็นครั้งแรกที่ฉันโพสต์ที่นี่ดังนั้นโปรดหากมีสิ่งใดที่ดูเหมือนว่าไม่ถูกต้องทางเทคนิคไม่ว่าจะเป็นการจัดรูปแบบหรือการใช้คำจำกัดความที่ถูกต้องฉันสนใจที่จะรู้ว่าควรใช้สิ่งใดแทน ต่อมา เมื่อเร็ว ๆ นี้ฉันได้เป็นส่วนหนึ่งของการเรียนรู้ของMachine Learningโดย Andrew Ng สำหรับการตรวจจับความผิดปกติเราได้รับการสอนให้พิจารณาว่าพารามิเตอร์การกระจายแบบปกติ / แบบเกาส์เซียนคืออะไรสำหรับคุณสมบัติ / ตัวแปรที่กำหนดภายในชุดข้อมูลจากนั้นพิจารณาความน่าจะเป็นของชุดการฝึกอบรม / ตัวอย่างการสังเกต การกระจายแบบเกาส์จากนั้นนำผลคูณของความน่าจะเป็นของฟีเจอร์xixi{x_i} วิธี เลือกมี / ตัวแปรที่เราคิดว่าอธิบายกิจกรรมในคำถาม: { x 1 , x 2 , ... , x ฉัน }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} พอดีกับพารามิเตอร์ของ Gaussian สำหรับแต่ละคุณลักษณะ: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

1

จะทดสอบนัยสำคัญทางสถิติสำหรับตัวแปรเด็ดขาดในการถดถอยเชิงเส้นอย่างไร

หากในการถดถอยเชิงเส้นฉันมีตัวแปรเด็ดขาด ... ฉันจะทราบความหมาย stastical ของตัวแปรเด็ดขาดได้อย่างไร สมมุติว่าปัจจัยมี 10 ระดับ ... จะมีค่า t ผลลัพธ์ที่ต่างกัน 10 ค่าภายใต้ตัวแปรปัจจัยเดียว ...X1X1X_1X1X1X_1 ดูเหมือนว่าสำหรับฉันแล้วสถิตินัยได้รับการทดสอบสำหรับตัวแปรระดับแต่ละระดับแล้วหรือยัง? ไม่มี? @Macro: ทำตามคำแนะนำของคุณฉันได้สร้างตัวอย่างต่อไปนี้: ดูเหมือนว่า x3 มีประโยชน์และต้องรวมอยู่ในโมเดลจากการเปรียบเทียบโมเดลด้านล่าง แต่จริงๆแล้วมันผิด ... n=100 x1=1:n x2=(1:n)^2 x3=rnorm(n) ee=rnorm(n) y=3*x1-2*x2+x3+3+ee lm1=lm(y~x1+x2+x3) summary(lm1) lm2=lm(y~x1+x2) summary(lm2) anova(lm1, lm2) > anova(lm1, lm2) Analysis of Variance Table Model 1: y ~ x1 + x2 …

18 regression statistical-significance categorical-data

3

การสร้างตัวแยกประเภทมัลติคลาสดีกว่าไบนารีหลายตัวหรือไม่?

ฉันต้องการจัดหมวดหมู่ URL เป็นหมวดหมู่ สมมติว่าฉันมี 15 หมวดหมู่ที่ฉันวางแผนจะลดศูนย์ทุก URL ลงให้ ตัวจําแนกแบบ 15 ทางดีกว่าหรือไม่ ที่ฉันมี 15 ป้ายกำกับและสร้างคุณสมบัติสำหรับแต่ละจุดข้อมูล หรือการสร้างตัวแยกประเภทไบนารี 15 ตัวบอกว่า: ภาพยนตร์หรือไม่ใช่ภาพยนตร์และใช้ตัวเลขที่ฉันได้รับจากการจำแนกประเภทเหล่านี้เพื่อสร้างอันดับเพื่อเลือกหมวดหมู่ที่ดีที่สุด

18 machine-learning classification categorical-data svm feature-selection

1

วิธีการรักษาผู้ทำนายตามหมวดหมู่ใน LASSO

ฉันใช้ LASSO ที่มีตัวแปลตัวแปรเด็ดขาดและตัวต่อเนื่องบางตัว ฉันมีคำถามเกี่ยวกับตัวแปรเด็ดขาด ขั้นตอนแรกที่ฉันเข้าใจคือการแบ่งพวกเขาแต่ละคนออกเป็นหุ่นจำลองพวกเขาให้เป็นมาตรฐานสำหรับการลงโทษที่เป็นธรรมจากนั้นถอยกลับ มีหลายตัวเลือกสำหรับจัดการกับตัวแปรจำลอง: รวมถึงหุ่นทั้งหมดยกเว้นหุ่นตัวใดตัวหนึ่งสำหรับแต่ละปัจจัยโดยปล่อยให้สิ่งนั้นอยู่ในระดับอ้างอิง การตีความสัมประสิทธิ์ดัมมี่นั้นสัมพันธ์กับหมวดหมู่ "อ้างอิง" ที่ยกเว้น ขณะนี้การสกัดกั้นเป็นการตอบสนองเฉลี่ยสำหรับหมวดหมู่อ้างอิง จัดกลุ่มตัวแปรในแต่ละปัจจัยดังนั้นพวกมันจึงถูกยกเว้นหรือรวมอยู่ด้วย ฉันเชื่อว่านั่นคือสิ่งที่ @Glen_b กำลังแนะนำที่นี่ : โดยปกติแล้วคุณเก็บปัจจัยทั้งหมดไว้ด้วยกัน มีแพ็คเกจ R หลายที่สามารถทำได้รวมถึง glmnet รวมทุกระดับตามที่แนะนำโดย @Andrew M ที่นี่ : คุณอาจต้องการเปลี่ยนฟังก์ชั่นคอนทราสต์เริ่มต้นซึ่งโดยปกติแล้วจะแยกระดับหนึ่งของแต่ละปัจจัยออกมา แต่เนื่องจากการลงโทษด้วยเชือกทำให้ไม่จำเป็นต้องระบุตัวตนอีกต่อไปและในความเป็นจริงแล้วการตีความตัวแปรที่เลือกมีความซับซ้อนมากขึ้น เมื่อต้องการทำสิ่งนี้ให้ตั้งค่า contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) ตอนนี้ไม่ว่าคุณจะเลือกระดับของปัจจัยใดคุณสามารถคิดว่ามันเป็นการเสนอแนะว่าระดับเฉพาะเหล่านี้มีความสำคัญเมื่อเทียบกับระดับที่ข้ามไปทั้งหมด ในการเรียนรู้ของเครื่องฉันได้เห็นการเข้ารหัสนี้เรียกว่าการเข้ารหัสแบบร้อนแรง คำถาม: การตีความของการสกัดกั้นและค่าสัมประสิทธิ์ภายใต้วิธีการเหล่านี้แต่ละวิธีคืออะไร? สิ่งที่ต้องพิจารณาในการเลือกหนึ่งในนั้นคืออะไร? เราไม่ได้ปรับค่าสัมประสิทธิ์ dummy แล้วตีความว่าเป็นการเปลี่ยนจากไปเป็น on …

17 categorical-data regression-coefficients lasso intercept categorical-encoding

2

การเข้ารหัสตัวแปรเชิงคุณภาพในการถดถอยนำไปสู่“ ภาวะเอกฐาน”

ฉันมีตัวแปรอิสระที่เรียกว่า "คุณภาพ" ตัวแปรนี้มีการตอบสนอง 3 แบบ (คุณภาพไม่ดีคุณภาพปานกลาง; คุณภาพสูง) ฉันต้องการแนะนำตัวแปรอิสระนี้ในการถดถอยเชิงเส้นหลายครั้งของฉัน เมื่อฉันมีตัวแปรไบนารีอิสระ (ตัวแปรดัมมี่ฉันสามารถโค้ด0/ 1) มันเป็นเรื่องง่ายที่จะแนะนำมันในรูปแบบการถดถอยเชิงเส้นหลายแบบ แต่ด้วยการตอบสนอง 3 แบบฉันได้ลองใช้รหัสตัวแปรนี้ดังนี้ Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 แต่มีปัญหาเมื่อฉันพยายามทำการถดถอยเชิงเส้นหลายครั้ง: วิธีการMedium qualityให้ฉันNA: Coefficients: (1 not defined because of singularities) ฉันจะเขียนโค้ด "คุณภาพ" ตัวแปรนี้ด้วย 3 แบบได้อย่างไร ฉันต้องสร้างตัวแปรเป็นปัจจัย ( …

17 r regression categorical-data multicollinearity categorical-encoding

2

ทางเลือกในการแปลงตะแกรง / โมเสคสำหรับตารางฉุกเฉิน

ครั้งหนึ่งฉันเคยเจอพล็อตประเภทหนึ่งสำหรับข้อมูลเชิงหมวดหมู่ (เช่นตารางฉุกเฉิน) บนอินเทอร์เน็ตซึ่งฉันชอบจริง ๆ แต่ฉันไม่เคยพบมันอีกเลยและไม่รู้ด้วยซ้ำว่าเป็นชื่ออะไร มันเป็นเหมือนพล็อตตะแกรงโดยที่ความสูงของแถวและความกว้างของคอลัมน์นั้นถูกปรับสัดส่วนเมื่อเทียบกับความน่าจะเป็นที่ขอบ ดังนั้นแต่ละกล่องจะถูกปรับสัดส่วนให้สอดคล้องกับความถี่สัมพัทธ์ที่คาดหวังภายใต้ความเป็นอิสระ อย่างไรก็ตามมันแตกต่างจากพล็อตตะแกรงในที่นั้นแทนที่จะพล็อตการฟักข้ามในแต่ละกล่องมันพล็อตจุด (เช่นใน scatterplot) ที่ตำแหน่งสุ่มเลือกจากชุด bivariate สำหรับการสังเกตแต่ละครั้ง ด้วยวิธีนี้ความหนาแน่นของคะแนนจะแสดงให้เห็นว่าการนับที่สังเกตได้นั้นตรงกับจำนวนที่คาดหวังมากเพียงใด นั่นคือถ้าความหนาแน่นมีความคล้ายคลึงกันในทุกช่องโมเดลแบบ null นั้นสมเหตุสมผล ) อาจไม่น่าเป็นไปได้มากนักภายใต้โมเดลว่าง เนื่องจากมีการพล็อตจุดแทนการฟักไข่จึงมีความสอดคล้องและเข้าใจง่ายระหว่างองค์ประกอบการวางแผนและการนับที่สังเกตซึ่งไม่จำเป็นต้องเป็นจริงสำหรับแปลงตะแกรง (ดูด้านล่าง) ยิ่งไปกว่านั้นการวางตำแหน่งของคะแนนแบบสุ่มให้ความรู้สึก 'อินทรีย์' นอกจากนี้สีสามารถใช้เพื่อเน้นกล่อง / เซลล์ที่แตกต่างอย่างมากจากตัวแบบ null และพล็อตเมทริกซ์สามารถใช้เพื่อตรวจสอบความสัมพันธ์แบบคู่ระหว่างตัวแปรต่าง ๆ มากมายดังนั้นจึงสามารถรวมข้อดีของพล็อตที่คล้ายกัน ฉัน, Jผม,Ji,j ไม่มีใครรู้ว่าพล็อตนี้เรียกว่าอะไร? มีแพ็คเกจ / ฟังก์ชั่นที่จะทำสิ่งนี้ได้อย่างง่ายดายใน R หรือซอฟต์แวร์อื่น ๆ (เช่น Mondrian)? ฉันไม่สามารถหาอะไรเช่นนั้นในซีดี แน่นอนว่ามันยากที่จะเขียนโค้ดตั้งแต่เริ่มต้น แต่นั่นอาจเป็นความเจ็บปวด นี่เป็นตัวอย่างง่ายๆของพล็อตตะแกรงสังเกตว่ามันง่ายที่จะเห็นว่าจำนวนนับที่คาดไว้สำหรับหมวดหมู่ที่แตกต่างกันควรเล่นในรูปแบบ null แต่ยากที่จะกระทบยอดฟักข้ามกับตัวเลขจริงทำให้พล็อตที่ไม่ใช่ค่อนข้างง่ายต่อการอ่านและน่ารังเกียจ: B ~B A …

17 r data-visualization categorical-data

2

ความสำคัญของคุณลักษณะด้วยตัวแปรจำลอง

ฉันพยายามที่จะเข้าใจว่าฉันจะได้รับคุณลักษณะที่สำคัญของตัวแปรเด็ดขาดที่ถูกแบ่งย่อยเป็นตัวแปรจำลอง ฉันใช้ scikit เรียนรู้ซึ่งไม่ได้จัดการตัวแปรเด็ดขาดสำหรับคุณวิธี R หรือ h2o ถ้าฉันแบ่งตัวแปรเด็ดขาดลงเป็นตัวแปรดัมมี่ฉันจะได้รับคุณลักษณะที่แยกต่างหากต่อคลาสในตัวแปรนั้น คำถามของฉันคือมันเหมาะสมหรือไม่ที่จะรวมตัวกันของตัวแปรดัมมีความสำคัญเป็นค่าที่สำคัญสำหรับตัวแปรเด็ดขาดโดยการรวมเข้าด้วยกัน? จากหน้า 368 ขององค์ประกอบของการเรียนรู้ทางสถิติ: ความสำคัญของความสัมพันธ์กำลังสองของตัวแปรคือผลรวมของการปรับปรุงยกกำลังสองดังกล่าวสำหรับโหนดภายในทั้งหมดที่ถูกเลือกให้เป็นตัวแปรการแยกXℓXℓX_{ℓ} สิ่งนี้ทำให้ฉันคิดว่าเนื่องจากค่าความสำคัญถูกสร้างขึ้นแล้วโดยการรวมตัวชี้วัดที่แต่ละโหนดที่เลือกตัวแปรฉันควรจะสามารถรวมค่าความสำคัญของตัวแปรของตัวแปรจำลองเพื่อ "กู้คืน" ความสำคัญสำหรับตัวแปรหมวดหมู่ แน่นอนฉันไม่คาดหวังว่ามันจะถูกต้อง แต่ค่าเหล่านี้เป็นค่าที่แน่นอนจริง ๆ อยู่แล้วตั้งแต่พวกเขาพบผ่านกระบวนการสุ่ม ฉันได้เขียนโค้ดไพ ธ อนต่อไปนี้ (เป็นภาษาจูปีเตอร์) เป็นการสอบสวน: import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib import animation, rc from sklearn.datasets import load_diabetes from sklearn.ensemble import RandomForestClassifier …

17 categorical-data random-forest interpretation importance

คำถามติดแท็ก categorical-data