สถิติและข้อมูลขนาดใหญ่ categorical-encoding

4

สิ่งที่ว่าคือความคมชัดเมทริกซ์ (คำที่เกี่ยวข้องกับการวิเคราะห์ทำนายเด็ดขาดเป็นพิเศษ) และวิธีการว่าจะตรงกันข้ามเมทริกซ์ที่ระบุ? คือคอลัมน์คืออะไรแถวคืออะไรข้อ จำกัด ของเมทริกซ์นั้นคืออะไรและจำนวนในคอลัมน์jและแถวiหมายถึงอะไร ฉันพยายามตรวจสอบเอกสารและเว็บ แต่ดูเหมือนว่าทุกคนใช้มัน แต่ก็ไม่มีการต่อต้านใด ๆ ฉันสามารถย้อนกลับ - วิศวกรความคมชัดที่กำหนดไว้ล่วงหน้าที่มีอยู่ แต่ฉันคิดว่าคำนิยามควรจะใช้ได้โดยไม่ว่า > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 …

46 regression categorical-data definition contrasts categorical-encoding

7

เหตุใดจึงมีการเข้ารหัสรหัสเพศ 0/1 แทนที่จะเป็น 1/2

ฉันเข้าใจตรรกะของการเข้ารหัสสำหรับการวิเคราะห์ข้อมูล คำถามของฉันด้านล่างเป็นการใช้รหัสเฉพาะ มีเหตุผลใดที่รหัสเพศมักจะเป็น 0 สำหรับผู้หญิงและ 1 สำหรับผู้ชาย? ทำไมการเข้ารหัสนี้จึงถือเป็น 'มาตรฐาน' เปรียบเทียบสิ่งนี้กับหญิง = 1 และชาย = 2 มีปัญหากับการเข้ารหัสนี้หรือไม่?

25 data-transformation binary-data categorical-encoding units

3

ทำไมเราต้องเปลี่ยนตัวแปรหมวดหมู่ของหลอกตา

ฉันไม่แน่ใจว่าทำไมเราต้องจำลองตัวแปรโค้ดหลอกตา ตัวอย่างเช่นถ้าฉันมีตัวแปรเด็ดขาดที่มีค่าที่เป็นไปได้สี่ค่า 0,1,2,3 ฉันสามารถแทนที่ด้วยสองมิติ ถ้าตัวแปรมีค่า 0 มันจะมี 0,0 ในสองมิติถ้ามันมี 3 มันจะมี 1,1 ในสองมิติเป็นต้น ฉันไม่แน่ใจว่าทำไมเราต้องทำเช่นนี้?

22 categorical-data categorical-encoding

1

ปล่อยคอลัมน์ใดคอลัมน์หนึ่งเมื่อใช้การเข้ารหัสแบบร้อนแรง

ความเข้าใจของฉันคือในการเรียนรู้ของเครื่องมันอาจเป็นปัญหาหากชุดข้อมูลของคุณมีคุณสมบัติที่มีความสัมพันธ์สูงเนื่องจากจะเข้ารหัสข้อมูลเดียวกันได้อย่างมีประสิทธิภาพ เมื่อเร็ว ๆ นี้มีคนบางคนชี้ให้เห็นว่าเมื่อคุณทำการเข้ารหัสแบบร้อนแรงบนตัวแปรเด็ดขาดคุณจะต้องจบลงด้วยฟีเจอร์ที่สัมพันธ์กันดังนั้นคุณควรวางหนึ่งในนั้นเป็น "อ้างอิง" ตัวอย่างเช่นการเข้ารหัสเพศเป็นตัวแปรสองตัวis_maleและis_femaleสร้างคุณสมบัติสองอย่างที่มีความสัมพันธ์เชิงลบอย่างสมบูรณ์ดังนั้นพวกเขาจึงแนะนำให้ใช้เพียงหนึ่งตัวตั้งค่าพื้นฐานให้พูดว่าเป็นเพศชายได้อย่างมีประสิทธิภาพแล้วดูว่าคอลัมน์ is_female มีความสำคัญ . นั่นทำให้รู้สึกถึงฉัน แต่ฉันไม่ได้พบอะไรออนไลน์เพื่อแนะนำนี้อาจเป็นกรณีดังนั้นผิดหรือฉันขาดอะไรบางอย่าง? เป็นไปได้ (ยังไม่ได้รับคำตอบ) ซ้ำซ้อน: การเชื่อมโยงกันของคุณสมบัติที่เข้ารหัสร้อนแรงมีความสำคัญสำหรับ SVM และ LogReg หรือไม่

22 regression machine-learning categorical-data discrete-data categorical-encoding

3

เมื่อใดที่ควรใช้การถดถอยแบบหลายครั้งพร้อมการเข้ารหัสแบบดัมมี่กับ ANCOVA

เมื่อเร็ว ๆ นี้ฉันวิเคราะห์การทดสอบที่จัดการกับตัวแปรเด็ดขาด 2 อันและอีกหนึ่งตัวแปรต่อเนื่องโดยใช้ ANCOVA อย่างไรก็ตามผู้ตรวจทานแนะนำว่าการถดถอยหลายครั้งด้วยตัวแปรเด็ดขาดที่เข้ารหัสเป็นตัวแปรดัมมี่เป็นการทดสอบที่เหมาะสมกว่าสำหรับการทดสอบด้วยตัวแปรเด็ดขาดและต่อเนื่อง เมื่อใดจึงจะเหมาะสมที่จะใช้ ANCOVA กับการถดถอยหลายครั้งพร้อมตัวแปรจำลองและฉันควรพิจารณาปัจจัยใดบ้างในการเลือกระหว่างการทดสอบทั้งสอง ขอขอบคุณ.

20 regression multiple-regression ancova categorical-encoding

2

ความสำคัญของตัวพยากรณ์เชิงหมวดหมู่ในการถดถอยโลจิสติกส์

ฉันมีปัญหาในการตีความค่า z สำหรับตัวแปรเด็ดขาดในการถดถอยโลจิสติก ในตัวอย่างด้านล่างฉันมีตัวแปรเด็ดขาดที่มี 3 คลาสและตามค่า z CLASS2 อาจมีความเกี่ยวข้องในขณะที่คนอื่นไม่ได้ แต่ตอนนี้สิ่งนี้หมายความว่าอย่างไร ฉันจะรวมคลาสอื่น ๆ เข้าด้วยกันได้หรือไม่ ตัวแปรทั้งหมดอาจไม่ใช่ตัวทำนายที่ดีใช่มั้ย นี่เป็นเพียงตัวอย่างและค่า z ที่แท้จริงที่นี่ไม่ได้มาจากปัญหาจริงฉันแค่มีปัญหาเกี่ยวกับการตีความของพวกเขา Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

19 r logistic categorical-data feature-selection categorical-encoding

5

วิธีการ Recode ตัวแปรเด็ดขาดเป็นตัวแปรตัวเลขเมื่อใช้ SVM หรือ Neural Network

หากต้องการใช้ SVM หรือ Neural Network จะต้องแปลง (เข้ารหัส) ตัวแปรหมวดหมู่เป็นตัวแปรตัวเลขวิธีปกติในกรณีนี้คือใช้ค่าไบนารี 0-1 กับค่าหมวดหมู่ k-th ที่แปลงเป็น (0,0, .. ., 1,0, ... 0) (1 อยู่ในตำแหน่ง k-th) มีวิธีการอื่นในการทำเช่นนี้หรือไม่โดยเฉพาะอย่างยิ่งเมื่อมีค่าหมวดหมู่จำนวนมาก (เช่น 100,000) เช่นนั้นการเป็นตัวแทน 0-1 จะแนะนำมิติเพิ่มเติมเพิ่มเติมจำนวนมาก (อินพุตยูนิต) ใน Neural Network ซึ่งไม่ต้องการหรือคาดหวัง ? ฉันถามเกี่ยวกับกลยุทธ์ทั่วไป

19 machine-learning neural-networks categorical-data svm categorical-encoding

1

วิธีการรักษาผู้ทำนายตามหมวดหมู่ใน LASSO

ฉันใช้ LASSO ที่มีตัวแปลตัวแปรเด็ดขาดและตัวต่อเนื่องบางตัว ฉันมีคำถามเกี่ยวกับตัวแปรเด็ดขาด ขั้นตอนแรกที่ฉันเข้าใจคือการแบ่งพวกเขาแต่ละคนออกเป็นหุ่นจำลองพวกเขาให้เป็นมาตรฐานสำหรับการลงโทษที่เป็นธรรมจากนั้นถอยกลับ มีหลายตัวเลือกสำหรับจัดการกับตัวแปรจำลอง: รวมถึงหุ่นทั้งหมดยกเว้นหุ่นตัวใดตัวหนึ่งสำหรับแต่ละปัจจัยโดยปล่อยให้สิ่งนั้นอยู่ในระดับอ้างอิง การตีความสัมประสิทธิ์ดัมมี่นั้นสัมพันธ์กับหมวดหมู่ "อ้างอิง" ที่ยกเว้น ขณะนี้การสกัดกั้นเป็นการตอบสนองเฉลี่ยสำหรับหมวดหมู่อ้างอิง จัดกลุ่มตัวแปรในแต่ละปัจจัยดังนั้นพวกมันจึงถูกยกเว้นหรือรวมอยู่ด้วย ฉันเชื่อว่านั่นคือสิ่งที่ @Glen_b กำลังแนะนำที่นี่ : โดยปกติแล้วคุณเก็บปัจจัยทั้งหมดไว้ด้วยกัน มีแพ็คเกจ R หลายที่สามารถทำได้รวมถึง glmnet รวมทุกระดับตามที่แนะนำโดย @Andrew M ที่นี่ : คุณอาจต้องการเปลี่ยนฟังก์ชั่นคอนทราสต์เริ่มต้นซึ่งโดยปกติแล้วจะแยกระดับหนึ่งของแต่ละปัจจัยออกมา แต่เนื่องจากการลงโทษด้วยเชือกทำให้ไม่จำเป็นต้องระบุตัวตนอีกต่อไปและในความเป็นจริงแล้วการตีความตัวแปรที่เลือกมีความซับซ้อนมากขึ้น เมื่อต้องการทำสิ่งนี้ให้ตั้งค่า contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) ตอนนี้ไม่ว่าคุณจะเลือกระดับของปัจจัยใดคุณสามารถคิดว่ามันเป็นการเสนอแนะว่าระดับเฉพาะเหล่านี้มีความสำคัญเมื่อเทียบกับระดับที่ข้ามไปทั้งหมด ในการเรียนรู้ของเครื่องฉันได้เห็นการเข้ารหัสนี้เรียกว่าการเข้ารหัสแบบร้อนแรง คำถาม: การตีความของการสกัดกั้นและค่าสัมประสิทธิ์ภายใต้วิธีการเหล่านี้แต่ละวิธีคืออะไร? สิ่งที่ต้องพิจารณาในการเลือกหนึ่งในนั้นคืออะไร? เราไม่ได้ปรับค่าสัมประสิทธิ์ dummy แล้วตีความว่าเป็นการเปลี่ยนจากไปเป็น on …

17 categorical-data regression-coefficients lasso intercept categorical-encoding

2

การเข้ารหัสตัวแปรเชิงคุณภาพในการถดถอยนำไปสู่“ ภาวะเอกฐาน”

ฉันมีตัวแปรอิสระที่เรียกว่า "คุณภาพ" ตัวแปรนี้มีการตอบสนอง 3 แบบ (คุณภาพไม่ดีคุณภาพปานกลาง; คุณภาพสูง) ฉันต้องการแนะนำตัวแปรอิสระนี้ในการถดถอยเชิงเส้นหลายครั้งของฉัน เมื่อฉันมีตัวแปรไบนารีอิสระ (ตัวแปรดัมมี่ฉันสามารถโค้ด0/ 1) มันเป็นเรื่องง่ายที่จะแนะนำมันในรูปแบบการถดถอยเชิงเส้นหลายแบบ แต่ด้วยการตอบสนอง 3 แบบฉันได้ลองใช้รหัสตัวแปรนี้ดังนี้ Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 แต่มีปัญหาเมื่อฉันพยายามทำการถดถอยเชิงเส้นหลายครั้ง: วิธีการMedium qualityให้ฉันNA: Coefficients: (1 not defined because of singularities) ฉันจะเขียนโค้ด "คุณภาพ" ตัวแปรนี้ด้วย 3 แบบได้อย่างไร ฉันต้องสร้างตัวแปรเป็นปัจจัย ( …

17 r regression categorical-data multicollinearity categorical-encoding

2

“ ตัวแปรดัมมี่” กับ“ ตัวแปรตัวบ่งชี้” สำหรับข้อมูลเล็กน้อย / หมวดหมู่

"ตัวแปร Dummy" และ "ตัวแปรตัวบ่งชี้"เป็นคำที่ใช้บ่อยในการติดป้ายกำกับเพื่ออธิบายความเป็นสมาชิกในหมวดหมู่ที่มีการเข้ารหัส 0/1; โดยปกติ 0: ไม่ใช่สมาชิกของหมวดหมู่ 1: สมาชิกของหมวดหมู่ เมื่อวันที่ 11/26/2014 การค้นหาอย่างรวดเร็วบน scholar.google.com (พร้อมเครื่องหมายคำพูด) จะแสดง "ตัวแปรจำลอง" ในบทความประมาณ 318,000 รายการและใช้ "ตัวแปรตัวบ่งชี้" ในบทความประมาณ 112,000 รายการ คำว่า "ตัวแปรดัมมี่" มีความหมายในคณิตศาสตร์ที่ไม่ใช่เชิงสถิติของ " ตัวแปรที่ผูกมัด " ซึ่งมีแนวโน้มที่จะเอื้อต่อการใช้ "ตัวแปรจำลอง" ในบทความที่จัดทำดัชนีมากขึ้น คำถามที่เชื่อมโยงตามหัวข้อของฉัน: คำเหล่านี้มีความหมายเหมือนกันเสมอหรือไม่ (ภายในสถิติ) คำใดคำหนึ่งเหล่านี้เคยใช้กับการเข้ารหัสเด็ดขาดในรูปแบบอื่น ๆ (เช่นเอฟเฟ็กต์โค้ด , การเข้ารหัสเฮลเมอร์ ฯลฯ ) หรือไม่? เหตุผลทางสถิติหรือทางวินัยมีอะไรที่จะชอบหนึ่งคำมากกว่าที่อื่น?

15 categorical-data terminology categorical-encoding

2

จะทำการถดถอยด้วยเอฟเฟ็กต์โค้ดแทนที่จะใช้การจำลองแบบ dummy ใน R ได้อย่างไร

ขณะนี้ฉันกำลังทำงานกับตัวแบบการถดถอยที่ฉันมีตัวแปรเด็ดขาด / ตัวประกอบเป็นตัวแปรอิสระเท่านั้น ตัวแปรตามของฉันคืออัตราส่วนการแปลง logit มันค่อนข้างง่ายเพียงเรียกใช้การถดถอยปกติใน R เนื่องจาก R รู้วิธีการกำหนดรหัสโดยอัตโนมัติทันทีที่พวกมันอยู่ในประเภท "factor" อย่างไรก็ตามการเข้ารหัสประเภทนี้ก็หมายความว่าหนึ่งประเภทจากแต่ละตัวแปรนั้นถูกใช้เป็นพื้นฐานทำให้ยากต่อการตีความ อาจารย์ของฉันบอกให้ฉันใช้เอฟเฟ็กต์โค้ดแทน (-1 หรือ 1) เพราะนี่หมายถึงการใช้ความหมายที่ยิ่งใหญ่สำหรับการสกัดกั้น ไม่มีใครรู้วิธีจัดการกับสิ่งนั้น? จนถึงตอนนี้ฉันได้ลอง: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + …

15 r regression categorical-data categorical-encoding

1

การเขียนโค้ดประเภทใดบ้างที่มีให้สำหรับตัวแปรเด็ดขาด (ใน R) และคุณจะใช้เมื่อใด

หากคุณพอดีกับโมเดลเชิงเส้นหรือโมเดลผสมมีโค้ดหลายชนิดที่พร้อมใช้งานในการแปลง varibale หมวดหมู่หรือชื่อเป็นตัวแปรจำนวนหนึ่งที่มีการประมาณพารามิเตอร์เช่นพารามิเตอร์จำลอง (การกำหนดค่าเริ่มต้น R) และเอฟเฟกต์การเข้ารหัส ฉันได้ยินมาว่าเอฟเฟกต์การเขียนโค้ด (บางครั้งเรียกว่าการเบี่ยงเบนหรือการเข้ารหัสความคมชัด) เป็นที่ต้องการเมื่อคุณมีปฏิสัมพันธ์ แต่อะไรคือความแตกต่างที่เป็นไปได้และคุณจะใช้ความคมชัดประเภทใด บริบทเป็นแบบผสมในการใช้ R lme4แต่ฉันคิดว่าการตอบสนองในวงกว้างนั้นใช้ได้ ขออภัยถ้าฉันพลาดคำถามที่คล้ายกัน แก้ไข: ลิงก์ที่มีประโยชน์สองลิงก์คือ: เอฟเฟ็กต์การเข้ารหัสและการจำลองดัมมี่อธิบาย

14 regression mixed-model categorical-data contrasts categorical-encoding

2

ทำความเข้าใจกับการสร้างตัวแปรจำลอง (แบบแมนนวลหรือแบบอัตโนมัติ) ใน GLM

หากมีการใช้ตัวแปรปัจจัย (เช่นเพศที่มีระดับ M และ F) ในสูตร glm จะมีการสร้างตัวแปรจำลองและสามารถพบได้ในสรุปแบบจำลอง glm พร้อมกับค่าสัมประสิทธิ์ที่เกี่ยวข้อง (เช่น genderM) หากแทนที่จะอาศัย R เพื่อแยกปัจจัยด้วยวิธีนี้ปัจจัยจะถูกเข้ารหัสในชุดของตัวแปรตัวเลข 0/1 (เช่น genderM (1 สำหรับ M, 0 สำหรับ F), genderF (1 สำหรับ F, 0 สำหรับ M) และใช้ตัวแปรเหล่านี้เป็นตัวแปรตัวเลขในสูตร glm ผลลัพธ์สัมประสิทธิ์จะแตกต่างกันหรือไม่? โดยทั่วไปคำถามคือ: R ใช้การคำนวณสัมประสิทธิ์ที่แตกต่างกันเมื่อทำงานกับตัวแปรปัจจัยเทียบกับตัวแปรตัวเลขหรือไม่ คำถามติดตามผล (อาจตอบโดยข้างต้น): นอกจากประสิทธิภาพของการปล่อยให้ R สร้างตัวแปรจำลองแล้วยังมีปัญหากับปัจจัยการเข้ารหัสซ้ำเป็นชุดของตัวแปรตัวเลข 0,1 และใช้ในรูปแบบแทนหรือไม่?

13 r generalized-linear-model categorical-data categorical-encoding

3

ขั้นตอนวิธีใดที่ต้องใช้การเข้ารหัสแบบร้อนแรง

ฉันไม่เคยแน่ใจว่าจะใช้การเข้ารหัสแบบร้อนแรงหนึ่งครั้งสำหรับตัวแปรเด็ดขาดที่ไม่มีการเรียงลำดับและเมื่อใด ฉันใช้ทุกครั้งที่อัลกอริทึมใช้การวัดระยะทางเพื่อคำนวณความคล้ายคลึงกัน ทุกคนสามารถให้กฎทั่วไปเกี่ยวกับประเภทของอัลกอริทึมที่ต้องใช้คุณลักษณะที่ไม่มีการจัดประเภทเพื่อเข้ารหัสแบบร้อนแรงและแบบใดที่จะไม่

12 machine-learning categorical-data categorical-encoding data-preprocessing

2

การถดถอยจะขึ้นอยู่กับวันของสัปดาห์

ฉันต้องการความช่วยเหลือเล็กน้อยเพื่อไปในทิศทางที่ถูกต้อง เป็นเวลานานแล้วที่ฉันได้ศึกษาสถิติและดูเหมือนว่าศัพท์แสงจะเปลี่ยนไป ลองนึกภาพว่าฉันมีชุดข้อมูลที่เกี่ยวข้องกับรถยนต์เช่น เวลาเดินทางจากเมือง A ถึงเมือง B ระยะทางจากเมือง A ถึงเมือง B ขนาดเครื่องยนต์ ขนาดรองเท้าของคนขับ ยี่ห้อและรุ่นของรถ วันของสัปดาห์ ฉันต้องการที่จะทำนายเวลาการเดินทาง ฉันคิดว่ามันมีความสัมพันธ์ที่แน่นแฟ้นระหว่างเวลาและระยะทางและอาจเป็นเรื่องที่อ่อนแอกว่าสำหรับขนาดเครื่องยนต์ (และไม่มีขนาดรองเท้า) การวิเคราะห์การถดถอยพหุคูณ / ANOVA น่าจะเป็นเครื่องมือที่ใช้ แต่ฉันจะรวมวันในสัปดาห์ได้อย่างไรเนื่องจากเพิ่งเขียนโค้ดเป็นวันอาทิตย์ = 1 วันจันทร์ = 2 ฯลฯ รู้สึกผิดอย่างมาก การใช้เครื่องมือการถดถอยของ Excel เช่นฉันจะตีความผลลัพธ์ได้อย่างไร สันนิษฐานว่าถ้า R ใกล้เคียงกับ 1 ถือว่าดี แต่บางแหล่งข้อมูลอ้างถึง r-squared ซึ่งน่าจะเป็น SD ดังนั้นค่าใกล้เคียงกับศูนย์จึงเป็นสิ่งที่ดี นอกจากนี้ยังแสดง t Stat, P-value, F และ Significance …

11 regression categorical-data categorical-encoding

คำถามติดแท็ก categorical-encoding