การเขียนโปรแกรม categorical-data

วิธีบังคับให้ R ใช้ระดับปัจจัยที่ระบุเป็นข้อมูลอ้างอิงในการถดถอย

ฉันจะบอกให้ R ใช้ระดับหนึ่งเป็นข้อมูลอ้างอิงได้อย่างไรหากฉันใช้ตัวแปรอธิบายไบนารีในการถดถอย มันใช้เพียงระดับหนึ่งโดยค่าเริ่มต้น lm(x ~ y + as.factor(b)) ด้วยb {0, 1, 2, 3, 4}. สมมติว่าฉันต้องการใช้ 3 แทนศูนย์ที่ใช้โดย R

112 r regression linear-regression categorical-data dummy-variable

แปลงคอลัมน์เด็ดขาดหลายรายการ

ในชุดข้อมูลของฉันฉันมีสองคอลัมน์เด็ดขาดซึ่งฉันต้องการที่จะนับ ทั้งสองคอลัมน์มีทั้งประเทศซ้อนทับกันบางส่วน (ปรากฏในทั้งสองคอลัมน์) ฉันต้องการให้หมายเลขเดียวกันในคอลัมน์ 1 และคอลัมน์ 2 สำหรับประเทศเดียวกัน ข้อมูลของฉันดูเหมือนว่า: import pandas as pd d = {'col1': ['NL', 'BE', 'FR', 'BE'], 'col2': ['BE', 'NL', 'ES', 'ES']} df = pd.DataFrame(data=d) df ฉันกำลังแปลงข้อมูลเช่น: from sklearn.preprocessing import LabelEncoder df.apply(LabelEncoder().fit_transform) อย่างไรก็ตามสิ่งนี้ทำให้ไม่มีความแตกต่างระหว่าง FR และ ES มีวิธีง่ายๆอีกวิธีในการแสดงผลลัพธ์ต่อไปนี้? o = {'col1': [2,0,1,0], 'col2': [0,2,4,4]} output = pd.DataFrame(data=o) output

10 python python-3.x pandas scikit-learn categorical-data

คำถามติดแท็ก categorical-data