วิธีการแปลงข้อมูลเด็ดขาดเป็นข้อมูลตัวเลขใน Pyspark
ฉันกำลังใช้สมุดบันทึก Ipython เพื่อทำงานกับแอปพลิเคชัน pyspark ฉันมีไฟล์ CSV ที่มีคอลัมน์หมวดหมู่มากมายเพื่อพิจารณาว่ารายได้อยู่ในช่วงหรือมากกว่า 50k ฉันต้องการดำเนินการอัลกอริทึมการจำแนกโดยใช้อินพุตทั้งหมดเพื่อกำหนดช่วงรายได้ ฉันต้องสร้างพจนานุกรมของตัวแปรเพื่อทำแผนที่ตัวแปรและใช้ฟังก์ชั่นแผนที่เพื่อแมปตัวแปรกับตัวเลขสำหรับการประมวลผล โดยพื้นฐานแล้วฉันต้องการให้ชุดข้อมูลของฉันอยู่ในรูปแบบตัวเลขเพื่อให้ฉันสามารถใช้งานโมเดลได้ ในชุดข้อมูลมีคอลัมน์หมวดหมู่เช่นการศึกษาสถานภาพการทำงาน ฯลฯ มีคนบอกวิธีแปลงเป็นคอลัมน์ตัวเลขใน pyspark ได้ไหม workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ฉันสร้างพจนานุกรมตัวอย่างพร้อมคู่ค่าคีย์สำหรับคลาสงาน แต่ฉันไม่รู้วิธีใช้สิ่งนี้ในฟังก์ชั่นแผนที่และแทนที่ข้อมูลหมวดหมู่ในไฟล์ CSV ด้วยค่าที่สอดคล้องกัน wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) …