11
อ่านตารางที่มีขนาดใหญ่มากอย่างรวดเร็วเป็น dataframes
ฉันมีตารางขนาดใหญ่มาก (30 ล้านแถว) ที่ฉันต้องการโหลดเนื่องจาก dataframes ในอาร์ read.table()มีคุณสมบัติที่สะดวกมากมาย แต่ดูเหมือนว่ามีเหตุผลมากมายในการใช้งานที่จะทำให้สิ่งต่าง ๆ ช้าลง ในกรณีของฉันฉันสมมติว่าฉันรู้ชนิดของคอลัมน์ล่วงหน้าตารางไม่ได้มีส่วนหัวคอลัมน์หรือชื่อแถวและไม่มีตัวละครทางพยาธิวิทยาใด ๆ ที่ฉันต้องกังวล ฉันรู้ว่าการอ่านตารางเป็นรายการที่ใช้scan()สามารถทำได้ค่อนข้างเร็วเช่น: datalist <- scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0))) แต่บางส่วนของความพยายามของฉันในการแปลงไฟล์นี้เป็น dataframe ดูเหมือนว่าจะลดประสิทธิภาพการทำงานของข้างต้นด้วยปัจจัย 6: df <- as.data.frame(scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0)))) มีวิธีที่ดีกว่าในการทำเช่นนี้? หรืออาจเป็นแนวทางที่แตกต่างอย่างสิ้นเชิงกับปัญหา