ไม่มีเหตุผลที่จะดูผลลัพธ์ทั้งหมดของดาต้าเฟรมขนาดใหญ่ การดูหรือจัดการกับไฟล์ข้อมูลขนาดใหญ่จะใช้ทรัพยากรคอมพิวเตอร์ของคุณจำนวนมากโดยไม่จำเป็น
สิ่งที่คุณกำลังทำสามารถทำได้ในขนาดเล็ก มันทำงานได้ง่ายกว่าในการเขียนโค้ดและจัดการข้อมูลเมื่อเฟรมข้อมูลมีขนาดเล็ก วิธีที่ดีที่สุดในการทำงานกับข้อมูลขนาดใหญ่คือการสร้างกรอบข้อมูลใหม่ที่ใช้เพียงส่วนเล็ก ๆ หรือตัวอย่างเล็ก ๆ ของกรอบข้อมูลขนาดใหญ่ จากนั้นคุณสามารถสำรวจข้อมูลและทำการเข้ารหัสบนเฟรมข้อมูลที่เล็กลง เมื่อคุณสำรวจข้อมูลและทำให้รหัสของคุณใช้งานได้ให้ใช้โค้ดนั้นในกรอบข้อมูลที่ใหญ่ขึ้น
วิธีที่ง่ายที่สุดคือการใช้ n แรกจำนวนแถวแรกจากกรอบข้อมูลโดยใช้ฟังก์ชัน head () ฟังก์ชั่นส่วนหัวพิมพ์เพียง n จำนวนแถว คุณสามารถสร้างกรอบข้อมูลขนาดเล็กได้โดยใช้ฟังก์ชั่นส่วนหัวบนกรอบข้อมูลขนาดใหญ่ ด้านล่างฉันเลือกที่จะเลือก 50 แถวแรกและส่งผ่านค่าไปยัง small_df สิ่งนี้ถือว่า BigData เป็นไฟล์ข้อมูลที่มาจากไลบรารีที่คุณเปิดสำหรับโครงการนี้
library(namedPackage)
df <- data.frame(BigData) # Assign big data to df
small_df <- head(df, 50) # Assign the first 50 rows to small_df
สิ่งนี้จะได้ผลเกือบตลอดเวลา แต่บางครั้งกรอบข้อมูลขนาดใหญ่จะมาพร้อมกับตัวแปรที่กำหนดไว้ล่วงหน้า หากข้อมูลขนาดใหญ่เป็นเช่นนี้คุณจะต้องสุ่มตัวอย่างแถวจากข้อมูลขนาดใหญ่ จากนั้นใช้รหัสที่ตามมา:
df <- data.frame(BigData)
set.seed(1016) # set your own seed
df_small <- df[sample(nrow(df),replace=F,size=.03*nrow(df)),] # samples 3% rows
df_small # much smaller df