ตามที่ฉันบันทึกไว้ในความคิดเห็นของฉันมีรายละเอียดไม่เพียงพอในคำถามเพื่อให้ได้คำตอบที่แท้จริง เนื่องจากคุณต้องการความช่วยเหลือแม้ในการค้นหาคำศัพท์ที่ถูกต้องและกำหนดคำถามของคุณฉันสามารถพูดโดยทั่วไปในเวลาสั้น ๆ
คำที่คุณกำลังมองหาคือการทำความสะอาดข้อมูล นี่เป็นกระบวนการของการรับข้อมูลดิบ (สกปรก) ที่จัดรูปแบบไม่ดีและทำให้เป็นรูปร่างสำหรับการวิเคราะห์ การเปลี่ยนและจัดรูปแบบปกติ ("สอง" ) และจัดระเบียบแถวและคอลัมน์ใหม่เป็นงานการล้างข้อมูลทั่วไป →2
ในบางกรณีการทำความสะอาดข้อมูลสามารถทำได้ในซอฟต์แวร์ใด ๆ และสามารถทำได้ด้วย Excel หรือด้วย R จะมีข้อดีข้อเสียของตัวเลือกทั้งสอง:
- Excel: Excel เป็นตัวเลือกที่ใช้กันทั่วไปในการล้างข้อมูล (ดู R ฟอร์จูน # 59 pdf ) มันก็ถือว่าเป็นทางเลือกที่ไม่ดีจากนักสถิติ เหตุผลหลักคือยากที่จะตรวจสอบให้แน่ใจว่าคุณได้จับทุกอย่างหรือว่าคุณปฏิบัติต่อทุกอย่างเหมือนกันและไม่มีการบันทึกการเปลี่ยนแปลงที่คุณทำดังนั้นคุณจึงไม่สามารถกลับมาเปลี่ยนแปลงได้ในภายหลัง ข้อดีของการใช้ Excel คือการดูสิ่งที่คุณกำลังทำง่ายขึ้นและคุณไม่จำเป็นต้องรู้อะไรมากมายเกี่ยวกับการเปลี่ยนแปลง (สถิติจะพิจารณาหลังเพิ่มเติมCon .)
R: R จะต้องมีการเรียนรู้ที่สูงชัน หากคุณไม่คุ้นเคยกับ R หรือการเขียนโปรแกรมสิ่งที่สามารถทำได้อย่างรวดเร็วและง่ายดายใน Excel จะทำให้คุณผิดหวังในการลองใช้ R ในทางกลับกันหากคุณต้องทำสิ่งนี้อีกครั้งการเรียนรู้จะเป็นไปได้ ใช้เวลาอย่างดี นอกจากนี้ความสามารถในการเขียนและบันทึกรหัสของคุณสำหรับการทำความสะอาดข้อมูลใน R จะช่วยลดข้อเสียที่ระบุไว้ข้างต้น ต่อไปนี้เป็นลิงค์บางส่วนที่จะช่วยคุณเริ่มต้นทำงานเหล่านี้ใน R:
คุณสามารถรับข้อมูลที่ดีมากมายจากStack Overflow :
Quick-Rยังเป็นทรัพยากรที่มีค่า:
รับตัวเลขเข้าสู่โหมดตัวเลข:
แหล่งข้อมูลอันล้ำค่าอีกประการหนึ่งสำหรับการเรียนรู้เกี่ยวกับ R คือเว็บไซต์ช่วยเหลือสถิติของ UCLA :
สุดท้ายคุณสามารถค้นหาข้อมูลจำนวนมากด้วย Google แบบเก่าที่ดี:
- การค้นหานี้: การล้างข้อมูลใน rแสดงจำนวนบทช่วยสอน (ซึ่งไม่เคยทำมาก่อน FTR)
อัปเดต:นี่เป็นปัญหาทั่วไปเกี่ยวกับโครงสร้างของชุดข้อมูลของคุณเมื่อคุณมีการวัดหลายรายการต่อ 'หน่วยการเรียนรู้' (ในกรณีของคุณ, บุคคล) หากคุณมีหนึ่งแถวสำหรับทุกคนข้อมูลของคุณจะถูกกล่าวว่าอยู่ในรูปแบบ 'กว้าง' แต่คุณจะต้องมีหลายคอลัมน์สำหรับตัวแปรตอบกลับของคุณ ในทางกลับกันคุณสามารถมีเพียงหนึ่งคอลัมน์สำหรับตัวแปรตอบกลับของคุณ (แต่มีหลายแถวต่อคนดังนั้นผลลัพธ์) ซึ่งในกรณีนี้ข้อมูลของคุณถูกกล่าวว่าอยู่ในรูปแบบ 'ยาว' การย้ายระหว่างสองรูปแบบเหล่านี้มักจะเรียกว่า 'ปรับเปลี่ยน' ข้อมูลของคุณโดยเฉพาะในโลก R
- ฟังก์ชั่น R มาตรฐานสำหรับเรื่องนี้คือ? Reshape มีคำแนะนำในการใช้
reshape()
บนเว็บไซต์ช่วยเหลือสถิติของ UCLA
- หลายคนคิด
reshape
ว่ายากที่จะทำงานด้วย Hadley Wickhamได้มีส่วนร่วมกับแพคเกจที่เรียกว่าreshape2ซึ่งมีวัตถุประสงค์เพื่อลดความซับซ้อนของกระบวนการ เว็บไซต์ส่วนตัวของ Hadley สำหรับ reshape2 อยู่ที่นี่ภาพรวม Quick-R อยู่ที่นี่และมีการสอนที่ดูดี ที่นี่
- มีคำถามมากมายเกี่ยวกับ SO เกี่ยวกับวิธีการปรับรูปร่างข้อมูลใหม่ ส่วนใหญ่เกี่ยวกับการไปจากกว้างถึงยาวเพราะนั่นคือสิ่งที่นักวิเคราะห์ข้อมูลต้องเผชิญ คำถามของคุณเกี่ยวกับการจากนานไปกว้างซึ่งไม่ค่อยพบบ่อยนัก แต่ยังมีอีกหลายกระทู้ที่เกี่ยวกับเรื่องนั้นคุณสามารถดูได้จากการค้นหานี้
- หากหัวใจของคุณตั้งอยู่บนความพยายามที่จะทำเช่นนี้กับ Excel มีเธรดเกี่ยวกับการเขียนแมโคร VBA สำหรับ Excel เพื่อทำซ้ำฟังก์ชั่นการก่อร่างใหม่ที่นี่: ละลาย / ฟื้นฟูใน Excel โดยใช้ VBA?
data.table
,dplyr
,plyr
และreshape2
- ผมขอแนะนำให้หลีกเลี่ยง Excel และตารางเดือยถ้าเป็นไปได้