การรับรู้กิจกรรมของมนุษย์โดยใช้ปัญหาชุดข้อมูลสมาร์ทโฟน


9

ฉันยังใหม่ต่อชุมชนนี้และหวังว่าคำถามของฉันจะเข้ากันได้ดีกับที่นี่ เป็นส่วนหนึ่งของหลักสูตรการวิเคราะห์ข้อมูลระดับปริญญาตรีของฉันฉันเลือกทำโครงการเกี่ยวกับการจดจำกิจกรรมมนุษย์โดยใช้ชุดข้อมูลสมาร์ทโฟน เท่าที่ฉันกังวลหัวข้อนี้เกี่ยวข้องกับการเรียนรู้ของเครื่องและการสนับสนุนเครื่อง Vector ฉันยังไม่คุ้นเคยกับเทคโนโลยีนี้ดังนั้นฉันจะต้องการความช่วยเหลือ

ฉันตัดสินใจที่จะติดตามแนวคิดโครงการนี้ที่http://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.html (โครงการแรกที่อยู่ด้านบน) เป้าหมายของโครงการคือการกำหนดว่ากิจกรรมของบุคคลคืออะไร มีส่วนร่วมใน (เช่นการเดิน, การเดิน, การเดิน, การนั่ง, การยืน, การวาง) จากข้อมูลที่บันทึกโดยสมาร์ทโฟน (Samsung Galaxy S II) ที่เอวของตัวแบบ เมื่อใช้ accelerometer และไจโรสโคปแบบฝังตัวข้อมูลจะรวมการเร่งเชิงเส้น 3 แกนและความเร็วเชิงมุม 3 แกนที่อัตราคงที่ 50Hz

ชุดข้อมูลทั้งหมดจะได้รับในโฟลเดอร์เดียวที่มีคำอธิบายและป้ายกำกับคุณสมบัติ ข้อมูลจะถูกแบ่งออกสำหรับไฟล์ 'ทดสอบ' และ 'รถไฟ' ซึ่งข้อมูลจะแสดงในรูปแบบนี้:

  2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001  7.1720847e-001  6.3550240e-001  7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001  2.4621698e-001  5.2120364e-001 -4.8779311e-001  4.8228047e-001 -4.5462113e-002  2.1195505e-001 -1.3489443e-001  1.3085848e-001 -1.4176313e-002 -1.0597085e-001  7.3544013e-002 -1.7151642e-001  4.0062978e-002  7.6988933e-002 -4.9054573e-001 -7.0900265e-001

และนี่เป็นเพียงตัวอย่างเล็ก ๆ ของไฟล์ที่มี

ฉันไม่รู้จริงๆว่าข้อมูลนี้หมายถึงอะไรและสามารถตีความได้อย่างไร นอกจากนี้สำหรับการวิเคราะห์การจำแนกและการจัดกลุ่มของข้อมูลฉันจะต้องใช้เครื่องมือใด มีวิธีใดบ้างที่ฉันสามารถใส่ข้อมูลนี้ลงใน excel ด้วยการรวมเลเบลและตัวอย่างเช่นใช้ R หรือ python เพื่อแยกข้อมูลตัวอย่างและทำงานกับสิ่งนี้?

คำแนะนำ / เคล็ดลับใด ๆ ที่จะได้รับการชื่นชมมาก

คำตอบ:


8

คำจำกัดความชุดข้อมูลอยู่ในหน้านี่:

ข้อมูลคุณสมบัติที่ด้านล่าง

หรือคุณสามารถดูไฟล์ ZIP ที่ชื่อว่า activity_labels ในโฟลเดอร์ ZIP ซึ่งมีส่วนหัวของคอลัมน์อยู่ด้านในตรวจสอบให้แน่ใจว่าคุณอ่าน README อย่างละเอียดมีข้อมูลที่ดีอยู่ในนั้น คุณสามารถนำ.csvไฟล์ใน R โดยใช้read.csvคำสั่งได้อย่างง่ายดาย

ตัวอย่างเช่นถ้าคุณตั้งชื่อไฟล์samsungdataคุณสามารถเปิด R และรันคำสั่งนี้:

data <- read.csv("directory/where/file/is/located/samsungdata.csv", header = TRUE)

หรือถ้าคุณอยู่ในไดเรกทอรีการทำงานใน R คุณก็สามารถเรียกใช้สิ่งต่อไปนี้

data <- read.csv("samsungdata.csv", header = TRUE)

ตำแหน่งที่dataสามารถเปลี่ยนเป็นสิ่งที่คุณต้องการเรียกชุดข้อมูลของคุณ


ฉันเห็น. ฉันศึกษาไฟล์ README แล้ว แต่ฉันยังไม่สามารถเข้าใจได้ว่าข้อมูลนั้นสามารถอ่านได้ด้วยตัวเองอย่างไร ตัวอย่างเช่น train / X_train.txt'file แสดงชุดการฝึกอบรม (ข้อมูลตัวอย่างที่ฉันแสดงในโพสต์มาจากไฟล์นี้)
Jakubee

สำหรับฉันดูเหมือนว่าชุดข้อมูลจะค่อนข้างกว้างมี 561 ตัวแปรต่อแถวซึ่งแสดงอยู่ภายในไฟล์ features.txt ฉันเชื่อว่าเป็นสิ่งที่คุณพูดถึง
MCP_infiltrator

ดังนั้นตัวแปรแต่ละตัวจากไฟล์ 'คุณสมบัติ' จึงสอดคล้องกับแต่ละคอลัมน์ในไฟล์ 'x-test.txt' หรือว่าฉันผิด
Jakubee

นั่นคือวิธีที่ฉันใช้มัน จากสิ่งที่ฉันสามารถรวบรวมได้จาก README นั่นคือสิ่งที่ไฟล์มี
MCP_infiltrator

@Jakubee ใช่ มี 561 แถว / ชื่อตัวแปรในfeatures.txtไฟล์และคอลัมน์ 561 ในX_train.txtไฟล์หนึ่งชื่อสำหรับแต่ละตัวแปร
Marco13

5

ดูเหมือนว่าชุดนี้ (หรือชุดข้อมูลที่คล้ายกันมาก) จะใช้สำหรับหลักสูตร Coursera การล้างชุดข้อมูลนี้เป็นภารกิจสำหรับการรับและทำความสะอาดข้อมูลแต่ยังใช้สำหรับกรณีศึกษาสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจด้วย วิดีโอจากกรณีศึกษานี้มีให้ในวิดีโอสำหรับสัปดาห์ที่ 4 ของหลักสูตร EDA มันอาจช่วยคุณเริ่มต้นด้วยข้อมูลนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.