สถิติและข้อมูลขนาดใหญ่ data-cleaning

4

กำลังล้างข้อมูลของรูปแบบที่ไม่สอดคล้องใน R หรือไม่

ฉันมักจะจัดการกับข้อมูลการสำรวจที่ยุ่งเหยิงซึ่งต้องมีการทำความสะอาดมากก่อนที่จะสามารถทำสถิติใด ๆ ได้ ฉันเคยทำสิ่งนี้ "ด้วยตนเอง" ใน Excel บางครั้งใช้สูตร Excel และบางครั้งก็ตรวจสอบรายการทีละรายการ ฉันเริ่มทำงานเหล่านี้มากขึ้นเรื่อย ๆ โดยการเขียนสคริปต์เพื่อทำใน R ซึ่งมีประโยชน์มาก (ผลประโยชน์รวมถึงการบันทึกสิ่งที่ทำไปแล้วมีโอกาสผิดพลาดน้อยลงและสามารถนำรหัสมาใช้ใหม่ได้หากชุดข้อมูลเป็น ปรับปรุง) แต่ยังมีข้อมูลบางประเภทที่ฉันมีปัญหาในการจัดการอย่างมีประสิทธิภาพ ตัวอย่างเช่น: > d <- data.frame(subject = c(1,2,3,4,5,6,7,8,9,10,11), + hours.per.day = c("1", "2 hours", "2 hr", "2hr", "3 hrs", "1-2", "15 min", "30 mins", "a few hours", "1 hr 30 min", "1 hr/week")) …

16 r data-cleaning

1

สุดยอดการขจัดข้อมูลซ้ำซ้อน

วิธีการขจัดข้อมูลซ้ำซ้อนในบันทึกมีอะไรบ้าง? การคัดลอกซ้ำบางครั้งเรียกอีกอย่างว่า: การเชื่อมโยงเรคคอร์ด, การแก้ไขเอนทิตี, การแก้ไขเอกลักษณ์, ผสาน / ล้าง ฉันรู้ตัวอย่างเกี่ยวกับ CBLOCK [1] ฉันจะขอบคุณถ้าคำตอบรวมถึงการอ้างอิงถึงซอฟต์แวร์ที่มีอยู่ในการใช้วิธีการ ฉันรู้ว่าตัวอย่างที่ดำเนินการควาญช้างหลังคา-การจัดกลุ่ม นอกจากนี้ยังมีDukeที่ใช้ Lucene มีระบบการค้าซ้ำซ้อนมากมาย มันจะมีค่าที่จะรู้ว่าพวกเขาทำงานอย่างไรและมีประสิทธิภาพเพียงใด ฉันสนใจทั้งสองอย่างในการขจัดข้อมูลซ้ำซ้อนภายในชุดข้อมูลเดียวและเชื่อมโยงระหว่างชุดข้อมูลหลายชุดที่มาจากแหล่งข้อมูลที่แตกต่างกัน ประสิทธิภาพและความสามารถในการประมวลผลข้อมูลจำนวนมากก็มีความสำคัญเช่นกัน [1] CBLOCK: กลไกการบล็อกอัตโนมัติสำหรับงานซ้ำซ้อนขนาดใหญ่

13 clustering data-cleaning record-linkage

3

วิธีที่ดีที่สุดในการปรับรูปร่าง / ปรับโครงสร้างข้อมูลคืออะไร

ฉันเป็นผู้ช่วยวิจัยสำหรับห้องแล็บ (อาสาสมัคร) ฉันและกลุ่มย่อยได้รับมอบหมายให้ทำการวิเคราะห์ข้อมูลสำหรับชุดข้อมูลที่ดึงมาจากการศึกษาขนาดใหญ่ น่าเสียดายที่ข้อมูลถูกรวบรวมด้วยแอปออนไลน์บางประเภทและไม่มีการตั้งโปรแกรมให้ส่งออกข้อมูลในรูปแบบที่ใช้งานได้มากที่สุด รูปภาพด้านล่างแสดงถึงปัญหาพื้นฐาน ฉันบอกว่านี่เรียกว่า "Reshape" หรือ "Restructure" คำถาม: กระบวนการที่ดีที่สุดสำหรับการเปลี่ยนจากรูปภาพ 1 เป็นรูปภาพ 2 พร้อมชุดข้อมูลขนาดใหญ่ที่มีรายการมากกว่า 10k คืออะไร

12 r excel data-cleaning

3

ล้างข้อมูลอัตโนมัติ

ปัญหาที่พบบ่อยคือ ML เป็นข้อมูลที่มีคุณภาพไม่ดี: ข้อผิดพลาดในค่าคุณลักษณะ, อินสแตนซ์ที่ผิดประเภท ฯลฯ ฯลฯ วิธีหนึ่งในการจัดการปัญหานี้คือการตรวจสอบข้อมูลด้วยตนเอง แต่มีเทคนิคอื่นหรือไม่? (ฉันเดิมพันมี!) อันไหนดีกว่าและทำไม?

10 data-cleaning

2

การสร้างข้อมูล“ ตัวอย่าง” จากข้อมูลจริง: ปลอมตัวโดยไม่ทำให้เสียโฉม

(ฉันไม่มีความคิดที่แท้จริงว่าจะติดแท็กสิ่งนี้กับอะไรเพราะฉันไม่ใช่นักสถิติและฉันไม่ทราบว่าฟิลด์นี้ตรงกับอะไรรู้สึกฟรีเพื่อเพิ่มแท็กที่เหมาะสมยิ่งขึ้น) ฉันทำงานให้กับ บริษัท ที่ผลิตซอฟต์แวร์วิเคราะห์ข้อมูลและเราต้องการชุดข้อมูลที่เหมาะสมเพื่อทดสอบและสาธิตผลิตภัณฑ์ล่าสุดของเราด้วย เราไม่สามารถเติมเต็มฐานข้อมูลด้วยผลลัพธ์ของตัวสร้างตัวเลขสุ่มได้เนื่องจากผลลัพธ์ของโปรแกรมจะกลายเป็นเรื่องไร้สาระ วิธีที่ง่ายที่สุดวิธีหนึ่งในการรับข้อมูลดังกล่าวมาจากไคลเอนต์ เรามีข้อมูลจำนวนมากจากการทดลองที่เราวิ่ง ตอนนี้เห็นได้ชัดว่าเราไม่สามารถเผยแพร่ข้อมูลจริงของลูกค้าได้ดังนั้นเราจึงจำเป็นต้องแก้ไขข้อมูลเล็กน้อย แต่เรายังต้องการให้มันทำงานเหมือนข้อมูลจริง จุดมุ่งหมายที่นี่คือการใช้ชุดข้อมูลของพวกเขาและใช้ "fuzz" กับมันเพื่อที่จะไม่สามารถจดจำได้ว่าเป็นของพวกเขาโดยเฉพาะ ความทรงจำเกี่ยวกับทฤษฎีทางสถิติของฉันนั้นค่อนข้างคลุมเครือดังนั้นฉันอยากจะเรียกใช้สิ่งนี้โดยพวกคุณ: โดยพื้นฐานแล้วข้อมูลที่เรามี (จากลูกค้า) เป็นตัวอย่างของข้อมูลทั้งหมดที่มีอยู่ (ในประเทศหรือโลก) สิ่งที่ฉันอยากรู้คือประเภทของการดำเนินการที่สามารถนำมาใช้เพื่อทำให้ตัวอย่างไม่ได้เป็นตัวแทนของกลุ่มตัวอย่างของลูกค้าอีกต่อไปในขณะที่ยังคงเป็นตัวแทนของประชากรโลกอย่างคร่าวๆ สำหรับการอ้างอิงเท่าที่เราทราบว่าข้อมูลที่เรามีติดตามการแจกแจงแบบคร่าวๆปกติ (เกาส์) ชุดข้อมูลดั้งเดิมไม่สามารถใช้งานได้อย่างกว้างขวาง แต่อาจได้รับการยอมรับในทางทฤษฎีจากลักษณะเฉพาะบางภูมิภาค (เราไม่ทราบว่าคุณลักษณะเหล่านั้นคืออะไรและเป็นที่น่าสงสัยว่าใครก็ตามสามารถทำได้ในระดับที่เพียงพอ แต่เรารู้ว่า ไปยังสถานที่) อย่างไรก็ตามฉันสนใจทฤษฎีนี้มากกว่าการฝึกฝน - ฉันต้องการทราบว่าการดำเนินการทำให้เป็นไปไม่ได้ (หรืออย่างน้อยก็ยาก) เพื่อระบุชุดข้อมูลต้นฉบับโดยพารามิเตอร์ X ไม่ว่าใครจะมีหรือไม่สามารถทำงานได้ พารามิเตอร์ X ในสถานที่แรก วิธีที่ฉันคิดขึ้นมาก็คือการแยกการอ่านออกเป็นประเภทต่าง ๆ (โดยไม่ให้มากไปสมมติว่ากลุ่มอาจเป็น "ความยาว" หรือ "เวลาที่ใช้ในการทำ X") สำหรับแต่ละคนคำนวณ ส่วนเบี่ยงเบนมาตรฐาน. จากนั้นให้เพิ่มค่าสุ่มระหว่างค่าบวกและลบของ (n * stddev) โดยที่ n …

9 data-cleaning

คำถามติดแท็ก data-cleaning