หนังสือที่ดีครอบคลุมกระบวนการเตรียมข้อมูลและเทคนิคการตรวจหาค่าผิดปกติ


11

ใคร ๆ ก็รู้ว่าหนังสือทันสมัยที่ครอบคลุมข้อมูลก่อนการประมวลผลโดยทั่วไปและโดยเฉพาะอย่างยิ่งเทคนิคการตรวจหาค่าผิดปกติหรือไม่

หนังสือเล่มนี้ไม่จำเป็นต้องให้ความสำคัญกับเรื่องนั้นเป็นพิเศษ แต่ควรจัดการกับหัวข้อดังกล่าวอย่างละเอียดถี่ถ้วน - ฉันจะไม่พอใจกับสิ่งที่เป็นจุดเริ่มต้นและเสนอราคารายการเอกสารคำอธิบายเกี่ยวกับเทคนิคต่าง ๆ จะต้องปรากฏใน หนังสือตัวเอง

เทคนิคในการจัดการกับข้อมูลที่หายไปที่ต้องการ แต่ไม่จำเป็น ...


คุณสามารถบอกเราว่าคุณกำลังดูข้อมูลประเภทใด (สาขาวิทยาศาสตร์หรือเทคนิคการวัด)
cbeleites ไม่มีความสุขกับ SX

ข้อมูลที่รวบรวมจากผู้ใช้เว็บ (ไม่สามารถเจาะจงมากขึ้น) รวมเป็น timestamps (แม้ว่าข้อมูลจะไม่เกี่ยวข้องกับเวลาอย่างเคร่งครัดอย่างน้อยสังหรณ์ใจ) แอตทริบิวต์หมวดหมู่และคุณลักษณะอย่างต่อเนื่อง ค่าผิดปกติอาจเกิดจากเหตุผลมากมายรวมถึง เว็บโรบ็อตผู้ใช้ที่เป็นอันตรายและแหล่งอื่น ๆ อีกมากมาย ข้อมูลมีขนาดค่อนข้างใหญ่ (GB ในรูปแบบ CSV หลายล้านรายการ)
em70

สำหรับฉันมันเป็นเฉพาะเจาะจงมากพอ: จำเป็นต้องเจาะคุณกับ preprocessing สำหรับสารเคมีหรือสเปกโทรสโกชุดข้อมูลไม่ ...
cbeleites ไม่มีความสุขกับ SX

คำตอบ:


3

แม้ว่าโดยเฉพาะกับ Stata ฉันได้พบหนังสือของ Scott Long, Workflow ของการวิเคราะห์ข้อมูลโดยใช้ Stataซึ่งประเมินค่ามิได้ในด้านการจัดการข้อมูลและการเตรียมการ ผู้เขียนให้คำแนะนำที่เป็นประโยชน์มากมายเกี่ยวกับแนวปฏิบัติที่ดีในการจัดการข้อมูลเช่นการล้างและการเก็บถาวรข้อมูลการตรวจสอบค่าผิดปกติและการจัดการกับข้อมูลที่หายไป


2
ฉันรักหนังสือเล่มนี้เช่นกัน แต่ฉันเป็นผู้ใช้ Stata ที่ย้อมสีขนสัตว์เช่นเดียวกับการจัดการข้อมูลที่เกี่ยวข้อง ในขณะที่ฉันไม่เห็นด้วยคนอื่น ๆ ในรายการนี้ได้แย้งว่ามันมีความเฉพาะเจาะจงมากเกินไปที่จะเป็นประโยชน์ดังนั้นคำเตือน / ผู้ให้คำแนะนำ
Dimitriy V. Masterov

stata-ish มากจากสิ่งที่ฉันรวบรวมและฉันไม่คุ้นเคยกับ stata และมันจะไม่ช่วยสำหรับโครงการนี้มากถ้าฉัน (ข้อมูลมีขนาดใหญ่เกินไปใช้เทคโนโลยีที่แตกต่างกัน)
em70

หนังสือเล่มนี้มีนิสัยแปลกประหลาดมาก เทคนิคการจัดการข้อมูล (และโดยเฉพาะอย่างยิ่ง meta-data) เป็นแบบเฉพาะของ Stata แต่แนวคิดทั่วไปสามารถถ่ายโอนระหว่างแพลตฟอร์มได้ ฉันประหลาดใจที่อัตราส่วนของหนังสือ Stata ประมาณ 20 เล่ม / หนังสือ 100 R ในตลาดไม่มีหนังสือใดที่เทียบเคียงได้กับการจัดระเบียบเวิร์กโฟลว์ใน R - เป็นไปไม่ได้ใช่ไหม? จำนวนหน่วยความจำที่ใหญ่ที่สุดที่ฉันจำได้ว่าจัดสรรให้ Stata อย่างเต็มตาคือ 48Gb บนเครื่อง 64Gb - นั่นเป็นขนาดที่สำคัญหรือไม่ หากคุณต้องการจัดการกับวัตถุที่มีโครงสร้างที่แตกต่างกันอย่างรุนแรงคุณต้องทำสิ่งนี้ใน R ไม่ใช่ Stata
StasK

0

สำหรับ SAS มีรอนโคดี้เทคนิคการทำความสะอาดข้อมูลโดยใช้ SAS ซอฟแวร์ มีการพูดถึง SAS-L: "คุณไม่เคยผิดพลาดกับหนังสือของ Ron Cody"


ฉันกลัวว่า SAS ไม่ใช่เครื่องมือของตัวเลือกในการตั้งค่าของฉันและฉันไม่คุ้นเคยกับมัน นอกจากนี้ฉันกำลังมองหาวิธีการบางอย่างมากกว่าตำรา สมมติว่าฉันหลังจากสิ่งที่เพิ่มเติมในด้านคณิตศาสตร์และแบบจำลองของสิ่งต่าง ๆ
em70

0

หากคุณมีพื้นฐาน (การระบุค่าผิดพลาดค่าขาดหายไปน้ำหนักการเขียนโค้ด) ทั้งนี้ขึ้นอยู่กับหัวข้อที่มีอยู่ในวรรณคดีเชิงวิชาการที่พบได้บ่อยมากขึ้น ตัวอย่างเช่นในการวิจัยเชิงสำรวจ (ซึ่งเป็นหัวข้อที่หลายสิ่งสามารถผิดพลาดและมีแนวโน้มที่จะเกิดอคติหลายแหล่ง) มีบทความที่ดีมากมายให้ค้นพบ

เมื่อเตรียมความพร้อมสำหรับการถดถอยข้ามภาคปกติสิ่งต่าง ๆอาจมีความซับซ้อนน้อยกว่า ปัญหาอาจมีตัวอย่างเช่นคุณลบ 'ค่าผิดปกติ' มากเกินไปและทำให้รูปแบบของคุณดีขึ้น

ฉันจึงขอแนะนำให้คุณนอกจากการเรียนรู้เทคนิคที่ดีแล้วยังคำนึงถึงสามัญสำนึกด้วย ตรวจสอบให้แน่ใจว่าคุณใช้เทคนิคอย่างถูกต้องและไม่สุ่มสี่สุ่มห้า สำหรับการสนทนาซอฟต์แวร์ในคำตอบอื่น ๆ ฉันคิดว่า SPSS นั้นไม่เลวสำหรับการเตรียมข้อมูล (ฉันได้ยินสิ่งดีๆเกี่ยวกับ SAS) ขึ้นอยู่กับขนาดของชุดข้อมูลของคุณ เมนูแบบเลื่อนลงใช้งานง่ายมาก

แต่เป็นคำตอบที่ตรงกับคำถามของคุณวรรณกรรมทางวิชาการอาจจะใช่หรือไม่ใช่แหล่งข้อมูลที่ดีสำหรับการเตรียมข้อมูลของคุณขึ้นอยู่กับหัวข้อและการวิเคราะห์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.