แนวทางการค้นหาความรู้ใหม่ในข้อมูล


9

ฉันพล็อตเรื่องเพื่อชี้ให้ตัวเองหรือคนอื่น โดยปกติแล้วคำถามจะเริ่มต้นกระบวนการนี้และบ่อยครั้งที่บุคคลนั้นขอความหวังเพื่อหาคำตอบเฉพาะ

ฉันจะเรียนรู้สิ่งที่น่าสนใจเกี่ยวกับข้อมูลในแบบที่มีอคติน้อยลงได้อย่างไร

ตอนนี้ฉันทำตามวิธีนี้อย่างคร่าวๆ:

  1. สถิติสรุป
  2. Stripchart
  3. พล็อตกระจาย
  4. อาจทำซ้ำกับชุดย่อยของข้อมูลที่น่าสนใจ

แต่นั่นดูเหมือนจะไม่เป็นระเบียบหรือเป็นวิทยาศาสตร์เพียงพอ

มีแนวทางหรือขั้นตอนการปฏิบัติตามที่เปิดเผยข้อมูลเกี่ยวกับข้อมูลที่ฉันไม่คิดว่าจะถามหรือไม่? ฉันจะรู้ได้อย่างไรว่าได้ทำการวิเคราะห์อย่างเพียงพอแล้ว

คำตอบ:


6

มีเขตข้อมูลทั้งหมดของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) และหนังสือยอดเยี่ยมเกี่ยวกับเรื่องนี้ที่เรียกว่าการวิเคราะห์ข้อมูลเชิงสำรวจโดย John W. Tukey

ฉันชอบที่คุณใช้กราฟ - มีกราฟอื่น ๆ อีกมากมายที่สามารถเป็นประโยชน์ขึ้นอยู่กับข้อมูลของคุณ - มีตัวแปรกี่ตัว? มีตัวแปรอะไรบ้าง (หมวดหมู่? ตัวเลข? ต่อเนื่อง? นับ? ลำดับ?)

กราฟหนึ่งที่มักจะมีประโยชน์สำหรับข้อมูลที่มีหลายตัวแปรคือเมทริกซ์สแคทเทอร์

คุณสามารถค้นหาค่าผิดปกติประเภทต่างๆซึ่งมักเป็นจุดที่น่าสนใจ

แต่ฉันไม่คิดว่ากระบวนการทั้งหมดนี้สามารถทำได้อย่างมีระเบียบและเป็นวิทยาศาสตร์ - การสำรวจคือสิ่งที่เกิดขึ้นก่อนที่จะสามารถนำวิธีการทางวิทยาศาสตร์และระเบียบวิธีมาใช้ที่นี่ฉันคิดว่าประเด็นสำคัญคือความสนุกสนาน


(+1) คุณสามารถให้ลิงก์ไปยังหนังสือที่กล่าวถึงได้หรือไม่
steffen

EDA จากวิศวกรรมศาสตร์และสถิติคู่มือitl.nist.gov/div898/handbook/eda/eda.htm
เซลเดน

@Peter Flom 13 ตัวแปรถูกสร้างขึ้นโดยการเปรียบเทียบเอาต์พุตสองชุดที่ผลิตโดยโปรแกรมที่รันบนอินพุตสองชุด โปรแกรมทำงานเป็นระยะ ตัวแปรคือลำดับ, หมวดหมู่, หมวดหมู่, หมวดหมู่, นับ, นับ, นับ, นับ, ตัวเลข, ตัวเลข, นับและนับ ชื่อคือ id, machineA, inputA, machineB, inputB, ใหม่, เหมือนกัน, หายไป, newP, missingP, lengthA, lengthB, scoreA, scoreB แต่การตัดสินใจที่จะเปรียบเทียบเฉพาะผลลัพธ์ล่าสุดนั้นก็เป็นความคิดที่ดี / ไม่ดีเช่นกัน
เซลเดน

หนังสือเล่มนี้เรียกว่า Exploratory Data Analysis (ไม่ใช่ EDA) โดย John W. Tukey (หน่วยความจำของฉันหลอกฉันเพราะหน้าปกของรุ่นของฉันมีชื่อว่า EDA) Link: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 / …
Peter Flom

@selden ดี ID อาจไม่ใช่ตัวแปรที่มีประโยชน์ ระหว่างสองตัวแปรเด็ดขาดคุณสามารถดูโมเสคแปลง; ระหว่างเด็ดขาดและตัวเลข boxplots แบบขนานได้ดี
Peter Flom

1

หากคุณมีข้อมูลตามลำดับเวลาข้อมูลซีรีย์ iTime มี "รู้จัก" และรอการค้นพบคือ "ไม่ทราบ" ตัวอย่างเช่นถ้าคุณมีลำดับจุดข้อมูลเป็นระยะเวลา 10 ช่วงเช่น 1,9,1,9,1,5,1,9,1,9 จากนั้นขึ้นอยู่กับตัวอย่างนี้หนึ่งสามารถคาดหวังอย่างสมเหตุสมผล 1,9,1,9 , ... จะเกิดขึ้นในอนาคต การวิเคราะห์ข้อมูลเผยให้เห็นว่ามีการอ่าน "ผิดปกติ" ในช่วงเวลาที่ 6 ถึงแม้ว่ามันจะดีภายใน + -3 sigma limit บอกว่า DGF ไม่ได้ถือ การเปิดโปง Inlier / Outlier ช่วยให้เราสามารถเปิดเผยข้อมูลเกี่ยวกับข้อมูล นอกจากนี้เรายังทราบว่าค่าเฉลี่ยไม่ใช่ค่าที่คาดหวัง แนวคิดนี้ขยายไปสู่การตรวจหาค่ากะเฉลี่ยและ / หรือแนวโน้มเวลาท้องถิ่นที่อาจไม่เป็นที่รู้จักก่อนที่จะวิเคราะห์ข้อมูลได้อย่างง่ายดาย (การสร้างสมมุติฐาน) ตอนนี้เป็นไปได้ค่อนข้างมากที่การอ่าน 10 ครั้งถัดไปจะเป็น 1,9,1,9 1,5,1,9,1,9 แนะนำว่า "5" นั้นไม่จำเป็น หากเราสังเกตกระบวนการข้อผิดพลาดจากตัวแบบที่เหมาะสมซึ่งแสดงถึงความแปรปรวนแบบไม่คงที่ที่พิสูจน์ได้เราอาจจะเปิดเผยหนึ่งในสภาวะต่อไปนี้: 1) พารามิเตอร์อาจมีการเปลี่ยนแปลง ณ เวลาใดเวลาหนึ่ง; 2. อาจจำเป็นต้องมีการวิเคราะห์น้ำหนัก (GLS) 3. อาจจำเป็นต้องแปลงข้อมูลผ่านการแปลงพลังงาน 4. อาจจำเป็นต้องจำลองความแปรปรวนของข้อผิดพลาดจริง ๆ หากคุณมีการวิเคราะห์ข้อมูลรายวันที่ดีอาจเปิดเผยว่ามีหน้าต่างการตอบสนอง (นำไปสู่โครงสร้างร่วมสมัยและโครงสร้างล่าช้า) รอบ ๆ วันหยุดแต่ละวันซึ่งสะท้อนพฤติกรรมที่สอดคล้อง / คาดการณ์ได้ คุณอาจสามารถเปิดเผยได้ว่าบางวันของเดือนนั้นมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ 9 แนะนำว่า "5" ไม่จำเป็นต้องเป็นเรื่องไม่ดี หากเราสังเกตกระบวนการข้อผิดพลาดจากตัวแบบที่เหมาะสมซึ่งแสดงถึงความแปรปรวนแบบไม่คงที่ที่พิสูจน์ได้เราอาจจะเปิดเผยหนึ่งในสภาวะต่อไปนี้: 1) พารามิเตอร์อาจมีการเปลี่ยนแปลง ณ เวลาใดเวลาหนึ่ง; 2. อาจจำเป็นต้องมีการวิเคราะห์น้ำหนัก (GLS) 3. อาจจำเป็นต้องแปลงข้อมูลผ่านการแปลงพลังงาน 4. อาจจำเป็นต้องจำลองความแปรปรวนของข้อผิดพลาดจริง ๆ หากคุณมีการวิเคราะห์ข้อมูลรายวันที่ดีอาจเปิดเผยว่ามีหน้าต่างการตอบสนอง (นำไปสู่โครงสร้างร่วมสมัยและโครงสร้างล่าช้า) รอบ ๆ วันหยุดแต่ละวันซึ่งสะท้อนพฤติกรรมที่สอดคล้อง / คาดการณ์ได้ คุณอาจสามารถเปิดเผยได้ว่าบางวันของเดือนนั้นมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ 9 แนะนำว่า "5" ไม่จำเป็นต้องเป็นเรื่องไม่ดี หากเราสังเกตกระบวนการข้อผิดพลาดจากตัวแบบที่เหมาะสมซึ่งแสดงถึงความแปรปรวนแบบไม่คงที่ที่พิสูจน์ได้เราอาจจะเปิดเผยหนึ่งในสภาวะต่อไปนี้: 1) พารามิเตอร์อาจมีการเปลี่ยนแปลง ณ เวลาใดเวลาหนึ่ง; 2. อาจจำเป็นต้องมีการวิเคราะห์น้ำหนัก (GLS) 3. อาจจำเป็นต้องแปลงข้อมูลผ่านการแปลงพลังงาน 4. อาจจำเป็นต้องจำลองความแปรปรวนของข้อผิดพลาดจริง ๆ หากคุณมีการวิเคราะห์ข้อมูลรายวันที่ดีอาจเปิดเผยว่ามีหน้าต่างการตอบสนอง (นำไปสู่โครงสร้างร่วมสมัยและโครงสร้างล่าช้า) รอบ ๆ วันหยุดแต่ละวันซึ่งสะท้อนพฤติกรรมที่สอดคล้อง / คาดการณ์ได้ คุณอาจสามารถเปิดเผยได้ว่าบางวันของเดือนนั้นมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ ไม่จำเป็นต้องดูถูก หากเราสังเกตกระบวนการข้อผิดพลาดจากตัวแบบที่เหมาะสมซึ่งแสดงถึงความแปรปรวนแบบไม่คงที่ที่พิสูจน์ได้เราอาจจะเปิดเผยหนึ่งในสภาวะต่อไปนี้: 1) พารามิเตอร์อาจมีการเปลี่ยนแปลง ณ เวลาใดเวลาหนึ่ง; 2. อาจจำเป็นต้องมีการวิเคราะห์น้ำหนัก (GLS) 3. อาจจำเป็นต้องแปลงข้อมูลผ่านการแปลงพลังงาน 4. อาจจำเป็นต้องจำลองความแปรปรวนของข้อผิดพลาดจริง หากคุณมีการวิเคราะห์ข้อมูลรายวันที่ดีอาจเปิดเผยว่ามีหน้าต่างตอบสนอง (นำไปสู่ คุณอาจสามารถเปิดเผยได้ว่าบางวันของเดือนนั้นมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ ไม่จำเป็นต้องดูถูก หากเราสังเกตกระบวนการข้อผิดพลาดจากตัวแบบที่เหมาะสมซึ่งแสดงถึงความแปรปรวนแบบไม่คงที่ที่พิสูจน์ได้เราอาจจะเปิดเผยหนึ่งในสภาวะต่อไปนี้: 1) พารามิเตอร์อาจมีการเปลี่ยนแปลง ณ เวลาใดเวลาหนึ่ง; 2. อาจจำเป็นต้องมีการวิเคราะห์น้ำหนัก (GLS) 3. อาจจำเป็นต้องแปลงข้อมูลผ่านการแปลงพลังงาน 4. อาจจำเป็นต้องจำลองความแปรปรวนของข้อผิดพลาดจริง ๆ หากคุณมีการวิเคราะห์ข้อมูลรายวันที่ดีอาจเปิดเผยว่ามีหน้าต่างตอบสนอง (นำไปสู่ คุณอาจสามารถเปิดเผยได้ว่าบางวันของเดือนนั้นมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ หากเราสังเกตกระบวนการข้อผิดพลาดจากตัวแบบที่เหมาะสมซึ่งแสดงถึงความแปรปรวนแบบไม่คงที่ที่พิสูจน์ได้เราอาจจะเปิดเผยหนึ่งในสภาวะต่อไปนี้: 1) พารามิเตอร์อาจมีการเปลี่ยนแปลง ณ เวลาใดเวลาหนึ่ง; 2. อาจจำเป็นต้องมีการวิเคราะห์น้ำหนัก (GLS) 3. อาจจำเป็นต้องแปลงข้อมูลผ่านการแปลงพลังงาน 4. อาจจำเป็นต้องจำลองความแปรปรวนของข้อผิดพลาดจริง ๆ หากคุณมีการวิเคราะห์ข้อมูลรายวันที่ดีอาจเปิดเผยว่ามีหน้าต่างตอบสนอง (นำไปสู่ คุณอาจสามารถเปิดเผยได้ว่าบางวันของเดือนนั้นมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ หากเราสังเกตกระบวนการข้อผิดพลาดจากตัวแบบที่เหมาะสมซึ่งแสดงถึงความแปรปรวนแบบไม่คงที่ที่พิสูจน์ได้เราอาจจะเปิดเผยหนึ่งในสภาวะต่อไปนี้: 1) พารามิเตอร์อาจมีการเปลี่ยนแปลง ณ เวลาใดเวลาหนึ่ง; 2. อาจจำเป็นต้องมีการวิเคราะห์น้ำหนัก (GLS) 3. อาจจำเป็นต้องแปลงข้อมูลผ่านการแปลงพลังงาน 4. อาจจำเป็นต้องจำลองความแปรปรวนของข้อผิดพลาดจริง ๆ หากคุณมีการวิเคราะห์ข้อมูลรายวันที่ดีอาจเปิดเผยว่ามีหน้าต่างตอบสนอง (นำไปสู่ คุณอาจสามารถเปิดเผยได้ว่าบางวันของเดือนนั้นมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ อาจจำเป็นต้องมีการวิเคราะห์น้ำหนัก (GLS) 3. อาจจำเป็นต้องแปลงข้อมูลผ่านการแปลงพลังงาน 4. อาจจำเป็นต้องจำลองความแปรปรวนของข้อผิดพลาดจริง หากคุณมีการวิเคราะห์ข้อมูลรายวันที่ดีอาจเปิดเผยว่ามีหน้าต่างตอบสนอง (นำไปสู่ คุณอาจสามารถเปิดเผยได้ว่าบางวันของเดือนนั้นมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ อาจจำเป็นต้องมีการวิเคราะห์น้ำหนัก (GLS) 3. อาจจำเป็นต้องแปลงข้อมูลผ่านการแปลงพลังงาน 4. อาจจำเป็นต้องจำลองความแปรปรวนของข้อผิดพลาดจริง ๆ หากคุณมีการวิเคราะห์ข้อมูลที่ดีในชีวิตประจำวันอาจเปิดเผยว่ามีหน้าต่างการตอบสนอง (นำไปสู่ คุณอาจสามารถเปิดเผยว่าบางวันของเดือนมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ โครงสร้างร่วมสมัยและความล่าช้า) รอบ ๆ วันหยุดแต่ละวันจะสะท้อนพฤติกรรมที่สอดคล้อง / คาดการณ์ได้ คุณอาจสามารถเปิดเผยว่าบางวันของเดือนมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ โครงสร้างร่วมสมัยและความล่าช้า) รอบ ๆ วันหยุดแต่ละวันจะสะท้อนพฤติกรรมที่สอดคล้อง / คาดการณ์ได้ คุณอาจสามารถเปิดเผยว่าบางวันของเดือนมีผลกระทบที่สำคัญหรือวันศุกร์ก่อนวันหยุดวันจันทร์มีกิจกรรมพิเศษ


0

การจัดแบ่งข้อมูลอาจแบ่งออกเป็นสองประเภท หากคุณมีความสนใจในการวัดผลกระทบของชุดข้อมูล / ตัวแปรที่มีต่อตัวแปรเฉพาะนี่จะเป็นการเรียนรู้แบบมีผู้สอน สำหรับการเรียนรู้เชิงลึกและเชิงสำรวจโดยไม่มีจุดประสงค์คุณกำลังอยู่ระหว่างการเรียนรู้ที่ไม่มีผู้ดูแล

การวิเคราะห์กราฟและสถิติของข้อมูล (การทำความเข้าใจการแจกแจงและการได้รับสัญชาตญาณ) เป็นขั้นตอนแรก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.