กำลังทำการทดสอบทางสถิติหลังจากแสดงข้อมูลเป็นภาพ - การขุดลอกข้อมูลหรือไม่


31

ฉันจะเสนอคำถามนี้โดยใช้ตัวอย่าง

สมมติว่าฉันมีชุดข้อมูลเช่นชุดข้อมูลราคาบ้านบอสตันซึ่งฉันมีตัวแปรแบบต่อเนื่องและหมวดหมู่ ที่นี่เรามีตัวแปร "คุณภาพ" ตั้งแต่ 1 ถึง 10 และราคาขาย ฉันสามารถแยกข้อมูลออกเป็นบ้านคุณภาพ "ต่ำ", "ปานกลาง" และ "สูง" โดย (โดยพลการ) สร้างการตัดเพื่อคุณภาพ จากนั้นใช้การจัดกลุ่มเหล่านี้ฉันสามารถพล็อตฮิสโตแกรมของราคาขายต่อกันได้ ชอบมาก

คุณภาพบ้านและราคาขาย

ที่นี่ "ต่ำ" คือและ "สูง" คือในคะแนน "คุณภาพ" ตอนนี้เรามีการกระจายของราคาขายสำหรับแต่ละกลุ่ม เป็นที่ชัดเจนว่ามีความแตกต่างในศูนย์กลางของที่ตั้งสำหรับบ้านขนาดกลางและคุณภาพสูง ตอนนี้เมื่อทำสิ่งนี้ทั้งหมดเสร็จฉันคิดว่า "หืมดูเหมือนว่าจะมีความแตกต่างในจุดศูนย์กลางของที่ตั้ง! จากนั้นฉันได้รับค่า p ที่ดูเหมือนว่าจะปฏิเสธสมมติฐานว่างที่ถูกต้องว่าไม่มีความแตกต่างในค่าเฉลี่ย3>7

ทีนี้สมมติว่าฉันไม่มีอะไรในใจที่จะทดสอบสมมติฐานนี้จนกว่าฉันจะพล็อตข้อมูล

ข้อมูลนี้ขุดลอกหรือไม่

มันยังคงเป็นข้อมูลที่ขุดขึ้นมาหรือไม่ถ้าฉันคิดว่า: "หืมฉันว่าบ้านคุณภาพสูงราคาแพงกว่าเพราะฉันเป็นมนุษย์ที่เคยอาศัยอยู่ในบ้านก่อนหน้านี้ฉันจะลงจุดข้อมูลอาฮ่า! เพื่อทดสอบ t! "

ตามธรรมชาติแล้วมันไม่ใช่การขุดลอกข้อมูลถ้าชุดข้อมูลถูกเก็บรวบรวมด้วยความตั้งใจที่จะทดสอบสมมติฐานนี้จากการเดินทาง แต่บ่อยครั้งที่เราต้องทำงานกับชุดข้อมูลที่เรามอบให้และบอกให้ "มองหารูปแบบ" บางคนหลีกเลี่ยงการขุดข้อมูลด้วยงานที่คลุมเครือในใจ สร้างชุดค้างไว้สำหรับการทดสอบข้อมูลหรือไม่ การสร้างภาพข้อมูล "นับ" เป็นการสอดแนมโอกาสที่จะทดสอบสมมติฐานที่เสนอโดยข้อมูลหรือไม่

คำตอบ:


27

ไม่เห็นด้วยสั้น ๆ กับ / ให้ความแตกต่างกับคำตอบของ @ ingolifs: ใช่การแสดงข้อมูลของคุณเป็นสิ่งจำเป็น แต่การแสดงก่อนที่จะตัดสินใจนำไปสู่การวิเคราะห์คุณเข้าสู่ Gelman และ Loken ของสวนของเส้นทางฟอร์ก สิ่งนี้ไม่เหมือนกับการขุดลอกข้อมูลหรือการแฮ็คข้อมูลส่วนหนึ่งผ่านเจตนา (โดยปกติแล้ว GoFP จะมีความหมายดี) และส่วนหนึ่งเป็นเพราะคุณอาจไม่ทำการวิเคราะห์มากกว่าหนึ่งครั้ง แต่มันเป็นรูปแบบของการสอดแนม: เนื่องจากการวิเคราะห์ของคุณขึ้นอยู่กับข้อมูลจึงสามารถนำคุณไปสู่ข้อสรุปที่ผิดพลาดหรือไม่มั่นใจได้

คุณควรกำหนดสิ่งที่การวิเคราะห์ที่คุณต้องการ (เช่น "บ้านคุณภาพสูงควรมีราคาสูงกว่า") และเขียนมันลง (หรือลงทะเบียนล่วงหน้าอย่างเป็นทางการ) ก่อนที่จะดูข้อมูลของคุณ (สามารถดูตัวแปรตัวทำนายของคุณได้ล่วงหน้าเพียงไม่ตอบสนองตัวแปร (s) แต่ถ้าคุณจริงๆไม่มีเบื้องต้นคิดแล้วคุณไม่ได้รู้ว่าตัวแปรที่อาจจะมีการพยากรณ์และที่อาจจะมีการตอบสนอง); หากข้อมูลของคุณแนะนำการวิเคราะห์ที่แตกต่างหรือเพิ่มเติมการเขียนของคุณสามารถระบุได้ทั้งในสิ่งที่คุณตั้งใจจะทำในตอนแรกและสิ่งที่ (และสาเหตุ) ที่คุณทำ

หากคุณทำการสำรวจอย่างแท้จริง (เช่นคุณไม่มีสมมติฐานมาก่อนคุณเพียงต้องการดูว่ามีอะไรอยู่ในข้อมูล):

  • ความคิดของคุณเกี่ยวกับการถือตัวอย่างเพื่อการยืนยันนั้นดี
    • ในโลกของฉัน (ฉันไม่ได้ทำงานกับชุดข้อมูลขนาดใหญ่) การสูญเสียความละเอียดเนื่องจากมีขนาดตัวอย่างที่ต่ำกว่าจะทำให้เจ็บปวด
    • คุณจำเป็นต้องใช้ความระมัดระวังในการเลือกตัวอย่างของคุณหากข้อมูลของคุณถูกจัดโครงสร้างในทางใดทางหนึ่ง (ทางภูมิศาสตร์อนุกรมเวลา ฯลฯ ฯลฯ ) การรวบรวมข้อมูลราวกับว่าข้อมูลนั้นนำไปสู่ความมั่นใจมากเกินไป (ดู Wenger และ Olden Method ใน Ecology and Evolution 2012) ดังนั้นคุณอาจต้องการเลือกหน่วยทางภูมิศาสตร์ที่จะจัดการ (ดูวิธี DJ Harris ใน Ecology และ Evolution 2015)
  • คุณสามารถยอมรับว่าคุณกำลังสำรวจอย่างหมดจด เป็นการดีที่คุณจะหลีกเลี่ยงค่า p ทั้งหมดในกรณีนี้ แต่อย่างน้อยก็บอกผู้ชมของคุณว่าคุณกำลังหลงทางใน GoFP ช่วยให้พวกเขารู้ว่าพวกเขาสามารถรับค่า p ด้วยเกลือเม็ดมหึมา

การอ้างอิงที่ฉันโปรดปรานสำหรับ "วิธีปฏิบัติทางสถิติอย่างปลอดภัย" คือกลยุทธ์การสร้างแบบจำลองการถดถอยของ Harrell (สปริงเกอร์); เขาวางแนวทางปฏิบัติที่ดีที่สุดสำหรับการอนุมานกับการทำนายและการสำรวจในวิธีที่เข้มงวด แต่ใช้งานได้จริง


4
ใส่ได้ดีมาก! ฉันคาดว่าจะส่งต่อผู้คนไปยังคำตอบนี้ในอนาคต
Great38 38

การตอบสนองที่ฉันกำลังมองหาขอบคุณ ฉันให้เครดิตคำตอบนี้เป็นคำตอบ คุณรู้จักแหล่งข้อมูลที่สอนวิธีปฏิบัติทางสถิติอย่างปลอดภัยหรือไม่? อาจจะกว้างขึ้นเล็กน้อยกว่าบทความ (ยอดเยี่ยม) ที่คุณโพสต์
Marcel

คำตอบที่ดี (+1) แต่ฉันไม่เห็นด้วยว่านี่เป็นสิ่งที่แตกต่างจากการขุดลอกข้อมูล ความตั้งใจไม่เกี่ยวข้อง - ผลเหมือนกัน
Reinstate Monica

ฉันคิดว่ามันคุ้มค่าที่จะรักษาความแตกต่างระหว่างการสอดแนมในรูปแบบที่แตกต่างกัน การขุดลอกมีความรุนแรงมากกว่าเนื่องจากเกี่ยวข้องกับ (1) การทดสอบที่ชัดเจนมากกว่าการทดสอบโดยนัยหลายรายการและ (2) การทดสอบตามเงื่อนไข / ต่อเนื่องจนกระทั่ง p <0.05 (หรืออะไรก็ตาม) ผลกระทบเชิงคุณภาพแน่นอนเหมือนกัน
Ben Bolker

11

การแสดงข้อมูลเป็นส่วนที่ขาดไม่ได้ของการวิเคราะห์และเป็นหนึ่งในสิ่งแรกที่คุณควรทำกับชุดข้อมูลที่ไม่คุ้นเคย ดวงตาอย่างรวดเร็วของข้อมูลสามารถแจ้งขั้นตอนการดำเนินการต่อไป ที่จริงแล้วมันควรจะค่อนข้างชัดเจนโดยดูจากกราฟว่าค่าเฉลี่ยนั้นแตกต่างกันและฉันไม่แน่ใจว่าทำไมการทดสอบแบบ T จึงจำเป็นต้องยืนยันสิ่งนี้ - ค่าเฉลี่ยถูกแยกออกอย่างเพียงพอว่ากราฟนั้นเป็นหลักฐานที่ฉันต้องการทั้งหมด จำเป็นต้อง.

การขุดลอกข้อมูลเท่าที่ฉันสามารถบอกได้จาก wikipedia-ing อย่างรวดเร็วเป็นกระบวนการพิจารณาโดยรอบที่มีข้อมูลเพื่อบังคับให้มีระดับที่เหมาะสม ตัวอย่างจะ: การเปรียบเทียบชุดข้อมูลกับตัวเลขสุ่มบางตัว แต่สร้างตัวเลขสุ่มใหม่จนกว่าคุณจะได้ชุดที่น่าพอใจหรือทดลองใช้รูปแบบการถดถอยที่แตกต่างกันจำนวนมากและเลือกหมายเลขที่ดีที่สุดโดยไม่คำนึงว่า สมมติฐานมีความเหมาะสม การขุดลอกข้อมูลดูเหมือนจะไม่ใช่สิ่งที่คุณสามารถทำได้โดยไม่ตั้งใจR2

ฉันคิดว่ามีคำถามเชิงลึกในที่นี้แม้ว่า คุณรักษาความเป็นกลางเหมือนเซนและหลีกเลี่ยงอคติเมื่อจัดการกับข้อมูลด้วยวิธีการทางวิทยาศาสตร์ได้อย่างไร คำตอบคือคุณทำไม่ได้ หรือคุณไม่จำเป็นต้อง การสร้างลางสังหรณ์และสมมุติฐานและการสร้างการเล่าเรื่องจิตใจในสิ่งที่ข้อมูลหมายถึงเป็นธรรมชาติที่สมบูรณ์และเป็นที่ยอมรับหากคุณทราบว่าคุณกำลังทำเช่นนั้นและพร้อมที่จะพิจารณาสมมติฐานเหล่านี้เมื่อเผชิญกับข้อมูลที่ขัดแย้งกัน


7
การแสดงข้อมูลก่อนเรียกใช้การทดสอบอาจไม่เป็นอันตรายในกรณีนี้ อย่างไรก็ตามอีกคนหนึ่งจะมองเห็นมิติอื่น ... และอีกหนึ่ง ... และมองไปที่ scatterplots ... และอีกไม่นานพอจะพบสิ่งที่ดูเหมือน "ชัดเจนเพียงพอ" เพื่อให้การทดสอบอย่างเป็นทางการและการบรรยายเกิดขึ้นตามธรรมชาติ โอ้ใช่การขุดข้อมูลเป็นสิ่งที่คุณสามารถทำได้โดยไม่ตั้งใจ ดูGelman ของ "การ์เด้นฟอร์กเส้นทาง"
S. Kolassa - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.