สัญชาตญาณทางสถิติ / ความรู้สึกของข้อมูล


20

ฉันเป็นนักศึกษาระดับปริญญาตรีปีที่สองเรียนวิชาคณิตศาสตร์และฉันได้พูดคุยกับอาจารย์คนหนึ่งของฉันเกี่ยวกับความแตกต่างระหว่างความสามารถทางคณิตศาสตร์และความสามารถทางสถิติ หนึ่งในความแตกต่างที่สำคัญที่เขานำมาคือ "data sense" ซึ่งเขาอธิบายว่าเป็นการรวมกันของความสามารถด้านเทคนิคในขณะที่ทำงานภายในชุดของสิ่งที่ฉันจะเรียกอย่างไม่เป็นทางการว่า "restraints สามัญสำนึก" อย่างไม่เป็นทางการ ทฤษฎีมากมาย นี่คือตัวอย่างของสิ่งที่ฉันพูดถึงซึ่งปรากฏในบล็อกของ Gowers:

ในหลายส่วนของสหราชอาณาจักรตำรวจรวบรวมสถิติเกี่ยวกับสถานที่เกิดอุบัติเหตุบนท้องถนนระบุจุดดำน้ำอุบัติเหตุวางกล้องจับความเร็วไว้ที่นั่นและรวบรวมสถิติเพิ่มเติม มีแนวโน้มที่แน่นอนสำหรับจำนวนอุบัติเหตุที่จุดดำน้ำเหล่านี้จะลดลงหลังจากที่ติดตั้งกล้องจับความเร็ว การแสดงนี้สรุปได้ว่ากล้องจับความเร็วช่วยเพิ่มความปลอดภัยทางถนนหรือไม่

บุคคลเดียวกันที่แย้งกับกลยุทธ์แบบสุ่มในเกมการเจรจาต่อรองโดยทั่วไปรู้คำตอบสำหรับคำถามนี้แล้ว เขาบอกว่าไม่เพราะถ้าคุณเลือกกรณีที่รุนแรงคุณจะคาดหวังให้กรณีเหล่านี้ลดน้อยลงหากคุณทำการทดสอบอีกครั้ง ฉันตัดสินใจที่จะดำเนินการต่อจากคำถามนี้อย่างรวดเร็วเนื่องจากไม่มีอะไรจะพูดอีกมาก แต่ฉันบอกคนอื่นเกี่ยวกับแผนการที่ฉันเคยทำซึ่งเป็นการทดลองกระแสจิตปลอม ฉันจะให้พวกเขาเดาผลลัพธ์ของการโยนเหรียญ 20 อันซึ่งฉันจะพยายามคานให้พวกเขาทางกระแสจิต ฉันจะเลือกนักแสดงที่ดีที่สุดสามคนและสามคนที่แย่ที่สุดและจะโยนเหรียญอีกครั้งคราวนี้ขอให้คนที่ดีที่สุดช่วยฉันส่งคำตอบให้คนที่แย่ที่สุด ผู้คนสามารถเห็นได้อย่างง่ายดายว่าการแสดงนั้นคาดว่าจะปรับปรุงและจะไม่มีอะไรเกี่ยวข้องกับกระแสจิต

สิ่งที่ฉันถามคือจะเรียนรู้เพิ่มเติมเกี่ยวกับ "data sense"นี้ได้อย่างไรผ่านการเผยแพร่ใด ๆ ในหัวเรื่องหากมีอยู่หรือผ่านสิ่งที่ผู้ใช้รายอื่นพบว่ามีประโยชน์ในการพัฒนาทักษะนี้ ฉันขอโทษถ้าคำถามนี้ต้องชี้แจง ถ้าเป็นเช่นนั้นกรุณาโพสต์คำถามของคุณ! ขอบคุณ


การโกหกด้วยสถิติเป็นจุดเริ่มต้นที่ดี
MånsT

The Drunkard's Walkยังวางสถิติในกรอบการทำงานที่เข้าถึงได้และเป็นสาธารณะ
Marcus Morrisey

คำตอบ:


10

ฉันจะบอกว่าเราไม่ควรคณิตศาสตร์เล็กน้อย มันเป็นเครื่องมือสำคัญในการพัฒนาทฤษฎีทางสถิติและวิธีการทางสถิติได้รับการพิสูจน์โดยทฤษฎี ทฤษฎียังบอกคุณว่ามีอะไรผิดปกติและสิ่งใดที่เทคโนโลยีอาจจะดีกว่า (เช่นมีประสิทธิภาพมากขึ้น) ดังนั้นฉันคิดว่าความรู้ทางคณิตศาสตร์และการคิดเป็นสิ่งสำคัญ (เกือบจะจำเป็น) ที่จะเป็นนักสถิติที่ดี แต่มันไม่เพียงพอแน่นอน ฉันคิดว่าหนังสือที่อ้างอิงในความคิดเห็นนั้นดี ให้ฉันให้คนอื่นบ้าง

การทำความเข้าใจข้อมูล: คู่มือปฏิบัติเพื่อการวิเคราะห์ข้อมูลเชิงสำรวจและการขุดข้อมูล

ทำให้ความรู้สึกของข้อมูลที่สอง: คู่มือปฏิบัติเพื่อการสร้างภาพข้อมูลวิธีการขุดข้อมูลขั้นสูงและการประยุกต์ใช้

การคิดเชิงสถิติ: การปรับปรุงประสิทธิภาพทางธุรกิจ

บทบาทของสถิติในธุรกิจและอุตสาหกรรม

อาชีพในสถิติ: เกินกว่าตัวเลข

หนังสือของ Hahn และ Snee นั้นมีค่าและน่าสนใจเป็นพิเศษเพราะเป็นนักสถิติอุตสาหกรรมที่มีชื่อเสียงด้วยทักษะทางคณิตศาสตร์และประสบการณ์จริง


7
ขอบคุณสำหรับลิงค์และคำอธิบาย ผมคิดว่าโดยทั่วไปคำตอบได้ดีขึ้นโดยใช้markdown[manuscript title](uri) การเชื่อมโยง หลังจากวันที่ยาวนานฉันพบว่าคำตอบที่มาพร้อมกับการเชื่อมโยงหลายมิติแบบยาวสามารถเกิดขึ้นได้โดยไม่รู้ตัวและอาจทำให้ผู้อ่านมีอคติต่อคำตอบที่ดี
jthetzel

@ jthetzel ฉันเห็นได้ว่าทำไมจึงมีชื่อแทนที่ url ในลิงค์ เมื่อฉันมีเวลาฉันจะเรียนรู้ที่จะทำ ฉันรู้ว่ามันง่าย แต่ฉันให้ลิงค์สามหรือสี่ มันแทบจะไม่มีเวลาให้คลิกที่ลิงค์และดูว่ามันคืออะไร ดังนั้นฉันจึงไม่เข้าใจจริงๆว่าทำไมสมาชิกชุมชนจำนวนมากจึงทำเรื่องใหญ่
Michael R. Chernick

6

ในตัวอย่างที่คุณพูดถึงปัญหาหลักคือการอนุมานเชิงสาเหตุ จุดเริ่มต้นที่ดีสำหรับการอนุมานเชิงสาเหตุคือแอนดรูเจลแมนรีวิวหนังสือสามเล่มและหนังสือที่ได้รับการวิจารณ์ นอกเหนือจากการเรียนรู้เกี่ยวกับการอนุมานเชิงสาเหตุคุณควรเรียนรู้เกี่ยวกับคุณค่าของการวิเคราะห์ข้อมูลเชิงสำรวจคำอธิบายและการทำนาย

ฉันได้เรียนรู้จำนวนเหลือเชื่อโดยการได้ยินนักวิทยาศาสตร์สังคมวิจารณ์การวิจัยของแต่ละคนในงานตีพิมพ์บล็อกการสัมมนาและการสนทนาส่วนตัว - มีหลายวิธีในการเรียนรู้ ติดตามเว็บไซต์นี้และบล็อกของ Andrew Gelman

แน่นอนถ้าคุณต้องการรับรู้ข้อมูลคุณต้องฝึกฝนการทำงานกับข้อมูลจริง มีทักษะการรับรู้ข้อมูลทั่วไป แต่ยังมีการรับรู้ข้อมูลที่เฉพาะเจาะจงกับพื้นที่ปัญหาหรือเฉพาะเจาะจงมากขึ้นการรับรู้ข้อมูลเฉพาะสำหรับชุดข้อมูลเฉพาะ


5

ดี, ทรัพยากรฟรีเป็นโอกาสข่าววิกิพีเดีย มีตัวอย่างมากมายที่ดึงมาจากตัวอย่างจริงพร้อมด้วยการอภิปรายถึงจุดที่ดีและไม่ดีในการตีความข้อมูลและสถิติของผู้คน บ่อยครั้งที่มีคำถามการอภิปรายเช่นกัน (ส่วนหนึ่งของแรงบันดาลใจของการมองเห็นคือการให้ครูสถิติตัวอย่างโลกแห่งความจริงเพื่อพูดคุยกับนักเรียน)


5

+1 สำหรับคำถามที่ยอดเยี่ยม! (และ +1 ให้กับผู้ตอบคำถามทั้งหมดจนถึงตอนนี้)

ฉันคิดว่ามันมีความรู้สึกของข้อมูลเป็นอย่างมาก แต่ฉันไม่คิดว่ามันจะมีอะไรลึกลับ อุปมาที่ฉันจะใช้คือการขับรถ เมื่อคุณขับรถไปตามถนนคุณเพิ่งรู้ว่าเกิดอะไรขึ้นกับรถคันอื่น ตัวอย่างเช่นคุณรู้ว่าคนที่อยู่ข้างหน้าคุณกำลังมองหาป้ายถนนที่เขาควรเลี้ยวถึงแม้ว่าเขาจะไม่ได้ใช้สัญญาณเลี้ยวก็ตาม คุณจะระบุคนขับช้าและระมัดระวังโดยอัตโนมัติและคาดการณ์ว่าพวกเขาจะตอบสนองอย่างไรในสถานการณ์ต่าง ๆ คุณสามารถเห็นวัยรุ่นที่ต้องการแข่งเร็วเท่าที่เขาจะไปได้ คุณมีความรู้สึกที่ได้รับการยอมรับว่ารถยนต์ทุกคันกำลังทำอะไรอยู่ ตรงนี้เป็นความรู้สึกของข้อมูล มันมาจากประสบการณ์มากมายจากประสบการณ์ ถ้าคุณรู้ทฤษฎีมากพอคุณต้องเริ่มเล่นกับชุดข้อมูลจริง คุณอาจจะสนใจในการสำรวจเว็บไซต์เช่นDASL แม้ว่าเงื่อนไขอย่างหนึ่งคือคุณไม่ควรเพียงรับประสบการณ์ในการโหลดชุดข้อมูลทำการทดสอบและรับค่า p คุณจะต้องสำรวจข้อมูลอาจพล็อตในรูปแบบที่แตกต่างกันปรับให้เข้ากับบางรุ่นและคิดว่าเกิดอะไรขึ้น (ขอให้สังเกตว่า EDA เป็นหัวข้อทั่วไปที่นี่)

ข้อเท็จจริงหนึ่งที่อาจไม่ชัดเจนเกี่ยวกับกระบวนการนี้ก็คือการรับรู้ข้อมูลสามารถแปลเป็นพื้นที่เฉพาะที่ได้ ตัวอย่างเช่นคุณสามารถได้รับประสบการณ์มากมายในการทำงานกับข้อมูลการทดลองและ ANOVA แต่ไม่จำเป็นต้องมีความรู้สึกที่ดีสำหรับสิ่งที่เกิดขึ้นเมื่อคุณดูข้อมูลอนุกรมเวลาหรือข้อมูลการอยู่รอด

ให้ฉันเพิ่มอีกหนึ่งกลยุทธ์ที่ฉันพบว่ามีประโยชน์อย่างมาก: ฉันคิดว่ามันคุ้มค่ากับเวลาของคุณที่จะเรียนรู้การเขียนโปรแกรม (สถิติ) เล็กน้อย คุณไม่จำเป็นต้องเก่งขนาดนี้ (ฉันรู้จักเขียนรหัส "ไร้ประสิทธิภาพอย่างตลกขบขัน") อย่างไรก็ตามเมื่อคุณสามารถเขียนโค้ดโพรซีเดอร์ขั้นพื้นฐาน (พูดในR) คุณสามารถจำลองได้ มันยากสำหรับฉันที่จะเน้นว่ามีความสามารถในการดำเนินการแม้การจำลองง่าย ๆ สามารถช่วยได้มากแค่ไหน สิ่งหนึ่งที่คุณสามารถใช้สิ่งนี้ได้คือเมื่ออยู่ในระหว่างการศึกษาของคุณคุณอ่านเกี่ยวกับอสังหาริมทรัพย์ที่คุณสามารถสำรวจได้ ตัวอย่างเช่นถ้าคุณรู้ (เป็นนามธรรม) ว่าเป็นการยากที่จะสังเกตุเห็นว่าลอจิทหรือโมเดลโพรบิทนั้นดีกว่าสำหรับชุดข้อมูลคุณสามารถเขียนโค้ดการจำลองแบบง่าย ๆของสิ่งนี้ได้และเล่นกับพวกเขาเพื่อทำความเข้าใจแนวคิดนี้อย่างเต็มที่ สิ่งนี้จะช่วยให้คุณได้รับประสบการณ์ แต่แตกต่างกันเล็กน้อยและจะช่วยให้คุณพัฒนาความรู้สึกของข้อมูลของคุณ


+1 เพื่อเน้นคุณค่าของการเรียนรู้จากแบบจำลอง
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.