ผู้สืบทอดยุคใหม่ในการวิเคราะห์ข้อมูลเชิงสำรวจโดย Tukey?


52

ฉันอ่านหนังสือของ Tukey "Exploratory Data Analysis" หนังสือเล่มนี้เขียนขึ้นเมื่อปี พ.ศ. 2520 โดยเน้นวิธีการใช้กระดาษ / ดินสอ มีผู้สืบทอดที่ 'ทันสมัย' มากขึ้นซึ่งพิจารณาว่าตอนนี้เราสามารถพล็อตชุดข้อมูลขนาดใหญ่ได้หรือไม่?


นี่ควรเป็นวิกิชุมชนหรือไม่
richiemorrisroe

ฉันยังไม่ชัดเจนว่าควรจะเป็น CW หรือไม่ อาจไม่มีคำตอบที่ดี อาจมีหนึ่งคำตอบที่ชัดเจนชัดเจน; เราอาจสร้างรายการคำตอบที่มีประสิทธิภาพจำนวนมาก มาดูกันว่าเกิดอะไรขึ้น
whuber

4
นี่เป็นคำถามที่ดี biofreezer ฉันแค่อยากจะบอกว่ามีความคล้ายคลึงใกล้เคียงกับวิธีการทำงานอื่น ๆ สิ่งที่ฉันชอบคือปากกาและกระดาษ EDA คือสถิติที่ทันสมัยเนื่องจากเครื่องมือช่างเป็นงานไม้ที่ทันสมัย (งานไม้ "ทันสมัย" ใช้เครื่องมือไฟฟ้าจำนวนมากเช่น tablesaws และเราเตอร์ที่ช่วยให้ผู้เริ่มต้นสามารถเปลี่ยนผลลัพธ์ที่ยอมรับได้ในเวลาที่น้อยลงอย่างไรก็ตามเครื่องมือเหล่านี้ยังมีตัวเลขและขาที่หายไปหลายพันรายการทุกปีผู้ที่เรียนรู้การใช้เครื่องมือมือ โดยทั่วไปเรียนรู้ที่จะทำงานได้ดีขึ้นและมีประสิทธิภาพมากขึ้นแม้ว่าพวกเขาจะใช้เครื่องมือไฟฟ้า)
whuber

4
ใช่งานไม้เป็นการเปรียบเทียบที่ดี (ตัวเลขที่ขาดหายไปตัวเลขที่หายไป) ดูเพิ่มเติมsoftware-carpentry.org
ปฏิเสธ

คำตอบ:


19

สิ่งที่อยู่ใกล้ที่สุดคือคลีฟแลนด์ข้อมูลแสดงผล มันเกี่ยวกับการวิเคราะห์ข้อมูลเชิงสำรวจมันเกี่ยวกับการสร้างภาพด้วยคอมพิวเตอร์มันลึกซึ้งมันเป็นแบบคลาสสิค


2
เช่นเดียวกันกับหนังสือองค์ประกอบของข้อมูลกราฟโดยผู้แต่งคนเดียวกัน ซื้อทั้งสองอย่าง พวกเขาทั้งสองยอดเยี่ยม
Karl Ove Hufthammer

9

ไม่ใช่แบบจำลองที่แน่นอน แต่ฉันพบคำแนะนำการวางแผนที่มีประโยชน์มากมาย (และรหัส R) ในการวิเคราะห์ข้อมูลของ Gelman และ Hill โดยใช้ Regression and Multilevel / Hierarchical Models

นอกจากนี้บล็อกของเขามักเต็มไปด้วยคำแนะนำด้านกราฟิกที่มีประโยชน์


7

กราฟิกเชิงโต้ตอบสำหรับการวิเคราะห์ข้อมูล: หลักการและตัวอย่างคือสิ่งที่ฉันต้องการ คำอธิบายหนังสือบอกว่า "อธิบายการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) และวิธีการที่วิธีกราฟิกแบบโต้ตอบสามารถช่วยให้ได้รับข้อมูลเชิงลึกเช่นเดียวกับการสร้างคำถามและสมมติฐานใหม่จากชุดข้อมูล"



4

ข้อมูลการสำรวจทางวิศวกรรมวิทยาศาสตร์และการแพทย์ของโรนัลด์เพียร์สันมีมูลค่าการกล่าวขวัญถึงที่นี่ ผู้อ่านเป้าหมายหลักดูเหมือนจะเป็นนักวิทยาศาสตร์ที่ไม่กลัวคณิตศาสตร์เพียงเล็กน้อยที่ต้องการให้พวกเขารู้สถิติมากขึ้น นั่นเป็นกลุ่มที่ค่อนข้างใหญ่และอีกกลุ่มเป็นตัวแทนที่นี่ มันเป็นเรื่องแปลกและผิดปรกติเล็กน้อย แต่มันครอบคลุมพื้นดินจำนวนมากและมีคำแนะนำที่สมเหตุสมผล มันไม่ใช่ Tukey ที่ได้กลับมาอีกครั้งในแง่ที่ว่ามันมีความคิดใหม่ ๆ มากมาย แต่มันก็คุ้มค่าที่จะศึกษาแม้ว่าคุณจะคิดว่ามันผิดไปเล็กน้อยก็ตาม

หนังสือเล่มนี้ดูเหมือนจะดึงดูดความสนใจน้อยมากอาจเป็นเพราะมีราคาแพงมากไม่เหมาะที่จะใช้เป็นข้อความของหลักสูตรและมีเฉพาะในหนังสือปกแข็งเท่านั้น แต่มันเป็นเรื่องที่ชาญฉลาดและสามารถอ่านได้และไม่เป็นขยะของตำราเรียนเบื้องต้นที่ทันสมัย ​​(หน้าและหน้าของแบบฝึกหัดระดับประถม, ไอคอนไร้สาระ, ภาพถ่ายฟรีของคนหนุ่มสาวที่มีความสุข, รูปแบบจุกจิกกับกล่อง, อะไรก็ตาม)


3

นอกจากนี้ยังมีอินเทอร์และ Dynamic กราฟิกสำหรับการวิเคราะห์ข้อมูล: มีตัวอย่างการใช้ R และ GGobi คุกและ Swayne

สิ่งนี้มีสองบทสาธารณะบนเว็บที่อธิบายกระบวนการวิเคราะห์ข้อมูลและการจัดการค่าที่ขาดหายไป มีหนังสือใหม่ออกมาโดย Antony Unwin ในไม่ช้า


0

หนังสือที่ดีอีกเล่มที่ควรอ่านคือการแสดงข้อมูลที่สวยงามและข้อมูลที่สวยงาม เหล่านี้เป็นหนังสือที่มีการแก้ไขมีตัวอย่างที่ดีของการสำรวจข้อมูลพร้อมแปลงและบทที่น่ากลัวอย่างยิ่ง

หนังสืออีกเล่มที่มีตัวอย่างที่ดีของการใช้ ggplot2 เป็นหนังสือเล่มใหม่โดยWinston Chang


1
ฉันแค่ต้องการตรวจสอบอีกครั้ง Di ในกรณีที่พิมพ์ผิดเล็ก ๆ น้อย ๆ คุณอาจหมายถึงการเขียน "น่าสนใจ" แทน "น่ากลัว" ใช่ไหม แม้ว่าทั้งคู่จะเข้าใจในบริบทนี้การปรากฏตัวของหลัง - โดยไม่มีคำอธิบายเพิ่มเติม - ค่อนข้างแปลกใจ!
whuber

2
น่ากลัวถูกต้อง - มันเป็นถุงผสม - ปริมาณแก้ไขมักจะเป็น
Dianne Cook

ฉันประหลาดใจกับคำแนะนำเหล่านี้ ฉันพบว่าหนังสือทั้งสองเล่มน่าผิดหวังมาก (ยาวบน guff, สั้นในกราฟิค) น่าเสียดายที่ O'Reilly ซึ่งฉันพบครั้งแรกในฐานะผู้จัดพิมพ์หนังสือ Unix ที่ดีน่าประทับใจดูเหมือนว่าจะมีการควบคุมคุณภาพที่ไม่สม่ำเสมอสำหรับหนังสือเกี่ยวกับสิ่งใดก็ตามแม้ในเชิงสถิติจากระยะไกล
Nick Cox

ฉันชอบหนังสือทั้งสองเล่มและรู้สึกว่าพวกเขามีคุณูปการมากมาย Winston Chang's มีรายละเอียดพื้นฐานมากมายเกี่ยวกับการวางแผนด้วย ggplot2 มันเป็นข้อมูลอ้างอิงเริ่มต้นที่ดี มันไม่ได้บอกอะไรคุณมากนักว่าทำไมคุณถึงทำแปลงเหล่านี้ แต่ส่วนใหญ่ก็สมเหตุสมผลดีสำหรับจุดประสงค์จากส่วนที่ฉันได้อ่าน การสร้างภาพที่สวยงามมีบางบทที่น่าประทับใจมากการแก้ปัญหาที่ยากเช่นวิชวลไลเซชั่นวิกิพีเดียข้อมูลขนาดใหญ่ความซับซ้อนมากมายและผ่านกระบวนการคิด / การตัดสินใจในการทำแปลง
Dianne Cook

ในกรณีที่ความคิดเห็นของฉันไม่ชัดเจน: ฉันหมายถึงหนังสือ "สวย" หนังสือของ Winston Chang นั้นดีและเป็นประโยชน์
Nick Cox

0

ฉันคิดว่าการทำความเข้าใจการวิเคราะห์ที่แข็งแกร่งและสำรวจโดย Hoaglin, Mosteller และ Tukey เป็นปริมาณข้อมูลร่วมในการสำรวจตารางข้อมูลและรูปร่างเป็นเทคนิคการติดตามผลทาง EDA ฉันยังเห็นการวิเคราะห์ข้อมูลและการถดถอยซึ่งเป็นหลักสูตรที่สองในสถิติโดย Mosteller และ Tukey เพื่อติดตาม EDA หนังสือคลีฟแลนด์ต่างๆที่กล่าวถึงข้างต้นเป็นสมบัติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.