ฉันอ่านหนังสือของ Tukey "Exploratory Data Analysis" หนังสือเล่มนี้เขียนขึ้นเมื่อปี พ.ศ. 2520 โดยเน้นวิธีการใช้กระดาษ / ดินสอ มีผู้สืบทอดที่ 'ทันสมัย' มากขึ้นซึ่งพิจารณาว่าตอนนี้เราสามารถพล็อตชุดข้อมูลขนาดใหญ่ได้หรือไม่?
ฉันอ่านหนังสือของ Tukey "Exploratory Data Analysis" หนังสือเล่มนี้เขียนขึ้นเมื่อปี พ.ศ. 2520 โดยเน้นวิธีการใช้กระดาษ / ดินสอ มีผู้สืบทอดที่ 'ทันสมัย' มากขึ้นซึ่งพิจารณาว่าตอนนี้เราสามารถพล็อตชุดข้อมูลขนาดใหญ่ได้หรือไม่?
คำตอบ:
สิ่งที่อยู่ใกล้ที่สุดคือคลีฟแลนด์ข้อมูลแสดงผล มันเกี่ยวกับการวิเคราะห์ข้อมูลเชิงสำรวจมันเกี่ยวกับการสร้างภาพด้วยคอมพิวเตอร์มันลึกซึ้งมันเป็นแบบคลาสสิค
ไม่ใช่แบบจำลองที่แน่นอน แต่ฉันพบคำแนะนำการวางแผนที่มีประโยชน์มากมาย (และรหัส R) ในการวิเคราะห์ข้อมูลของ Gelman และ Hill โดยใช้ Regression and Multilevel / Hierarchical Models
นอกจากนี้บล็อกของเขามักเต็มไปด้วยคำแนะนำด้านกราฟิกที่มีประโยชน์
กราฟิกเชิงโต้ตอบสำหรับการวิเคราะห์ข้อมูล: หลักการและตัวอย่างคือสิ่งที่ฉันต้องการ คำอธิบายหนังสือบอกว่า "อธิบายการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) และวิธีการที่วิธีกราฟิกแบบโต้ตอบสามารถช่วยให้ได้รับข้อมูลเชิงลึกเช่นเดียวกับการสร้างคำถามและสมมติฐานใหม่จากชุดข้อมูล"
หนังสือ ggplot2 ของ Hadley Wickhamนั้นน่าสนใจเพราะมันสอนทั้งไวยากรณ์ของกราฟิกและวิธีการใช้ซอฟต์แวร์ ggplot2
ข้อมูลการสำรวจทางวิศวกรรมวิทยาศาสตร์และการแพทย์ของโรนัลด์เพียร์สันมีมูลค่าการกล่าวขวัญถึงที่นี่ ผู้อ่านเป้าหมายหลักดูเหมือนจะเป็นนักวิทยาศาสตร์ที่ไม่กลัวคณิตศาสตร์เพียงเล็กน้อยที่ต้องการให้พวกเขารู้สถิติมากขึ้น นั่นเป็นกลุ่มที่ค่อนข้างใหญ่และอีกกลุ่มเป็นตัวแทนที่นี่ มันเป็นเรื่องแปลกและผิดปรกติเล็กน้อย แต่มันครอบคลุมพื้นดินจำนวนมากและมีคำแนะนำที่สมเหตุสมผล มันไม่ใช่ Tukey ที่ได้กลับมาอีกครั้งในแง่ที่ว่ามันมีความคิดใหม่ ๆ มากมาย แต่มันก็คุ้มค่าที่จะศึกษาแม้ว่าคุณจะคิดว่ามันผิดไปเล็กน้อยก็ตาม
หนังสือเล่มนี้ดูเหมือนจะดึงดูดความสนใจน้อยมากอาจเป็นเพราะมีราคาแพงมากไม่เหมาะที่จะใช้เป็นข้อความของหลักสูตรและมีเฉพาะในหนังสือปกแข็งเท่านั้น แต่มันเป็นเรื่องที่ชาญฉลาดและสามารถอ่านได้และไม่เป็นขยะของตำราเรียนเบื้องต้นที่ทันสมัย (หน้าและหน้าของแบบฝึกหัดระดับประถม, ไอคอนไร้สาระ, ภาพถ่ายฟรีของคนหนุ่มสาวที่มีความสุข, รูปแบบจุกจิกกับกล่อง, อะไรก็ตาม)
นอกจากนี้ยังมีอินเทอร์และ Dynamic กราฟิกสำหรับการวิเคราะห์ข้อมูล: มีตัวอย่างการใช้ R และ GGobi คุกและ Swayne
สิ่งนี้มีสองบทสาธารณะบนเว็บที่อธิบายกระบวนการวิเคราะห์ข้อมูลและการจัดการค่าที่ขาดหายไป มีหนังสือใหม่ออกมาโดย Antony Unwin ในไม่ช้า
หนังสือที่ดีอีกเล่มที่ควรอ่านคือการแสดงข้อมูลที่สวยงามและข้อมูลที่สวยงาม เหล่านี้เป็นหนังสือที่มีการแก้ไขมีตัวอย่างที่ดีของการสำรวจข้อมูลพร้อมแปลงและบทที่น่ากลัวอย่างยิ่ง
หนังสืออีกเล่มที่มีตัวอย่างที่ดีของการใช้ ggplot2 เป็นหนังสือเล่มใหม่โดยWinston Chang
ฉันคิดว่าการทำความเข้าใจการวิเคราะห์ที่แข็งแกร่งและสำรวจโดย Hoaglin, Mosteller และ Tukey เป็นปริมาณข้อมูลร่วมในการสำรวจตารางข้อมูลและรูปร่างเป็นเทคนิคการติดตามผลทาง EDA ฉันยังเห็นการวิเคราะห์ข้อมูลและการถดถอยซึ่งเป็นหลักสูตรที่สองในสถิติโดย Mosteller และ Tukey เพื่อติดตาม EDA หนังสือคลีฟแลนด์ต่างๆที่กล่าวถึงข้างต้นเป็นสมบัติ