ชุดข้อมูลที่ดีที่แสดงถึงลักษณะเฉพาะของการวิเคราะห์ทางสถิติคืออะไร

16

ฉันรู้ว่านี่เป็นเรื่องส่วนตัว แต่ฉันคิดว่ามันคงจะดีถ้าได้พูดถึงชุดข้อมูลที่เราโปรดปรานและสิ่งที่เราคิดว่าทำให้พวกเขาน่าสนใจ มีข้อมูลมากมายและสิ่งที่ API ทั้งหมด (เช่นDatamob ) พร้อมกับชุดข้อมูลคลาสสิก (เช่นข้อมูล R ) ฉันคิดว่านี่อาจมีคำตอบที่น่าสนใจมาก

ตัวอย่างเช่นฉันเคยชอบชุดข้อมูลเช่นชุดข้อมูล "Boston Housing" (ความหมายที่โชคร้ายแม้จะมี) และ "mtcars" สำหรับความเก่งกาจของพวกเขา จากมุมมองของการสอนเราสามารถแสดงให้เห็นถึงข้อดีของเทคนิคทางสถิติที่หลากหลายโดยใช้พวกเขา และชุดข้อมูลม่านตาของ Anderson / Fisher จะมีที่อยู่ในใจของฉันเสมอ

คิด?

dataset

— DA
แหล่งที่มา

2

คนที่ใช้สำหรับวิทยานิพนธ์ของฉันเพราะมันจะทำให้ฉันเป็นปริญญาเอกถ้าฉันวิเคราะห์ได้ถูกต้อง>.>

— Fomite

3

ยินดีต้อนรับสู่ Cross Validated! นี่ถูกออกแบบมาเป็นเว็บไซต์ถามตอบสำหรับคำถามที่มีคำตอบจริงไม่ใช่ฟอรัมสนทนา ดังนั้นฉันไม่เชื่อว่านี่เป็นประเภทของคำถามที่เราต้องการในเว็บไซต์นี้ โปรดดูคำถามที่พบบ่อย

— Michael McGowan

4

ฉันรู้ว่ามันถูกออกแบบมาเป็นคำถามและคำตอบ แต่มีคำถามเช่น "การ์ตูนสถิติโปรดของคุณคืออะไร" ถูกโหวตขึ้นสูงฉันคิดว่านี่จะไม่เหมาะสมอย่างยิ่ง โดยเฉพาะอย่างยิ่งการสอนถ้ามีคนพยายามที่จะเรียนรู้เกี่ยวกับการวิเคราะห์ข้อมูลและเทคนิคการสำรวจมันอาจจะเป็นประโยชน์ในการรับความคิดเห็นเกี่ยวกับชุดข้อมูลสาธารณะที่มีโครงสร้างที่หลากหลายและมีประวัติและการวิจัยจำนวนมาก

— DA

4

ฉันมีแนวโน้มที่จะให้ชุมชนตัดสินใจว่าจะต้องปิดตัวเอง (ไม่ใช่เชิงสร้างสรรค์) หรือไม่แม้ว่าฉันจะเพิ่มว่าการตอบอย่างถี่ถ้วนและการโต้เถียงอาจช่วยสนับสนุนคำถามในอนาคตในแง่มุมต่างๆของการวิเคราะห์ข้อมูล ฉันกำลังแปลงสิ่งนี้เป็น CW ในขณะเดียวกันเพราะเห็นได้ชัดว่าไม่มีคำตอบเดียวที่ดีที่สุด

— chl

2

คำถามนี้และคำตอบของพวกเขามีประโยชน์มากสำหรับฉัน โปรดอย่าลบ

— dsign

12

การศึกษาน้ำหนักตัวแรกเกิดต่ำ

นี่เป็นหนึ่งในชุดข้อมูลในตำราเรียนของ Hosmer และ Lemeshow เรื่องApplied Logistic Regression (2000, Wiley, 2nd ed.) เป้าหมายของการศึกษาในอนาคตนี้คือการระบุปัจจัยเสี่ยงที่เกี่ยวข้องกับการให้กำเนิดทารกน้ำหนักแรกเกิดต่ำ (น้ำหนักน้อยกว่า 2,500 กรัม) รวบรวมข้อมูลจากผู้หญิงจำนวน 189 คนซึ่ง 59 คนมีทารกน้ำหนักแรกเกิดต่ำและ 130 คนมีทารกน้ำหนักแรกเกิดปกติ ตัวแปรสี่ตัวที่คิดว่ามีความสำคัญ ได้แก่ อายุน้ำหนักของตัวแบบในช่วงเวลาที่มีประจำเดือนครั้งสุดท้ายการแข่งขันและจำนวนการพบแพทย์ในช่วงไตรมาสแรกของการตั้งครรภ์

มันมีอยู่ในการวิจัยเป็นdata(birthwt, package="MASS")หรือ Stata webuse lbwกับ รุ่นข้อความปรากฏขึ้นที่นี่: lowbwt.dat ( คำอธิบาย ) มีหลายรุ่นของชุดข้อมูลนี้เนื่องจากถูกขยายไปยังการศึกษากรณีศึกษา (1-1 หรือ 1-3, จับคู่ตามอายุ) ตามที่ Hosmer และ Lemeshow แสดงในบทที่ 7

ฉันเคยสอนหลักสูตรเบื้องต้นตามชุดข้อมูลนี้ด้วยเหตุผลดังต่อไปนี้:

เป็นที่น่าสนใจจากมุมมองทางประวัติศาสตร์และระบาดวิทยา (รวบรวมข้อมูลในปี 1986) ไม่จำเป็นต้องมีพื้นฐานด้านการแพทย์หรือสถิติมาก่อนในการทำความเข้าใจแนวคิดหลักและคำถามใดบ้างที่สามารถถามได้
$\chi^2$
จะช่วยให้หารือเกี่ยวกับมุมมองการสร้างแบบจำลองที่แตกต่างกัน (วิธีการอธิบายหรือการทำนาย) และความหมายของรูปแบบการสุ่มตัวอย่างเมื่อพัฒนาแบบจำลอง (การแบ่งชั้น / กรณีที่จับคู่)

ประเด็นอื่น ๆ ที่สามารถเน้นได้ขึ้นอยู่กับผู้ชมและระดับความเชี่ยวชาญด้วยซอฟต์แวร์ทางสถิติหรือสถิติโดยทั่วไป

สำหรับชุดข้อมูลที่มีอยู่ใน R ตัวทำนายหมวดหมู่จะได้คะแนนเป็นจำนวนเต็ม (เช่นสำหรับเชื้อชาติของแม่เรามี '1' = สีขาว, '2' = สีดำ, '3' = อื่น ๆ ) อย่างไรก็ตามข้อเท็จจริงที่ว่า (เช่นจำนวนแรงงานที่คลอดก่อนกำหนดหรือจำนวนครั้งที่ไปพบแพทย์) หรือการใช้ป้ายกำกับที่ชัดเจน (เป็นความคิดที่ดีเสมอที่จะใช้ 'ใช่' / 'ไม่' แทนที่จะเป็น 1/0 สำหรับตัวแปรไบนารีแม้ว่านั่นจะไม่ใช่ก็ตาม ไม่เปลี่ยนแปลงอะไรเลยในเมทริกซ์การออกแบบ! ดังนั้นจึงเป็นเรื่องง่ายที่จะหารือเกี่ยวกับปัญหาที่อาจเกิดขึ้นโดยไม่สนใจระดับหรือหน่วยการวัดในการวิเคราะห์ข้อมูล
ตัวแปรประเภทผสมมีความน่าสนใจเมื่อพูดถึงการวิเคราะห์เชิงสำรวจและอภิปรายว่าการแสดงกราฟิกชนิดใดที่เหมาะสมสำหรับการสรุปความสัมพันธ์แบบ univariate, bivariate หรือ trivariate เช่นเดียวกันการสร้างตารางสรุปที่ดีและการรายงานโดยทั่วไปเป็นอีกแง่มุมหนึ่งที่น่าสนใจของชุดข้อมูลนี้ (แต่Hmisc::summary.formulaคำสั่งทำให้ง่ายภายใต้ R)
Hosmer และ Lemeshow รายงานว่ามีการแก้ไขข้อมูลจริงเพื่อป้องกันการรักษาความลับของหัวเรื่อง (หน้า 25) มันอาจจะเป็นที่น่าสนใจเพื่อหารือในประเด็นข้อมูลที่เป็นความลับตามที่ได้ทำในหนึ่งก่อนหน้านี้ของเราวารสารคลับแต่เห็นของหลักฐานการศึกษา (ฉันต้องยอมรับว่าฉันไม่เคยลงลึกรายละเอียดมากนัก)
เป็นการง่ายที่จะแนะนำค่าที่หายไปหรือค่าที่ผิดพลาด (ซึ่งเป็นปัญหาที่พบบ่อยในชีวิตจริงของนักสถิติ) ซึ่งนำไปสู่การอภิปราย (a) การตรวจจับของพวกเขาผ่าน codebook ( Hmisc::describeหรือ Stata's codebook) หรือกราฟฟิคสำรวจ และ (b) การเยียวยาที่เป็นไปได้ (การใส่ข้อมูลการลบแบบรายการหรือการวัดความสัมพันธ์แบบคู่)

— chl
แหล่งที่มา

+1 ขอขอบคุณที่ให้คำตอบที่เป็นแบบอย่างที่แสดงให้เห็นว่ากระทู้นี้สามารถเป็นประโยชน์และให้มาตรฐานของการแสดงออกว่าการตอบอื่น ๆ สามารถ (และควร) มีจุดมุ่งหมายเพื่อ

— whuber

นี่คือสิ่งที่ยอดเยี่ยมและสิ่งที่ฉันกำลังมองหาด้วยการถามคำถาม ฉันขอขอบคุณสำหรับความเข้าใจที่มีค่าของคุณ

— DA

5

แน่นอนชุดข้อมูล Anscombe 4 นั้นดีมากสำหรับการสอน - มันดูแตกต่างกันมาก แต่ก็มีคุณสมบัติทางสถิติที่เหมือนกัน

ฉันยังแนะนำชุดข้อมูล KDD Cup http://www.kdd.org/kddcup/ เพราะพวกเขาได้รับการศึกษามาอย่างดีและมีวิธีแก้ปัญหามากมายดังนั้นนักเรียนสามารถเปรียบเทียบผลลัพธ์ของพวกเขาและดูว่าอันดับของพวกเขาเป็นอย่างไร

ในหลักสูตรการขุดข้อมูลของฉันฉันได้จัดให้มีการแข่งขันชุดข้อมูล Microarray ซึ่งอาจารย์สามารถใช้งานได้ http://www.kdnuggets.com/data_mining_course/

— Gregory Piatetsky
แหล่งที่มา

สำหรับชุดข้อมูลอื่น ๆ ที่ได้รับการออกแบบมาเพื่อจุดประสงค์ในการสอนในลักษณะเดียวกันกับ Anscombe Quartet ดูคำถามนี้

— ปลาเงิน

3

หลักสูตรการวิเคราะห์เชิงสถิติของฉันจำนวนมากที่ Cal Poly ได้ใช้ชุดข้อมูล "Iris" ซึ่งมีอยู่ใน R แล้วมีตัวแปรเด็ดขาดและตัวแปรที่มีความสัมพันธ์สูง

— Kurtis Voris
แหล่งที่มา

คุณคิดจะขยายคะแนนสุดท้ายของคุณ: ชุดข้อมูลนี้จะช่วยสอนสถิติอย่างไร (AFAICT, ม่านตาชุดข้อมูลที่มีเพียงหนึ่งตัวแปรเด็ดขาดคือระดับม่านตา.)

— CHL

นี่คือหัวข้อที่เกี่ยวข้องทั้งหมดกับการใช้งานของไอริสชุดข้อมูลในการเรียนการสอน

— Silverfish

3

ชุดข้อมูลไททานิคที่ใช้โดย Harrell ใน "กลยุทธ์การสร้างแบบจำลองการถดถอย" ฉันใช้การวิเคราะห์แบบง่าย ๆ ของเขาเมื่ออธิบายการถดถอยโลจิสติกอธิบายการเอาชีวิตรอดโดยใช้เพศคลาสและอายุ

ชุด Loynกล่าวถึงใน "การออกแบบการทดลองและการวิเคราะห์ข้อมูลสำหรับนักชีววิทยา" โดยเจอร์รี่ควินน์และมิก Keough มีปัญหาที่ดีที่กำหนดให้การเปลี่ยนแปลงสำหรับการถดถอยเชิงเส้นหลาย

— Luis Apiolaza
แหล่งที่มา