แง่มุมใดของชุดข้อมูล“ Iris” ที่ทำให้ประสบความสำเร็จเช่นชุดข้อมูลตัวอย่างการสอน / การทดสอบ


28

"ไอริส"ชุดข้อมูลที่น่าจะเป็นที่คุ้นเคยกับคนส่วนใหญ่ที่นี่ - มันเป็นหนึ่งในชุดข้อมูลการทดสอบเป็นที่ยอมรับและการเดินทางไปตัวอย่างเช่นชุดสำหรับทุกอย่างจากการแสดงข้อมูลในการเรียนรู้ของเครื่อง ตัวอย่างเช่นทุกคนในคำถามนี้ลงเอยด้วยการใช้มันเพื่อการอภิปรายเกี่ยวกับแผนการกระจายที่แยกออกจากกันโดยการรักษา

อะไรที่ทำให้ชุดข้อมูลIrisมีประโยชน์มาก? แค่นั้นแหละที่นั่นก่อน? หากมีคนพยายามสร้างชุดข้อมูล / ตัวอย่างทดสอบที่มีประโยชน์พวกเขาสามารถนำบทเรียนใดไปใช้


13
เล็ก แต่ไม่สำคัญ เรียบง่าย แต่ท้าทาย ข้อมูลจริง ชื่อเสียงของฟิชเชอร์แม้ว่าจะไม่ใช่ข้อมูลของเขาก็ตาม ประเพณี. ความเฉื่อย ความต่อเนื่อง คุณสามารถค้นหารูปภาพดอกไม้เพื่อสะกดมัน
Nick Cox

และตอนนี้มันทำงานเหมือนเครื่องจักร
Michael M

ฉันจะบอกว่า @NickCox นั้นถูกต้อง
Marc Claesen

@NickCox ต้องการขยายคำตอบนั้นเล็กน้อยใช่ไหม
Fomite

6
ชุดข้อมูล 'iris' สามารถใช้สำหรับการวิเคราะห์จำแนกเช่นเดียวกับการจัดหมวดหมู่ที่ไม่ได้รับการสนับสนุน (การจัดกลุ่มตามรูปแบบหรือแบบไม่มีรูปแบบ) เพื่อวัตถุประสงค์ในการอธิบาย คำถามนี้สมควรได้รับการอ้างอิงโยงไปยังชุดข้อมูลที่ดีเพื่อแสดงให้เห็นถึงลักษณะเฉพาะของการวิเคราะห์ทางสถิติคืออะไร
chl

คำตอบ:


40

Irisชุดข้อมูลที่จะสมน้ำหน้าใช้กันอย่างแพร่หลายทั่ววิทยาศาสตร์ทางสถิติโดยเฉพาะอย่างยิ่งสำหรับการแสดงปัญหาต่างๆในกราฟิกสถิติสถิติหลายตัวแปรและการเรียนรู้เครื่อง

  • มีการสังเกต 150 ครั้งมันมีขนาดเล็ก แต่ไม่สำคัญ

  • งานที่โพสท่าแบ่งแยกระหว่างสามสายพันธุ์ของไอริสจากการวัดกลีบและกลีบเลี้ยงนั้นเรียบง่าย แต่ท้าทาย

  • ข้อมูลเป็นข้อมูลจริง แต่เห็นได้ชัดว่ามีคุณภาพดี ในหลักการและในทางปฏิบัติชุดข้อมูลการทดสอบอาจสังเคราะห์และอาจจำเป็นหรือมีประโยชน์ในการสร้างจุด อย่างไรก็ตามมีคนเพียงไม่กี่คนที่คัดค้านข้อมูลจริง

  • ข้อมูลถูกใช้โดยนักสถิติชาวอังกฤษชื่อดัง Ronald Fisher ในปี 1936 (ภายหลังเขาได้รับแต่งตั้งเป็นอัศวินและกลายเป็น Sir Ronald) อย่างน้อยครูบางคนชอบความคิดของชุดข้อมูลที่มีลิงก์ไปยังคนที่รู้จักกันดีในสนาม ข้อมูลถูกตีพิมพ์ครั้งแรกโดย Edgar S. Anderson นักพฤกษศาสตร์ที่มีใจเดียวกัน แต่ที่มาก่อนหน้านี้ไม่ได้ลดความสัมพันธ์ลง

  • การใช้ชุดข้อมูลที่มีชื่อเสียงเพียงไม่กี่ชุดเป็นหนึ่งในประเพณีที่เราส่งมอบเช่นบอกคนรุ่นใหม่แต่ละคนว่านักเรียนทำงานเพื่อกินเนสส์หรือว่านักสถิติที่มีชื่อเสียงหลายคนตกหลุมรักกัน ซึ่งอาจดูเหมือนความเฉื่อย แต่ในการเปรียบเทียบวิธีการเก่าและใหม่และในการประเมินวิธีการใด ๆ ก็มักจะคิดว่ามีประโยชน์ในการลองใช้ชุดข้อมูลที่เป็นที่รู้จัก

  • สุดท้าย แต่ไม่น้อยที่Irisชุดข้อมูลที่สามารถควบคู่รื่นเริงที่มีภาพของดอกไม้ที่เกี่ยวข้องทั้งจากเช่นรายการวิกิพีเดียที่เป็นประโยชน์ในชุดข้อมูล

บันทึก. ทำบิตของคุณเพื่อความถูกต้องทางชีวภาพในการอ้างถึงพืชที่เกี่ยวข้องอย่างระมัดระวัง Iris setosa , Iris versicolorและIris virginicaมีสามสายพันธุ์ (ไม่ใช่สายพันธุ์เช่นเดียวกับในบัญชีสถิติบางส่วน); ควรแสดงทวิภาคด้วยตัวเอียงเช่นเดียวกับที่นี่ และไอริสเป็นชื่อพืชสกุลและชื่ออื่น ๆ ที่ระบุชนิดเฉพาะควรเริ่มต้นด้วยตัวพิมพ์ใหญ่และล่างตามลำดับ


3
(+1) ขอบคุณที่ขยายความคิดเห็นของคุณเป็นคำตอบ
พระคาร์ดินัล

5
ฉันจะให้ +1 เพิ่มเติมหากฉันสามารถยืนสำหรับหลักการเพื่อความถูกต้องทางชีวภาพ
Fomite

6

ชุดข้อมูลมีขนาดใหญ่และน่าสนใจพอที่จะไม่ไร้สาระ แต่มีขนาดเล็กพอที่จะ "พอดีกับกระเป๋าของคุณ" และไม่ทำให้การทดลองช้าลง

ฉันคิดว่าสิ่งสำคัญคือมันยังสอนเกี่ยวกับความกระชับ มีคอลัมน์ไม่เพียงพอที่จะให้คะแนนที่สมบูรณ์แบบ: เราเห็นสิ่งนี้ทันทีเมื่อเรามองไปที่ scatterplots และพวกมันซ้อนทับและวิ่งเข้าหากัน ดังนั้นวิธีการเรียนรู้ด้วยเครื่องจักรใด ๆ ที่ได้รับคะแนนสมบูรณ์แบบถือได้ว่าน่าสงสัย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.