การทำ data data กับการวิเคราะห์ทางสถิติต่างกันอย่างไร?


19

การทำ data data กับการวิเคราะห์ทางสถิติต่างกันอย่างไร?

สำหรับภูมิหลังบางอย่างการศึกษาทางสถิติของฉันนั้นฉันคิดว่าเป็นแบบดั้งเดิม คำถามที่เจาะจงจะถูกวางไว้การวิจัยได้รับการออกแบบและมีการรวบรวมและวิเคราะห์ข้อมูลเพื่อนำเสนอข้อมูลเชิงลึกเกี่ยวกับคำถามนั้น ด้วยเหตุนี้ฉันจึงสงสัยในสิ่งที่ฉันคิดว่า "data dredging" อยู่เสมอนั่นคือมองหารูปแบบในชุดข้อมูลขนาดใหญ่และใช้รูปแบบเหล่านี้เพื่อสรุปผล ฉันมักจะเชื่อมโยงอย่างหลังกับ data-mining และมักจะถือว่าสิ่งนี้ค่อนข้างไร้หลักการ (พร้อมกับสิ่งต่าง ๆ เช่นรูทีนการเลือกตัวแปรอัลกอริทึม)

อย่างไรก็ตามมีงานเขียนขนาดใหญ่และกำลังเติบโตเกี่ยวกับการขุดข้อมูล บ่อยครั้งที่ฉันเห็นฉลากนี้อ้างถึงเทคนิคเฉพาะเช่นการจัดกลุ่มการจำแนกตามต้นไม้เป็นต้น แต่อย่างน้อยจากมุมมองของฉันเทคนิคเหล่านี้สามารถ "ตั้งค่าหลวม ๆ " ในชุดข้อมูลหรือใช้ในรูปแบบที่มีโครงสร้างเพื่อจัดการกับ คำถาม. ฉันจะเรียกการทำเหมืองข้อมูลในอดีตและการวิเคราะห์ทางสถิติหลัง

ฉันทำงานด้านการบริหารงานวิชาการและถูกขอให้ทำ "data mining" เพื่อระบุปัญหาและโอกาส สอดคล้องกับภูมิหลังของฉันคำถามแรกของฉันคือ: คุณต้องการเรียนรู้อะไรและอะไรคือสิ่งที่คุณคิดว่ามีส่วนร่วมในการแก้ไขปัญหา? จากการตอบกลับของพวกเขามันชัดเจนว่าฉันและคนที่ถามคำถามนั้นมีแนวคิดที่แตกต่างกันเกี่ยวกับลักษณะและคุณค่าของการทำเหมืองข้อมูล



3
หากเป็นเรื่องซ้ำฉันสามารถเดาได้ว่าการขุดข้อมูลและการเรียนรู้ด้วยเครื่องเป็นสิ่งเดียวกัน!
George Dontas

@ George Dontas Yeah ฉันมาที่นี่จากลิงก์ในความคิดเห็นหากคำถามอื่นที่หวังว่าจะเห็นว่ามีความแตกต่างระหว่าง ML และ data mining
DJG

คำตอบ:


20

Jerome Friedman เขียนบทความย้อนกลับไปอีกครั้ง: การขุดข้อมูลและสถิติ: การเชื่อมต่อคืออะไร ซึ่งฉันคิดว่าคุณจะสนใจ

การขุดข้อมูลเป็นเรื่องที่เกี่ยวข้องกับการพาณิชย์เป็นอย่างมากและได้รับแรงผลักดันจากความต้องการทางธุรกิจ (ควบคู่กับ "ความต้องการ" สำหรับผู้ขายในการขายซอฟต์แวร์และระบบฮาร์ดแวร์ให้กับธุรกิจ) สิ่งหนึ่งที่ Friedman กล่าวไว้คือ "ฟีเจอร์" ทั้งหมดนั้นเกิดขึ้นนอกสถิติ - ตั้งแต่อัลกอริธึมและวิธีการต่าง ๆ เช่นโครงข่ายประสาทไปจนถึงการวิเคราะห์ข้อมูลที่ขับเคลื่อนด้วย GUI - และไม่มีการเสนอสถิติแบบดั้งเดิมใด ๆ การถดถอยการทดสอบสมมติฐานและอื่น ๆ "วิธีการหลักของเราส่วนใหญ่ถูกเพิกเฉย" มันยังถูกขายเมื่อผู้ใช้ขับเคลื่อนไปตามบรรทัดของสิ่งที่คุณสังเกตเห็น: นี่คือข้อมูลของฉันนี่คือ "คำถามทางธุรกิจ" ของฉันให้คำตอบ

ฉันคิดว่าฟรีดแมนกำลังพยายามยั่วยุ เขาไม่คิดว่าการขุดข้อมูลจะมีการสนับสนุนทางปัญญาอย่างจริงจังซึ่งเป็นวิธีการที่เกี่ยวข้อง แต่สิ่งนี้จะเปลี่ยนแปลงและนักสถิติควรมีส่วนร่วมแทนที่จะเพิกเฉยต่อมัน

ความประทับใจของฉันคือว่าสิ่งนี้เกิดขึ้นไม่มากก็น้อย เส้นนั้นเบลอ ขณะนี้นักสถิติเผยแพร่ในวารสาร data mining Data miners วันนี้ดูเหมือนว่าจะมีการฝึกอบรมทางสถิติ ในขณะที่แพ็คเกจการขุดข้อมูลยังไม่ได้ใช้แบบจำลองเชิงเส้นทั่วไป แต่การถดถอยโลจิสติกเป็นที่รู้จักกันดีในหมู่นักวิเคราะห์ - นอกเหนือจากการทำคลัสเตอร์และระบบประสาท การออกแบบการทดลองที่เหมาะสมอาจไม่ได้เป็นส่วนหนึ่งของแกนการขุดข้อมูล แต่ซอฟต์แวร์สามารถเกลี้ยกล่อมให้แยกค่า p ออกได้ ความคืบหน้า!


1
นี่เป็นบทความที่ยอดเยี่ยมและสอดคล้องกับมุมมองของฉันในการขุดข้อมูลและสิ่งที่แตกต่างจากสถิติ สิ่งที่จับได้คือมันมาจากปี 1997! จดบันทึกคำฟ้องของเอกสารหรือข้อเสนอแนะของคุณ แต่ระดับที่ฉันได้ติดตามการทำเหมืองข้อมูล ดูเหมือนว่าฉันต้องการคว้าหนังสือเล่มปัจจุบันเกี่ยวกับ data mining เพื่อให้ทัน
เบร็ท

เฮ้ฉันเก็บวันที่ไว้อย่างตั้งใจเพราะฉันคิดว่ามันน่าขบขันที่จะสังเกตเห็นช่วงเวลา :) หนังสือของ Michael Berry และ Gordon Linoff ค่อนข้างดีและจะดึงดูดนักสถิติ (สำหรับการเปิดเผยที่กว้างกว่าการเรียนรู้เทคนิคทางสถิติ) หากคุณต้องการความรู้สึกที่คลุมเครือด้าน "องค์กร" ของสาขานี้อ่านผ่านหนังสือเล่มใดเล่มหนึ่งในผลิตภัณฑ์ของผู้จำหน่ายเช่น Enterprise Miner ของ SAS หรือ Clementine ของ SPSS อาจช่วยได้ ฉันจะไม่แนะนำให้ซื้อพวกเขาจนกว่าคุณจะทำงานกับผลิตภัณฑ์เอง
ARS

10

ความแตกต่างระหว่างสถิติและการทำเหมืองข้อมูลนั้นส่วนใหญ่เป็นประวัติศาสตร์ตั้งแต่พวกเขามาจากประเพณีที่แตกต่าง: สถิติและวิทยาการคอมพิวเตอร์ การขุดข้อมูลนั้นเติบโตขึ้นพร้อม ๆ กับการทำงานในด้านปัญญาประดิษฐ์และสถิติ

ส่วนที่ 1.4 จากWitten & Frankสรุปมุมมองของฉันดังนั้นฉันจะพูดตามความยาว:

การเรียนรู้ของเครื่องและสถิติต่างกันอย่างไร Cynics ที่กำลังมองหาการระเบิดของผลประโยชน์เชิงพาณิชย์ (และโฆษณา) ในพื้นที่นี้เปรียบเสมือนการขุดข้อมูลไปยังสถิติและการตลาด ในความเป็นจริงคุณไม่ควรมองหาเส้นแบ่งระหว่างการเรียนรู้ของเครื่องและสถิติเนื่องจากมีความต่อเนื่องและหลายมิติที่เทคนิคการวิเคราะห์ข้อมูล บางส่วนมาจากทักษะการสอนในหลักสูตรสถิติมาตรฐานและอื่น ๆ มีความสัมพันธ์อย่างใกล้ชิดกับประเภทของการเรียนรู้ของเครื่องที่เกิดจากวิทยาการคอมพิวเตอร์ ประวัติศาสตร์ทั้งสองฝ่ายมีประเพณีที่แตกต่างกันบ้าง หากถูกบังคับให้ชี้ไปที่ความแตกต่างเพียงอย่างเดียวอาจเป็นไปได้ว่าสถิตินั้นเกี่ยวข้องกับการทดสอบสมมติฐานมากขึ้น

ในอดีตที่ผ่านมาวิธีการที่คล้ายกันมากได้พัฒนาควบคู่กันไปในการเรียนรู้ของเครื่องและสถิติ ...

แต่ตอนนี้มุมมองทั้งสองได้มาบรรจบกัน

NB1 IMO การทำเหมืองข้อมูลและการเรียนรู้ของเครื่องจักรนั้นเกี่ยวข้องกันอย่างมาก ในแง่หนึ่งเทคนิคการเรียนรู้ของเครื่องจักรถูกใช้ในการขุดข้อมูล ฉันเห็นข้อกำหนดเหล่านี้อย่างสม่ำเสมอเป็นสิ่งที่ใช้แทนกันได้และเท่าที่พวกเขาแตกต่างกันพวกเขาก็มักจะไปด้วยกัน ฉันขอแนะนำให้มองผ่านกระดาษ "The Two Cultures"เช่นเดียวกับหัวข้ออื่น ๆ จากคำถามเดิมของฉัน

NB2 คำว่า "data mining" อาจมีความหมายแฝงในแง่ลบเมื่อใช้เรียกขานเพื่อหมายถึงการปล่อยอัลกอริทึมบางอย่างให้กับข้อมูลโดยไม่ต้องมีความเข้าใจในแนวคิด ความรู้สึกคือการขุดข้อมูลจะนำไปสู่ผลลัพธ์ที่น่าเกรงขามและเกินความเหมาะสม โดยทั่วไปแล้วฉันจะหลีกเลี่ยงการใช้คำศัพท์เมื่อพูดคุยกับผู้ที่ไม่ใช่ผู้เชี่ยวชาญและใช้การเรียนรู้ด้วยเครื่องหรือการเรียนรู้เชิงสถิติแทนคำพ้อง


เกี่ยวกับ NB2 - ฉันคิดว่าคุณพูดถูกเกี่ยวกับความหมายของการขุดข้อมูลและฉันไม่ได้เชื่อมต่อกับการเรียนรู้ของเครื่อง การฝึกอบรมของฉันมักจะเน้นถึงปัญหาของการปรับตัวมากเกินจริง, เสแสร้ง, และใช้ประโยชน์จากโอกาสและด้วยเหตุนี้ฉันจึงสงสัยใน DM - และยังคงเป็นบางทีจนกระทั่งมีคนบอกฉันว่าพวกเขากำลังทำอะไรและอย่างไร ขอบคุณ
เบร็ท

1
การเล่นโวหารเพียงอย่างเดียวของฉันเกี่ยวกับความแตกต่าง ML / DM คือฉันคิดว่า DM นั้นกว้างกว่า ตัวอย่างเช่น OLAP และเครื่องมือที่เกี่ยวข้องรวมถึงเทคโนโลยีการขุด แต่สิ่งเหล่านี้มาจากฐานข้อมูลด้านวิทยาศาสตร์คอมพิวเตอร์มากกว่าการเรียนรู้ด้วยเครื่อง บทบาทของการค้าในการสร้าง "ความหมาย" ของการขุดข้อมูลนั้นยากที่จะมองข้าม - มันนำมาซึ่งองค์ประกอบของวิทยาศาสตร์การจัดการการวิจัยการปฏิบัติการการเรียนรู้ของเครื่องจักรและสถิติตามที่ต้องการ นอกจากนี้ยังให้ความรู้สึกถึงสิ่งที่บอบบาง แต่โดยปกติแล้วจะเป็นปัญหาสำหรับผู้ที่ไม่ได้ฝึกหัด
ARS

@ars: ฉันเห็นด้วย ฉันพยายามพูดว่าเล็กน้อยโดยการพูดว่า "เทคนิคการเรียนรู้ด้วยเครื่องจักรถูกใช้ในการทำ data" (เช่น data mining เป็นชุดสุดยอด) จุดของคุณเกี่ยวกับแอพพลิเคชั่นทางการค้าก็เป็นเช่นเดียวกัน แม้ว่าบางคนในแอปพลิเคชันเชิงพาณิชย์ในตอนนี้อาจอ้างถึงงานของพวกเขาเป็นอย่างอื่น (เช่น "วิทยาศาสตร์ข้อมูล")
เชน

ใช่ฉันควรจะบอกว่าฉันพยายามแยกแยะความแตกต่างมากกว่าที่จะพูดคลุมเครือกับสิ่งที่คุณเขียน ขออภัยในความผิดพลาด จุดที่ดีในการเปลี่ยนแปลงเวลาและข้อกำหนดเช่นการใช้ "วิทยาศาสตร์ข้อมูล" หนังสือของ Gelman หนึ่งไม่เริ่มต้นด้วยบางอย่างเช่น "สถิติเป็นศาสตร์ของข้อมูล" หรือไม่? ดังนั้น "พวกเขา" ขโมยจากนักสถิติ อีกครั้ง :)
ARS

8

การทำเหมืองข้อมูลนั้นจัดอยู่ในประเภท Descriptive หรือ Predictive การทำเหมืองข้อมูลเชิงพรรณนาคือการค้นหาชุดข้อมูลขนาดใหญ่และค้นหาตำแหน่งของโครงสร้างหรือความสัมพันธ์ที่ไม่คาดคิดรูปแบบแนวโน้มกลุ่มและค่าผิดปกติในข้อมูล ในทางกลับกัน Predictive คือการสร้างแบบจำลองและขั้นตอนสำหรับการถดถอยการจำแนกการจดจำรูปแบบหรืองานการเรียนรู้ของเครื่องและประเมินความแม่นยำในการทำนายของแบบจำลองและขั้นตอนเหล่านั้นเมื่อนำไปใช้กับข้อมูลใหม่

กลไกที่ใช้ในการค้นหารูปแบบหรือโครงสร้างในข้อมูลมิติสูงอาจเป็นแบบแมนนวลหรือแบบอัตโนมัติ การค้นหาอาจต้องมีการสอบถามระบบการจัดการฐานข้อมูลแบบโต้ตอบหรืออาจเกี่ยวข้องกับการใช้ซอฟต์แวร์การสร้างภาพเพื่อค้นหาความผิดปกติในข้อมูล ในแง่ของเครื่องจักรการเรียนรู้การทำเหมืองข้อมูลเชิงพรรณนานั้นเรียกว่าการเรียนรู้แบบไม่สำรองในขณะที่การทำเหมืองข้อมูลเชิงทำนายนั้นเรียกว่าการเรียนรู้แบบมีผู้สอน

วิธีการส่วนใหญ่ที่ใช้ในการขุดข้อมูลนั้นเกี่ยวข้องกับวิธีการที่พัฒนาขึ้นในด้านสถิติและการเรียนรู้ของเครื่อง สิ่งสำคัญที่สุดในบรรดาวิธีการเหล่านั้นคือหัวข้อทั่วไปของการถดถอยการจัดกลุ่มการจัดกลุ่มและการสร้างภาพข้อมูล เนื่องจากชุดข้อมูลมีขนาดใหญ่มากการใช้งานหลายอย่างของ data mining มุ่งเน้นไปที่เทคนิคการลดขนาด (เช่นการเลือกตัวแปร) และสถานการณ์ที่ข้อมูลมิติสูงสงสัยว่านอนอยู่บนเครื่องบินไฮเปอร์ - มิติ ความสนใจล่าสุดได้ถูกส่งไปยังวิธีการระบุข้อมูลมิติสูงที่วางอยู่บนพื้นผิวที่ไม่เชิงเส้นหรือท่อร่วม

นอกจากนี้ยังมีสถานการณ์ในการทำเหมืองข้อมูลเมื่อการอนุมานเชิงสถิติ - ในความหมายดั้งเดิม - ไม่มีความหมายหรือความถูกต้องที่น่าสงสัย: อดีตเกิดขึ้นเมื่อเรามีประชากรทั้งหมดเพื่อค้นหาคำตอบและหลังเกิดขึ้นเมื่อชุดข้อมูลเป็น ตัวอย่าง "ความสะดวกสบาย" แทนที่จะเป็นตัวอย่างแบบสุ่มที่ดึงมาจากประชากรจำนวนมาก เมื่อมีการรวบรวมข้อมูลผ่านเวลา (เช่นธุรกรรมค้าปลีกธุรกรรมตลาดหุ้นบันทึกผู้ป่วยบันทึกสภาพอากาศ) การสุ่มตัวอย่างอาจไม่สมเหตุสมผล ลำดับเวลาของการสังเกตเป็นสิ่งสำคัญในการทำความเข้าใจปรากฏการณ์ที่สร้างข้อมูลและการปฏิบัติต่อการสังเกตเป็นอิสระเมื่อพวกเขาอาจมีความสัมพันธ์กันอย่างมากจะให้ผลลัพธ์ที่ลำเอียง

ส่วนประกอบสำคัญของการทำเหมืองข้อมูลคือ - นอกเหนือจากทฤษฎีและวิธีการทางสถิติ - การคำนวณและประสิทธิภาพการคำนวณการประมวลผลข้อมูลอัตโนมัติเทคนิคการสร้างภาพข้อมูลแบบไดนามิกและแบบโต้ตอบและการพัฒนาอัลกอริทึม

หนึ่งในประเด็นที่สำคัญที่สุดในการทำเหมืองข้อมูลเป็นปัญหาของการคำนวณความยืดหยุ่น อัลกอริทึมที่พัฒนาขึ้นสำหรับการคำนวณมาตรฐานวิธีการสำรวจและยืนยันทางสถิติได้รับการออกแบบให้มีความรวดเร็วและมีประสิทธิภาพในการคำนวณเมื่อใช้กับชุดข้อมูลขนาดเล็กและขนาดกลาง แต่ก็แสดงให้เห็นว่าอัลกอริทึมเหล่านี้ส่วนใหญ่ไม่ได้ขึ้นอยู่กับความท้าทายในการจัดการชุดข้อมูลขนาดใหญ่ เมื่อชุดข้อมูลเติบโตขึ้นอัลกอริทึมที่มีอยู่จำนวนมากแสดงให้เห็นถึงแนวโน้มที่จะชะลอความเร็วลงอย่างมาก


8

การขุดข้อมูลเป็นสถิติที่มีความแตกต่างเล็กน้อย คุณสามารถคิดว่ามันเป็นสถิติการสร้างตราสินค้าใหม่เพราะนักสถิติเป็นคนแปลก ๆ

มันมักจะเกี่ยวข้องกับสถิติการคำนวณเช่นสิ่งเดียวที่คุณสามารถทำได้กับคอมพิวเตอร์

นักขุดข้อมูลขโมยสัดส่วนที่สำคัญของสถิติหลายตัวแปรและเรียกมันว่าเป็นของตัวเอง ตรวจสอบสารบัญของหนังสือหลายตัวแปรในทศวรรษ 1990 และเปรียบเทียบกับหนังสือทำเหมืองข้อมูลใหม่ คล้ายกันมาก

สถิติเกี่ยวข้องกับการทดสอบสมมติฐานและการสร้างแบบจำลองในขณะที่การทำเหมืองข้อมูลเกี่ยวข้องกับการทำนายและการจำแนกประเภทมากขึ้นโดยไม่คำนึงว่ามีรูปแบบที่เข้าใจได้หรือไม่


1
ซ้ำกันคืออะไร ฉันไม่เห็นอะไรชัดเจน
Rob Hyndman


1
ตกลง. ฉันค้นหาการขุดข้อมูลไม่ใช่การเรียนรู้ด้วยเครื่อง โปรดลงคะแนนให้ปิดหากคุณคิดว่าซ้ำซ้อน
Rob Hyndman

อืมดังนั้น Data Mining == การเรียนรู้ของเครื่อง?
ARS

1
1) ฉันไม่เห็นความแตกต่างทางสถิติ มีไม่มากนักที่นักสถิติไม่ต้องใช้คอมพิวเตอร์ ฉันคิดว่าคุณหมายถึงขั้นตอนการคำนวณอย่างเข้มข้นเช่นวิธีแก้ปัญหาซ้ำ ๆ ฯลฯ ? แต่แล้วสิ่งเหล่านี้ก็เป็นเรื่องธรรมดาในงานสถิติสมัยใหม่ที่ไม่ใช่การขุดข้อมูล 2) ในงานของฉัน (สถิติ) ฉันสนใจในการสร้างแบบจำลองเพื่ออธิบายและทำนายขึ้นอยู่กับปัญหา - ฉันจะไม่พิจารณาการทำเหมืองข้อมูลนั้น 3) ฉันได้ข้อสรุปว่า DM ที่ทันสมัยเป็นแอพพลิเคชั่นทางสถิติโดยเฉพาะซึ่งฉันคิดว่าเป็นข้อสรุปที่ดี
เบร็ท

6

ก่อนหน้านี้ฉันเคยเขียนโพสต์ที่ฉันทำการสำรวจสองสามข้อเปรียบเทียบการทำเหมืองข้อมูลกับจิตวิทยา ฉันคิดว่าข้อสังเกตเหล่านี้อาจจับความแตกต่างบางอย่างที่คุณระบุ:

  1. "การขุดข้อมูลดูเหมือนจะเกี่ยวข้องกับการทำนายโดยใช้ตัวแปรที่สังเกตได้มากกว่าด้วยการทำความเข้าใจระบบสาเหตุของตัวแปรแฝงโดยทั่วไปแล้วจิตวิทยามักเกี่ยวข้องกับระบบสาเหตุของตัวแปรแฝง
  2. การทำเหมืองข้อมูลโดยทั่วไปเกี่ยวข้องกับชุดข้อมูลขนาดใหญ่ (เช่น 10,000 + แถว) ที่รวบรวมเพื่อวัตถุประสงค์อื่นนอกเหนือจากจุดประสงค์ของการทำเหมืองข้อมูล ชุดข้อมูลทางจิตวิทยามักมีขนาดเล็ก (เช่นน้อยกว่า 1,000 หรือ 100 แถว) และรวบรวมไว้อย่างชัดเจนเพื่อสำรวจคำถามการวิจัย
  3. การวิเคราะห์ทางจิตวิทยามักจะเกี่ยวข้องกับการทดสอบรูปแบบเฉพาะ แนวทางการพัฒนาแบบจำลองอัตโนมัตินั้นไม่น่าสนใจในเชิงทฤษฎี "- การทำเหมืองข้อมูลและอาร์

ฉันคิดว่าคะแนน 2 และ 3 เป็นความคิดเห็นที่เป็นประโยชน์และสอดคล้องกับสิ่งที่ฉันเห็นว่าเป็นความแตกต่างระหว่างสอง SA และ DM ฉันไม่แน่ใจเกี่ยวกับประเด็นแรกของคุณ ฉันทำงานทางสถิติที่ฉันสนใจที่จะปรับปรุงความเข้าใจเกี่ยวกับความสัมพันธ์เชิงสาเหตุ อย่างไรก็ตามฉันยังได้ทำงานทางสถิติที่งานนั้นต้องนำความสัมพันธ์ที่รู้จักและพัฒนาแบบจำลองโดยมีจุดประสงค์ในการคาดการณ์ แต่เพียงผู้เดียวซึ่งแบ่งปันคุณลักษณะที่ไม่ใช่ของ "data mining"
เบร็ท

4

ฉันไม่คิดว่าความแตกต่างที่คุณทำนั้นเกี่ยวข้องกับความแตกต่างระหว่างการทำดาต้าและการวิเคราะห์ทางสถิติ คุณกำลังพูดถึงความแตกต่างระหว่างการวิเคราะห์เชิงสำรวจและวิธีการสร้างแบบจำลองการทำนาย

ฉันคิดว่าประเพณีของ statisic นั้นถูกสร้างขึ้นด้วยทุกขั้นตอน: การวิเคราะห์เชิงสำรวจจากนั้นทำการสร้างแบบจำลองจากนั้นทำการประมาณค่าจากนั้นทำการทดสอบจากนั้นทำการพยากรณ์ / สรุป นักสถิติทำการวิเคราะห์เชิงสำรวจเพื่อหาว่าข้อมูลดูเหมือนอย่างไร (สรุปฟังก์ชั่นภายใต้ R!) ฉันเดาว่าการจัดเรียงข้อมูลมีโครงสร้างน้อยกว่าและสามารถระบุได้ด้วยการวิเคราะห์เชิงสำรวจ อย่างไรก็ตามมันใช้เทคนิคจากสถิติที่มาจากการประมาณการณ์การคาดการณ์การจำแนก ...


ฉันสามารถหาซื้อได้ การขุดข้อมูลเป็นการใช้งานเชิงเทคนิคมากขึ้นในเชิงสถิติ แม้ว่าฉันจะไม่คิดว่าความแตกต่างนั้นก็เพียงพอแล้ว เมื่อฉันทำ EDA จากการสังเกตการณ์ 100 ชุดจากการทดลองที่ออกแบบมาฉันไม่คิดว่าจะมีใครเรียกว่าการทำเหมืองข้อมูล
เบร็ท
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.