คำถามติดแท็ก data-mining

การขุดข้อมูลใช้วิธีการจากปัญญาประดิษฐ์ในบริบทฐานข้อมูลเพื่อค้นหารูปแบบที่ไม่รู้จักก่อนหน้านี้ ดังนั้นวิธีการดังกล่าวมักจะไม่ได้รับการดูแล มันเกี่ยวข้องอย่างใกล้ชิด แต่ไม่เหมือนกับการเรียนรู้ของเครื่อง งานที่สำคัญของการขุดข้อมูลคือการวิเคราะห์กลุ่มการตรวจหานอกและกฎการเชื่อมโยง

5
วิธีทำความเข้าใจข้อเสียของ K-mean
K-mean เป็นวิธีที่ใช้กันอย่างแพร่หลายในการวิเคราะห์กลุ่ม ในความเข้าใจของฉันวิธีนี้ไม่จำเป็นต้องมีข้อสมมติฐานใด ๆ เช่นให้ชุดข้อมูลและจำนวนกลุ่มที่กำหนดไว้ล่วงหน้าฉันและฉันเพิ่งใช้อัลกอริทึมนี้ซึ่งช่วยลดผลรวมของข้อผิดพลาดกำลังสอง (SSE) ภายในคลัสเตอร์กำลังสอง ความผิดพลาด k-mean จึงเป็นปัญหาการหาค่าเหมาะที่สุด ฉันอ่านเนื้อหาเกี่ยวกับข้อเสียของ k-mean ส่วนใหญ่พูดว่า: k- หมายถึงถือว่าความแปรปรวนของการกระจายของแต่ละคุณลักษณะ (ตัวแปร) เป็นทรงกลม; ตัวแปรทั้งหมดมีความแปรปรวนเดียวกัน ความน่าจะเป็นก่อนหน้านี้สำหรับ k k ทั้งหมดนั้นเหมือนกันกล่าวคือแต่ละกลุ่มมีจำนวนการสังเกตอย่างเท่าเทียมกัน หากมีการละเมิดสมมติฐานข้อใดข้อหนึ่งใน 3 ข้อใดข้อหนึ่งของ k-mean จะล้มเหลว ฉันไม่เข้าใจตรรกะหลังคำสั่งนี้ ฉันคิดว่าวิธี k-mean ไม่มีข้อสมมติฐานเป็นหลักมันแค่ลด SSE ลงเท่านั้นดังนั้นฉันจึงไม่สามารถเห็นลิงก์ระหว่างการลด SSE และ "สมมติฐาน" ทั้งสามนี้

12
อะไรคือความแตกต่างระหว่าง data mining สถิติการเรียนรู้ของ machine และ AI?
อะไรคือความแตกต่างระหว่าง data mining สถิติการเรียนรู้ของ machine และ AI? จะถูกต้องหรือไม่ที่จะบอกว่าพวกเขาเป็น 4 สาขาที่พยายามแก้ไขปัญหาที่คล้ายกันมาก แต่ด้วยวิธีการที่แตกต่างกัน? พวกเขามีอะไรกันแน่และพวกเขาต่างกันอย่างไร หากมีลำดับชั้นบางอย่างระหว่างพวกเขามันจะเป็นอะไร? มีการถามคำถามที่คล้ายกันก่อนหน้านี้ แต่ฉันยังไม่เข้าใจ: การทำเหมืองข้อมูลและการวิเคราะห์ทางสถิติ สองวัฒนธรรม: สถิติกับการเรียนรู้ของเครื่อง?

4
คัปปาของโคเฮนในภาษาอังกฤษธรรมดา
ฉันกำลังอ่านหนังสือ data mining และมันบอกว่าสถิติ Kappa เป็นวิธีการประเมินประสิทธิภาพการทำนายของตัวจําแนก อย่างไรก็ตามฉันไม่เข้าใจสิ่งนี้ ฉันยังตรวจสอบวิกิพีเดีย แต่มันก็ไม่ได้ช่วยอะไรมากเกินไป: https://en.wikipedia.org/wiki/Cohen's_kappa คัปปาของโคเฮนช่วยในการประเมินประสิทธิภาพการทำนายของตัวแยกประเภทอย่างไร มันบอกอะไร ฉันเข้าใจว่า 100% คัปปาหมายความว่าลักษณนามอยู่ในข้อตกลงทั้งหมดกับลักษณนามแบบสุ่ม แต่ฉันไม่เข้าใจว่าสิ่งนี้ช่วยในการประเมินประสิทธิภาพของลักษณนามอย่างไร 40% คัปปาหมายถึงอะไร? หมายความว่า 40% ของเวลาตัวจําแนกเป็นการตกลงกับตัวจําแนกแบบสุ่มหรือไม่ ถ้าเป็นเช่นนั้นสิ่งที่บอกฉันหรือช่วยฉันในการประเมินลักษณนาม

9
ได้รับความรู้จากป่าสุ่ม
ป่าสุ่มถือเป็นกล่องดำ แต่เมื่อเร็ว ๆ นี้ฉันกำลังคิดว่าจะได้ความรู้อะไรจากป่าสุ่ม? สิ่งที่ชัดเจนที่สุดคือความสำคัญของตัวแปรในตัวแปรที่ง่ายที่สุดสามารถทำได้เพียงแค่คำนวณจำนวนการเกิดขึ้นของตัวแปร สิ่งที่สองที่ฉันคิดคือการโต้ตอบ ฉันคิดว่าถ้าจำนวนต้นไม้มีขนาดใหญ่เพียงพอจำนวนของตัวแปรคู่ที่สามารถทดสอบได้ (เช่นความเป็นอิสระของไคสแควร์) สิ่งที่สามคือความไม่แปรปรวนของตัวแปร ความคิดแรกของฉันคือการดูแผนภูมิของคะแนน Vs ตัวแปร แต่ฉันยังไม่แน่ใจว่ามันสมเหตุสมผลหรือไม่ เพิ่ม 23.01.2012 แรงจูงใจ ฉันต้องการใช้ความรู้นี้เพื่อปรับปรุงแบบจำลอง logit ฉันคิดว่า (หรืออย่างน้อยก็หวังว่า) เป็นไปได้ที่จะพบปฏิสัมพันธ์และความไม่เป็นเชิงเส้นที่ถูกมองข้าม

11
มีงานทำเหมืองข้อมูลโดยไม่มีปริญญาเอก
ฉันสนใจการขุดข้อมูลและการเรียนรู้เครื่องจักรเป็นระยะเวลานานส่วนหนึ่งเป็นเพราะฉันเรียนวิชาเอกที่โรงเรียน แต่ก็เป็นเพราะฉันตื่นเต้นมากที่พยายามแก้ปัญหาที่ต้องใช้ความคิดมากกว่าการเขียนโปรแกรม ความรู้และวิธีการแก้ปัญหาซึ่งสามารถมีได้หลายรูปแบบ ฉันไม่มีภูมิหลังของนักวิจัย / นักวิทยาศาสตร์ฉันมาจากพื้นหลังวิทยาการคอมพิวเตอร์โดยเน้นการวิเคราะห์ข้อมูลฉันมีปริญญาโทไม่ใช่ปริญญาเอก ขณะนี้ฉันมีตำแหน่งที่เกี่ยวข้องกับการวิเคราะห์ข้อมูลแม้ว่าจะไม่ได้เป็นจุดสนใจหลักของสิ่งที่ฉันทำ แต่อย่างน้อยฉันก็มีการเปิดเผยที่ดี ในขณะที่ฉันกำลังสัมภาษณ์เมื่อไม่นานมานี้เพื่อหางานกับ บริษัท หลายแห่งและได้พูดคุยกับนายหน้าสองสามคนฉันพบรูปแบบทั่วไปที่ผู้คนคิดว่าคุณต้องมีปริญญาเอกในการเรียนรู้ของเครื่องจักรแม้ว่าฉันจะเป็น generalizing เล็กน้อยมากเกินไป (บาง บริษัท ไม่ได้มองหาโดยเฉพาะอย่างยิ่งสำหรับปริญญาเอก) ในขณะที่ฉันคิดว่ามันเป็นเรื่องดีที่จะมีปริญญาเอกในพื้นที่ที่ผมไม่คิดว่านี้เป็นอย่างที่จำเป็น ฉันมีความรู้ที่ดีพอสมควรเกี่ยวกับอัลกอริทึมการเรียนรู้ของเครื่องส่วนใหญ่ในโลกแห่งความจริงได้ใช้พวกเขาเอง (ไม่ว่าจะที่โรงเรียนหรือในโครงการส่วนตัว) และรู้สึกมั่นใจเมื่อเข้าใกล้ปัญหาที่เกี่ยวข้องกับการเรียนรู้ด้วยเครื่องจักร . และฉันมีเพื่อนที่มีประวัติคล้าย ๆ กันซึ่งดูเหมือนจะมีความรู้เกี่ยวกับเรื่องนี้เช่นกัน แต่ก็รู้สึกว่าโดยทั่วไปแล้ว บริษัท ค่อนข้างขี้อายที่จ้างงาน data-mining ถ้าคุณไม่ใช่ปริญญาเอก ฉันต้องการรับคำติชมบางอย่างคุณคิดว่าปริญญาเอกมีความจำเป็นอย่างยิ่งหรือไม่ที่จะต้องมีงานที่เน้นเรื่องนี้มาก? (ฉันลังเลเล็กน้อยก่อนโพสต์คำถามนี้ที่นี่ แต่เนื่องจากดูเหมือนว่าจะเป็นหัวข้อที่ยอมรับได้ใน metaฉันจึงตัดสินใจโพสต์คำถามนี้ซึ่งฉันคิดอยู่พักหนึ่ง)

7
ระยะทางแบบยุคลิดมักจะไม่ดีสำหรับข้อมูลที่กระจัดกระจาย?
ฉันเคยเห็นที่ไหนสักแห่งที่ระยะทางแบบคลาสสิก (เช่นระยะทางแบบยุคลิดแบบยูเอส) กลายเป็นแยกแยะอย่างอ่อนเมื่อเรามีข้อมูลหลายมิติและห่าง ๆ ทำไม? คุณมีตัวอย่างของเวกเตอร์ข้อมูลเบาบางสองตัวที่ระยะ Euclidean ทำงานได้ไม่ดีหรือไม่? ในกรณีนี้เราควรใช้ความคล้ายคลึงกันแบบใด?

8
ทักษะยากที่จะหาในผู้เรียนรู้เครื่องจักร?
ดูเหมือนว่าการขุดข้อมูลและการเรียนรู้ของเครื่องจักรกลายเป็นที่นิยมจนตอนนี้นักเรียน CS เกือบทุกคนรู้เรื่องตัวแยกประเภทการจัดกลุ่มการ NLP เชิงสถิติ ฯลฯ ดังนั้นดูเหมือนว่าการค้นหาตัวขุดข้อมูลไม่ใช่เรื่องยากในปัจจุบัน คำถามของฉันคืออะไรทักษะที่นักขุดข้อมูลสามารถเรียนรู้ที่จะทำให้เขาแตกต่างจากคนอื่น ๆ คืออะไร? ที่จะทำให้เขาเป็นคนที่ไม่เหมือนใครง่ายๆ

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

2
ทำไมต้องมีสามพาร์ติชั่นเท่านั้น? (การฝึกอบรมการตรวจสอบการทดสอบ)
เมื่อคุณพยายามที่จะจัดให้โมเดลเข้ากับชุดข้อมูลขนาดใหญ่คำแนะนำทั่วไปคือการแบ่งพาร์ติชันข้อมูลออกเป็นสามส่วน ได้แก่ การฝึกอบรมการตรวจสอบความถูกต้องและชุดข้อมูลการทดสอบ นี่เป็นเพราะโมเดลมักจะมี "ระดับ" ของพารามิเตอร์สามตัว: "พารามิเตอร์" ตัวแรกคือคลาสโมเดล (เช่น SVM, โครงข่ายประสาทเทียม, ฟอเรสต์แบบสุ่ม) ชุดพารามิเตอร์ที่สองคือพารามิเตอร์ "การทำให้เป็นมาตรฐาน" หรือ " เช่นค่าสัมประสิทธิ์การลงโทษบ่วงบาศเลือกเคอร์เนลโครงข่ายโครงข่ายประสาทเทียม) และเซตที่สามคือสิ่งที่มักจะพิจารณาว่า "พารามิเตอร์" (เช่นค่าสัมประสิทธิ์สำหรับ covariates) เมื่อกำหนดคลาสของโมเดลและตัวเลือกพารามิเตอร์หลายตัวพารามิเตอร์หนึ่งจะเลือกโดยการเลือกพารามิเตอร์ที่ช่วยลดข้อผิดพลาดในชุดฝึกอบรม เมื่อกำหนดคลาสของโมเดลหนึ่งจะทำไฮเปอร์พารามิเตอร์โดยย่อข้อผิดพลาดให้น้อยที่สุดในชุดการตรวจสอบความถูกต้อง มีการเลือกคลาสรุ่นตามประสิทธิภาพในชุดทดสอบ แต่ทำไมไม่แบ่งพาร์ติชันเพิ่มเติม? บ่อยครั้งที่ใครคนหนึ่งสามารถแบ่งพารามิเตอร์หลายตัวเป็นสองกลุ่มและใช้ "การตรวจสอบ 1" เพื่อให้พอดีกับที่หนึ่งและ "การตรวจสอบที่ 2" เพื่อให้พอดีกับที่สอง หรืออย่างใดอย่างหนึ่งก็สามารถรักษาขนาดของข้อมูลการฝึกอบรม / ข้อมูลการตรวจสอบแยกเป็นพารามิเตอร์ที่จะปรับ นี่เป็นวิธีปฏิบัติทั่วไปในบางแอปพลิเคชันหรือไม่ มีทฤษฎีใดบ้างเกี่ยวกับการแบ่งพาร์ติชั่นข้อมูลที่ดีที่สุด?

12
ซอฟต์แวร์ที่จำเป็นสำหรับการขูดข้อมูลจากกราฟ [ปิด]
ใครมีประสบการณ์กับซอฟต์แวร์ (โดยเฉพาะอย่างยิ่งฟรีโอเพนซอร์ซ) ที่จะถ่ายภาพของข้อมูลที่ถูกพล็อตบนพิกัดคาร์ทีเซียน (มาตรฐานพล็อตประจำวัน) และแยกพิกัดของจุดที่พล็อตลงบนกราฟ โดยพื้นฐานแล้วนี่เป็นปัญหาการขุดข้อมูลและปัญหาการแสดงข้อมูลย้อนกลับ

8
การสุ่มตัวอย่างเกี่ยวข้องในเวลาของ 'ข้อมูลขนาดใหญ่' หรือไม่
หรือมากกว่านั้น "มันจะเป็น"? ข้อมูลขนาดใหญ่ทำให้สถิติและความรู้ที่เกี่ยวข้องมีความสำคัญมากขึ้น แต่ดูเหมือนว่าจะมีผลต่อทฤษฎีการสุ่มตัวอย่าง ฉันเห็นโฆษณานี้ใน 'บิ๊กดาต้า' และไม่สามารถช่วยสงสัยได้ว่า "ทำไม" ฉันต้องการวิเคราะห์ทุกอย่าง ? ไม่มีเหตุผลสำหรับ "ทฤษฎีการสุ่มตัวอย่าง" ที่จะออกแบบ / นำมาใช้ / ประดิษฐ์ / ค้นพบหรือไม่? ฉันไม่เข้าใจการวิเคราะห์ 'ประชากร' ทั้งหมดของชุดข้อมูล เพียงเพราะคุณสามารถทำได้ไม่ได้หมายความว่าคุณควรจะ (ความโง่เขลาเป็นสิทธิพิเศษ แต่คุณไม่ควรละเมิด :) ดังนั้นคำถามของฉันคือสิ่งนี้: มีความเกี่ยวข้องทางสถิติในการวิเคราะห์ชุดข้อมูลทั้งหมดหรือไม่ สิ่งที่ดีที่สุดที่คุณสามารถทำได้คือลดข้อผิดพลาดให้น้อยที่สุดหากคุณสุ่มตัวอย่าง แต่ค่าใช้จ่ายในการลดข้อผิดพลาดนั้นคุ้มหรือไม่ "คุณค่าของข้อมูล" คุ้มค่ากับความพยายามเวลาที่ต้องเสียไป ฯลฯ ในการวิเคราะห์ข้อมูลขนาดใหญ่บนคอมพิวเตอร์คู่ขนานขนาดใหญ่หรือไม่? แม้ว่าจะมีคนวิเคราะห์ประชากรทั้งหมดผลลัพธ์ก็น่าจะเดาได้ดีที่สุดโดยมีความน่าจะเป็นที่สูงขึ้น อาจจะสูงกว่าการสุ่มตัวอย่างเล็กน้อย (หรือมากกว่านั้นอีก) ความเข้าใจที่ได้จากการวิเคราะห์ประชากรกับการวิเคราะห์ตัวอย่างนั้นแตกต่างกันอย่างกว้างขวางหรือไม่? หรือเราควรยอมรับว่า "เวลามีการเปลี่ยนแปลง"? การสุ่มตัวอย่างเป็นกิจกรรมอาจมีความสำคัญน้อยลงหากให้พลังงานในการคำนวณที่เพียงพอ :) หมายเหตุ: ฉันไม่ได้พยายามที่จะเริ่มการโต้วาที แต่กำลังมองหาคำตอบที่จะเข้าใจว่าทำไมข้อมูลขนาดใหญ่ถึงทำในสิ่งที่มันทำ (เช่นวิเคราะห์ทุกอย่าง) และไม่สนใจทฤษฎีการสุ่มตัวอย่าง (หรือไม่?)

3
พวกเรามีปัญหาเรื่อง“ สงสาร upvotes” หรือไม่?
ฉันรู้ว่านี่อาจฟังดูเหมือนว่าเป็นหัวข้อนอก แต่ได้ยินฉัน ที่ Stack Overflow และที่นี่เราได้รับคะแนนโหวตจากโพสต์ทั้งหมดนี้เก็บไว้ในรูปแบบตาราง เช่น: โพสต์ id ผู้มีสิทธิเลือกตั้ง ID ลงคะแนนประเภท datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... และต่อไป โหวตประเภท 2 คือ upvote, โหวตโหวต 3 คือ downvote คุณสามารถสอบถามรุ่นนี้ของข้อมูลนี้แบบไม่เปิดเผยชื่อได้ที่http://data.stackexchange.com มีการรับรู้ว่าหากโพสต์ถึงคะแนน -1 หรือต่ำกว่าก็มีแนวโน้มที่จะ upvoted นี่อาจเป็นเพียงการยืนยันความลำเอียงหรือมันอาจจะหยั่งรากในความเป็นจริง เราจะวิเคราะห์ข้อมูลนี้เพื่อยืนยันหรือปฏิเสธสมมติฐานนี้อย่างไร เราจะวัดผลกระทบของอคตินี้อย่างไร

3
การทำคลัสเตอร์กับ K-Means และ EM: พวกเขาเกี่ยวข้องกันอย่างไร
ฉันได้ศึกษาอัลกอริทึมสำหรับการจัดกลุ่มข้อมูล (การเรียนรู้ที่ไม่สำรอง): EM และ k-mean ฉันอ่านต่อไปนี้: k-mean คือตัวแปรของ EM โดยมีข้อสันนิษฐานว่ากระจุกดาวทรงกลม ใครสามารถอธิบายประโยคข้างต้นได้บ้าง ฉันไม่เข้าใจความหมายของทรงกลมและความสัมพันธ์ของ kmeans และ EM เนื่องจากมีความน่าจะเป็นที่ได้รับมอบหมาย นอกจากนี้ในสถานการณ์ใดควรใช้การจัดกลุ่ม k-mean หรือใช้การทำคลัสเตอร์ EM

1
ตัวชี้วัดประสิทธิภาพเพื่อประเมินการเรียนรู้ที่ไม่ได้รับการดูแล
ด้วยความเคารพต่อการเรียนรู้ที่ไม่ได้รับการดูแล (เช่นการจัดกลุ่ม) มีตัวชี้วัดใดเพื่อประเมินประสิทธิภาพหรือไม่

3
อะไรคือความแตกต่างระหว่างโมเดลมาร์คอฟที่ซ่อนอยู่กับเครือข่ายประสาทเทียม
ฉันแค่ทำให้เท้าของฉันเปียกในสถิติดังนั้นฉันขอโทษถ้าคำถามนี้ไม่สมเหตุสมผล ฉันใช้โมเดลของมาร์คอฟเพื่อทำนายสถานะที่ซ่อนอยู่ (คาสิโนที่ไม่เป็นธรรมลูกเต๋าทอย ฯลฯ ) และเครือข่ายประสาทเทียมเพื่อศึกษาการคลิกของผู้ใช้ในเครื่องมือค้นหา ทั้งสองมีสถานะซ่อนเร้นที่เราพยายามคิดโดยใช้การสังเกต เพื่อความเข้าใจของฉันพวกเขาทั้งคู่ทำนายสถานะซ่อนเร้นดังนั้นฉันสงสัยว่าเมื่อไหร่จะใช้โมเดลมาร์คอฟผ่านเครือข่ายประสาท พวกเขามีวิธีการที่แตกต่างกันสำหรับปัญหาที่คล้ายกันหรือไม่ (ฉันสนใจที่จะเรียนรู้ แต่ฉันก็มีแรงจูงใจอีกอย่างฉันมีปัญหาที่ฉันพยายามแก้ไขโดยใช้โมเดลของมาร์คอฟที่ซ่อนอยู่ แต่มันทำให้ฉันเป็นบ้า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.