คำถามติดแท็ก data-mining

การขุดข้อมูลใช้วิธีการจากปัญญาประดิษฐ์ในบริบทฐานข้อมูลเพื่อค้นหารูปแบบที่ไม่รู้จักก่อนหน้านี้ ดังนั้นวิธีการดังกล่าวมักจะไม่ได้รับการดูแล มันเกี่ยวข้องอย่างใกล้ชิด แต่ไม่เหมือนกับการเรียนรู้ของเครื่อง งานที่สำคัญของการขุดข้อมูลคือการวิเคราะห์กลุ่มการตรวจหานอกและกฎการเชื่อมโยง

2
จะคาดการณ์ได้อย่างไรว่าเหตุการณ์ต่อไปจะเกิดขึ้นตามเวลาของเหตุการณ์ก่อนหน้า?
ฉันเป็นนักเรียนมัธยมปลายและฉันกำลังทำงานในโครงการการเขียนโปรแกรมคอมพิวเตอร์ แต่ฉันไม่มีประสบการณ์ในด้านสถิติและการสร้างแบบจำลองข้อมูลนอกเหนือจากหลักสูตรสถิติของโรงเรียนมัธยมดังนั้นฉันจึงสับสน โดยพื้นฐานแล้วฉันมีรายการที่มีขนาดใหญ่พอสมควร (สมมติว่ามันใหญ่พอที่จะตรงตามข้อสันนิษฐานสำหรับการทดสอบทางสถิติหรือมาตรการต่าง ๆ ) จำนวนครั้งที่มีคนตัดสินใจพิมพ์เอกสาร จากรายการนี้ฉันต้องการสร้างแบบจำลองทางสถิติของการเรียงลำดับบางอย่างที่จะทำนายเวลาที่น่าจะเป็นไปได้มากที่สุดสำหรับงานพิมพ์ถัดไปที่ให้เวลาเหตุการณ์ก่อนหน้านี้ทั้งหมด ฉันได้อ่านสิ่งนี้แล้ว แต่คำตอบไม่ได้ช่วยในสิ่งที่ฉันมีในใจสำหรับโครงการของฉัน ฉันได้ทำการวิจัยเพิ่มเติมและพบว่าโมเดลของ Markov ที่ซ่อนอยู่นั้นน่าจะทำให้ฉันทำอย่างถูกต้อง แต่ฉันไม่สามารถหาลิงก์เกี่ยวกับวิธีสร้างโมเดลของ Markov ที่ซ่อนอยู่ได้โดยใช้เวลาเพียงไม่กี่ครั้ง ฉันยังพบว่าการใช้ตัวกรองคาลมานในรายการอาจมีประโยชน์ แต่โดยทั่วไปฉันต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับตัวกรองจากคนที่ใช้งานจริงและรู้ข้อ จำกัด และข้อกำหนดก่อนที่จะลองทำบางสิ่งและหวังว่ามันจะได้ผล ขอบคุณมัด!

7
ข้อมูลเอนเอียงในการเรียนรู้ของเครื่อง
ฉันกำลังทำงานในโครงการการเรียนรู้ของเครื่องด้วยข้อมูลที่มีอคติอยู่แล้ว (มาก) โดยการเลือกข้อมูล สมมติว่าคุณมีกฎฮาร์ดโค้ด คุณจะสร้างรูปแบบการเรียนรู้ของเครื่องเพื่อแทนที่ได้อย่างไรเมื่อข้อมูลทั้งหมดที่สามารถใช้ได้คือข้อมูลที่ถูกกรองโดยกฎเหล่านั้นแล้วหรือไม่ เพื่อให้สิ่งต่าง ๆ ชัดเจนฉันเดาว่าตัวอย่างที่ดีที่สุดคือการประเมินความเสี่ยงสินเชื่อ : งานคือการกรองลูกค้าทั้งหมดที่มีแนวโน้มที่จะล้มเหลวในการชำระเงิน ทีนี้ข้อมูลเดียว (ที่มีป้ายกำกับ) ที่คุณมีมาจากไคลเอนต์ที่ได้รับการยอมรับโดยชุดของกฎเพราะหลังจากยอมรับคุณจะเห็นว่ามีคนจ่ายหรือไม่ (เห็นได้ชัด) คุณไม่รู้ว่าชุดของกฎนั้นดีแค่ไหนและจะมีผลต่อการกระจายจ่ายที่จ่ายไปยังไม่จ่าย นอกจากนี้คุณมีข้อมูลที่ไม่มีป้ายกำกับจากลูกค้าที่ถูกปฏิเสธอีกครั้งเนื่องจากชุดของกฎ ดังนั้นคุณจึงไม่ทราบว่าจะเกิดอะไรขึ้นกับลูกค้าเหล่านั้นหากได้รับการยอมรับ เช่นหนึ่งในกฎอาจเป็น: "ถ้าอายุของลูกค้า <18 ปีแล้วไม่ยอมรับ" ตัวจําแนกไม่มีวิธีเรียนรู้วิธีจัดการกับไคลเอ็นต์ที่ถูกกรองโดยกฎเหล่านี้ ลักษณนามควรจะเรียนรู้รูปแบบที่นี่ได้อย่างไร การเพิกเฉยปัญหานี้จะนำไปสู่รูปแบบการเปิดเผยข้อมูลที่ไม่เคยพบมาก่อน โดยพื้นฐานแล้วฉันต้องการประมาณค่าของ f (x) เมื่อ x อยู่นอก [a, b] ที่นี่

3
การสร้างภาพข้อมูลเชิงโต้ตอบจะมีประโยชน์เมื่อใด
ในขณะที่เตรียมการพูดคุยฉันจะให้เร็ว ๆ นี้ฉันเพิ่งเริ่มขุดเป็นสองเครื่องมือสำคัญ (ฟรี) สำหรับการสร้างภาพข้อมูลแบบโต้ตอบ: GGobiและMondrian - ทั้งสองมีความสามารถที่หลากหลาย ฉันต้องการขอความช่วยเหลือจากคุณในการสื่อสาร (ทั้งกับตัวเองและสำหรับผู้ชมในอนาคตของฉัน) เมื่อใดที่การใช้แปลงแบบโต้ตอบมีประโยชน์เมื่อใด สำหรับการสำรวจข้อมูล (สำหรับตัวเราเอง) และการนำเสนอข้อมูล (สำหรับ "ลูกค้า") สำหรับเมื่ออธิบายข้อมูลไปยังไคลเอนต์ฉันสามารถดูค่าของภาพเคลื่อนไหวสำหรับ: ใช้ "ระบุ / เชื่อมโยง / แปรง" เพื่อดูว่าจุดข้อมูลใดในกราฟคืออะไร นำเสนอการวิเคราะห์ความอ่อนไหวของข้อมูล (เช่น: "ถ้าเราลบจุดนี้นี่คือสิ่งที่เราจะได้รับ) แสดงผลของกลุ่มต่าง ๆ ในข้อมูล (เช่น: "ลองดูกราฟของเราสำหรับผู้ชายและผู้หญิงตอนนี้") แสดงเอฟเฟกต์ของเวลา (หรืออายุหรือโดยทั่วไปให้มิติอื่นกับงานนำเสนอ) สำหรับการสำรวจข้อมูลด้วยตัวเองฉันสามารถเห็นคุณค่าของการระบุ / การเชื่อมโยง / การแปรงเมื่อทำการสำรวจค่าในชุดข้อมูลที่เรากำลังทำงานอยู่ แต่ในอีกสองตัวอย่างนี้ฉันไม่แน่ใจว่าเทคนิคเหล่านี้ใช้งานได้จริงอย่างไร โดยเฉพาะอย่างยิ่งสำหรับการสำรวจข้อมูลของเราเอง! อาจเป็นที่ถกเถียงกันอยู่ว่าส่วนที่ตอบโต้นั้นดีสำหรับการสำรวจ (ตัวอย่าง) พฤติกรรมที่แตกต่างของกลุ่ม / กลุ่มที่แตกต่างกันในข้อมูล แต่เมื่อ (ในทางปฏิบัติ) ฉันเข้าหาสถานการณ์เช่นนี้สิ่งที่ฉันมักจะทำคือการเรียกใช้กระบวนการทางสถิติที่เกี่ยวข้อง (และการทดสอบหลังการเฉพาะกิจ) …

2
เครื่องเพิ่มระดับความลาดชันมีเงื่อนไขใดที่มีประสิทธิภาพเหนือกว่าป่าสุ่ม
เครื่องจักรเพิ่มระดับความลาดชันของ Friedmanสามารถทำงานได้ดีกว่าป่าสุ่มของ Breimanหรือไม่? ถ้าเป็นเช่นนั้นเงื่อนไขหรือชุดข้อมูลใดที่สามารถทำให้ gbm ดีขึ้นได้?

2
แนวทางการฝึกอบรมสำหรับชุดข้อมูลที่มีความไม่สมดุลสูง
ฉันมีชุดข้อมูลการทดสอบที่ไม่สมดุลสูง ชุดบวกประกอบด้วย 100 กรณีในขณะที่ชุดลบประกอบด้วย 1500 กรณี ในด้านการฝึกอบรมฉันมีกลุ่มผู้สมัครที่ใหญ่กว่า: ชุดฝึกอบรมเชิงบวกมี 1200 รายและชุดฝึกอบรมเชิงลบมี 12,000 ราย สำหรับสถานการณ์ประเภทนี้ฉันมีหลายทางเลือก: 1) การใช้ SVM แบบถ่วงน้ำหนักสำหรับชุดฝึกอบรมทั้งหมด (P: 1200, N: 12000) 2) การใช้ SVM ตามชุดการฝึกอบรมตัวอย่าง (P: 1200, N: 1200) ตัวอย่างเชิงลบ 1200 รายการจะถูกสุ่มตัวอย่างจาก 12,000 กรณี มีคำแนะนำเชิงทฤษฎีในการตัดสินใจเลือกวิธีใดดีกว่า เนื่องจากชุดข้อมูลทดสอบมีความไม่สมดุลสูงฉันควรใช้ชุดฝึกอบรมที่ไม่สมดุลเช่นกันหรือไม่

3
การผสมข้อมูลคืออะไร
ระยะนี้จะปรากฏขึ้นบ่อย ๆ ในหัวข้อวิธีการที่เกี่ยวข้องกับ มีการผสมผสานวิธีการเฉพาะในการทำเหมืองข้อมูลและการเรียนรู้ทางสถิติ? ฉันไม่สามารถรับผลลัพธ์ที่เกี่ยวข้องจาก google ได้ ดูเหมือนว่าการผสมเป็นการผสมผสานผลลัพธ์จากหลาย ๆ โมเดลและทำให้ได้ผลลัพธ์ที่ดีขึ้น มีทรัพยากรใดที่ช่วยให้ฉันรู้เพิ่มเติมเกี่ยวกับมันหรือไม่?

10
การสำรวจเครื่องมือซอฟต์แวร์ขุดข้อมูล
แม้ว่าฉันจะได้รับการฝึกฝนให้เป็นวิศวกร แต่ฉันก็พบว่าฉันสนใจการทำดาต้ามากขึ้น ตอนนี้ฉันกำลังพยายามตรวจสอบข้อมูลเพิ่มเติม โดยเฉพาะอย่างยิ่งฉันต้องการที่จะเข้าใจเครื่องมือซอฟต์แวร์ประเภทต่าง ๆ ที่มีอยู่และเครื่องมือใดที่มีความโดดเด่นในแต่ละหมวดหมู่และทำไม (โปรดทราบว่าฉันไม่ได้พูดถึงเครื่องมือที่ "ดีที่สุด" แต่สิ่งที่น่าสังเกตก็คือว่าเราเริ่มทำสงครามกับเปลวไฟ) โดยเฉพาะอย่างยิ่งจดบันทึกเครื่องมือที่เป็นโอเพ่นซอร์สและให้ใช้งานได้อย่างอิสระ - แม้ว่าจะไม่ใช้สิ่งนี้ ฉันสนใจโอเพ่นซอร์สและฟรีเท่านั้น

4
ความหมายของคุณสมบัติแฝง?
ฉันกำลังพยายามที่จะเข้าใจรูปแบบเมทริกซ์การแยกตัวประกอบสำหรับระบบผู้แนะนำและฉันมักจะอ่าน 'คุณสมบัติที่แฝงอยู่' แต่นั่นหมายความว่าอย่างไร ฉันรู้ว่าคุณลักษณะใดมีความหมายต่อชุดข้อมูลการฝึกอบรม แต่ฉันไม่สามารถเข้าใจแนวคิดเกี่ยวกับคุณลักษณะแฝง บทความในหัวข้อที่ฉันพบทุกฉบับนั้นตื้นเกินไป แก้ไข: ถ้าอย่างน้อยคุณก็สามารถชี้ให้ฉันดูเอกสารที่อธิบายความคิดนั้นได้

1
ความแตกต่างระหว่างการถดถอยโลจิสติกและการสนับสนุนเครื่องเวกเตอร์คืออะไร?
ฉันรู้ว่าการถดถอยโลจิสติกส์พบไฮเปอร์เพลนที่แยกตัวอย่างการฝึกอบรม ฉันรู้ด้วยว่าเครื่องเวกเตอร์สนับสนุนพบไฮเปอร์เพลนที่มีระยะห่างสูงสุด คำถามของฉัน: ความแตกต่างระหว่างการถดถอยโลจิสติก (LR) และเครื่องเวกเตอร์สนับสนุน (SVM) คือ LR พบไฮเปอร์เพลนใด ๆ ที่แยกตัวอย่างการฝึกอบรมในขณะที่ SVM ค้นหาไฮเปอร์เพลนที่มีระยะห่างสูงสุด? หรือฉันผิด θ ⋅ x = 0θ⋅x=0\theta \cdot x = 00.50.50.50.50.50.5θ ⋅ x = 0θ⋅x=0\theta \cdot x = 0

3
เหตุใดเราจึงใช้วิธี k แทนค่าอัลกอริทึมอื่น
ฉันค้นคว้าเกี่ยวกับ k-mean และสิ่งเหล่านี้คือสิ่งที่ฉันได้รับ: k-mean เป็นหนึ่งในอัลกอริธึมที่ง่ายที่สุดที่ใช้วิธีการเรียนรู้แบบไม่ดูแลเพื่อแก้ปัญหาการจัดกลุ่มที่รู้จัก มันทำงานได้ดีกับชุดข้อมูลขนาดใหญ่ อย่างไรก็ตาม K-Means มีข้อเสียคือ: ความไวสูงต่อค่าผิดปกติและเสียงรบกวน ใช้งานไม่ได้กับรูปร่างของคลัสเตอร์ที่ไม่เป็นวงกลม - ต้องระบุจำนวนของคลัสเตอร์และค่าเริ่มต้นของเมล็ดก่อน ความสามารถต่ำในการส่งผ่านที่เหมาะสมที่สุดในท้องถิ่น มีอะไรที่ยอดเยี่ยมเกี่ยวกับ k-mean หรือไม่เพราะดูเหมือนว่าข้อเสียเปรียบอยู่เหนือสิ่งที่ดีเกี่ยวกับ k-mean โปรดสอนฉัน

2
ประสิทธิภาพของตัวแบบในการสร้างแบบจำลองควอไทล์
ฉันใช้การถดถอยแบบควอไทล์ (เช่นผ่านgbmหรือquantregใน R) - ไม่ได้มุ่งเน้นไปที่ค่ามัธยฐาน แต่แทนที่จะเป็นควอไทล์บน (เช่น 75) มาจากพื้นหลังการสร้างแบบจำลองการคาดการณ์ฉันต้องการวัดความเหมาะสมของแบบจำลองในชุดทดสอบและสามารถอธิบายสิ่งนี้กับผู้ใช้ทางธุรกิจ คำถามของฉันเป็นอย่างไร ในการตั้งค่าทั่วไปที่มีเป้าหมายต่อเนื่องฉันสามารถทำสิ่งต่อไปนี้: คำนวณ RMSE โดยรวม จัดทำชุดข้อมูลตามค่าที่ทำนายและเปรียบเทียบค่าเฉลี่ยจริงกับค่าเฉลี่ยที่คาดการณ์ในแต่ละช่วง เป็นต้น สิ่งที่สามารถทำได้ในกรณีนี้ที่ไม่มีมูลค่าจริง (ฉันไม่คิดว่าอย่างน้อย) เพื่อเปรียบเทียบการทำนายกับ? นี่คือตัวอย่างรหัส: install.packages("quantreg") library(quantreg) install.packages("gbm") library(gbm) data("barro") trainIndx<-sample(1:nrow(barro),size=round(nrow(barro)*0.7),replace=FALSE) train<-barro[trainIndx,] valid<-barro[-trainIndx,] modGBM<-gbm(y.net~., # formula data=train, # dataset distribution=list(name="quantile",alpha=0.75), # see the help for other choices n.trees=5000, # number of trees shrinkage=0.005, # shrinkage …

3
ผังงานเพื่อช่วยในการเลือกเทคนิคการวิเคราะห์และทดสอบที่เหมาะสม
ในฐานะคนที่ต้องการความรู้ทางสถิติ แต่ไม่ใช่นักสถิติที่ได้รับการฝึกฝนอย่างเป็นทางการฉันคิดว่ามันมีประโยชน์ที่จะมีแผนผังลำดับงาน (หรือต้นไม้แห่งการตัดสินใจบางอย่าง) เพื่อช่วยฉันเลือกวิธีที่ถูกต้องในการแก้ปัญหาเฉพาะเจาะจง ต้องการสิ่งนี้และรู้ว่าและนั่นและพิจารณาว่าข้อมูลจะกระจายตามปกติหรือไม่ใช้เทคนิค X หากข้อมูลไม่ปกติให้ใช้ Y หรือ Z ") หลังจากgooglingฉันได้เห็นความพยายามและคุณภาพที่หลากหลาย (ในขณะนี้ยังไม่พร้อม) ฉันเคยเห็นผังงานที่คล้ายกันในตำราเรียนสถิติที่ฉันเคยปรึกษาในห้องสมุด โบนัสจะเป็นเว็บไซต์เชิงโต้ตอบที่นอกเหนือจากการมีแผนภูมิจะให้ข้อมูลเพิ่มเติม (เช่นสมมติฐาน) และชี้ไปที่วิธีการปฏิบัติเทคนิคเหล่านั้นในแพ็คเกจสถิติยอดนิยม "ต้องการทำ ANOVA ใน R หรือไม่คุณต้องมีแพ็คเกจ X และนี่คือบทช่วยสอน" ฉันถามคำถามชุมชนด้วยความหวังว่ามีแหล่งข้อมูลที่ดีกว่าที่ฉันไม่สามารถหาได้ เนื่องจากสถิติเป็นวิชาที่มีขนาดใหญ่ฉันคิดว่าผังงานดังกล่าวจะเหมาะสำหรับเทคนิคที่สามารถเข้าถึงได้โดยผู้ที่มีความรู้ระดับเริ่มต้นหรือระดับกลาง อะไรที่ซับซ้อนกว่านี้ก็ต้องมีใครสักคนที่มีการฝึกฝนอย่างเป็นทางการ

4
มีอัลกอริทึมการจัดกลุ่มตามระยะทางใด ๆ หรือไม่?
ดูเหมือนว่าสำหรับ K-mean และอัลกอริธึมที่เกี่ยวข้องอื่น ๆ การจัดกลุ่มจะขึ้นอยู่กับการคำนวณระยะห่างระหว่างจุด มีอย่างใดอย่างหนึ่งที่ทำงานโดยไม่ได้หรือไม่

3
ความแตกต่างระหว่างเครื่องแยกตัวประกอบและตัวแยกส่วนแบบ Matrix?
ฉันเจอคำว่าเครื่องแยกตัวประกอบในระบบผู้แนะนำ ฉันรู้ว่า Matrix Factorization สำหรับระบบผู้แนะนำ แต่ไม่เคยได้ยินเกี่ยวกับเครื่องแยกตัวประกอบ ดังนั้นความแตกต่างคืออะไร?

2
คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย
ใครช่วยอธิบายคณิตศาสตร์บางส่วนที่อยู่ในการจัดประเภทในรถเข็นได้บ้าง ฉันกำลังมองหาที่จะเข้าใจว่าสองขั้นตอนหลักเกิดขึ้นได้อย่างไร เช่นฉันฝึกตัวแยกประเภท CART บนชุดข้อมูลและใช้ชุดข้อมูลการทดสอบเพื่อทำเครื่องหมายประสิทธิภาพการทำนาย แต่: รากแรกของต้นไม้ถูกเลือกอย่างไร ทำไมแต่ละสาขาจึงเกิดขึ้น? ชุดข้อมูลของฉันเป็นระเบียน 400,000 รายการที่มี 15 คอลัมน์และ 23 คลาสที่ได้รับความถูกต้อง 100% จากเมทริกซ์ความสับสนฉันใช้การข้ามค่าช่วงเวลา 10 เท่าของชุดข้อมูล ฉันจะยิ่งใหญ่จริง ๆ ถ้าใครสามารถช่วยอธิบายขั้นตอนของการจัดประเภทรถเข็นได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.