สถิติและข้อมูลขนาดใหญ่ data-mining

2

ฉันไม่รู้สถิติเกี่ยวกับตัวฉันมากนัก สมมติว่าฉันมีพนักงาน 1,000 คน ฉันต้องการทราบว่าใครคือคนงานที่ยากที่สุด แต่ฉันสามารถวัดปริมาณงานที่ต้องทำในกลุ่มที่ 1-100 มากกว่าหนึ่งชั่วโมงต่อการทำงาน สมมติว่าคนงานแต่ละคนทำงานในปริมาณที่เท่ากันเสมอกว่าการทดลองและการรวมกันเป็นจำนวนมากฉันจะจัดอันดับคนงานของฉันโดยใครที่ทำงานหนักที่สุด หมายเหตุ: นี่เป็นเพียงคำอุปมาจึงไม่ต้องกังวลกับการทดสอบจริง ๆ เพียงแค่สมมติว่าฉันมีชุดข้อมูลจำนวนมากแล้ว แก้ไข: เมื่อฉันพูดว่า "สมมติว่าคนงานแต่ละคนทำงานด้วยปริมาณงานที่เท่ากันเสมอ" ฉันหมายถึงแต่ละคนทำงานในปริมาณที่เท่ากันในแต่ละวัน ดังนั้นโจอี้จะทำงานประมาณ 100 หน่วยในแต่ละวันและเกร็กจะทำประมาณ 50 งานปัญหาคือฉันสามารถสังเกตจำนวนหน่วยของงานที่ทำโดยกลุ่มเท่านั้น การแก้ไขเพิ่มเติม: เกี่ยวกับจำนวนของคนงานที่ทำงานในคราวเดียวและความถี่ของพวกเขาที่ทำงาน อาจมีคนงานจำนวนเท่าใดก็ได้ที่ทำงานในเวลาเดียวกัน คนงานบางคนอาจจะจบลงด้วยการทำงานมากกว่าคนอื่น ๆ นั่นก็คือเราสามารถสันนิษฐานได้ว่าคนงานบางคนจะทำงานเกือบ 90% ของเวลาและคนอื่น ๆ แทบจะไม่เคยเลย ฉันรู้ว่ามันทำให้ยาก แต่ฉันจะมีชุดข้อมูลที่มีขนาดใหญ่มากหวังว่าจะทำให้ง่ายขึ้นเล็กน้อย ในแต่ละชั่วโมงเรารู้ว่าคนงานคนใดกำลังทำงานและทำงานเป็นจำนวนเท่าใด จากข้อมูลนั้นฉันต้องการทราบว่าใครทำผลงานได้ดีที่สุด หากข้อมูลอยู่ในรูปแบบ JSON จะมีลักษณะดังนี้: [ { "work_done": 12345, "Workers": [ "andy", "bob", "cameron", "david" ] …

9 r regression data-mining

2

การใช้พารามิเตอร์ Gamma พร้อมเครื่องเวกเตอร์สนับสนุน

เมื่อใช้libsvmพารามิเตอร์γγ\gammaเป็นพารามิเตอร์สำหรับฟังก์ชั่นเคอร์เนล ค่าเริ่มต้นของมันคือการตั้งค่าเป็นγ=1จำนวนคุณสมบัติγ=1number of features.\gamma = \frac{1}{\text{number of features.}} มีคำแนะนำเชิงทฤษฎีสำหรับการตั้งค่าพารามิเตอร์นี้นอกเหนือจากวิธีการที่มีอยู่เช่นการค้นหาแบบตารางหรือไม่?

9 machine-learning svm data-mining libsvm kernel-trick

2

ทำความเข้าใจและใช้การวิเคราะห์ความเชื่อมั่น

ฉันเพิ่งได้รับมอบหมายให้ทำโครงการวิเคราะห์ความเชื่อมั่นสำหรับการรวบรวมเอกสารบางอย่าง โดย Googling การวิจัยเกี่ยวกับความเชื่อมั่นจำนวนมากได้ผุดขึ้นมา คำถามของฉันคือ: อะไรคือวิธีการที่สำคัญ / อัลกอริทึมสำหรับการวิเคราะห์ความเชื่อมั่นในด้านการเรียนรู้ของเครื่องและการวิเคราะห์ทางสถิติ? มีผลลัพธ์ที่เป็นที่ยอมรับหรือไม่ มีซอฟต์แวร์โอเพ่นซอร์สที่มีอยู่ที่สามารถทำการวิเคราะห์ความเชื่อมั่นได้หรือไม่?

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

2

ลบรายการซ้ำออกจากชุดการฝึกอบรมเพื่อจัดหมวดหมู่

ให้เราบอกว่าฉันมีหลายแถวสำหรับปัญหาการจำแนก: X1, . . .Xยังไม่มีข้อความ, วายX1,...Xยังไม่มีข้อความ,YX_1, ... X_N, Y ที่ไหน X1, . . . ,Xยังไม่มีข้อความX1,...,Xยังไม่มีข้อความX_1, ..., X_N คือคุณสมบัติ / ตัวพยากรณ์และ YYY เป็นคลาสที่การรวมคุณสมบัติของแถวเป็นของ การรวมคุณสมบัติหลายอย่างและคลาสของพวกเขาถูกทำซ้ำในชุดข้อมูลซึ่งฉันใช้เพื่อให้พอดีกับตัวจําแนก ฉันแค่สงสัยว่ามันเป็นที่ยอมรับในการลบรายการที่ซ้ำกัน (โดยทั่วไปฉันทำgroup by X1 ... XN Yใน SQL)? ขอบคุณ PS: นี่เป็นเพียงชุดข้อมูลไบนารีที่มีคลาสของนักบวชค่อนข้างเบ้

9 machine-learning classification data-mining logistic stratification

5

ฉันจะทำอะไรได้นอกจากความสัมพันธ์ของเพียร์สัน?

ในขณะที่ตรวจสอบเพื่อดูว่ามีตัวแปรสองตัวที่มีความสัมพันธ์กันหรือไม่ฉันสังเกตว่าการใช้ความสัมพันธ์แบบเพียร์สันให้ผลเป็นตัวเลขต่ำสุดเพียง 0.1 ซึ่งบ่งชี้ว่าไม่มีความสัมพันธ์กัน มีสิ่งใดที่ฉันสามารถทำได้เพื่อเสริมสร้างการเรียกร้องนี้? ชุดข้อมูล (ชุดย่อยเนื่องจากข้อ จำกัด การโพสต์) ฉันกำลังดูอยู่นี้: 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 6162.178176 0.064262991 6725.448576 0.419005508 3247.656192 0.867394771 5357.506176 0.052263122 3612.97728 0.091337414 6162.178176 0.053065652 867.436416 0.129116092 556.833024 1.01107509 1517.611392 168.1484478 1517.611392 35.11570899 4675.14432 0.053902079 4182.685056 0.070289777 2808.30528 0.071929502 5969.056896 0.47193385 3247.656192 0.896646636 4387.071744 …

9 correlation data-mining pearson-r

3

วิธีการเลือกตัวแปรที่สำคัญอย่างรวดเร็วจากชุดข้อมูลที่มีขนาดใหญ่มาก?

ฉันมีชุดข้อมูลที่มีตัวแปรไบนารีประมาณ 2,000 ตัว / 200,000 แถวและฉันพยายามที่จะทำนายตัวแปรไบนารีที่ขึ้นต่อกันเพียงตัวเดียว เป้าหมายหลักของฉันในขั้นตอนนี้ไม่ได้รับความแม่นยำในการทำนาย แต่เพื่อระบุว่าตัวแปรใดเป็นตัวทำนายที่สำคัญ ฉันอยากจะลดจำนวนตัวแปรในตัวแบบสุดท้ายของฉันลงไปประมาณ 100 มีวิธีที่รวดเร็วในการรับตัวแปรที่สำคัญที่สุดหรือไม่? ป่าสุ่มดูเหมือนจะใช้เวลานาน ฉันไม่ต้องใช้การสังเกตทั้งหมด 200,000 ครั้งดังนั้นการสุ่มตัวอย่างจึงเป็นตัวเลือกบนโต๊ะ

9 machine-learning data-mining large-data

3

อัลกอริทึม Apriori ในภาษาอังกฤษธรรมดา?

ฉันอ่านบทความเกี่ยวกับ Apriori ฉันมีปัญหาในการทำความเข้าใจกับลูกพรุนและเข้าร่วมขั้นตอน ทุกคนสามารถอธิบายได้ว่าอัลกอริทึม Apriori ทำงานอย่างไรในเงื่อนไขง่าย ๆ (เช่นสามเณรอย่างฉันสามารถเข้าใจได้ง่าย) มันจะดีถ้ามีคนอธิบายกระบวนการทีละขั้นตอนที่เกี่ยวข้อง

9 data-mining algorithms frequentist

2

เริ่มต้นใช้งานด้วยจักรยานเสือภูเขา

ฉันได้ทำการค้นคว้าทางอินเทอร์เน็ตเกี่ยวกับจักรยานเสือหมอบ (ฉันได้อ่านบทความ Wiki หลายครั้ง) จนถึงตอนนี้ดูเหมือนว่ามีคำจำกัดความหรือคำศัพท์มาตรฐานน้อย ฉันสงสัยว่ามีเอกสารหรือหนังสือมาตรฐานใด ๆ ที่ใครก็ตามที่สนใจในอัลกอริทึมสำหรับการค้นหาผู้มาฮันทางควรอ่าน เป็นไปได้ไหมที่จะบอกว่าสถานะของศิลปะในทุ่งนาคืออะไร? ฉันรู้สึกทึ่งกับความคิดในการค้นหาผู้มีส่วนร่วมทางจักรยานโดยใช้อัลกอริทึมทางพันธุกรรมดังนั้นฉันขอขอบคุณความคิดเห็นเกี่ยวกับวิธีการนั้นโดยเฉพาะอย่างยิ่งในบริบทของวิธีการอื่น ๆ โดยปกติในการจัดกลุ่มเป้าหมายคือการแบ่งพาร์ติชันชุดข้อมูลเป็นกลุ่มที่แต่ละองค์ประกอบอยู่ในบางกลุ่ม อัลกอริทึม bicluster พยายามหาองค์ประกอบทั้งหมดในกลุ่มเฉพาะหรือไม่?

9 clustering data-mining

2

คำนวณ ROC curve สำหรับข้อมูล

ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

คำถามติดแท็ก data-mining