สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
คำเตือนใน R - การประมาณ Chi-squared อาจไม่ถูกต้อง
ฉันมีข้อมูลแสดงผลการสอบเข้านักดับเพลิง ฉันกำลังทดสอบสมมติฐานที่ผลการสอบและเชื้อชาติไม่ได้เป็นอิสระร่วมกัน เพื่อทดสอบสิ่งนี้ฉันได้ทำการทดสอบเพียร์สันไคสแควร์ในอาร์ผลลัพธ์แสดงให้เห็นสิ่งที่ฉันคาดหวัง แต่ก็มีคำเตือนว่า " In chisq.test(a) : Chi-squared approximation may be incorrect" > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 …

3
อะไรคือความแตกต่างระหว่างการแจกแจงแบบปกติและแบบเกาส์เซียน
มีความแตกต่างอย่างลึกซึ้งระหว่างการแจกแจงแบบปรกติและแบบเกาส์เซียนฉันเคยเห็นเอกสารจำนวนมากที่ใช้พวกเขาโดยไม่มีความแตกต่างและฉันมักจะอ้างถึงพวกเขาในสิ่งเดียวกัน อย่างไรก็ตาม PI ล่าสุดของฉันบอกฉันว่าปกติเป็นกรณีเฉพาะของ Gaussian ที่มีค่าเฉลี่ย = 0 และ std = 1 ซึ่งฉันได้ยินเมื่อไม่นานมานี้ในร้านอื่นฉันทามติเกี่ยวกับเรื่องนี้อย่างไร ตามวิกิพีเดียสิ่งที่พวกเขาเรียกว่าปกติคือการแจกแจงแบบปกติมาตรฐานในขณะที่ Normal เป็นคำพ้องความหมายของ Gaussian แต่หลังจากนั้นอีกครั้งฉันก็ไม่แน่ใจเกี่ยวกับ Wikipedia เช่นกัน ขอบคุณ

5
จะหาวิธีการแก้ปัญหาการถดถอยของสันเขาได้อย่างไร?
ฉันกำลังมีปัญหาบางอย่างกับการได้มาของวิธีแก้ปัญหาการถดถอยของสันเขา ฉันรู้วิธีการแก้ปัญหาการถดถอยโดยไม่มีคำศัพท์ β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. แต่หลังจากเพิ่มคำศัพท์ L2เข้ากับฟังก์ชั่นค่าใช้จ่ายλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

4
การเรียกคืนและความแม่นยำในการจำแนก
ฉันอ่านคำจำกัดความของการเรียกคืนและความแม่นยำแม้ว่าจะเป็นทุกครั้งในบริบทของการดึงข้อมูล ฉันสงสัยว่าบางคนสามารถอธิบายเรื่องนี้ได้มากกว่านี้ในบริบทการจำแนกประเภทและอาจแสดงตัวอย่างบางอย่าง พูดเช่นฉันมีตัวจําแนกไบนารี่ซึ่งให้ความแม่นยำ 60% และการเรียกคืน 95% นี่คือตัวจําแนกที่ดีหรือไม่ อาจช่วยให้เป้าหมายของฉันเพิ่มมากขึ้นตัวแยกประเภทที่ดีที่สุดตามตัวคุณคืออะไร? (ชุดข้อมูลนั้นไม่สมดุลคลาสส่วนใหญ่มีสองเท่าของตัวอย่างของชนกลุ่มน้อยคลาส) โดยส่วนตัวฉันจะบอกว่า5เพราะพื้นที่ใต้เส้นโค้งตัวรับสัญญาณ (อย่างที่คุณเห็นในที่นี้รุ่น 8 มีความแม่นยำต่ำเรียกคืนได้สูงมาก แต่หนึ่งใน AUC_ROC ที่ต่ำที่สุดนั่นทำให้มันเป็นแบบอย่างที่ดีหรือไม่? แก้ไข: ฉันมีไฟล์ excel พร้อมข้อมูลเพิ่มเติม: https://www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx ในเอกสารนี้สามารถหาบริเวณใต้เส้นโค้งตัวดำเนินการของตัวรับสัญญาณและพื้นที่ใต้เส้นโค้งเรียกคืนความแม่นยำ ร่วมกันกับแปลง

3
จะแสดงผลลัพธ์ของ Lasso โดยใช้ glmnet ได้อย่างไร
ฉันต้องการค้นหาตัวทำนายสำหรับตัวแปรพึ่งพาต่อเนื่องจากชุดของตัวแปรอิสระ 30 ตัว ฉันใช้ Lasso regression ตามที่นำมาใช้ในแพ็คเกจglmnetใน R ต่อไปนี้เป็นตัวอย่างรหัสจำลอง # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, …

2
วิธีการอ่านแปลงระยะทางของ Cook?
ไม่มีใครรู้วิธีการทำงานว่าคะแนน 7, 16 และ 29 เป็นคะแนนที่มีอิทธิพลหรือไม่? ฉันอ่านบางที่เพราะระยะทางของ Cook ต่ำกว่า 1 พวกเขาไม่ใช่ ฉันถูกไหม?

3
พิจารณาผลรวมของ
ฉันสงสัยเกี่ยวกับอันนี้มาระยะหนึ่งแล้ว ฉันพบว่ามันแปลกเล็กน้อยว่าเกิดขึ้นโดยฉับพลันได้อย่างไร โดยพื้นฐานแล้วทำไมเราถึงต้องการเครื่องแบบเพียงสามชุดสำหรับเพื่อให้เรียบเนียนเหมือนที่เคยทำ? และทำไมการปรับให้เรียบจึงเกิดขึ้นค่อนข้างเร็วZnZnZ_n Z2Z2Z_2 : Z3Z3Z_3 : (ภาพที่ถูกขโมยไปอย่างไร้สาระจากบล็อกของ John D. Cook: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ ) ทำไมมันไม่ใช้พูดสี่ชุด? หรือห้า หรือ...?

1
วิธีการตรวจสอบส่วนประกอบหลักที่สำคัญโดยใช้วิธีการ bootstrapping หรือวิธีการ Monte Carlo?
ฉันสนใจที่จะกำหนดจำนวนของรูปแบบที่สำคัญที่มาจากการวิเคราะห์องค์ประกอบหลัก (PCA) หรือการวิเคราะห์เชิงประจักษ์ฟังก์ชันมุมฉาก (EOF) ฉันสนใจเป็นพิเศษในการใช้วิธีนี้กับข้อมูลสภาพภูมิอากาศ เขตข้อมูลเป็นเมทริกซ์ MxN โดยที่ M เป็นมิติเวลา (เช่นวัน) และ N เป็นมิติข้อมูลเชิงพื้นที่ (เช่นตำแหน่งโลน / ละติจูด) ฉันได้อ่านวิธีบูตสแตรปที่เป็นไปได้เพื่อกำหนดพีซีที่สำคัญ แต่ไม่สามารถหาคำอธิบายโดยละเอียดเพิ่มเติมได้ จนถึงตอนนี้ฉันได้ใช้ Rule of Thumb (North et al ., 1982) ของนอร์ทเพื่อกำหนดทางลัดนี้ แต่ฉันสงสัยว่ามีวิธีการที่แข็งแกร่งกว่านี้หรือไม่ ตัวอย่างเช่น: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 …
40 r  pca  bootstrap  monte-carlo 

15
ฉันควรทำตามแนวทางปฏิบัติที่ดีที่สุดอย่างไรเมื่อเตรียมแปลง?
ฉันมักจะสร้างทางเลือกที่แปลกประหลาดของตัวเองเมื่อเตรียมแปลง อย่างไรก็ตามฉันสงสัยว่ามีวิธีปฏิบัติที่ดีที่สุดในการสร้างแปลงหรือไม่ หมายเหตุ: ความคิดเห็นของ Robต่อคำตอบสำหรับคำถามนี้มีความเกี่ยวข้องมากที่นี่

13
ปัญหาของมอนตี้ฮอลล์ - สัญชาติญาณของเราทำให้เราไม่อยู่ไหน?
จาก Wikipedia: สมมติว่าคุณอยู่ในรายการเกมและคุณมีทางเลือกสามประตู: ด้านหลังหนึ่งประตูเป็นรถยนต์ ข้างหลังคนอื่น ๆ แพะ คุณเลือกประตูพูดหมายเลข 1 และโฮสต์ที่รู้ว่ามีอะไรอยู่หลังประตูเปิดประตูอีกประตูหนึ่งพูดหมายเลข 3 ซึ่งมีแพะ จากนั้นเขาก็พูดกับคุณว่า "คุณต้องการเลือกประตูหมายเลข 2 หรือไม่" มันเป็นไปเพื่อประโยชน์ของคุณเพื่อเปลี่ยนทางเลือกของคุณ? แน่นอนคำตอบคือใช่ - แต่ไม่สามารถใช้งานได้อย่างไม่น่าเชื่อ สิ่งที่คนส่วนใหญ่เข้าใจผิดเกี่ยวกับความน่าจะเป็นที่นำไปสู่การเกาหัวของเรา - หรือใส่ดีกว่า; กฎทั่วไปอะไรที่เราสามารถนำออกไปจากปริศนานี้เพื่อฝึกฝนสัญชาตญาณของเราในอนาคต

3
อะไรคือความแตกต่างระหว่างโมเดลมาร์คอฟที่ซ่อนอยู่กับเครือข่ายประสาทเทียม
ฉันแค่ทำให้เท้าของฉันเปียกในสถิติดังนั้นฉันขอโทษถ้าคำถามนี้ไม่สมเหตุสมผล ฉันใช้โมเดลของมาร์คอฟเพื่อทำนายสถานะที่ซ่อนอยู่ (คาสิโนที่ไม่เป็นธรรมลูกเต๋าทอย ฯลฯ ) และเครือข่ายประสาทเทียมเพื่อศึกษาการคลิกของผู้ใช้ในเครื่องมือค้นหา ทั้งสองมีสถานะซ่อนเร้นที่เราพยายามคิดโดยใช้การสังเกต เพื่อความเข้าใจของฉันพวกเขาทั้งคู่ทำนายสถานะซ่อนเร้นดังนั้นฉันสงสัยว่าเมื่อไหร่จะใช้โมเดลมาร์คอฟผ่านเครือข่ายประสาท พวกเขามีวิธีการที่แตกต่างกันสำหรับปัญหาที่คล้ายกันหรือไม่ (ฉันสนใจที่จะเรียนรู้ แต่ฉันก็มีแรงจูงใจอีกอย่างฉันมีปัญหาที่ฉันพยายามแก้ไขโดยใช้โมเดลของมาร์คอฟที่ซ่อนอยู่ แต่มันทำให้ฉันเป็นบ้า

4
ฟังก์ชันการเปิดใช้งาน rectilinear ช่วยแก้ปัญหาการไล่ระดับสีที่หายไปในเครือข่ายประสาทได้อย่างไร
ฉันพบหน่วยการเชิงเส้นที่ถูกต้อง (ReLU) ยกย่องในหลาย ๆ ที่เพื่อแก้ปัญหาการไล่ระดับสีที่หายไปสำหรับเครือข่ายประสาท นั่นคือหนึ่งใช้สูงสุด (0, x) เป็นฟังก์ชั่นการเปิดใช้งาน เมื่อการเปิดใช้งานเป็นบวกจะเห็นได้ชัดว่านี่เป็นสิ่งที่ดีกว่าพูดว่าฟังก์ชั่นการเปิดใช้งาน sigmoid เนื่องจากการสืบทอดมาเป็น 1 เสมอแทนที่จะเป็นค่าเล็ก ๆ โดยพลการสำหรับ x ขนาดใหญ่ ในทางกลับกันการได้มานั้นคือ 0 เมื่อ x น้อยกว่า 0 ในกรณีที่แย่ที่สุดเมื่อหน่วยไม่เคยถูกเปิดใช้งานน้ำหนักของหน่วยนี้จะไม่เปลี่ยนแปลงอีกต่อไปและหน่วยจะไม่มีประโยชน์ตลอดไป - ซึ่งดูเหมือนว่า เลวร้ายยิ่งกว่าการไล่ระดับสีขนาดเล็กที่หายไปมาก อัลกอริทึมการเรียนรู้จะจัดการกับปัญหานั้นอย่างไรเมื่อพวกเขาใช้ ReLU

5
การจัดกลุ่มการแปรปรวนเวลาแบบไดนามิก
วิธีใดที่จะใช้ Dynamic Time Warping (DTW) เพื่อทำคลัสเตอร์ของอนุกรมเวลา ฉันได้อ่านเกี่ยวกับ DTW เป็นวิธีการค้นหาความคล้ายคลึงกันระหว่างสองอนุกรมเวลาในขณะที่พวกเขาสามารถเลื่อนเวลา ฉันสามารถใช้วิธีนี้เป็นวิธีการวัดความคล้ายคลึงกันสำหรับอัลกอริทึมการจัดกลุ่มอย่าง k- หมายถึงได้หรือไม่

3
ค่าเบี่ยงเบนมาตรฐานบอกอะไรเราในการแจกแจงแบบไม่ปกติ
ในการแจกแจงแบบปกติกฎ 68-95-99.7ให้ค่าความเบี่ยงเบนมาตรฐานมีความหมายมากมาย แต่ค่าเบี่ยงเบนมาตรฐานจะมีความหมายอย่างไรในการแจกแจงแบบไม่ปกติ (Multimodal หรือเบ้) ค่าข้อมูลทั้งหมดจะยังคงอยู่ภายใน 3 ส่วนเบี่ยงเบนมาตรฐานหรือไม่ เรามีกฎเช่น 68-95-99.7 สำหรับการแจกแจงแบบไม่ปกติหรือไม่?

6
Backpropagation ด้วย Softmax / Cross Entropy
ฉันพยายามที่จะเข้าใจวิธีการทำงานของ backpropagation สำหรับเลเยอร์เอาต์พุต softmax / cross-entropy ฟังก์ชันข้อผิดพลาดข้ามเอนโทรปีคือ E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j ด้วยและเป็นเป้าหมายและเอาต์พุตที่เซลล์ประสาทตามลำดับ ผลรวมอยู่เหนือเซลล์ประสาทแต่ละเซลล์ในชั้นเอาต์พุต นั้นเป็นผลมาจากฟังก์ชั่น softmax:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} อีกครั้งผลรวมจะอยู่เหนือแต่ละเซลล์ประสาทในเลเยอร์เอาต์พุตและคืออินพุตไปยังเซลล์ประสาท :zjzjz_jjjj zj=∑iwijoi+bzj=∑iwijoi+bz_j=\sum_i w_{ij}o_i+b นั่นคือผลรวมกว่าเซลล์ทั้งหมดในชั้นก่อนหน้านี้กับการส่งออกของพวกเขาที่สอดคล้องกันและน้ำหนักต่อเซลล์ประสาทบวกอคติขoioio_iwijwijw_{ij}jjjbbb ตอนนี้เพื่ออัปเดตน้ำหนักที่เชื่อมต่อเซลล์ประสาทในชั้นเลเยอร์เอาท์พุทกับเซลล์ประสาทในชั้นก่อนหน้าฉันต้องคำนวณอนุพันธ์บางส่วนของฟังก์ชันข้อผิดพลาดโดยใช้กฎลูกโซ่:wijwijw_{ij}jjjiii ∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}} กับเป็น input เพื่อเซลล์ประสาทญzjzjz_jjjj เทอมสุดท้ายค่อนข้างเรียบง่าย เนื่องจากมีน้ำหนักเพียงหนึ่งเดียวระหว่างและอนุพันธ์คือ:iiijjj ∂zj∂wij=oi∂zj∂wij=oi\frac{\partial z_j} {\partial w_{ij}}=o_i เทอมแรกคือการสืบทอดของฟังก์ชันข้อผิดพลาดเกี่ยวกับเอาต์พุต :ojojo_j ∂E∂oj=−tjoj∂E∂oj=−tjoj\frac{\partial …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.