สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

7
อัลกอริทึมในการตรวจสอบปริมาณแบบไดนามิก
ฉันต้องการประเมินปริมาณของข้อมูลบางส่วน ข้อมูลมีขนาดใหญ่มากจนไม่สามารถรองรับได้ในหน่วยความจำ และข้อมูลไม่คงที่ข้อมูลใหม่กำลังจะมาถึง ไม่มีใครรู้ว่าอัลกอริทึมใด ๆ ในการตรวจสอบปริมาณของข้อมูลที่สังเกตจนถึงขณะนี้มีหน่วยความจำและการคำนวณ จำกัด มากหรือไม่? ฉันพบว่าอัลกอริธึม P2มีประโยชน์ แต่มันไม่ได้ผลกับข้อมูลของฉันซึ่งกระจายอย่างหนักมาก

4
การแก้ไขค่า p สำหรับการทดสอบหลายครั้งที่การทดสอบมีความสัมพันธ์กัน (พันธุศาสตร์)
ฉันมีค่า p จากการทดสอบจำนวนมากและต้องการทราบว่ามีสิ่งที่สำคัญจริง ๆ หลังจากแก้ไขสำหรับการทดสอบหลายครั้ง ภาวะแทรกซ้อน: การทดสอบของฉันไม่ขึ้นกับใคร วิธีที่ฉันคิด (แตกต่างจากวิธีผลิตภัณฑ์ของฟิชเชอร์, Zaykin และคณะ, Genet Epidemiol , 2002) ต้องการความสัมพันธ์ระหว่างค่า p เพื่อที่จะประมาณค่าสหสัมพันธ์นี้ขณะนี้ฉันกำลังคิดถึงกรณี bootstrapping ทำการวิเคราะห์และสหสัมพันธ์ผลเวกเตอร์ของค่า p ใครบ้างมีความคิดที่ดีกว่า หรือแม้แต่ความคิดที่ดีกว่าสำหรับปัญหาดั้งเดิมของฉัน (แก้ไขการทดสอบหลายรายการในการทดสอบที่เกี่ยวข้อง) ความเป็นมา: ฉันกำลังถดถอยอยู่หรือไม่ว่าประชากรของฉันกำลังทุกข์ทรมานจากโรคใดโรคหนึ่งโดยเฉพาะในการมีปฏิสัมพันธ์ระหว่างจีโนไทป์ของพวกเขา (AA, Aa หรือ aa) และ covariate อย่างไรก็ตามจีโนไทป์นั้นมีจำนวนมาก (30-250) ของ Single Nucleotide Polymorphisms (SNPs) ซึ่งแน่นอนว่าไม่เป็นอิสระ แต่อยู่ใน Linkage Disequilibrium

13
ตำราเศรษฐมิติ?
คุณอยากจะแนะนำตำราเศรษฐศาสตร์แบบไหนที่ดี? แก้ไข: มีหนังสือไม่กี่เล่มที่นั่นพร้อมด้วยระดับความซับซ้อนทางคณิตศาสตร์ที่แตกต่างกัน มันเป็นการดีที่จะได้แนวคิดว่าหนังสือที่คุณแนะนำทางเทคนิคนั้นเป็นอย่างไร

3
ชั่วโมงของวันเป็นตัวแปรเด็ดขาดหรือไม่?
"ชั่วโมงของวัน" คือค่าที่สามารถเป็น 0, 1, 2, ... , 23 เป็นตัวแปรเด็ดขาดหรือไม่ ฉันอยากจะปฏิเสธว่าตั้งแต่ 5 เป็นต้นไปว่า 'ใกล้' ถึง 4 หรือ 6 มากกว่าที่จะเป็น 3 หรือ 7 ในทางตรงกันข้ามมีความไม่ต่อเนื่องระหว่าง 23 และ 0 ดังนั้นโดยทั่วไปถือว่าเป็นหมวดหมู่หรือไม่ โปรดทราบว่า 'ชั่วโมง' เป็นหนึ่งในตัวแปรอิสระไม่ใช่ตัวแปรที่ฉันพยายามทำนาย

1
จะคำนวณช่วงเวลาการทำนายสำหรับการถดถอยแบบหลายจุดได้อย่างไร
สัญลักษณ์เกี่ยวกับพีชคณิตในการคำนวณช่วงการทำนายสำหรับการถดถอยหลายครั้งคืออะไร ฟังดูงี่เง่า แต่ฉันมีปัญหาในการค้นหาสัญกรณ์พีชคณิตที่ชัดเจนของเรื่องนี้

2
ทำไมการแก้ไขความต่อเนื่อง (เช่นการประมาณค่าปกติของการแจกแจงทวินาม) ใช้งานได้?
ฉันต้องการเข้าใจวิธีการแก้ไขความต่อเนื่องของการแจกแจงทวินามสำหรับการประมาณแบบปกติ วิธีใดที่ใช้ในการตัดสินใจว่าเราควรเพิ่ม 1/2 (เพราะเหตุใดจึงไม่ใช่หมายเลขอื่น) คำอธิบายใด ๆ (หรือลิงก์ไปยังการอ่านที่แนะนำนอกเหนือจากนี้จะได้รับการชื่นชม)

2
จะเข้าใจ“ ไม่เชิงเส้น” เช่นเดียวกับ“ การลดขนาดแบบไม่เชิงเส้น” ได้อย่างไร?
ฉันพยายามเข้าใจความแตกต่างระหว่างวิธีการลดขนาดเชิงเส้น (เช่น PCA) และวิธีไม่เชิงเส้น (เช่น Isomap) ฉันไม่สามารถเข้าใจสิ่งที่เป็นเส้นตรง (ไม่ใช่) ความหมายในบริบทนี้ ฉันอ่านจากWikipediaว่า จากการเปรียบเทียบหาก PCA (อัลกอริทึมการลดขนาดเชิงเส้น) ใช้เพื่อลดชุดข้อมูลเดียวกันนี้เป็นสองมิติค่าผลลัพธ์จะไม่ได้รับการจัดระเบียบอย่างดี นี่แสดงให้เห็นว่าเวกเตอร์มิติสูง (แต่ละอันแสดงถึงตัวอักษร 'A') ที่ตัวอย่างหลากหลายนี้มีความหลากหลายในลักษณะที่ไม่เป็นเชิงเส้น อะไรนะ เวกเตอร์มิติสูง (แต่ละอันแทนตัวอักษร 'A') ที่ตัวอย่างนี้มีความหลากหลายในลักษณะที่ไม่เป็นเชิงเส้น หมายความว่าอย่างไร หรือกว้างกว่าฉันจะเข้าใจความเป็นเส้นตรง (ไม่) ในบริบทนี้ได้อย่างไร

2
Krizhevsky '12 CNN ได้รับเซลล์ประสาท 253,440 ในชั้นแรกอย่างไร
ในAlex Krizhevsky และคณะ การจัดหมวดหมู่ของ Imagenet ด้วยเครือข่ายนิวรัล convolutionalพวกเขาระบุจำนวนของเซลล์ประสาทในแต่ละชั้น (ดูแผนภาพด้านล่าง) อินพุตของเครือข่ายคือ 150,528 มิติและจำนวนของเซลล์ประสาทในเลเยอร์ที่เหลือของเครือข่ายนั้นมอบให้โดย 253,440–186,624–64,896–64,896–43,896–43,264–4096–4096–1000 มุมมอง 3 มิติ จำนวนเซลล์ประสาทสำหรับเลเยอร์ทั้งหมดหลังจากที่แรกมีความชัดเจน วิธีง่ายๆในการคำนวณเซลล์ประสาทคือการคูณสามมิติของชั้นนั้น ( planes X width X height): ชั้นที่ 2: 27x27x128 * 2 = 186,624 ชั้นที่ 3: 13x13x192 * 2 = 64,896 เป็นต้น อย่างไรก็ตามการดูเลเยอร์แรก: ชั้นที่ 1: 55x55x48 * 2 = 290400 ขอให้สังเกตว่านี่ไม่ใช่ 253,440ตามที่ระบุไว้ในกระดาษ! คำนวณขนาดผลงาน อีกวิธีหนึ่งในการคำนวณเมตริกซ์เอาท์พุทของการแปลงคือ: …

3
การวิเคราะห์อนุกรมเวลารายวัน
ฉันกำลังพยายามทำการวิเคราะห์อนุกรมเวลาและยังใหม่กับฟิลด์นี้ ฉันมีการนับเหตุการณ์ทุกวันตั้งแต่ปี 2549-2552 และฉันต้องการให้พอดีกับแบบจำลองอนุกรมเวลา นี่คือความก้าวหน้าที่ฉันได้ทำ: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) พล็อตผลที่ฉันได้รับคือ: เพื่อตรวจสอบว่ามีฤดูกาลและแนวโน้มในข้อมูลหรือไม่ฉันทำตามขั้นตอนที่กล่าวถึงในโพสต์นี้: ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal และในบล็อกของ Rob J Hyndman : library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) ทั้งสองกรณีระบุว่าไม่มีฤดูกาล เมื่อฉันพล็อต ACF & PACF ของซีรีส์นี่คือสิ่งที่ฉันได้รับ: …

3
PCA แบบเบาบางดีกว่า PCA อย่างไร
ฉันเรียนรู้เกี่ยวกับ PCA ไม่กี่ครั้งที่ผ่านมาในชั้นเรียนและด้วยการขุดเพิ่มเติมเกี่ยวกับแนวคิดที่น่าสนใจนี้ฉันได้รู้เกี่ยวกับ PCA กระจัดกระจาย ผมอยากจะถามว่าถ้าฉันไม่ได้ผิดนี่คือสิ่งที่เบาบาง PCA คือใน PCA ถ้าคุณมีจุดข้อมูลกับตัวแปรคุณสามารถเป็นตัวแทนของแต่ละจุดข้อมูลในมิติก่อนที่จะใช้ PCA หลังจากใช้ PCA คุณจะสามารถนำเสนอในพื้นที่มิติเดียวกันอีกครั้ง แต่คราวนี้องค์ประกอบหลักแรกจะมีความแปรปรวนมากที่สุดส่วนที่สองจะมีทิศทางความแปรปรวนมากที่สุดที่สองและอื่น ๆ ดังนั้นคุณสามารถกำจัดองค์ประกอบหลักบางส่วนที่ผ่านมาเนื่องจากจะไม่ทำให้เกิดการสูญเสียข้อมูลจำนวนมากและคุณสามารถบีบอัดข้อมูล ขวา?nnnพีppพีพีp Sparse PCA กำลังเลือกส่วนประกอบหลักซึ่งส่วนประกอบเหล่านี้มีค่าที่ไม่เป็นศูนย์น้อยในค่าสัมประสิทธิ์เวคเตอร์ สิ่งนี้จะช่วยให้คุณตีความข้อมูลได้ดีขึ้นอย่างไร ใครสามารถยกตัวอย่างได้บ้าง

4
จำลองการแจกแจงแบบสม่ำเสมอบนแผ่นดิสก์
ฉันพยายามจำลองการฉีดของจุดสุ่มภายในวงกลมเช่นว่าส่วนใดส่วนหนึ่งของวงกลมมีความน่าจะเป็นเหมือนกันที่จะมีข้อบกพร่อง ฉันคาดว่าจำนวนนับต่อพื้นที่ของการแจกแจงแบบผลลัพธ์จะเป็นไปตามการแจกแจงแบบปัวซองหากฉันแยกวงกลมออกเป็นสี่เหลี่ยมมุมฉากที่เท่ากัน เนื่องจากมันต้องการเพียงจุดวางภายในพื้นที่วงกลมฉันจึงฉีดการแจกแจงแบบสุ่มสองชุดในพิกัดเชิงขั้ว: (รัศมี) และθ (มุมขั้ว)RRRθθ\theta แต่หลังจากฉีดนี้ฉันได้รับคะแนนมากขึ้นในจุดศูนย์กลางของวงกลมเมื่อเทียบกับขอบ อะไรจะเป็นวิธีที่ถูกต้องในการฉีดนี้ข้ามวงกลมเพื่อให้คะแนนถูกกระจายแบบสุ่มไปทั่ว cirlce

7
จะแสดงภูมิศาสตร์หรือรหัสไปรษณีย์ในรูปแบบการเรียนรู้ของเครื่องหรือระบบผู้แนะนำได้อย่างไร
ฉันกำลังสร้างแบบจำลองและฉันคิดว่าที่ตั้งทางภูมิศาสตร์น่าจะดีในการทำนายตัวแปรเป้าหมายของฉัน ฉันมีรหัสไปรษณีย์ของผู้ใช้แต่ละคน ฉันไม่แน่ใจเกี่ยวกับวิธีที่ดีที่สุดในการรวมรหัสไปรษณีย์เป็นคุณลักษณะตัวทำนายในโมเดลของฉัน แม้ว่ารหัสไปรษณีย์จะเป็นตัวเลข แต่ก็ไม่ได้มีความหมายอะไรเลยถ้าตัวเลขนั้นขึ้นหรือลง ฉันสามารถรวบรวมรหัสไปรษณีย์ 30,000 รหัสแล้วรวมเป็นคุณลักษณะหรือคอลัมน์ใหม่ (เช่น {user_1: {61822: 1, 62118: 0, 62444: 0, ฯลฯ }} อย่างไรก็ตามดูเหมือนว่ามันจะเพิ่มตัน คุณสมบัติของรุ่นของฉัน มีความคิดเกี่ยวกับวิธีที่ดีที่สุดในการจัดการกับสถานการณ์นี้หรือไม่?

3
แผนที่คุณลักษณะสำหรับเคอร์เนลเกาส์เซียน
ใน SVM เคอร์เนล Gaussian ถูกกำหนดเป็น: ที่x, y \ in \ mathbb {R ^ n} ผมไม่ทราบว่าสมการที่ชัดเจนของ\ พี ฉันอยากรู้K(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi ฉันยังต้องการที่จะทราบว่า ∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)ที่ci∈Rci∈Rc_i\in \mathbb RR ตอนนี้ฉันคิดว่ามันไม่เท่ากันเพราะการใช้เคอร์เนลจัดการกับสถานการณ์ที่ Linearierier ไม่ทำงาน ฉันรู้ϕϕ\phiโปรเจ็กต์ x ถึงพื้นที่ไม่มีที่สิ้นสุด ดังนั้นถ้ามันยังคงเป็นเส้นตรงไม่ว่าจะเป็นมิติใด svm ยังคงไม่สามารถทำการจำแนกที่ดีได้

3
ฉันจะตีความเมทริกซ์ความสับสนของ Sklearn ได้อย่างไร
ฉันใช้เมทริกซ์ความสับสนเพื่อตรวจสอบประสิทธิภาพของตัวจําแนกของฉัน ฉันกำลังใช้ Scikit-Learn ฉันสับสนเล็กน้อย ฉันจะตีความผลลัพธ์ได้อย่างไร from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, 0, 2]]) ฉันจะตัดสินใจได้อย่างไรว่าค่าที่คาดการณ์นี้ดีหรือไม่

3
แบบจำลองที่เหมาะสมสำหรับข้อมูลการนับที่น้อยเกินไปคืออะไร?
ฉันพยายามที่จะสร้างแบบจำลองข้อมูลนับใน R ที่เห็นได้ชัดว่าด้อยค่า (พารามิเตอร์การกระจายตัว ~ .40) นี่อาจเป็นสาเหตุที่รูปแบบแบบglmมีfamily = poissonหรือเชิงลบglm.nbมีความหมายไม่สำคัญ เมื่อฉันดูคำอธิบายข้อมูลของฉันฉันไม่มีข้อมูลการนับทั่วไปและส่วนที่เหลือในเงื่อนไขการทดลองทั้งสองของฉันก็เหมือนกันเช่นกัน ดังนั้นคำถามของฉันคือ: ฉันต้องใช้การวิเคราะห์การถดถอยแบบพิเศษสำหรับข้อมูลการนับของฉันหรือไม่หากข้อมูลการนับของฉันไม่ทำงานเหมือนข้อมูลการนับ บางครั้งฉันต้องเผชิญกับภาวะไม่ปกติ (โดยปกติจะเป็นเพราะความทรมาน) แต่ฉันใช้วิธีบูตสแตรปเปอร์เซ็นไทล์สำหรับการเปรียบเทียบวิธีการที่ถูกตัด (Wilcox, 2012) เพื่ออธิบายถึงความไม่เป็นมาตรฐาน วิธีการสำหรับการนับข้อมูลสามารถทดแทนด้วยวิธีการที่แข็งแกร่งใด ๆ ที่แนะนำโดย Wilcox และรับรู้ในแพ็คเกจ WRS หรือไม่ หากฉันต้องใช้การวิเคราะห์การถดถอยสำหรับข้อมูลนับฉันจะบัญชีสำหรับการกระจายต่ำกว่าได้อย่างไร ปัวซองและการกระจายตัวแบบลบลบถือว่าการกระจายตัวที่สูงขึ้นดังนั้นจึงไม่เหมาะสมใช่ไหม ฉันคิดว่าจะใช้การกระจายแบบกึ่ง - ปัวซองแต่โดยทั่วไปจะแนะนำให้กระจายตัวมากเกินไป ฉันอ่านเกี่ยวกับตัวแบบเบต้า - ทวินามซึ่งดูเหมือนว่าจะสามารถอธิบายได้มากกว่า - รวมถึงการด้อยค่าลงในVGAMชุดของ R ผู้เขียนดูเหมือนจะแนะนำการกระจาย Poisson tildedแต่ฉันไม่สามารถหาได้ในแพ็คเกจ . ใครบ้างที่สามารถแนะนำขั้นตอนการประมวลผลข้อมูลที่ด้อยคุณภาพและอาจมีตัวอย่างรหัส R ให้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.