สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล


2
วิธีที่ดีที่สุดในการดำเนินการ SVM แบบหลายคลาส
ฉันรู้ว่า SVM เป็นตัวจําแนกไบนารี ฉันต้องการขยายไปยัง SVM แบบหลายชั้น วิธีไหนที่ดีที่สุดและอาจจะง่ายที่สุดในการดำเนินการ รหัส: ใน MATLAB u=unique(TrainLabel); N=length(u); if(N>2) itr=1; classes=0; while((classes~=1)&&(itr<=length(u))) c1=(TrainLabel==u(itr)); newClass=double(c1); tst = double((TestLabel == itr)); model = svmtrain(newClass, TrainVec, '-c 1 -g 0.00154'); [predict_label, accuracy, dec_values] = svmpredict(tst, TestVec, model); itr=itr+1; end itr=itr-1; end จะปรับปรุงได้อย่างไร?

1
การทดสอบ Chi Squared ของ Pearson ทำงานอย่างไร
หลังจากลงคะแนนเสียงล่าสุดฉันพยายามตรวจสอบความเข้าใจของฉันเกี่ยวกับการทดสอบ Pearson Chi Squared ฉันมักจะใช้สถิติไคสแควร์ (หรือสถิติไคสแควร์ลดลง) สำหรับการปรับหรือการตรวจสอบแบบที่เกิดขึ้น ในกรณีนี้ความแปรปรวนมักไม่ใช่จำนวนที่คาดหวังในตารางหรือฮิสโตแกรม แต่เป็นความแปรปรวนที่กำหนดโดยการทดลอง ไม่ว่าจะด้วยวิธีใดฉันก็มักจะรู้สึกว่าการทดสอบยังคงใช้มาตรฐานเชิงเส้นกำกับของ Multinomial PDF (เช่นสถิติการทดสอบของฉันคือ Q = ( n - Nม. )⊤V- 1( n - Nม. )Q=(n-ยังไม่มีข้อความม.)⊤V-1(n-ยังไม่มีข้อความม.)Q = (n-Nm)^\top V^{-1}(n-Nm) และเป็นพหุคูณแบบพหุคูณโดยที่คือเมทริกซ์ความแปรปรวนร่วม ดังนั้นมีไคสแควร์จัดจำหน่ายให้มีขนาดใหญ่ดังนั้นการใช้จำนวนที่คาดหวังของการนับเป็นตัวหารในสถิติที่จะกลายเป็นที่ถูกต้องสำหรับขนาดใหญ่nเป็นไปได้ว่าสิ่งนี้เป็นจริงสำหรับฮิสโทแกรมเท่านั้นฉันไม่ได้วิเคราะห์ตารางข้อมูลขนาดเล็กในปีที่ผ่านมาV Q n n( n - Nม. )(n-ยังไม่มีข้อความม.)(n-Nm)VVVQQQnnnnnn มีการโต้แย้งที่ลึกซึ้งยิ่งขึ้นที่ฉันหายไปหรือไม่? ฉันจะสนใจในการอ้างอิงหรือคำอธิบายสั้น ๆ (แม้ว่าจะเป็นไปได้ฉันเพิ่งลงคะแนนให้ละเว้นคำว่า asymptotic ซึ่งฉันยอมรับค่อนข้างสำคัญ)

2
วิธีการตีความค่าสัมประสิทธิ์จากการถดถอยโลจิสติก?
ฉันมีฟังก์ชั่นความน่าจะเป็นดังต่อไปนี้: Prob = 11 + e- zprob=11+อี-Z\text{Prob} = \frac{1}{1 + e^{-z}} ที่ไหน Z= B0+ B1X1+ ⋯ + BnXn.Z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. แบบจำลองของฉันดูเหมือน ราคา ( Y= 1 ) = 11 + ประสบการณ์( - [ - 3.92 +) 0.014 × ( เพศ) ] )ราคา(Y=1)=11+ประสบการณ์⁡(-[-3.92+0.014×(เพศ)])\Pr(Y=1) = \frac{1}{1 + …

2
มีการแสดงกราฟิกของการแลกเปลี่ยนความแปรปรวนแบบอคติในการถดถอยเชิงเส้นหรือไม่?
ฉันกำลังทุกข์ทรมานจากความมืดมน ฉันได้นำเสนอภาพต่อไปนี้เพื่อแสดงการแลกเปลี่ยนความเอนเอียงอคติในบริบทของการถดถอยเชิงเส้น: ฉันสามารถเห็นได้ว่าไม่มีทั้งสองรุ่นที่เหมาะสม - "ง่าย" ไม่เห็นคุณค่าความซับซ้อนของความสัมพันธ์ XY และ "ซับซ้อน" เป็นเพียง overfitting โดยทั่วไปเรียนรู้ข้อมูลการฝึกอบรมด้วยหัวใจ อย่างไรก็ตามฉันล้มเหลวอย่างสิ้นเชิงที่จะเห็นอคติและความแปรปรวนในภาพทั้งสองนี้ มีคนแสดงให้ฉันดูได้ไหม ป.ล. : คำตอบสำหรับคำอธิบายที่เข้าใจง่ายของการแลกเปลี่ยนความเอนเอียง? ไม่ได้ช่วยฉันฉันจะดีใจถ้ามีคนให้วิธีการที่แตกต่างจากภาพด้านบน

2
ทำไมตัวแยกประเภทการถดถอยของริดจ์ทำงานได้ค่อนข้างดีสำหรับการจัดประเภทข้อความ
ในระหว่างการทดสอบการจำแนกข้อความฉันพบว่าตัวจําแนกประเภทสันเขาสร้างผลลัพธ์ที่ยอดการทดสอบอย่างต่อเนื่องระหว่างตัวจําแนกเหล่านั้นซึ่งถูกกล่าวถึงมากขึ้นและถูกนําไปใช้ในงานการขุดข้อความเช่น SVM, NB, kNN เป็นต้น ในการเพิ่มประสิทธิภาพลักษณนามแต่ละตัวในงานการจัดหมวดหมู่ข้อความเฉพาะนี้ยกเว้นการปรับแต่งง่าย ๆ เกี่ยวกับพารามิเตอร์ ผลดังกล่าวยังได้กล่าวถึงDikran กระเป๋า ไม่ได้มาจากภูมิหลังทางสถิติหลังจากอ่านผ่านสื่อออนไลน์ฉันยังไม่สามารถหาสาเหตุหลักของเรื่องนี้ได้ มีใครให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ดังกล่าวบ้าง

2
เดินสุ่มด้วยโมเมนตัม
พิจารณาการเดินสุ่มจำนวนเต็มเริ่มต้นที่ 0 โดยมีเงื่อนไขดังต่อไปนี้: ขั้นตอนแรกคือบวกหรือลบ 1 ด้วยความน่าจะเป็นที่เท่ากัน ทุกขั้นตอนในอนาคตคือ: 60% มีแนวโน้มที่จะเป็นไปในทิศทางเดียวกันกับขั้นตอนก่อนหน้า 40% มีแนวโน้มที่จะเป็นไปในทิศทางตรงกันข้าม การกระจายแบบนี้ให้ผลเช่นไร? ฉันรู้ว่าการเดินสุ่มแบบไม่โมเมนตัมให้การแจกแจงแบบปกติ โมเมนตัมเปลี่ยนความแปรปรวนหรือเปลี่ยนธรรมชาติของการกระจายตัวทั้งหมดหรือไม่? ฉันกำลังมองหาคำตอบทั่วไปดังนั้นโดย 60% และ 40% ข้างต้นฉันหมายถึงpและ1-pจริงๆ

4
ช่วงความมั่นใจแคบลง - มีความแม่นยำมากขึ้นหรือไม่
ฉันมีคำถามสองข้อเกี่ยวกับช่วงความมั่นใจ: เห็นได้ชัดว่าช่วงความมั่นใจแคบหมายความว่ามีโอกาสน้อยที่จะได้รับการสังเกตภายในช่วงเวลานั้นดังนั้นความแม่นยำของเราจึงสูงกว่า นอกจากนี้ช่วงความมั่นใจ 95% นั้นแคบกว่าช่วงความมั่นใจ 99% ซึ่งกว้างกว่า ช่วงความมั่นใจ 99% นั้นแม่นยำกว่า 95% ใครช่วยอธิบายง่ายๆที่จะช่วยให้ฉันเข้าใจความแตกต่างระหว่างความถูกต้องและความแคบนี้

2
ทำไมการทดสอบไคสแควร์จึงใช้การนับที่คาดหวังเป็นความแปรปรวน
ในการพื้นฐานสำหรับการใช้สแควร์รูทของการนับที่คาดไว้เป็นส่วนเบี่ยงเบนมาตรฐาน (เช่นการนับที่คาดไว้เป็นความแปรปรวน) ของการแจกแจงปกติแต่ละรายการคืออะไร สิ่งเดียวที่ฉันจะได้พูดคุยเกี่ยวกับเรื่องนี้ก็คือhttp://www.physics.csbsju.edu/stats/chi-square.htmlและมันก็กล่าวถึงการแจกแจงปัวซองχ2χ2\chi^2 เป็นตัวอย่างง่ายๆของความสับสนของฉันจะเกิดอะไรขึ้นถ้าเราทดสอบว่ากระบวนการสองอย่างนั้นแตกต่างกันอย่างมากหรือไม่ซึ่งสร้างขึ้นมา 500 As และ 500 Bs ที่มีความแปรปรวนน้อยมากและอีกอันที่สร้าง 550 As และ 450 Bs 551 As และ 449 Bs)? ความแปรปรวนที่นี่ไม่ใช่ค่าที่คาดหวังอย่างชัดเจนไม่ใช่หรือ? (ฉันไม่ใช่นักสถิติดังนั้นกำลังมองหาคำตอบที่ไม่สามารถเข้าถึงได้โดยผู้เชี่ยวชาญ)

2
การกระจายตัวที่อธิบายความแตกต่างระหว่างตัวแปรกระจายแบบทวินามลบ
การกระจาย Skellamอธิบายความแตกต่างระหว่างสองตัวแปรที่มีการแจกแจงปัวส์ซอง มีการแจกแจงแบบเดียวกันที่อธิบายความแตกต่างระหว่างตัวแปรที่ตามหลังการแจกแจงทวินามลบหรือไม่ ข้อมูลของฉันผลิตโดยกระบวนการปัวซง แต่รวมถึงเสียงรบกวนในปริมาณที่เหมาะสม ดังนั้นการสร้างแบบจำลองข้อมูลด้วยการแจกแจงลบทวินาม (NB) จึงทำงานได้ดี ถ้าฉันต้องการจำลองความแตกต่างระหว่างชุดข้อมูล NB สองชุดตัวเลือกของฉันคืออะไร หากช่วยได้ให้ถือว่าวิธีการและความแปรปรวนที่คล้ายกันสำหรับทั้งสองชุด

2
วิธีที่ถูกต้องในการทดสอบความแตกต่างอย่างมีนัยสำคัญระหว่างค่าสัมประสิทธิ์คืออะไร?
ฉันหวังว่าบางคนสามารถช่วยชี้ประเด็นความสับสนให้ฉันได้ ว่าฉันต้องการทดสอบว่าสัมประสิทธิ์การถดถอย 2 ชุดนั้นแตกต่างกันอย่างมีนัยสำคัญหรือไม่ด้วยการตั้งค่าต่อไปนี้: , มี 5 ตัวแปรอิสระyi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i 2 กลุ่มโดยมีขนาดเท่ากันโดยประมาณ (แม้ว่าอาจแตกต่างกัน)n1,n2n1,n2n_1, n_2 การถดถอยที่คล้ายกันหลายพันครั้งจะเกิดขึ้นพร้อมกันดังนั้นการแก้ไขสมมติฐานบางอย่างจึงต้องทำ วิธีการหนึ่งที่แนะนำให้ฉันคือการใช้การทดสอบ Z: Z=b1−b2(√SEb21+SEb22)Z=b1−b2(SEb12+SEb22)Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)} อีกสิ่งที่ฉันได้เห็นข้อเสนอแนะในบอร์ดนี้คือการแนะนำตัวแปรจำลองสำหรับการจัดกลุ่มและเขียนแบบจำลองใหม่เป็น: โดยที่ gคือตัวแปรการจัดกลุ่มซึ่งเขียนเป็น 0, 1yi=α+βxi+δ(xigi)+ϵiyi=α+βxi+δ(xigi)+ϵiy_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_igก.g คำถามของฉันคือวิธีการทั้งสองนี้มีวิธีการที่แตกต่างกัน (เช่นสมมติฐานที่แตกต่างกันทำมีความยืดหยุ่น)? มีความเหมาะสมมากกว่าอีกอย่างหรือไม่? ฉันคิดว่ามันค่อนข้างธรรมดา แต่การชี้แจงใด ๆ จะได้รับการชื่นชมอย่างมาก

2
การผูกข้อมูลร่วมกันที่กำหนดขอบเขตบนข้อมูลร่วมกันตามจุด
สมมติว่าฉันมีสองชุดและและกระจายความน่าจะร่วมกันมากกว่าชุดนี้y) อนุญาตให้และแสดงถึงการกระจายตัวเล็กน้อยเหนือและตามลำดับXXXYYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY ข้อมูลร่วมกันระหว่างและถูกกำหนดให้เป็น: XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) คือมันเป็นค่าเฉลี่ยของ PMI pointwise ข้อมูลร่วมกันขวา)(x,y)≡log(p(x,y)p(x)p(y))(x,y)≡log⁡(p(x,y)p(x)p(y))(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right) สมมติว่าฉันรู้ขอบเขตบนและล่างของ pmi : นั่นคือฉันรู้ว่าสำหรับมีดังต่อไปนี้: (x,y)(x,y)(x,y)x,yx,yx,y−k≤log(p(x,y)p(x)p(y))≤k−k≤log⁡(p(x,y)p(x)p(y))≤k-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k สิ่งที่ถูกผูกไว้ด้านบนนี้จะบ่งบอกเกี่ยวกับI(X;Y)I(X;Y)I(X; Y)Y) แน่นอนว่ามันหมายถึงI(X;Y)≤kI(X;Y)≤kI(X; Y) \leq kแต่ฉันต้องการขอบเขตที่แน่นกว่าถ้าเป็นไปได้ นี้ดูเหมือนว่าเป็นไปได้กับผมเพราะพีกำหนดกระจายความน่าจะเป็นและ PMI (x,y)(x,y)(x,y)ไม่สามารถใช้ค่าสูงสุด (หรือแม้กระทั่งไม่เป็นลบ) สำหรับค่าของทุกxxxและy ที่yyy

2
ตัวประเมิน James-Stein: Efron และ Morris คำนวณ
ฉันมีคำถามเกี่ยวกับการคำนวณปัจจัยเจมส์สไตน์การหดตัวในส่วนกระดาษ 1,977 วิทยาศาสตร์อเมริกันโดยแบรดลีย์ Efron และคาร์ลมอร์ริส "สไตน์ Paradox สถิติ" ฉันรวบรวมข้อมูลสำหรับผู้เล่นเบสบอลและได้รับด้านล่าง: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, 0.311, 0.273 Spencer, 0.311, 0.270 Kessinger, 0.289, 0.263 Alvarado, 0.267, 0.210 Santo, 0.244, 0.269 Swoboda, 0.244, 0.230 Unser, 0.222, 0.264 Williams, 0.222, 0.256 Scott, 0.222, …

5
การสร้างภาพข้อมูลการเชื่อมโยงแบบวงกลมชนิดนี้เรียกว่าอะไร?
แผนภูมิประเภทนี้มีชื่อหรือไม่? ที่สำคัญกว่านั้นมีห้องสมุดการสร้างภาพข้อมูลที่ฉันสามารถใช้สร้างมันได้หรือไม่? http://www.nytimes.com/interactive/2007/12/15/us/politics/DEBATE.html

2
อะไรคือความแตกต่างระหว่างอัลกอริทึม Baum-Welch และการฝึกอบรม Viterbi?
ฉันกำลังใช้การฝึกอบรม Viterbiสำหรับปัญหาการแบ่งส่วนภาพ ฉันต้องการทราบว่าข้อดี / ข้อเสียของการใช้อัลกอริทึม Baum-Welch แทนการฝึกอบรม Viterbi

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.