สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
อะไรคือสมมติฐานของการถดถอยสันและวิธีการทดสอบพวกเขา?
พิจารณาตัวแบบมาตรฐานสำหรับการถดถอยหลายจุดโดยที่ε ∼ N ( 0 , σ 2 I n )ดังนั้นความเป็นมาตรฐานความสม่ำเสมอความเป็นหนึ่งเดียวและข้อผิดพลาดที่ไม่เกี่ยวข้องทั้งหมดY=Xβ+εY=Xβ+εY=X\beta+\varepsilonε∼N(0,σ2In)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) สมมติว่าเราทำการถดถอยแบบสันเขาโดยการเพิ่มจำนวนเล็กน้อยลงในองค์ประกอบทั้งหมดของเส้นทแยงมุมของ :XXX βridge=[X′X+kI]−1X′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y มีค่าบางอย่างที่ซึ่งค่าสัมประสิทธิ์สันเขามีข้อผิดพลาดยกกำลังสองเฉลี่ยน้อยกว่าผู้ที่ได้รับโดย OLS แม้ว่าβ r ฉันd กรัมอีเป็นประมาณการลำเอียงของβ ในทางปฏิบัติkได้มาจากการตรวจสอบข้ามkkkβridgeβridge\beta_\mathrm{ridge}ββ\betakkk นี่คือคำถามของฉัน: อะไรคือสมมติฐานสมมติฐานต้นแบบสันเขา? จะเป็นรูปธรรมมากขึ้น สมมติฐานทั้งหมดของ square อย่างน้อยสามัญ (OLS) ใช้ได้กับการถดถอยของสันเขาหรือไม่? ถ้าใช่ต่อคำถามที่ 1 เราจะทดสอบความเป็นเนื้อเดียวกันและขาดความสัมพันธ์กับค่าประมาณความลำเอียงของอย่างไรββ\beta มีงานทดสอบสมมติฐาน OLS อื่น ๆ (homoscedasticity และการขาดความสัมพันธ์อัตโนมัติ) ภายใต้การถดถอยของสันเขาหรือไม่?

3
การแจกแจงความแตกต่างระหว่างการแจกแจงสองแบบปกติ
ฉันมีฟังก์ชันความหนาแน่นของความน่าจะเป็นสองแบบของการแจกแจงแบบปกติ: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } และ f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } ฉันกำลังมองหาฟังก์ชั่นความหนาแน่นของความน่าจะเป็นของการแยกระหว่างx1x1x_1และx2x2x_2 2 ฉันคิดว่านั่นหมายถึงฉันกำลังมองหาฟังก์ชันความหนาแน่นของความน่าจะเป็นของ|x1−x2||x1−x2||x_1 - x_2|. ถูกต้องหรือไม่ ฉันจะหาสิ่งนั้นได้อย่างไร

1
ฉันควรตัดสินใจตามมาตรการการประเมินโดยเฉลี่ยแบบไมโครหรือโดยเฉลี่ยหรือไม่
ฉันใช้การตรวจสอบความถูกต้องไขว้แบบ 10 เท่าสำหรับอัลกอริธึมการจำแนกประเภทไบนารีที่แตกต่างกันโดยมีชุดข้อมูลเดียวกันและได้รับผลลัพธ์เฉลี่ยทั้งไมโครและมาโคร ควรกล่าวถึงว่านี่เป็นปัญหาการจำแนกประเภทฉลากหลายป้าย ในกรณีของฉันเชิงลบที่แท้จริงและผลบวกที่แท้จริงนั้นมีน้ำหนักเท่ากัน นั่นหมายความว่าการทำนายเชิงลบที่ถูกต้องนั้นมีความสำคัญไม่แพ้กันกับการทำนายผลบวกที่แท้จริง การวัดแบบไมโครเฉลี่ยต่ำกว่าค่าเฉลี่ยของมาโคร นี่คือผลลัพธ์ของ Neural Network และ Support Vector Machine: ฉันยังใช้การทดสอบแบ่งเปอร์เซ็นต์บนชุดข้อมูลเดียวกันด้วยอัลกอริทึมอื่น ผลการวิจัยพบว่า: ฉันอยากจะเปรียบเทียบการทดสอบแบ่งเปอร์เซ็นต์กับผลลัพธ์ที่ได้มาโครเฉลี่ย แต่สิ่งนั้นยุติธรรมหรือไม่ ฉันไม่เชื่อว่าผลลัพธ์เฉลี่ยแบบมาโครนั้นมีความลำเอียงเพราะผลบวกจริงและเชิงลบที่แท้จริงนั้นมีน้ำหนักเท่ากัน แต่จากนั้นอีกครั้งฉันสงสัยว่านี่จะเหมือนกับการเปรียบเทียบแอปเปิ้ลกับส้มหรือไม่? UPDATE จากความคิดเห็นฉันจะแสดงให้เห็นว่าการคำนวณไมโครและมาโครเฉลี่ยคำนวณอย่างไร ฉันมี 144 ป้ายกำกับ (เช่นเดียวกับคุณสมบัติหรือคุณลักษณะ) ที่ฉันต้องการทำนาย ความแม่นยำการเรียกคืนและการวัดค่า F ถูกคำนวณสำหรับแต่ละฉลาก --------------------------------------------------- LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144 --------------------------------------------------- ? | ? | ? | ? …

1
ทำไม quasi-Poisson ใน GLM จึงไม่ถือว่าเป็นกรณีพิเศษของทวินามลบ
ฉันกำลังพยายามจัดวางโมเดลเชิงเส้นแบบทั่วไปกับชุดข้อมูลนับจำนวนหนึ่งที่อาจหรือไม่อาจใช้เกินขนาด การแจกแจงแบบบัญญัติทั้งสองที่ใช้ในที่นี้คือ Poisson และ Negative Binomial (Negbin) พร้อม EVและความแปรปรวนμμ\mu VRP= μVarP=μVar_P = \mu VRยังไม่มีข้อความB= μ + μ2θVarNB=μ+μ2θVar_{NB} = \mu + \frac{\mu^2}{\theta} ซึ่งสามารถติดตั้งในการใช้ R glm(..,family=poisson)และglm.nb(...)ตามลำดับ นอกจากนี้ยังมีquasipoissonครอบครัวซึ่งในความเข้าใจของฉันเป็นปัวซองปรับด้วย EV และความแปรปรวนเดียวกัน VRคิวพี= ϕ μVarQP=ϕμVar_{QP} = \phi\mu , เช่นตกบางแห่งระหว่าง Poisson และ Negbin ปัญหาหลักของครอบครัว quasipoisson คือไม่มีความเกี่ยวข้องกันดังนั้นจึงมีการทดสอบทางสถิติที่มีประโยชน์อย่างมากและใช้มาตรการที่เหมาะสม (AIC, LR etcetera) ถ้าคุณเปรียบเทียบ QP และ Negbin แปรปรวนคุณอาจสังเกตเห็นว่าคุณสามารถถือเอาพวกเขาโดยการวางtheta} ดำเนินการต่อในตรรกะนี้คุณสามารถลองแสดงการแจกแจง quasipoisson …

4
เหตุใดข้อมูลที่หลากหลายจึงเป็นปัญหาสำหรับอัลกอริธึมการจัดกลุ่มแบบอิงยูคลิด
อัลกอริธึมการจัดกลุ่มและการลดขนาดแบบคลาสสิกส่วนใหญ่ (การจัดกลุ่มแบบลำดับชั้นการวิเคราะห์องค์ประกอบหลัก, k-mean, การจัดระเบียบแผนที่เอง ... ) ได้รับการออกแบบมาโดยเฉพาะสำหรับข้อมูลตัวเลขและข้อมูลอินพุตของพวกเขาถูกมองว่าเป็นจุด นี่เป็นปัญหาแน่นอนเนื่องจากคำถามในโลกแห่งความเป็นจริงนั้นเกี่ยวข้องกับข้อมูลที่หลากหลาย: ตัวอย่างเช่นหากเราศึกษารถเมล์ความสูงและความยาวและขนาดมอเตอร์จะเป็นตัวเลข แต่เราอาจสนใจสีด้วย (ตัวแปรเด็ดขาด: สีน้ำเงิน / แดง / เขียว ... ) และคลาสความจุ (ตัวแปรที่สั่ง: ความจุขนาดเล็ก / กลาง / ใหญ่) โดยเฉพาะเราอาจต้องการศึกษาตัวแปรประเภทต่าง ๆ เหล่านี้พร้อมกัน มีวิธีการหลายวิธีในการขยาย algos การจัดกลุ่มแบบคลาสสิกเป็นข้อมูลแบบผสมเช่นการใช้ Gower dissimilarity เพื่อเชื่อมต่อเข้ากับการจัดกลุ่มแบบลำดับชั้นหรือการปรับขนาดแบบหลายมิติหรือวิธีการอื่นที่ใช้เมทริกซ์ระยะทางเป็นอินพุต หรือเช่นวิธีการนี้เป็นส่วนเสริมของ SOM เพื่อผสมข้อมูล คำถามของฉันคือทำไมเราไม่สามารถใช้ระยะทางแบบยุคลิดในตัวแปรผสมได้ หรือเพราะเหตุใดจึงไม่ดีที่จะทำเช่นนั้น? ทำไมเราไม่จำลองหุ่นตัวแปรที่เป็นหมวดหมู่ทำให้ตัวแปรทั้งหมดเป็นปกติเพื่อให้พวกมันมีน้ำหนักใกล้เคียงกันระหว่างการสังเกตและเรียกใช้ algos ปกติบนเมทริกซ์เหล่านี้ มันง่ายมากและไม่เคยทำเลยดังนั้นฉันคิดว่ามันผิดมาก แต่ทุกคนสามารถบอกฉันได้ว่าทำไม และ / หรือให้ฉันอ้างอิงบางอย่าง? ขอบคุณ

4
จะทดสอบได้อย่างไรว่าการกระจายตัวของฉันนั้นต่อเนื่องหลายรูปแบบ?
เมื่อฉันพล็อตฮิสโตแกรมของข้อมูลของฉันมันมีสองจุด: นั่นหมายความว่าอาจมีการกระจายแบบหลายโหมดหรือไม่? ฉันวิ่งdip.testใน R ( library(diptest)) และผลลัพธ์คือ: D = 0.0275, p-value = 0.7913 ฉันสามารถสรุปได้ว่าข้อมูลของฉันมีการกระจายหลายโหมด? ข้อมูล 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 …

3
ความสัมพันธ์แปลก ๆ ในผลลัพธ์ SVD ของข้อมูลแบบสุ่ม พวกเขามีคำอธิบายทางคณิตศาสตร์หรือเป็นข้อบกพร่อง LAPACK?
ฉันสังเกตพฤติกรรมที่แปลกประหลาดมากในผลลัพธ์ SVD ของข้อมูลแบบสุ่มซึ่งฉันสามารถทำซ้ำได้ทั้งใน Matlab และ R ดูเหมือนว่าปัญหาตัวเลขในห้องสมุด LAPACK ใช่ไหม? ผมวาดn=1000n=1000n=1000ตัวอย่างจากk=2k=2k=2มิติแบบเกาส์กับศูนย์เฉลี่ยและเอกลักษณ์ของความแปรปรวน: X∼N(0,I)X∼N(0,I)X\sim \mathcal N (0, \mathbf I) ) ฉันรวบรวมพวกเขาใน1000×21000×21000 \times 2 Data Matrix XXX\mathbf X(ฉันสามารถเลือกศูนย์XX\mathbf Xหรือไม่ก็ไม่ได้มีผลต่อการต่อไป.) แล้วฉันจะดำเนินการสลายตัวมูลค่าเอกพจน์ (SVD) เพื่อให้ได้X=USV⊤X=USV⊤\mathbf X=\mathbf{USV}^\top ⊤ ลองหาองค์ประกอบสองอย่างของUU\mathbf Uเช่นU11U11U_{11}และและขอให้สิ่งที่เป็นความสัมพันธ์ระหว่างพวกเขาข้ามที่แตกต่างกันดึงของX ผมจะคาดหวังว่าถ้าจำนวน N R อีพีของดึงมีขนาดใหญ่พอสมควรแล้วทั้งหมดความสัมพันธ์ดังกล่าวควรจะเป็นรอบศูนย์ (เช่นความสัมพันธ์ของประชากรควรจะเป็นศูนย์และความสัมพันธ์ของกลุ่มตัวอย่างจะมีขนาดเล็ก)U22U22U_{22}XX\mathbf XNrepNrepN_\mathrm{rep} แต่ผมสังเกตเห็นบางความสัมพันธ์ที่แข็งแกร่งวิจิตรพิสดาร (ประมาณ ) ระหว่างU 11 , U 12 , U 21และU 22และเฉพาะระหว่างองค์ประกอบเหล่านี้ …

4
ฉันจะคำนวณช่วงความมั่นใจสำหรับการแจกแจงแบบไม่ปกติได้อย่างไร
ฉันมีตัวอย่าง 383 รายการที่มีอคติอย่างหนักสำหรับค่าทั่วไปบางอย่างฉันจะคำนวณ 95% CI สำหรับค่าเฉลี่ยได้อย่างไร CI ที่ฉันคำนวณดูเหมือนจะหายไปซึ่งฉันถือว่าเป็นเพราะข้อมูลของฉันดูไม่เหมือนเส้นโค้งเมื่อฉันสร้างฮิสโตแกรม ดังนั้นฉันคิดว่าฉันต้องใช้บางอย่างเช่น bootstrapping ซึ่งฉันไม่ค่อยเข้าใจ

2
ในการถดถอยเชิงเส้นอย่างง่ายสูตรการแปรปรวนของค่าตกค้างมาจากไหน?
ตามข้อความที่ฉันใช้สูตรสำหรับความแปรปรวนของส่วนที่เหลือจะได้รับจาก:ผมt hithi^{th} σ2( 1 - 1)n- ( xผม- x¯¯¯)2Sx x)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) ฉันพบนี้ยากที่จะเชื่อตั้งแต่ที่เหลือคือความแตกต่างระหว่างค่าสังเกตและค่าติดตั้ง; ถ้าใครจะคำนวณความแปรปรวนของความแตกต่างอย่างน้อยที่สุดฉันก็คาดหวังว่า "บวก" บางอย่างในการแสดงออกที่เกิดขึ้น ความช่วยเหลือใด ๆ ในการทำความเข้าใจแหล่งที่มาจะได้รับการชื่นชมผมt hithi^{th}ผมt hithi^{th}ผมt hithi^{th}

3
ความหมายของ 'จำนวนพารามิเตอร์' ใน AIC
เมื่อคำนวณ AIC AIC=2k−2lnLAIC=2k−2lnLAIC = 2k - 2 ln L k หมายถึง 'จำนวนพารามิเตอร์' แต่สิ่งที่นับเป็นพารามิเตอร์ ตัวอย่างเช่นในโมเดล y=ax+by=ax+by = ax + b a และ b ถูกนับเป็นพารามิเตอร์เสมอหรือไม่ ถ้าฉันไม่สนใจเกี่ยวกับคุณค่าของการสกัดกั้นฉันจะเพิกเฉยหรือไม่ก็นับได้หรือไม่ เกิดอะไรขึ้นถ้า y=af(c,x)+by=af(c,x)+by = a f(c,x) + b โดยที่fffคือฟังก์ชันของ c และ x ตอนนี้ฉันจะนับ 3 พารามิเตอร์หรือไม่
21 aic 

2
วิธีการอธิบายหรือมองเห็นโมเดลการถดถอยเชิงเส้นหลายแบบ
ฉันกำลังพยายามปรับโมเดลการถดถอยเชิงเส้นหลายแบบให้สอดคล้องกับข้อมูลของฉันด้วยพารามิเตอร์อินพุตสองสามตัวบอกว่า 3 F( x )F( x )= A x1+ B x2+ Cx3+ dหรือ= ( A B C )T( x1 x2 x3) + d(ผม)(ii)(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d …

4
ความแตกต่างระหว่างการสร้างมาตรฐานและการเป็นนักเรียนเป็นอย่างไร
เป็นที่ทราบหรือไม่ว่าในความแปรปรวนของมาตรฐานในขณะที่อยู่ในการทำให้เป็นนักเรียนมันไม่เป็นที่รู้จัก ขอขอบคุณ.

2
ข้อผิดพลาดมาตรฐานของการประมาณความน่าจะเป็นสูงสุดหมายถึงอะไร
ฉันเป็นนักสถิติศึกษาด้วยตนเองและพยายามอย่างยิ่งโดยเฉพาะกับภาษา ในหนังสือที่ฉันกำลังใช้มีปัญหาดังต่อไปนี้: ตัวแปรสุ่มจะได้รับเป็น -distributed กับ 0 (แน่นอนคุณอาจจะใช้การกระจายใด ๆ ขึ้นอยู่กับพารามิเตอร์หนึ่งเพื่อประโยชน์ของคำถามนี้.) จากนั้นกลุ่มตัวอย่างในห้าของค่า , , , ,จะได้รับXXXPareto(α,60)Pareto(α,60)\text{Pareto}(\alpha,60)α>0α>0\alpha>0141414212121666323232222 ส่วนที่หนึ่ง: "การใช้วิธีการที่มีโอกาสสูงสุดหาการประมาณของโดยอิงจาก [ตัวอย่าง]" นี่ไม่มีปัญหา คำตอบคือ4.6931α^α^\hat{\alpha}αα\alphaα^≈4.6931α^≈4.6931\hat{\alpha}\approx 4.6931 แต่จากนั้น: "ให้ค่าประมาณสำหรับข้อผิดพลาดมาตรฐานของ "α^α^\hat{\alpha} สิ่งนี้มีความหมายอย่างไร? เนื่องจากเป็นเพียงจำนวนจริงคงที่ฉันไม่เห็นว่ามันจะมีข้อผิดพลาดมาตรฐานได้อย่างไร ฉันต้องพิจารณาค่าเบี่ยงเบนมาตรฐานของหรือไม่α^α^\hat{\alpha}Pareto(α^,60)Pareto(α^,60)\text{Pareto}(\hat{\alpha},60) หากคุณคิดว่าคำถามไม่ชัดเจนข้อมูลนี้จะช่วยฉันเช่นกัน

2
ถ้าการจัดกลุ่ม k หมายถึงเป็นรูปแบบของการสร้างแบบจำลองแบบผสมผสานของเกาส์เซียนนั้นสามารถใช้เมื่อข้อมูลไม่ปกติหรือไม่?
ฉันกำลังอ่าน Bishop เกี่ยวกับอัลกอริทึม EM สำหรับ GMM และความสัมพันธ์ระหว่าง GMM และ k-mean ในหนังสือเล่มนี้มันบอกว่า k-mean เป็นรุ่นที่กำหนดยากของ GMM ฉันสงสัยว่านั่นหมายความว่าถ้าข้อมูลที่ฉันพยายามจัดกลุ่มไม่ใช่ Gaussian ฉันไม่สามารถใช้วิธี k (หรืออย่างน้อยก็ไม่เหมาะที่จะใช้)? ตัวอย่างเช่นถ้าข้อมูลเป็นภาพของตัวเลขที่เขียนด้วยลายมือซึ่งประกอบด้วย 8 * 8 พิกเซลแต่ละรายการมีค่า 0 หรือ 1 (และถือว่าเป็นข้อมูลที่เป็นอิสระดังนั้นจึงควรเป็นส่วนผสมของเบอร์นูลี) ฉันสับสนเล็กน้อยในเรื่องนี้และจะขอบคุณความคิดใด ๆ

1
สองวิธีในการใช้ bootstrap เพื่อประเมินช่วงความมั่นใจของสัมประสิทธิ์ในการถดถอย
ฉันกำลังใช้โมเดลเชิงเส้นกับข้อมูลของฉัน: yi=β0+β1xi+ϵi,ϵi∼N(0,σ2).yi=β0+β1xi+ϵi,ϵi∼N(0,σ2). y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). ฉันต้องการประเมินช่วงความมั่นใจ (CI) ของสัมประสิทธิ์ ( , ) โดยใช้วิธี bootstrap มีสองวิธีที่ฉันสามารถใช้วิธี bootstrap:β0β0\beta_{0}β1β1\beta_{1} ตัวอย่างการตอบสนอง - ทำนายการจับคู่: สุ่มสุ่มคู่ของและนำการถดถอยเชิงเส้นไปใช้กับการวิ่งแต่ละครั้ง หลังจากที่วิ่งเราได้รับคอลเลกชันของสัมประสิทธิ์ประมาณเมตร สุดท้ายคำนวณ quantile ของ{J}}}yi−xiyi−xiy_{i}-x_{i}mmmβj^,j=1,...mβj^,j=1,...m{\hat{\beta_{j}}}, j=1,...mβj^βj^{\hat{\beta_{j}}} ข้อผิดพลาดตัวอย่าง: ครั้งแรกที่ใช้การถดถอยเชิงเส้นกับข้อมูลที่สังเกตเดิมจากรุ่นนี้เราได้รับและข้อผิดพลาด{i} หลังจากนั้นให้สุ่มข้อผิดพลาดอีกครั้งและคำนวณข้อมูลใหม่ด้วยและ {i} ใช้การถดถอยเชิงเส้นอีกครั้ง หลังจากที่วิ่งเราได้รับคอลเลกชันของ coefficeints ประมาณม. สุดท้ายคำนวณ quantile ของ{J}}}βo^βo^\hat{\beta_{o}}ϵiϵi\epsilon_{i}ϵ∗iϵi∗\epsilon^{*}_{i}βo^βo^\hat{\beta_{o}}y∗i=βo^xi+ϵ∗iyi∗=βo^xi+ϵi∗y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}mmmβj^,j=1,...,mβj^,j=1,...,m{\hat{\beta_{j}}}, j=1,...,mβj^βj^{\hat{\beta_{j}}} คำถามของฉันคือ: วิธีการทั้งสองนี้แตกต่างกันอย่างไร ภายใต้สมมติฐานสองข้อใดที่ให้ผลลัพธ์เหมือนกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.