สถิติและข้อมูลขนาดใหญ่

6

อะไรคือความแตกต่างระหว่างการถดถอยโลจิสติกและเปอร์เซ็นตรอน

ฉันกำลังอ่านบันทึกการบรรยายของ Andrew Ng เกี่ยวกับ Machine Learning บันทึกแนะนำให้รู้จักกับการถดถอยโลจิสติกและจากนั้นเพื่อ perceptron ในขณะที่อธิบาย Perceptron บันทึกย่อบอกว่าเราเพิ่งเปลี่ยนนิยามของฟังก์ชันขีด จำกัด ที่ใช้สำหรับการถดถอยโลจิสติก หลังจากนั้นเราสามารถใช้แบบจำลอง Perceptron สำหรับการจำแนกประเภท ดังนั้นคำถามของฉันคือ - ถ้าจำเป็นต้องระบุและเราถือว่า Perceptron เป็นเทคนิคการจำแนกประเภทแล้วการถดถอยโลจิสติกคืออะไร? ใช้เพื่อให้ได้ความน่าจะเป็นของจุดข้อมูลที่เป็นหนึ่งในคลาสหรือไม่

30 regression machine-learning self-study logistic perceptron

5

นักวิจัยแต่ละคนควรคิดอย่างไรเกี่ยวกับอัตราการค้นพบที่ผิด?

ฉันได้พยายามสรุปว่า False Discovery Rate (FDR) ควรแจ้งข้อสรุปของนักวิจัยแต่ละคนอย่างไร ตัวอย่างเช่นถ้าการศึกษาของคุณจะ underpowered คุณควรลดผลลัพธ์ของคุณแม้ว่าพวกเขาจะมีนัยสำคัญที่ ? หมายเหตุ: ฉันกำลังพูดถึง FDR ในบริบทของการตรวจสอบผลลัพธ์ของการศึกษาหลาย ๆ ครั้งในภาพรวมไม่ใช่วิธีการแก้ไขการทดสอบหลายรายการα=.05α=.05\alpha = .05 การสร้างสมมุติฐาน (อาจเผื่อแผ่) ที่ของการทดสอบสมมติฐานเป็นจริงจริง FDR เป็นหน้าที่ของทั้งอัตราการผิดพลาดประเภทที่ 1 และประเภท II ดังต่อไปนี้:∼.5∼.5\sim.5 FDR=αα+1−β.FDR=αα+1−β.\text{FDR} = \frac{\alpha}{\alpha+1-\beta}. มีเหตุผลที่ว่าหากการศึกษามีความไม่เพียงพอเราไม่ควรเชื่อถือผลลัพธ์แม้ว่าจะมีความสำคัญเท่าที่เราจะได้รับการศึกษาอย่างเพียงพอ ดังนั้นตามที่นักสถิติบางคนอาจกล่าวว่ามีสถานการณ์ที่ "ในระยะยาว" เราอาจเผยแพร่ผลลัพธ์ที่สำคัญหลายอย่างที่เป็นเท็จหากเราปฏิบัติตามแนวทางดั้งเดิม หากร่างกายของการวิจัยมีเอกลักษณ์เฉพาะด้วยการศึกษาที่ไม่ได้รับการยอมรับอย่างต่อเนื่อง (เช่นยีนของผู้สมัครวรรณกรรมเกี่ยวกับสภาพแวดล้อมของทศวรรษก่อนหน้า ) แม้กระทั่งการค้นพบที่มีนัยสำคัญที่ทำซ้ำ××\times การใช้แพคเกจการ R extrafont, ggplot2และxkcdผมคิดว่านี่อาจจะมีแนวความคิดที่เป็นประโยชน์ในฐานะที่เป็นปัญหาของมุมมอง: รับข้อมูลนี้สิ่งที่นักวิจัยแต่ละคนควรจะทำอย่างไรต่อไป ? ถ้าฉันเดาได้ว่าขนาดของเอฟเฟกต์ที่ฉันกำลังศึกษาควรจะเป็นขนาดใด (และด้วยการประมาณ1−β1−β1 - \betaตามขนาดตัวอย่างของฉัน) ฉันควรปรับระดับของฉันαα\alphaจนกว่า FDR …

30 statistical-significance p-value publication-bias false-discovery-rate

3

ฉันควรใช้ปัจจัยเงินเฟ้อแปรปรวนใด:หรือ ?

ฉันพยายามที่จะตีความปัจจัยเงินเฟ้อแปรปรวนโดยใช้ฟังก์ชั่นในแพคเกจการvif R carฟังก์ชั่นการพิมพ์ทั้งทั่วไปและ{DF})} ตามไฟล์ช่วยเหลือค่าหลังนี้VIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} หากต้องการปรับสำหรับมิติของความเชื่อมั่นวงรีฟังก์ชันยังพิมพ์ GVIF ^ [1 / (2 * df)] โดยที่ df คือองศาอิสระที่เกี่ยวข้องกับคำนั้น ฉันไม่เข้าใจความหมายของคำอธิบายนี้ในไฟล์ช่วยเหลือดังนั้นฉันไม่แน่ใจว่าควรใช้หรือ . สำหรับโมเดลของฉันค่าทั้งสองนี้แตกต่างกันมาก (สูงสุดคือ ~ ; สูงสุดคือ ~ )GVIFGVIF\text{GVIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}GVIFGVIF\text{GVIF}606060GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}333 มีคนช่วยอธิบายให้ฉันฟังหน่อยได้ไหมว่าฉันควรใช้อะไรดีและอะไรคือความหมายโดยการปรับมิติความเชื่อมั่นของวงรี?

30 r multicollinearity vif

3

ไม่ว่าจะ rescale ตัวบ่งชี้ / ไบนารี / ตัวจำลองการคาดการณ์สำหรับ LASSO

สำหรับ LASSO (และขั้นตอนการเลือกรุ่นอื่น ๆ ) มันเป็นสิ่งสำคัญที่จะช่วยลดการคาดการณ์ ทั่วไป คำแนะนำของ ผมต่อไปนี้เป็นเพียงการใช้ 0 เฉลี่ย 1 การฟื้นฟูส่วนเบี่ยงเบนมาตรฐานของตัวแปรอย่างต่อเนื่อง แต่จะทำอย่างไรกับหุ่น? เช่นบางตัวอย่างที่นำมาใช้จากโรงเรียนภาคฤดูร้อน (ยอดเยี่ยม) เดียวกันฉันเชื่อมโยงกับ rescales ตัวแปรต่อเนื่องให้อยู่ระหว่าง 0 และ 1 (ไม่ดีกับค่าผิดปกติแม้ว่า) อาจเทียบได้กับหุ่น แต่ถึงอย่างนั้นก็ไม่ได้รับประกันว่าสัมประสิทธิ์ควรจะมีขนาดเท่ากันและทำให้ถูกลงโทษในทำนองเดียวกันเหตุผลสำคัญสำหรับการช่วยชีวิตไม่ใช่?

30 predictive-models model-selection lasso standardization multidimensional-scaling

3

ทำไมเมทริกซ์ความแปรปรวนร่วมตัวอย่างเอกพจน์เมื่อขนาดตัวอย่างน้อยกว่าจำนวนของตัวแปร

สมมติว่าฉันมีการแจกแจงแบบเกาส์มิติหลายมิติ และฉันใช้เวลาสังเกต (แต่ละของพวกเขาเวกเตอร์) จากการจำหน่ายนี้และคำนวณตัวอย่างแปรปรวนเมทริกซ์Sในบทความนี้ผู้เขียนระบุว่าเมทริกซ์ความแปรปรวนร่วมตัวอย่างที่คำนวณด้วยนั้นเป็นเอกพจน์n p S p > npppnnnpppSSSp>np>np > n มันจริงหรือเป็นอย่างไร คำอธิบายใด ๆ

30 covariance-matrix linear-algebra

5

จะหาค่าตัวประมาณกำลังสองน้อยที่สุดสำหรับการถดถอยเชิงเส้นหลายเส้นได้อย่างไร

ในกรณีที่เรียบง่ายเชิงเส้นถดถอยy=β0+β1xy=β0+β1xy=\beta_0+\beta_1xคุณสามารถได้รับมาอย่างน้อยประมาณตารางβ 1 = Σ ( x ฉัน - ˉ x ) ( Y ฉัน - ˉ Y )β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}เช่นที่คุณไม่จำเป็นต้องรู้ β 0เพื่อประเมิน β 1β^0β^0\hat\beta_0β^1β^1\hat\beta_1 สมมติว่าฉันมีy=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2 , วิธีการที่ฉันไม่ได้รับมาβ 1โดยไม่ต้องประเมินβ 2 ? หรือเป็นไปไม่ได้?β^1β^1\hat\beta_1β^2β^2\hat\beta_2

30 regression multiple-regression generalized-linear-model linear-model

7

อันตรายของการตั้งค่าน้ำหนักเริ่มต้นทั้งหมดให้เป็นศูนย์ใน Backpropagation

ทำไมการเริ่มต้นให้น้ำหนักด้วยเลขศูนย์จึงเป็นอันตราย มีตัวอย่างง่ายๆที่แสดงให้เห็นหรือไม่?

30 neural-networks backpropagation

4

อะไรคือความแตกต่างระหว่างการทดสอบของ McNemar กับการทดสอบแบบไคสแควร์และคุณรู้ได้อย่างไรว่าจะใช้เมื่อใด

ฉันได้ลองอ่านจากแหล่งข้อมูลต่าง ๆ แล้ว แต่ฉันยังไม่ชัดเจนว่าการทดสอบใดที่จะเหมาะสมในกรณีของฉัน มีคำถามที่แตกต่างกันสามคำถามที่ฉันถามเกี่ยวกับชุดข้อมูลของฉัน: วิชาถูกทดสอบการติดเชื้อจาก X ในเวลาต่างกัน ฉันต้องการทราบว่าสัดส่วนของการบวกสำหรับ X หลังจากนั้นเกี่ยวข้องกับสัดส่วนการบวกสำหรับ X ก่อนหน้านี้หรือไม่: After |no |yes| Before|No |1157|35 | |Yes |220 |13 | results of chi-squared test: Chi^2 = 4.183 d.f. = 1 p = 0.04082 results of McNemar's test: Chi^2 = 134.2 d.f. = 1 p = 4.901e-31 จากความเข้าใจของฉันเนื่องจากข้อมูลเป็นการวัดซ้ำฉันต้องใช้การทดสอบของ …

30 r chi-squared mcnemar-test

5

ความลึกของการโต้ตอบหมายถึงอะไรใน GBM

ฉันมีคำถามเกี่ยวกับพารามิเตอร์ความลึกของการโต้ตอบใน gbm ใน R นี่อาจเป็นคำถาม noob ซึ่งฉันต้องขออภัย แต่พารามิเตอร์ที่ฉันเชื่อว่าหมายถึงจำนวนของโหนดขั้วในต้นไม้โดยทั่วไปบ่งบอกถึงวิธี X ปฏิสัมพันธ์ระหว่างผู้ทำนายหรือไม่ แค่พยายามที่จะเข้าใจวิธีการทำงาน นอกจากนี้ฉันได้รับแบบจำลองที่แตกต่างกันมากถ้าฉันมีชุดข้อมูลที่มีตัวแปรปัจจัยสองตัวที่แตกต่างกันเมื่อเทียบกับชุดข้อมูลเดียวกันยกเว้นตัวแปรตัวประกอบสองตัวนั้นรวมกันเป็นปัจจัยเดียว (เช่นระดับ X ในปัจจัย 1, Y ระดับในปัจจัย 2) ปัจจัย X * Y) หลังมีความหมายมากกว่าเดิม ฉันคิดว่าการเพิ่มความลึกของการมีปฏิสัมพันธ์จะทำให้ความสัมพันธ์นี้ดีขึ้น

30 r machine-learning boosting gbm

1

Cox Regression มีการแจกแจงแบบปัวซองหรือไม่?

ทีมเล็ก ๆ ของเรากำลังพูดคุยกันและติดอยู่ ไม่มีใครรู้ว่าการถดถอยของ Cox นั้นมีการแจกแจงแบบปัวซองหรือไม่ เรามีการถกเถียงกันว่าบางทีการถดถอยของค็อกซ์ที่มีความเสี่ยงเวลาคงที่จะมีความคล้ายคลึงกันกับการถดถอยปัวซองด้วยความแปรปรวนที่แข็งแกร่ง ความคิดใด ๆ

30 regression poisson-distribution cox-model

5

ฉันจะใช้ SVD ในการกรองร่วมกันได้อย่างไร

ฉันสับสนเล็กน้อยเกี่ยวกับวิธีการใช้ SVD ในการกรองร่วมกัน สมมติว่าฉันมีกราฟโซเชียลและสร้างเมทริกซ์คำคุณศัพท์จากขอบจากนั้นใช้ SVD (ลองลืมเกี่ยวกับการทำให้เป็นปกติอัตราการเรียนรู้การเพิ่มประสิทธิภาพการกระจัดกระจาย ฯลฯ ) ฉันจะใช้ SVD นี้เพื่อปรับปรุงคำแนะนำของฉันได้อย่างไร สมมติว่ากราฟโซเชียลของฉันตรงกับ instagram และฉันได้รับมอบหมายหน้าที่ในการแนะนำผู้ใช้ในบริการโดยใช้กราฟโซเชียลเท่านั้น ฉันจะสร้างเมทริกซ์ adjacency AA\mathbf A (m×m)(m×m)(m\times m) , รับ SVD, A=UsVA=UsV\mathbf A = \mathbf{U s V} , เลือกeigenvalues แรกkkk, แล้วอะไร? ฉันน่าจะสร้างเมทริกซ์ชุดใหม่: แล้วจะทำอะไรได้บ้าง?UnewsnewVnew∼m×k∼k×k∼k×mUnew∼m×ksnew∼k×kVnew∼k×m\begin{align} \mathbf U_{new} &\sim m\times k \\ \mathbf s_{new} &\sim k\times k \\ \mathbf V_{new} &\sim …

30 svd recommender-system

2

คำที่ไม่อิ่มตัวเชิงเส้นที่มีความหมายถึงอะไร?

ฉันอ่านเอกสารการจำแนกประเภทของ ImageNet ด้วย Deep Convolutional Neural Networksและในส่วนที่ 3 พวกเขาอธิบายสถาปัตยกรรมของโครงข่ายประสาทเทียมของพวกเขาพวกเขาอธิบายว่าพวกเขาต้องการใช้อย่างไร: ไม่ใช่พอดิบพอดีไม่เป็นเชิงเส้นf(x)=max(0,x).f(x)=max(0,x).f(x) = max(0, x). เพราะมันเร็วกว่าในการฝึก ในกระดาษพวกนั้นดูเหมือนว่าจะหมายถึง saturating nonlinearities เป็นฟังก์ชันดั้งเดิมที่ใช้ใน CNNs, sigmoid และฟังก์ชันไฮเพอร์โบลิกแทนเจนต์ (เช่นและเป็น saturating)f(x)=tanh(x)f(x)=tanh(x)f(x) = tanh(x)f(x)=11+e−x=(1+e−x)−1f(x)=11+e−x=(1+e−x)−1f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1} ทำไมพวกเขาอ้างถึงฟังก์ชั่นเหล่านี้ว่า "saturating" หรือ "non-saturating"? ฟังก์ชันเหล่านี้มีความหมายว่าอะไร "saturating" หรือ "non-saturating"? คำเหล่านั้นมีความหมายอย่างไรในบริบทของโครงข่ายประสาทเทียม พวกเขาใช้ในด้านอื่น ๆ ของการเรียนรู้ของเครื่อง (และสถิติ) หรือไม่?

30 machine-learning neural-networks terminology conv-neural-network

2

การตีความพล็อต (glm.model)

ใครช่วยบอกฉันได้ว่าจะตีความ 'ส่วนที่เหลือเทียบพอดี', 'ปกติ q-q', 'มาตราส่วนที่ตั้ง' และ 'ส่วนที่เหลือเทียบกับความสามารถในการแปลง'? ฉันกำลังจัดวาง GLM แบบทวินามให้เหมาะสมแล้วบันทึกและวางแผนใหม่

30 r logistic data-visualization generalized-linear-model qq-plot

2

จะตีความค่า p ของการทดสอบ Kolmogorov-Smirnov (python) ได้อย่างไร?

ฉันมีสองตัวอย่างที่ฉันต้องการทดสอบ (โดยใช้ไพ ธ อน) ถ้าพวกมันถูกดึงออกมาจากการกระจายตัวแบบเดียวกัน ในการทำเช่นนั้นฉันใช้ฟังก์ชันทางสถิติ ks_2samp จาก scipy.stats มันคืนค่า 2 ค่าและฉันพบความยากลำบากในการตีความ ช่วยด้วย!

30 python

7

สาขาของสถิติคืออะไร?

ในคณิตศาสตร์มีสาขาต่าง ๆ เช่นพีชคณิตการวิเคราะห์โทโพโลยีและอื่น ๆ ในการเรียนรู้ของเครื่องจักรนั้นจะมีการควบคุมดูแลการเรียนรู้แบบไม่สนับสนุนและการเสริมแรง ภายในแต่ละสาขามีสาขาย่อยที่ดีกว่าซึ่งจะแบ่งวิธีการเพิ่มเติม ฉันมีปัญหาในการวาดภาพขนานกับสถิติ อะไรคือสาขาหลักของสถิติ (และสาขาย่อย) พาร์ติชันที่สมบูรณ์แบบอาจเป็นไปไม่ได้ แต่มีอะไรดีไปกว่าแผนที่เปล่าขนาดใหญ่ ตัวอย่างภาพ:

30 self-study classification