สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ทำไมค่าโดยประมาณจากตัวทำนายเชิงเส้นที่เป็นกลางที่สุด (BLUP) จึงแตกต่างจากตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงเชิงเส้น (BLUE)
ฉันเข้าใจว่าความแตกต่างระหว่างพวกเขาเกี่ยวข้องกับว่าตัวแปรการจัดกลุ่มในแบบจำลองนั้นประมาณว่าเป็นเอฟเฟกต์แบบคงที่หรือแบบสุ่ม แต่ไม่ชัดเจนสำหรับฉันว่าทำไมพวกเขาถึงไม่เหมือนกัน (ถ้าไม่เหมือนกัน) ฉันสนใจเป็นพิเศษในการทำงานเมื่อใช้การประมาณพื้นที่ขนาดเล็กถ้ามันเกี่ยวข้อง แต่ฉันสงสัยว่าคำถามนั้นเกี่ยวข้องกับการใช้เอฟเฟกต์แบบคงที่และแบบสุ่มใด ๆ

2
ตรรกะเบื้องหลังวิธีการของช่วงเวลาคืออะไร?
ทำไมใน "วิธีการของช่วงเวลา" เราเปรียบเทียบช่วงเวลาตัวอย่างกับช่วงเวลาของประชากรเพื่อหาตัวประมาณค่าจุด ตรรกะอยู่เบื้องหลังสิ่งนี้อยู่ที่ไหน

4
การปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์นอกการตรวจสอบไขว้นั้นแย่แค่ไหน?
ฉันรู้ว่าการดำเนินการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์นอกการตรวจสอบข้ามสามารถนำไปสู่การประเมินความถูกต้องภายนอกที่มีความลำเอียงสูงเนื่องจากชุดข้อมูลที่คุณใช้ในการวัดประสิทธิภาพนั้นเป็นชุดเดียวกับที่คุณใช้ปรับคุณสมบัติ สิ่งที่ฉันสงสัยคือปัญหานี้แย่ขนาดไหน ฉันสามารถเข้าใจได้ว่ามันจะไม่ดีจริง ๆ สำหรับการเลือกคุณลักษณะเนื่องจากสิ่งนี้จะให้คุณปรับพารามิเตอร์จำนวนมาก แต่ถ้าคุณใช้บางอย่างเช่น LASSO (ซึ่งมีเพียงพารามิเตอร์เดียว, ความแข็งแกร่งของการทำให้เป็นปกติ) หรือฟอเรสต์แบบสุ่มโดยไม่มีการเลือกคุณสมบัติ (ซึ่งสามารถมีพารามิเตอร์ไม่กี่ตัว ในสถานการณ์เหล่านี้คุณคาดหวังว่าข้อผิดพลาดในการฝึกอบรมของคุณจะเป็นไปในแง่ดีเพียงใด ฉันขอขอบคุณข้อมูลใด ๆ เกี่ยวกับเรื่องนี้ - กรณีศึกษา, เอกสาร, ข้อมูลเล็ก ๆ น้อย ๆ ฯลฯ ขอบคุณ! แก้ไข:เพื่อชี้แจงฉันไม่ได้พูดเกี่ยวกับการประเมินประสิทธิภาพของแบบจำลองในข้อมูลการฝึกอบรม (กล่าวคือไม่ได้ใช้การตรวจสอบความถูกต้องทั้งหมด) โดย "การปรับค่าพารามิเตอร์หลายพารามิเตอร์นอกการตรวจสอบข้าม" ฉันหมายถึงการใช้การตรวจสอบข้ามเพื่อประเมินประสิทธิภาพของแต่ละรุ่นเท่านั้น แต่ไม่รวมลูปการตรวจสอบความถูกต้องภายนอกที่สองเพื่อแก้ไขสำหรับการกำหนดค่าภายในกระบวนการ overfitting ในระหว่างขั้นตอนการฝึกอบรม) ดูเช่นคำตอบที่นี่

2
มีข้อได้เปรียบของ SVD บน PCA หรือไม่?
ฉันรู้วิธีการคำนวณ PCA และ SVD ทางคณิตศาสตร์และฉันรู้ว่าทั้งสองสามารถนำไปใช้กับการถดถอยเชิงเส้นสแควร์น้อยที่สุด ข้อได้เปรียบหลักของ SVD ในทางคณิตศาสตร์ดูเหมือนว่าสามารถนำไปใช้กับเมทริกซ์ที่ไม่ได้เป็นแบบสแควร์ได้ ทั้งสองมุ่งเน้นไปที่การสลายตัวของเมทริกซ์นอกเหนือจากข้อได้เปรียบของ SVD ที่กล่าวมามีข้อได้เปรียบหรือข้อมูลเชิงลึกเพิ่มเติมใด ๆ จากการใช้ SVD ผ่าน PCA หรือไม่X⊤XX⊤XX^\top X ฉันกำลังมองหาสัญชาตญาณมากกว่าความแตกต่างทางคณิตศาสตร์
20 pca  least-squares  svd 

6
ค่ามัธยฐานเป็นประเภทของค่าเฉลี่ยหรือไม่สำหรับการวางนัยทั่วไปของ "หมายถึง"?
แนวคิดของ "หมายถึง" roams กว้างกว่าค่าเฉลี่ยเลขคณิตแบบดั้งเดิม; มันยืดจนรวมค่ามัธยฐานหรือไม่? โดยการเปรียบเทียบ ข้อมูลดิบ⟶รหัสข้อมูลดิบ⟶ค่าเฉลี่ยค่าเฉลี่ยดิบ⟶รหัส- 1เลขคณิตหมายถึงข้อมูลดิบ⟶recipการแลกเปลี่ยน⟶ค่าเฉลี่ยค่าเฉลี่ยซึ่งกันและกัน⟶recip- 1ค่าเฉลี่ยฮาร์มอนิกข้อมูลดิบ⟶เข้าสู่ระบบบันทึก⟶ค่าเฉลี่ยหมายถึงบันทึก⟶เข้าสู่ระบบ- 1เฉลี่ยเรขาคณิตข้อมูลดิบ⟶สี่เหลี่ยมสี่เหลี่ยม⟶ค่าเฉลี่ยตาราง ⟶สี่เหลี่ยม-1รูตหมายความว่ากำลังสองข้อมูลดิบ⟶ยศการจัดอันดับ ⟶ค่าเฉลี่ยหมายถึงอันดับ⟶ยศ- 1มัธยฐานข้อมูลดิบ⟶รหัสข้อมูลดิบ⟶ค่าเฉลี่ยดิบหมายถึง⟶รหัส-1เลขคณิตหมายถึงข้อมูลดิบ⟶recipส่วนกลับ⟶ค่าเฉลี่ยค่าเฉลี่ยซึ่งกันและกัน⟶recip-1ค่าเฉลี่ยฮาร์มอนิกข้อมูลดิบ⟶เข้าสู่ระบบบันทึก⟶ค่าเฉลี่ยหมายถึงบันทึก⟶เข้าสู่ระบบ-1เฉลี่ยเรขาคณิตข้อมูลดิบ⟶สี่เหลี่ยมสี่เหลี่ยม⟶ค่าเฉลี่ยตาราง⟶สี่เหลี่ยม-1รูตหมายความว่ากำลังสองข้อมูลดิบ⟶ยศการจัดอันดับ⟶ค่าเฉลี่ยหมายถึงอันดับ⟶ยศ-1มัธยฐาน \text{raw data} \overset{\text{id}}{\longrightarrow} \text{raw data} \overset{\text{mean}}{\longrightarrow} \text{raw mean} \overset{\text{id}^{-1}}{\longrightarrow} \text{arithmetic mean} \\ \text{raw data} \overset{\text{recip}}{\longrightarrow} \text{reciprocals} \overset{\text{mean}}{\longrightarrow} \text{mean reciprocal} \overset{\text{recip}^{-1}}{\longrightarrow} \text{harmonic mean} \\ \text{raw data} \overset{\text{log}}{\longrightarrow} \text{logs} \overset{\text{mean}}{\longrightarrow} \text{mean log} \overset{\text{log}^{-1}}{\longrightarrow} \text{geometric mean} \\ \text{raw data} \overset{\text{square}}{\longrightarrow} …
20 mean  average  median 

1
วิธีการใช้วิธีเดลต้าสำหรับข้อผิดพลาดมาตรฐานของผลกระทบเล็กน้อย?
ฉันสนใจที่จะเข้าใจวิธีการเดลต้าในการประมาณข้อผิดพลาดมาตรฐานของผลกระทบส่วนเพิ่มโดยเฉลี่ยของตัวแบบการถดถอยซึ่งรวมถึงคำศัพท์การโต้ตอบ ฉันได้ดูคำถามที่เกี่ยวข้องภายใต้วิธีเดลต้าแต่ไม่มีผู้ใดได้ให้สิ่งที่ฉันกำลังมองหา พิจารณาข้อมูลตัวอย่างต่อไปนี้เป็นตัวอย่างที่สร้างแรงบันดาลใจ: set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) ฉันสนใจในผลกระทบที่ขอบเฉลี่ย (อาเมส) ของและx1 x2ในการคำนวณเหล่านี้ฉันทำต่อไปนี้: cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of …

2
วิธีการคำนวณคะแนนปัจจัยและเมทริกซ์ "สัมประสิทธิ์คะแนน" ในการวิเคราะห์ PCA หรือปัจจัยคืออะไร
ตามความเข้าใจของฉันใน PCA ตามสหสัมพันธ์เราได้รับการโหลด (= องค์ประกอบหลักในตัวอย่างนี้) ซึ่งไม่ได้มีอะไรนอกจากความสัมพันธ์ระหว่างตัวแปรและปัจจัย ตอนนี้เมื่อฉันต้องการสร้างคะแนนตัวประกอบใน SPSS ฉันสามารถรับคะแนนตัวประกอบของผู้ตอบแต่ละคนสำหรับแต่ละปัจจัยได้โดยตรง ฉันยังสังเกตเห็นว่าถ้าฉันคูณ " เมทริกซ์สัมประสิทธิ์คะแนนองค์ประกอบ " (ที่ผลิตโดย SPSS) ด้วยตัวแปรดั้งเดิมมาตรฐานฉันจะได้รับคะแนนปัจจัยเดียวกับที่ได้รับจาก SPSS ใครช่วยกรุณาช่วยฉันเข้าใจว่า "เมทริกซ์สัมประสิทธิ์คะแนนองค์ประกอบ" หรือ "เมทริกซ์สัมประสิทธิ์คะแนนปัจจัย" - ซึ่งฉันสามารถคำนวณปัจจัยหรือคะแนนองค์ประกอบ - คำนวณได้อย่างไร วิธีการที่แตกต่างกันของคะแนนปัจจัยการคำนวณแตกต่างกันในเมทริกซ์นี้อย่างไร

1
วิธีรับค่าของ Mean squared error ในการถดถอยเชิงเส้นใน R
ปล่อยให้โมเดลการถดถอยเชิงเส้นที่ได้รับจากฟังก์ชัน R ต้องการทราบว่าเป็นไปได้ที่จะได้รับจากคำสั่ง Mean Squared Error ฉันมีตัวอย่างผลลัพธ์ต่อไปนี้ > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 …
20 r  regression  error 

2
การสุ่มตัวอย่าง Gibbs กับ MH-MCMC ทั่วไป
ฉันเพิ่งได้อ่านการสุ่มตัวอย่างของกิ๊บส์และอัลกอริทึม Metropolis Hastings และมีคำถามสองสามข้อ อย่างที่ฉันเข้าใจในกรณีของการสุ่มตัวอย่างของกิ๊บส์ถ้าเรามีปัญหาหลายตัวแปรขนาดใหญ่เราจะสุ่มตัวอย่างจากการแจกแจงแบบมีเงื่อนไขนั่นคือตัวอย่างหนึ่งตัวแปรในขณะที่รักษาตัวแปรอื่น ๆ ทั้งหมดไว้ในขณะที่ MH เราสุ่มตัวอย่าง สิ่งหนึ่งที่เอกสารกล่าวคือตัวอย่างที่เสนอนั้นเป็นที่ยอมรับเสมอในการสุ่มตัวอย่างกิ๊บส์นั่นคืออัตราการยอมรับข้อเสนออยู่เสมอ 1 สำหรับฉันแล้วนี่เป็นข้อได้เปรียบที่ยิ่งใหญ่สำหรับปัญหาหลายตัวแปรขนาดใหญ่ดูเหมือนว่าอัตราการปฏิเสธสำหรับอัลกอริธึม MH ค่อนข้างใหญ่ . หากเป็นเช่นนั้นจริง ๆ แล้วอะไรคือสาเหตุที่ไม่ใช้ Gibbs Sampler ตลอดเวลาในการสร้างการกระจายหลัง

2
ความแปรปรวนร่วมของเวกเตอร์สุ่มหลังจากการแปลงเชิงเส้น
ถ้าเป็นเวกเตอร์แบบสุ่มและเป็นเมทริกซ์คงที่ใครบางคนสามารถอธิบายได้ว่าทำไมZZ\mathbf {Z}AAAc o v [A Z ]=A c o v [ Z ] A⊤.คโอโวลต์[AZ]=Aคโอโวลต์[Z]A⊤.\mathrm{cov}[A \mathbf {Z}]= A \mathrm{cov}[\mathbf {Z}]A^\top.
20 covariance 

3
ค่าสัมประสิทธิ์แบบทดสอบ (ความชันถดถอย) เทียบกับค่าบางค่า
ใน R เมื่อฉันมี (ทั่วไป) โมเดลเชิงเส้นตรง ( lm, glm, gls, glmm, ... ) วิธีที่ฉันสามารถทดสอบค่าสัมประสิทธิ์ (ถดถอยลาด) กับค่าอื่น ๆ ที่ไม่ใช่ 0? ในบทสรุปของแบบจำลองนั้นมีการรายงานผลการทดสอบค่าสัมประสิทธิ์ t-test โดยอัตโนมัติ แต่สำหรับการเปรียบเทียบกับ 0 ฉันต้องการเปรียบเทียบกับค่าอื่น ฉันรู้ว่าฉันสามารถใช้เคล็ดลับที่มี reparametrizing y ~ xเป็นy - T*x ~ xที่Tเป็นค่าการทดสอบและใช้รูปแบบ reparametrized นี้ แต่ฉันหาทางออกที่ง่ายที่จะเป็นไปได้ที่การทำงานในรูปแบบเดิม
20 r  regression  t-test 

4
มีอัลกอริทึมคล้ายต้นไม้ตัดสินใจสำหรับการทำคลัสเตอร์แบบไม่ดูแลหรือไม่
ฉันมีชุดข้อมูลประกอบด้วย 5 คุณสมบัติ: A, B, C, D, E พวกเขาทั้งหมดเป็นค่าตัวเลข แทนที่จะทำการจัดกลุ่มตามความหนาแน่นสิ่งที่ฉันต้องการทำคือการจัดกลุ่มข้อมูลในลักษณะคล้ายต้นไม้ตัดสินใจ วิธีที่ฉันหมายถึงคือ: อัลกอริทึมอาจแบ่งข้อมูลออกเป็นกลุ่มเริ่มต้น X ตามคุณลักษณะ C เช่นกลุ่ม X อาจมีขนาดเล็ก C ขนาดกลาง C ขนาดใหญ่และค่า C ที่มีขนาดใหญ่มากเป็นต้นถัดไปภายใต้โหนดคลัสเตอร์ X แต่ละโหนดอัลกอริธึมเพิ่มเติม ข้อมูลในคลัสเตอร์ Y ตามคุณลักษณะ A อัลกอริทึมจะดำเนินต่อไปจนกว่าจะใช้คุณลักษณะทั้งหมด อัลกอริทึมที่ฉันอธิบายไว้ข้างต้นเป็นเหมือนอัลกอริธึมต้นไม้ตัดสินใจ แต่ฉันต้องการมันสำหรับการจัดกลุ่มแบบไม่ดูแลแทนการจัดกลุ่มแบบมีผู้ดูแล คำถามของฉันมีดังต่อไปนี้: อัลกอริทึมดังกล่าวมีอยู่แล้วหรือไม่? ชื่อที่ถูกต้องสำหรับอัลกอริทึมดังกล่าวคืออะไร มีแพ็คเกจ / ไลบรารี R / python ที่มีการใช้อัลกอริทึมชนิดนี้หรือไม่?

2
KKT เทียบกับสูตรที่ไม่มีข้อ จำกัด ของการถดถอยแบบ lasso
L1 ลงโทษการถดถอย (aka Lasso) จะถูกนำเสนอในสองสูตร ให้ทั้งสองฟังก์ชั่นวัตถุประสงค์เป็น ดังนั้นสูตรที่แตกต่างกันสองอย่างคือ อยู่ภายใต้ และ, การใช้เงื่อนไข Karush-Kuhn-Tucker (KKT) มันง่ายที่จะเห็นว่าเงื่อนไขคงที่สำหรับสูตรแรกนั้นเทียบเท่ากับการไล่ระดับสีของสูตรที่สองและตั้งค่าเท่ากับ 0 สิ่งที่ฉันไม่สามารถหาได้ เป็นวิธีที่เงื่อนไขความหย่อนสมบูรณ์ของสูตรแรกQ1= 12| | Y- Xβ| |22Q2= 12| | Y- Xβ| |22+ λ | | β| |1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 | | …

2
การเรียนรู้อย่างล้ำลึกอยู่ที่ไหนและเพราะเหตุใด
ด้วยการที่สื่อพูดคุยและโฆษณาเกี่ยวกับการเรียนรู้อย่างลึกซึ้งในทุกวันนี้ฉันได้อ่านสิ่งเบื้องต้นเกี่ยวกับมัน ฉันเพิ่งพบว่ามันเป็นเพียงวิธีการเรียนรู้ของเครื่องอีกวิธีหนึ่งในการเรียนรู้รูปแบบจากข้อมูล แต่คำถามของฉันคือ: ที่ไหนและทำไมวิธีการนี้ส่องแสง? ทำไมทุกคนพูดถึงมันตอนนี้? คือเอะอะทั้งหมดเกี่ยวกับอะไร?

2
การวิเคราะห์การอยู่รอดแบบเบย์: โปรดเขียนก่อนสำหรับ Kaplan Meier!
พิจารณาข้อสังเกตขวาตรวจสอบกับเหตุการณ์ที่เกิดขึ้นครั้ง ... จำนวนบุคคลที่อ่อนแอในช่วงเวลาที่ฉันเป็นn ฉันและจำนวนของเหตุการณ์ที่เกิดขึ้นในเวลาที่ฉันเป็นdฉันt1,t2,…t1,t2,…t_1, t_2, \dotsiiininin_iiiididid_i Kaplan-Meier หรือประมาณการผลิตภัณฑ์ที่เกิดขึ้นตามธรรมชาติเป็น MLE เมื่อฟังก์ชั่นการอยู่รอดเป็นฟังก์ชั่นขั้นตอนฉัน ความน่าจะเป็นแล้ว L ( α ) = Πฉัน ( 1 - α ฉัน) d ฉัน α n ฉัน - d ฉันฉัน และ MLE คือαฉัน = 1 - d ฉันS(t)=∏i:ti&lt;tαiS(t)=∏i:ti&lt;tαiS(t) = \prod_{i : t_i < t} \alpha_iL(α)=∏i(1−αi)diαni−diiL(α)=∏i(1−αi)diαini−di L(\alpha) = \prod_i (1-\alpha_i)^{d_i} \alpha_i^{n_i-d_i} …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.