สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
สัญชาตญาณว่าทำไมความขัดแย้งของสไตน์จึงนำมาใช้ในมิติ
สไตน์ตัวอย่างแสดงให้เห็นว่าการประมาณการความน่าจะเป็นสูงสุดของตัวแปรกระจายตามปกติด้วยวิธีการและผลต่างคือไม่ยอมรับ (ภายใต้ฟังก์ชั่นการสูญเสียตาราง) IFF3 สำหรับการพิสูจน์ที่เป็นระเบียบดูบทแรกของการอนุมานขนาดใหญ่: วิธีการเชิงประจักษ์เบย์สำหรับการประมาณค่าการทดสอบและการทำนายโดยแบรดลีย์เอฟรอนnnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 นี่เป็นเรื่องน่าประหลาดใจอย่างมากสำหรับฉันในตอนแรก แต่มีปรีชาอยู่เบื้องหลังว่าทำไมคน ๆ หนึ่งคาดว่าการประมาณมาตรฐานจะไม่สามารถยอมรับได้ (โดยเฉพาะอย่างยิ่งถ้าจากนั้นตามที่ระบุไว้ในกระดาษต้นฉบับของ Stein ซึ่งเชื่อมโยงกับด้านล่าง)x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n คำถามของฉันค่อนข้างจะ: คุณสมบัติใดของช่องว่างnnn -dimensional (สำหรับn≥3n≥3n\ge 3 ) R2R2\mathbb{R}^2ขาดอะไรบ้างที่อำนวยความสะดวกให้ตัวอย่างของ Stein? คำตอบที่เป็นไปได้อาจเกี่ยวกับความโค้งของnnnกลมหรือสิ่งที่แตกต่างอย่างสิ้นเชิง ในคำอื่น ๆ เหตุผลที่เป็นที่ยอมรับใน MLE R2R2\mathbb{R}^2 ? แก้ไข 1:เพื่อตอบสนองต่อ @mpiktas กังวลเกี่ยวกับ 1.31 จาก 1.30: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_iดังนั้นEμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).ดังนั้นเราจึงมี: 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. …

6
เปอร์เซ็นต์ของส่วนที่ทับซ้อนกันของการแจกแจงปกติสองค่า
ฉันสงสัยว่าได้รับการแจกแจงปกติสองค่าด้วยและσ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 ฉันจะคำนวณเปอร์เซ็นต์ของพื้นที่ที่ทับซ้อนกันของการแจกแจงสองแบบได้อย่างไร ฉันคิดว่าปัญหานี้มีชื่อเฉพาะคุณทราบชื่อเฉพาะที่อธิบายถึงปัญหานี้หรือไม่? คุณทราบหรือไม่ว่ามีการใช้งานสิ่งนี้ (เช่นรหัส Java)?

5
วิธีการคำนวณหลอก -
การเขียนของ Christopher Manning เกี่ยวกับการถดถอยโลจิสติกใน Rแสดงการถดถอยโลจิสติกใน R ดังนี้: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) เอาท์พุทบาง: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 -1.34325 0.04954 1.01488 6.40094 Coefficients: Estimate Std. Error z …

5
การทำความเข้าใจความถดถอย - บทบาทของตัวแบบ
แบบจำลองการถดถอยสามารถใช้งานได้อย่างไรหากคุณไม่ทราบว่าฟังก์ชั่นที่คุณพยายามรับพารามิเตอร์นั้นเป็นอย่างไร ฉันเห็นงานวิจัยชิ้นหนึ่งที่กล่าวว่าแม่ที่เลี้ยงลูกด้วยนมแม่มีโอกาสน้อยที่จะเป็นโรคเบาหวานในภายหลัง การวิจัยครั้งนี้มาจากการสำรวจมารดา 1,000 คนและควบคุมปัจจัยอื่น ๆ และใช้แบบจำลองเชิงเส้น ตอนนี้นี่หมายความว่าพวกเขาคำนึงถึงปัจจัยทั้งหมดที่กำหนดความน่าจะเป็นของโรคเบาหวานในฟังก์ชั่นที่ดี (แทนได้อย่างน่าสันนิษฐาน) ที่แปลอย่างประณีตในรูปแบบเชิงเส้นที่มีท่อนซุงและไม่ว่าเต้านมผู้หญิง ฉันขาดอะไรบางอย่างฉันแน่ใจแต่ว่าพวกเขารู้รูปแบบได้อย่างไร

4
เมทริกซ์ตัดกันคืออะไร?
สิ่งที่ว่าคือความคมชัดเมทริกซ์ (คำที่เกี่ยวข้องกับการวิเคราะห์ทำนายเด็ดขาดเป็นพิเศษ) และวิธีการว่าจะตรงกันข้ามเมทริกซ์ที่ระบุ? คือคอลัมน์คืออะไรแถวคืออะไรข้อ จำกัด ของเมทริกซ์นั้นคืออะไรและจำนวนในคอลัมน์jและแถวiหมายถึงอะไร ฉันพยายามตรวจสอบเอกสารและเว็บ แต่ดูเหมือนว่าทุกคนใช้มัน แต่ก็ไม่มีการต่อต้านใด ๆ ฉันสามารถย้อนกลับ - วิศวกรความคมชัดที่กำหนดไว้ล่วงหน้าที่มีอยู่ แต่ฉันคิดว่าคำนิยามควรจะใช้ได้โดยไม่ว่า > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 …

4
ฉันสงสัยว่าทำไมเราจึงใช้โอกาสในการลบ (บันทึก) ในบางครั้ง
คำถามนี้ทำให้ฉันงงงวยมานาน ฉันเข้าใจการใช้ 'บันทึก' เพื่อเพิ่มโอกาสในการเพิ่มดังนั้นฉันจึงไม่ถามเกี่ยวกับ 'บันทึก' คำถามของฉันคือเนื่องจากการเพิ่มความน่าจะเป็นบันทึกเท่ากับการลด "ความน่าจะเป็นในการลบเชิงลบ" (NLL) ทำไมเราจึงประดิษฐ์ NLL นี้ ทำไมเราไม่ใช้ "โอกาสที่ดี" ตลอดเวลา? ได้รับการสนับสนุนในกรณีใดบ้าง ฉันพบคำอธิบายเล็กน้อยที่นี่ https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/แต่ดูเหมือนว่าจะอธิบายการเทียบเท่าที่เห็นได้ชัดในส่วนลึก แต่ไม่ได้แก้ปัญหาความสับสนของฉัน คำอธิบายใด ๆ ที่จะได้รับการชื่นชม

1
ความแตกต่างของ KL ระหว่าง Gaussians หลายตัวแปร
ฉันมีปัญหาในการรับสูตร divergence ของ KL โดยสมมติว่ามีการแจกแจงปกติหลายตัวแปรสองตัว ฉันทำคดี univariate ค่อนข้างง่าย อย่างไรก็ตามมันก็ค่อนข้างนานแล้วที่ฉันเอาสถิติทางคณิตศาสตร์มาก่อน ฉันแน่ใจว่าฉันแค่คิดถึงบางสิ่งที่เรียบง่าย นี่คือสิ่งที่ฉันมี ... สมมติว่าทั้งและเป็นไฟล์ PDF ของการแจกแจงแบบปกติที่มีค่าเฉลี่ยและและความแปรปรวนและตามลำดับ ระยะทาง Kullback-Leibler จากถึงคือ:pppμ 1 μ 2 Σ 1 Σ 2 q pqqqμ1μ1\mu_1μ2μ2\mu_2Σ1Σ1\Sigma_1Σ2Σ2\Sigma_2qqqppp ∫[บันทึก( p ( x ) ) - บันทึก( q( x ) ) ] p ( x ) d x∫[log⁡(p(x))−log⁡(q(x))] p(x) dx\int \left[\log( p(x)) …

6
ความแตกต่างระหว่างการประมาณและการทำนายคืออะไร?
ตัวอย่างเช่นฉันมีข้อมูลการสูญเสียในอดีตและฉันกำลังคำนวณปริมาณมาก (มูลค่าที่เสี่ยงหรือการสูญเสียสูงสุดที่น่าจะเป็น) ผลลัพธ์ที่ได้มีไว้สำหรับการประเมินการสูญเสียหรือทำนายพวกเขา? หนึ่งสามารถวาดเส้นที่ไหน ฉันสับสน.

7
เครื่องมือวิเคราะห์การอยู่รอดใน Python [ปิด]
ฉันสงสัยว่ามีแพ็กเกจสำหรับไพ ธ อนที่สามารถทำการวิเคราะห์การอยู่รอดได้หรือไม่ ฉันใช้แพ็คเกจการเอาตัวรอดใน R แต่ฉันต้องการย้ายงานของฉันไปที่ python
46 survival  python 

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
ทำความเข้าใจกับ“ ค่าต่ำสุดในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับค่าระดับโลก”
ในการโพสต์บล็อกล่าสุดโดย Rong Ge ได้มีการกล่าวว่า: เป็นที่เชื่อกันว่าสำหรับปัญหาต่าง ๆ รวมถึงการเรียนรู้อวนลึกสุดขั้นต่ำในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับระดับโลกที่เหมาะสม ความเชื่อนี้มาจากไหน

3
ความเข้าใจผิดที่ Y ต้องแจกจ่ายตามปกติมาจากไหน
แหล่งที่เชื่อถือได้ดูเหมือนจะอ้างว่าตัวแปรตามต้องกระจายตามปกติ: รุ่นสมมติฐาน: YYYมีการกระจายตามปกติข้อผิดพลาดที่มีการกระจายตามปกติei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)และอิสระและXXXได้รับการแก้ไขและความแปรปรวนคงที่σ2σ2\sigma^2 2 การวิเคราะห์ข้อมูลที่ไม่ต่อเนื่องของ Penn State, STAT 504 ประการที่สองการวิเคราะห์การถดถอยเชิงเส้นกำหนดให้ตัวแปรทั้งหมดเป็นแบบหลายตัวแปรปกติ สถิติสรุปข้อสมมติฐานของการถดถอยเชิงเส้น สิ่งนี้เหมาะสมเมื่อตัวแปรตอบกลับมีการแจกแจงแบบปกติ Wikipedia, โมเดลเชิงเส้นทั่วไป มีคำอธิบายที่ดีเกี่ยวกับความเข้าใจผิดว่าทำไมหรือทำไมถึงเกิดการแพร่กระจาย? เป็นที่รู้จักหรือไม่? ที่เกี่ยวข้อง การถดถอยเชิงเส้นและสมมติฐานเกี่ยวกับตัวแปรตอบสนอง

1
ความแตกต่างระหว่าง GradientDescentOptimizer และ AdamOptimizer (TensorFlow)?
ผมเคยเขียนง่ายMLPในTensorFlowซึ่งจะสร้างแบบจำลองXOR ประตู ดังนั้นสำหรับ: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] มันควรผลิตดังต่อไปนี้: output_data = [[0.], [1.], [1.], [0.]] เครือข่ายมีเลเยอร์อินพุตเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาท์พุทที่มีเซลล์ประสาท 2, 5 และ 1 เซลล์ ขณะนี้ฉันมีเอนโทรปีของการข้ามต่อไปนี้: cross_entropy = -(n_output * tf.log(output) + (1 - n_output) * tf.log(1 - output)) ฉันได้ลองทางเลือกที่ง่ายกว่านี้แล้ว: cross_entropy = tf.square(n_output - output) ควบคู่ไปกับความพยายามอื่น ๆ อย่างไรก็ตามไม่ว่าสิ่งที่การตั้งค่าของฉันคือข้อผิดพลาดที่มีการGradientDescentOptimizerลดลงมากAdamOptimizerช้ากว่า ในความเป็นtf.train.AdamOptimizer(0.01)จริงให้ผลลัพธ์ที่ดีจริงๆหลังจากขั้นตอนการเรียนรู้ …

6
ทฤษฎีหลักในการเรียนรู้ของเครื่อง (Deep) คืออะไร
เมื่อไม่นานมานี้ Al Rahimi ได้พูดคุยที่เร้าใจมากใน NIPS 2017 เมื่อเปรียบเทียบการเรียนรู้ของเครื่องกับ Alchemy หนึ่งในข้ออ้างของเขาคือเราต้องกลับไปสู่การพัฒนาเชิงทฤษฎีเพื่อให้ทฤษฎีบทง่าย ๆ พิสูจน์ผลลัพธ์พื้นฐาน เมื่อเขาบอกว่าฉันเริ่มมองหาทฤษฎีบทหลักของ ML แต่ไม่สามารถหาการอ้างอิงที่ดีที่เข้าใจถึงผลลัพธ์หลักได้ ดังนั้นนี่คือคำถามของฉัน: อะไรคือทฤษฎีบททางคณิตศาสตร์หลักปัจจุบัน (ทฤษฎี) ใน ML / DL และพวกเขาพิสูจน์อะไร ฉันเดาว่างานของ Vapnik จะไปที่ไหนสักแห่งที่นี่ ปัญหาพิเศษที่เปิดกว้างทางทฤษฎีคืออะไร

1
วิธีการตรวจสอบว่าแกน y ของกราฟควรเริ่มต้นที่ศูนย์?
วิธีหนึ่งที่ใช้กันทั่วไปในการ "โกหกกับข้อมูล" คือการใช้ระดับแกน y ที่ทำให้ดูเหมือนว่าการเปลี่ยนแปลงมีความสำคัญมากกว่าที่เป็นจริง เมื่อฉันตรวจสอบสิ่งพิมพ์ทางวิทยาศาสตร์หรือรายงานห้องปฏิบัติการของนักเรียนฉันมักจะผิดหวังกับ "บาปการสร้างภาพข้อมูล" (ซึ่งฉันเชื่อว่าผู้เขียนกระทำโดยไม่ได้ตั้งใจ แต่ยังส่งผลให้เกิดการนำเสนอที่ทำให้เข้าใจผิด) อย่างไรก็ตาม "การเริ่มต้นแกน y ที่ศูนย์เสมอ" ไม่ใช่กฎที่ยากและรวดเร็ว ตัวอย่างเช่น Edward Tufte ชี้ให้เห็นว่าในอนุกรมเวลาพื้นฐานไม่จำเป็นต้องเป็นศูนย์: โดยทั่วไปในอนุกรมเวลาให้ใช้ข้อมูลพื้นฐานที่แสดงข้อมูลไม่ใช่จุดศูนย์ หากจุดศูนย์เกิดขึ้นอย่างมีเหตุผลในการวางแผนข้อมูลปรับ แต่อย่าใช้พื้นที่แนวตั้งที่ว่างเปล่าจำนวนมากในการพยายามเข้าถึงจนถึงจุดศูนย์ที่ค่าใช้จ่ายในการซ่อนสิ่งที่เกิดขึ้นในสายข้อมูลเอง (หนังสือวิธีโกหกกับสถิติผิดในจุดนี้) ยกตัวอย่างเช่นสถานที่ที่ไม่มีจุดศูนย์ในอนุกรมเวลาดูที่สิ่งพิมพ์วิจัยทางวิทยาศาสตร์ที่สำคัญ นักวิทยาศาสตร์ต้องการแสดงข้อมูลไม่ใช่ศูนย์ การกระตุ้นให้บริบททำให้ข้อมูลเป็นสิ่งที่ดี แต่บริบทไม่ได้มาจากพื้นที่แนวตั้งว่างเปล่าที่ถึงลงถึงศูนย์จำนวนที่ไม่เกิดขึ้นในชุดข้อมูลจำนวนมาก แต่สำหรับบริบทให้แสดงข้อมูลในแนวนอนมากกว่าเดิม! ฉันต้องการชี้ให้เห็นการนำเสนอที่ทำให้เข้าใจผิดในเอกสารที่ฉันตรวจทาน แต่ฉันไม่ต้องการเป็นคนเจ้าระเบียบแกนศูนย์ y มีแนวทางใดบ้างที่กล่าวถึงเมื่อเริ่มแกน y ที่ศูนย์และเมื่อไม่จำเป็นและ / หรือไม่เหมาะสม? (โดยเฉพาะอย่างยิ่งในบริบทของงานวิชาการ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.