สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เหตุใด nls () ให้ข้อผิดพลาด“ เมตริกซ์การไล่ระดับสีเอกพจน์ที่ประมาณการพารามิเตอร์เริ่มต้น” ให้ฉัน
ฉันมีข้อมูลพื้นฐานเกี่ยวกับการลดการปล่อยก๊าซและราคาต่อคัน: q24 <- read.table(text = "reductions cost.per.car 50 45 55 55 60 62 65 70 70 80 75 90 80 100 85 200 90 375 95 600 ",header = TRUE, sep = "") ฉันรู้ว่านี่เป็นฟังก์ชั่นเอ็กซ์โปเนนเชียลดังนั้นฉันคาดหวังว่าจะสามารถหาแบบจำลองที่เหมาะกับ: model <- nls(cost.per.car ~ a * exp(b * reductions) + c, data = q24, start = …

2
ประโยชน์ของการใช้ ReLU บน softplus เป็นฟังก์ชันการเปิดใช้งานคืออะไร
มีการกล่าวถึงบ่อยครั้งว่าหน่วยเชิงเส้นที่ได้รับการแก้ไข (ReLU) มีหน่วย softplus ที่ถูกแทนที่เพราะหน่วยนั้นเป็นเส้นตรงและเร็วกว่าในการคำนวณ ซอฟต์พลัสนั้นยังคงมีข้อดีของการชักนำให้เกิด sparsity หรือถูก จำกัด อยู่ที่ ReLU หรือไม่? เหตุผลที่ฉันถามคือฉันสงสัยเกี่ยวกับผลกระทบเชิงลบของความชันศูนย์ของ ReLU คุณสมบัติ "กับดัก" ของคุณสมบัตินี้ไม่เป็นศูนย์ซึ่งอาจเป็นประโยชน์ที่จะให้พวกเขามีโอกาสในการเปิดใช้งานอีกครั้งหรือไม่

2
ทฤษฎี Extreme Value - แสดง: Normal ถึง Gumbel
จำนวนสูงสุดของ IID Standardnormals ลู่กับมาตรฐานกัมเบลจัดจำหน่ายตามมากราคาทฤษฎีX1,…,Xn.∼X1,…,Xn.∼X_1,\dots,X_n. \sim เราจะแสดงสิ่งนั้นได้อย่างไร เรามี P(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F(x)^n เราจำเป็นต้องค้นหา / เลือกan>0,bn∈Ran>0,bn∈Ra_n>0,b_n\in\mathbb{R}ลำดับของค่าคงที่เช่น: F(anx+bn)n→n→∞G(x)=e−exp(−x)F(anx+bn)n→n→∞G(x)=e−exp⁡(−x)F\left(a_n x+b_n\right)^n\rightarrow^{n\rightarrow\infty} G(x) = e^{-\exp(-x)} คุณสามารถแก้ไขหรือค้นหามันในวรรณคดี? มีบางตัวอย่างหน้า 6/71แต่ไม่ใช่สำหรับกรณีปกติ: Φ(anx+bn)n=(12π−−√∫anx+bn−∞e−y22dy)n→e−exp(−x)Φ(anx+bn)n=(12π∫−∞anx+bne−y22dy)n→e−exp⁡(−x)\Phi\left(a_n x+b_n\right)^n=\left(\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{a_n x+b_n} e^{-\frac{y^2}{2}}dy\right)^n\rightarrow e^{-\exp(-x)}

2
คำจำกัดความของความน่าจะเป็นตามเงื่อนไขที่มีหลายเงื่อนไข
โดยเฉพาะบอกว่าฉันมีสองเหตุการณ์ A และ B และพารามิเตอร์กระจายบางθθ \theta และฉันต้องการที่จะมองไปที่P(A|B,θ)P(A|B,θ)P(A | B,\theta) ) ดังนั้นคำจำกัดความที่ง่ายที่สุดของความน่าจะเป็นแบบมีเงื่อนไขคือให้บางเหตุการณ์ A และ B แล้ว ) ดังนั้นหากมีเหตุการณ์หลายไปอยู่ในสภาพที่เหมือนฉันมีข้างต้นผมอาจกล่าวได้ว่าP(|B,θ) ? = P((A|θ)∩(B|θ))P(A|B)=P(A∩B)P(B)P(A|B)=P(A∩B)P(B)P(A|B) = \frac{P(A \cap B)}{P(B)} หรือฉันกำลังมองไปในทางที่ผิดอย่างสิ้นเชิง? ฉันมักจะออกมาในใจเมื่อฉันจัดการกับความน่าจะเป็นบางครั้งฉันไม่แน่ใจว่าทำไมP(A|B,θ)=?P((A|θ)∩(B|θ))P(B|θ)P(A|B,θ)=?P((A|θ)∩(B|θ))P(B|θ)P(A | B,\theta) \stackrel{?}{=} \frac{P((A | \theta)\cap(B | \theta))}{P(B|\theta)}

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
คำเตือน“ แบบจำลองล้มเหลวในการรวมตัวกัน” ใน lmer ()
ด้วยชุดข้อมูลต่อไปนี้ฉันต้องการดูว่าการตอบสนอง (ผล) เปลี่ยนแปลงเกี่ยวกับเว็บไซต์ฤดูกาลระยะเวลาและการโต้ตอบของพวกเขาหรือไม่ ฟอรัมออนไลน์บางแห่งเกี่ยวกับสถิติแนะนำให้ฉันไปใช้โมเดลตัวผสมผลกระทบเชิงเส้น แต่ปัญหาคือเนื่องจากการจำลองแบบถูกสุ่มภายในแต่ละสถานีฉันมีโอกาสน้อยที่จะรวบรวมตัวอย่างจากจุดเดียวกันในฤดูกาลที่ต่อเนื่องกัน (ตัวอย่างเช่น repl-1 ของ s1 ของ post-monsoon อาจไม่เหมือนกับของ monsoon) มันแตกต่างจากการทดลองทางคลินิก (ด้วยการออกแบบภายในเรื่อง) ที่คุณวัดหัวเรื่องเดียวกันซ้ำ ๆ ตลอดฤดูกาล อย่างไรก็ตามการพิจารณาไซต์และซีซันเป็นปัจจัยสุ่มฉันรันคำสั่งต่อไปนี้และได้รับข้อความเตือน: Warning messages: 1: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : unable to evaluate scaled gradient 2: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : Model failed to converge: degenerate Hessian with 1 negative eigenvalues ใครช่วยฉันแก้ปัญหาได้บ้าง รหัสได้รับด้านล่าง: …

2
สัญชาตญาณที่อยู่เบื้องหลังการนิยามความสมบูรณ์ในสถิติเป็นสิ่งที่เป็นไปไม่ได้ที่จะสร้างตัวประมาณที่ไม่มีอคติเท่ากับจากอะไร?
ในสถิติคลาสสิคมีคำจำกัดความว่าสถิติของชุดข้อมูลถูกกำหนดให้สมบูรณ์สำหรับพารามิเตอร์มันเป็นไปไม่ได้ที่จะสร้างตัวประมาณค่าที่ไม่เอนเอียงเป็นจากมันโดยไม่ตั้งใจ นั่นคือวิธีเดียวที่จะมีสำหรับทั้งหมดคือการมีเป็นเกือบแน่นอนTTTy1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0θθ\thetahhh000 มีปรีชาเบื้องหลังนี้ไหม ดูเหมือนว่าจะเป็นวิธีที่ใช้ในการกำหนดสิ่งนี้ฉันรู้ว่าสิ่งนี้ได้รับการถามมาก่อน แต่สงสัยว่ามีสัญชาตญาณที่เข้าใจได้ง่ายซึ่งจะทำให้นักเรียนเกริ่นนำมีเวลาย่อยวัสดุได้ง่ายขึ้น

4
ทุกคนสามารถอธิบายแนวคิดของ "ผลรวมของตัวแปรสุ่ม"
ในชั้นความน่าจะเป็นของฉันคำว่า "ผลรวมของตัวแปรสุ่ม" ถูกนำมาใช้อย่างต่อเนื่อง อย่างไรก็ตามฉันติดอยู่กับสิ่งที่ว่าหมายถึงอะไร? เรากำลังพูดถึงผลรวมของกลุ่มของการรับรู้จากตัวแปรสุ่มหรือไม่? ถ้าใช่นั่นจะไม่รวมกันเป็นตัวเลขเดียวใช่หรือไม่ ผลรวมของการรับรู้ตัวแปรแบบสุ่มนำเราไปสู่การแจกแจงอย่างไรหรือ cdf / pdf / ฟังก์ชันทุกชนิด และถ้าไม่ใช่การรับรู้ตัวแปรแบบสุ่มแล้วจะมีอะไรเพิ่มเข้ามาบ้าง?

3
อะไรคือความแตกต่างระหว่าง "การ จำกัด " และการกระจาย "คงที่"?
ฉันกำลังทำคำถามเกี่ยวกับลูกโซ่มาร์คอฟและสองส่วนสุดท้ายบอกว่า: ห่วงโซ่มาร์คอฟนี้มีการกระจายที่ จำกัด หรือไม่ หากคำตอบของคุณคือ "ใช่" ให้ค้นหาการกระจายแบบ จำกัด หากคำตอบของคุณคือ "ไม่" ให้อธิบายว่าทำไม ห่วงโซ่มาร์คอฟนี้มีการกระจายที่คงที่หรือไม่ หากคำตอบของคุณคือ "ใช่" ให้ค้นหาการกระจายแบบนิ่ง หากคำตอบของคุณคือ "ไม่" ให้อธิบายว่าทำไม อะไรคือความแตกต่าง? ก่อนหน้านี้ฉันคิดว่าการ จำกัด การกระจายคือเมื่อคุณทำงานออกมาโดยใช้P=CAnC−1P=CAnC−1P = CA^n C^{-1}แต่นี่คือเมทริกซ์การเปลี่ยนขั้นตอนที่nnnพวกเขาคำนวณการ จำกัด การกระจายโดยใช้Π=ΠPΠ=ΠP\Pi = \Pi Pซึ่งฉันคิดว่าเป็นการกระจายแบบนิ่ง อันไหนล่ะ?

7
RMSE กับค่าสัมประสิทธิ์การตัดสินใจ
ฉันกำลังประเมินแบบจำลองทางกายภาพและต้องการทราบว่าหนึ่งในวิธีการใดที่ฉันควรใช้ที่นี่ (ระหว่าง RMSE และค่าสัมประสิทธิ์ของความมุ่งมั่น R2) ปัญหาที่เกิดขึ้นจะเป็นดังนี้: ฉันมีฟังก์ชั่นที่ผลการคาดการณ์สำหรับค่าอินพุต x, ) ฉันยังมีการสังเกตที่เกิดขึ้นจริงสำหรับค่าที่ผมเรียกว่าY xyx¯¯¯¯¯=f(x)yx¯=f(x)\overline{y_x}= f(x)yxyxy_x คำถามของฉันคือข้อดีและข้อเสียของ RMSE หรือคืออะไร ฉันเห็นว่ามีการใช้ทั้งสองอย่างในเอกสารสำหรับปัญหาที่ฉันกำลังทำอยู่R2R2R^2
21 error 

11
จะตรวจสอบการกระจายผลลัพธ์อย่างง่ายดายสำหรับลูกเต๋าหลาย ๆ ตัวได้อย่างไร
ฉันต้องการคำนวณการแจกแจงความน่าจะเป็นสำหรับผลรวมของการรวมลูกเต๋า ฉันจำได้ว่าความน่าจะเป็นคือจำนวนชุดค่าผสมที่รวมจำนวนนั้นกับจำนวนชุดค่าผสมทั้งหมด (สมมติว่าลูกเต๋ามีการแจกแจงแบบเดียวกัน) มีสูตรอะไรบ้างสำหรับ จำนวนชุดค่าผสมทั้งหมด จำนวนชุดค่าผสมที่รวมจำนวนที่แน่นอน
21 probability  dice 

2
Batch Normalization ใช้ค่าเฉลี่ยเคลื่อนที่อย่างไรและทำไมในการติดตามความแม่นยำของโมเดลในขณะที่รถไฟ?
ฉันกำลังอ่านกระดาษการทำแบตช์ให้เป็นมาตรฐาน (BN) (1) และไม่เข้าใจความจำเป็นในการใช้ค่าเฉลี่ยเคลื่อนที่เพื่อติดตามความแม่นยำของแบบจำลองและแม้ว่าฉันยอมรับว่ามันเป็นสิ่งที่ถูกต้องที่จะทำฉันไม่เข้าใจ พวกเขากำลังทำอะไรกันแน่ เพื่อความเข้าใจของฉัน (ซึ่งฉันผิด) กระดาษกล่าวว่าจะใช้สถิติประชากรมากกว่ามินิแบทช์สถิติเมื่อแบบจำลองเสร็จสิ้นการฝึกอบรม หลังจากการอภิปรายของการประมาณการที่ไม่เอนเอียง (ซึ่งดูเหมือนว่าจะเป็นวงสัมผัสกับฉันและไม่เข้าใจว่าทำไมมันถึงพูดถึงเรื่องนี้) พวกเขาไปและพูดว่า: ใช้ค่าเฉลี่ยเคลื่อนที่แทนเราติดตามความแม่นยำของแบบจำลองในขณะที่รถไฟ นั่นคือส่วนที่ทำให้ฉันสับสน เหตุใดพวกเขาจึงทำการย้ายค่าเฉลี่ยเพื่อประเมินความแม่นยำของโมเดลและชุดข้อมูลใด โดยทั่วไปแล้วสิ่งที่ผู้คนทำเพื่อประเมินลักษณะทั่วไปของแบบจำลองของพวกเขาพวกเขาเพียงแค่ติดตามข้อผิดพลาดในการตรวจสอบความถูกต้องของแบบจำลองของพวกเขา อย่างไรก็ตามดูเหมือนว่าการทำแบทช์ให้เป็นมาตรฐานนั้นกำลังทำสิ่งที่แตกต่างไปจากเดิมอย่างสิ้นเชิง ใครบางคนสามารถชี้แจงสิ่งที่และทำไมมันทำอะไรที่แตกต่างกันอย่างไร 1 : Ioffe S. และ Szegedy C. (2015), "Batch Normalization: เร่งการฝึกอบรมเครือข่ายลึกโดยการลดการเปลี่ยนแปลงภายใน Covariate Shift" การดำเนินการประชุมนานาชาติครั้งที่ 32 เกี่ยวกับการเรียนรู้ของเครื่องจักร Lille, France, 2015 วารสารการวิจัยการเรียนรู้ของเครื่องจักร W&CP เล่ม 37

1
ฟังก์ชั่นการสูญเสียสำหรับระบบเข้ารหัสอัตโนมัติ
ฉันกำลังทดลองตัวเข้ารหัสอัตโนมัติเล็กน้อยและด้วย tenorflow ฉันได้สร้างแบบจำลองที่พยายามสร้างชุดข้อมูล MNIST ขึ้นมาใหม่ เครือข่ายของฉันง่ายมาก: X, e1, e2, d1, Y โดยที่ e1 และ e2 กำลังเข้ารหัสเลเยอร์, ​​d2 และ Y เป็นชั้นถอดรหัส (และ Y เป็นเอาต์พุตที่สร้างขึ้นใหม่) X มี 784 หน่วย, e1 มี 100, e2 มี 50, d1 มี 100 อีกครั้งและ Y 784 อีกครั้ง ฉันใช้ sigmoids เป็นฟังก์ชั่นการเปิดใช้งานสำหรับเลเยอร์ e1, e2, d1 และ Y อินพุตอยู่ใน [0,1] …

4
วิธีการสร้างเมทริกซ์ความแปรปรวนร่วมโดยพลการ
ยกตัวอย่างเช่นในRการMASS::mvrnorm()ฟังก์ชั่นจะเป็นประโยชน์สำหรับการสร้างข้อมูลที่แสดงให้เห็นถึงสิ่งต่างๆในสถิติ มันต้องใช้Sigmaอาร์กิวเมนต์ที่จำเป็นซึ่งเป็นเมทริกซ์สมมาตรซึ่งระบุเมทริกซ์ความแปรปรวนร่วมของตัวแปร ฉันจะสร้างเมทริกซ์สมมาตรด้วยรายการตามอำเภอใจได้อย่างไรn×nn×nn\times n

2
เหตุใดฟังก์ชัน softmax จึงถูกใช้เพื่อคำนวณความน่าจะเป็นแม้ว่าเราจะสามารถหารแต่ละค่าด้วยผลรวมของเวกเตอร์ได้
การใช้ฟังก์ชั่น softmax บนเวกเตอร์จะผลิต "ความน่าจะเป็น" และค่าระหว่างและ1 000111 แต่เรายังสามารถแบ่งแต่ละค่าโดยรวมของเวกเตอร์และที่จะผลิตความน่าจะเป็นและค่าระหว่างและ1000111 ฉันอ่านคำตอบที่นี่แต่มันบอกว่าเหตุผลก็เพราะมันแตกต่างกันถึงแม้ว่าทั้งสองฟังก์ชั่นจะแตกต่างกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.