คำถามติดแท็ก normal-distribution

การแจกแจงแบบปกติหรือแบบเกาส์เซียนนั้นมีฟังก์ชั่นความหนาแน่นซึ่งเป็นเส้นโค้งรูประฆังแบบสมมาตร มันเป็นหนึ่งในการแจกแจงที่สำคัญที่สุดในสถิติ ใช้แท็ก [normality] เพื่อสอบถามเกี่ยวกับการทดสอบหา normality

1
ทำไม
ในชุดปัญหาฉันได้พิสูจน์ "บทแทรก" ซึ่งผลลัพธ์ของฉันไม่เข้าใจง่าย ZZZคือการแจกแจงแบบปกติมาตรฐานในรูปแบบการเซ็นเซอร์ อย่างเป็นทางการ Z* * * *∼ No r m ( 0 , σ2)Z* * * *~ยังไม่มีข้อความโอRม.(0,σ2)Z^* \sim Norm(0, \sigma^2)และZ= m a x ( Z* * * *, c )Z=ม.ax(Z* * * *,ค)Z = max(Z^*, c) ) จากนั้น E[ Z| Z> c ]= ∫∞คZผมϕ ( zผม) d zผม= …

1
ฉันบันทึกการแปลงตัวแปรตามของฉันฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นการเชื่อมโยงเข้าสู่ระบบ?
ฉันมีคำถามเกี่ยวกับโมเดลเชิงเส้นทั่วไป (GLM) ตัวแปรตามของฉัน (DV) นั้นต่อเนื่องและไม่ปกติ ดังนั้นฉันเข้าสู่ระบบเปลี่ยนมัน (ยังไม่ปกติ แต่ปรับปรุงมัน) ฉันต้องการเชื่อมโยง DV กับตัวแปรเด็ดขาดสองรายการและหนึ่งตัวแปรแปรปรวนต่อเนื่อง สำหรับสิ่งนี้ฉันต้องการดำเนินการ GLM (ฉันใช้ SPSS) แต่ฉันไม่แน่ใจว่าจะตัดสินใจเกี่ยวกับการกระจายและฟังก์ชั่นที่จะเลือกได้อย่างไร ฉันได้ทำการทดสอบแบบไม่มีพารามิเตอร์ของ Levene และฉันมีความแปรปรวนเหมือนกันดังนั้นฉันจึงอยากใช้การแจกแจงแบบปกติ ฉันได้อ่านว่าสำหรับการถดถอยเชิงเส้นข้อมูลไม่จำเป็นต้องเป็นปกติส่วนที่เหลือทำ ดังนั้นฉันได้พิมพ์ส่วนที่เหลือของเพียร์สันที่ได้มาตรฐานและค่าทำนายสำหรับตัวทำนายเชิงเส้นจากแต่ละ GLM แยกกัน (ฟังก์ชั่นประจำตัวปกติ GLM และฟังก์ชั่นบันทึกปกติ) ฉันได้ทำการทดสอบภาวะปกติ (ฮิสโตแกรมและชาปิโร - วิลค์) และวางแผนส่วนที่เหลือกับค่าที่คาดการณ์ไว้ (เพื่อตรวจสอบการสุ่มและความแปรปรวน) สำหรับทั้งสองแบบแยกกัน ส่วนที่เหลือจากฟังก์ชั่นตัวตนไม่ปกติ แต่ส่วนที่เหลือจากฟังก์ชั่นบันทึกเป็นเรื่องปกติ ฉันมีแนวโน้มที่จะเลือกปกติด้วยฟังก์ชั่นบันทึกการเชื่อมโยงเพราะเพียร์สันส่วนที่เหลือมีการกระจายตามปกติ ดังนั้นคำถามของฉันคือ: ฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นบันทึกการเชื่อมโยงใน DV ที่ได้รับการแปลงบันทึกได้หรือไม่? การทดสอบความสม่ำเสมอของความแปรปรวนเพียงพอที่จะพิสูจน์การใช้การแจกแจงแบบปกติหรือไม่? ขั้นตอนการตรวจสอบส่วนที่เหลือถูกต้องหรือไม่เพื่อปรับการเลือกรุ่นฟังก์ชั่นลิงก์? รูปภาพของการกระจาย DV ทางด้านซ้ายและส่วนที่เหลือจาก GLM ปกติพร้อมฟังก์ชั่นบันทึกลิงค์ทางด้านขวา

2
ค่าที่คาดหวังของตัวแปรสุ่มแบบเกาส์แปลงด้วยฟังก์ชันโลจิสติก
ทั้งฟังก์ชั่นโลจิสติกและส่วนเบี่ยงเบนมาตรฐานมักจะแสดง\ฉันจะใช้และสำหรับค่าเบี่ยงเบนมาตรฐานσσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss ฉันมีเซลล์ประสาทลอจิสติกพร้อมอินพุตสุ่มที่มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานฉันรู้ ฉันหวังว่าความแตกต่างจากค่าเฉลี่ยนั้นสามารถประมาณได้ดีจากเสียงเกาส์เซียนบางส่วน ดังนั้นที่มีการละเมิดเล็กน้อยของสัญกรณ์สมมติมันผลิต2)) ค่าที่คาดหวังของคืออะไร ค่าเบี่ยงเบนมาตรฐานอาจจะมีขนาดใหญ่หรือเล็กเมื่อเทียบกับหรือ1การประมาณรูปแบบปิดที่ดีสำหรับค่าที่คาดหวังจะเกือบดีเท่ากับโซลูชันแบบปิดμμ\musssσ(μ+N(0,s2))=σ(N(μ,s2))σ(μ+N(0,s2))=σ(N(μ,s2))\sigma(\mu + N(0,s^2))=\sigma(N(\mu,s^2))σ(N(μ,s2))σ(N(μ,s2))\sigma(N(\mu,s^2))sssμμ\mu111 ฉันไม่คิดว่ามีโซลูชันแบบปิดอยู่ สิ่งนี้สามารถถูกมองได้ว่าเป็นรูปแบบสังวัตนาและฟังก์ชันลักษณะเฉพาะสำหรับความหนาแน่นของโลจิสติกส์นั้นเป็นที่รู้จัก ( ) แต่ฉันไม่แน่ใจว่าจะช่วยได้มากแค่ไหน เครื่องคิดเลขสัญลักษณ์ผกผันก็ไม่สามารถที่จะยอมรับความหนาแน่นที่ของการบิดของความหนาแน่นของการกระจายโลจิสติกและการกระจายปกติมาตรฐานซึ่งแสดงให้เห็น แต่ไม่ได้พิสูจน์ว่าไม่มีหนึ่งประถมง่าย หลักฐานเพิ่มเติมจากสถานการณ์: ในเอกสารบางฉบับเกี่ยวกับการเพิ่มสัญญาณรบกวนแบบเกาส์ไปยังเครือข่ายประสาทด้วยเซลล์ประสาทลอจิสติกเอกสารไม่ได้ให้การแสดงออกในรูปแบบปิดเช่นกันπt csch πtπt csch πt\pi t ~\text{csch} ~\pi t000 คำถามนี้เกิดขึ้นในการพยายามทำความเข้าใจข้อผิดพลาดในการประมาณค่าเฉลี่ยฟิลด์ในเครื่อง Boltzman

2
Multivariate Central Limit Theorem (CLT) มีไว้เมื่อตัวแปรมีการพึ่งพาอาศัยกันอย่างสมบูรณ์แบบหรือไม่?
ชื่อสรุปคำถามของฉัน แต่เพื่อความชัดเจนลองพิจารณาตัวอย่างง่ายๆดังต่อไปนี้ ให้ , i = 1, ... , n กำหนด: \ start {สมการ} S_n = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i \ end {สมการ} และ \ start {สมการ} T_n = \ frac {1} {n} \ sum_ {i = 1} ^ n (X_i ^ …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
เสียนเช่นเดียวกับการกระจายที่มีช่วงเวลาการสั่งซื้อที่สูงขึ้น
สำหรับการกระจายเสียนกับที่ไม่รู้จักค่าเฉลี่ยและความแปรปรวนสถิติเพียงพอในมาตรฐานครอบครัวชี้แจงรูปแบบคือ2) ฉันมีการแจกแจงที่มีโดยที่ N เป็นชนิดของพารามิเตอร์การออกแบบ มีการแจกแจงที่รู้จักกันที่สอดคล้องกันสำหรับเวกเตอร์สถิติที่เพียงพอนี้หรือไม่? ฉันต้องการตัวอย่างจากการกระจายตัวนี้ดังนั้นมันสำคัญมากสำหรับฉันที่จะได้รับตัวอย่างที่แน่นอนจากการกระจายตัว ขอบคุณมาก.T( x ) = ( x , x2)T(x)=(x,x2)T(x)=(x,x^2)T(x)=(x,x2,...,x2N)T(x)=(x,x2,...,x2ยังไม่มีข้อความ)T(x)=(x,x^2,...,x^{2N})


1
การทดสอบสมมติฐานเกี่ยวกับเมทริกซ์ความแปรปรวนร่วมแบบผกผัน
สมมติว่าฉันสังเกตIID และความปรารถนาในการทดสอบเอช0 :เวช( Σ - 1 ) =สำหรับเมทริกซ์คล้อยตามและเวกเตอร์ มีงานที่รู้จักกับปัญหานี้หรือไม่?xผม∼ N( μ , Σ )xi∼N(μ,Σ)x_i \sim \mathcal{N}\left(\mu,\Sigma\right)H0: A H0:A H_0: A\ ( Σ- 1) =a(Σ−1)=a\left(\Sigma^{-1}\right) = aAAAaaa ความพยายามที่ชัดเจน (กับฉัน) จะผ่านการทดสอบอัตราส่วนความน่าจะเป็น แต่ดูเหมือนว่าการเพิ่มความเป็นไปได้สูงสุดภายใต้ข้อ จำกัด ของจะต้องใช้ตัวแก้ SDPและอาจมีขนดกสวยH0H0H_0

2
ความสัมพันธ์ระหว่างตัวแปรสองขั้วและตัวแปรต่อเนื่อง
ฉันพยายามที่จะหาความสัมพันธ์ระหว่างคู่และตัวแปรต่อเนื่อง จากการทำงานภาคพื้นดินของฉันในเรื่องนี้ฉันพบว่าฉันต้องใช้การทดสอบแบบอิสระและเงื่อนไขที่จำเป็นสำหรับมันคือการกระจายตัวของตัวแปรจะต้องเป็นปกติ ฉันทำการทดสอบ Kolmogorov-Smirnov เพื่อทดสอบความปกติและพบว่าตัวแปรต่อเนื่องไม่ปกติและเอียง (ประมาณ 4,000 จุดข้อมูล) ฉันทำการทดสอบ Kolmogorov-Smirnov สำหรับตัวแปรทั้งหมด ฉันควรแบ่งพวกเขาออกเป็นกลุ่มและทำแบบทดสอบหรือไม่? กล่าวคือถ้าฉันมีrisk level( 0= ไม่เสี่ยง1= เสี่ยง) และระดับคอเลสเตอรอลฉันควร: แบ่งพวกมันออกเป็นสองกลุ่มอย่างเช่น Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS พาพวกเขาไปด้วยกันและทำการทดสอบ? (ฉันใช้กับชุดข้อมูลทั้งหมดเท่านั้น) หลังจากนั้นฉันควรทำอย่างไรหากมันยังไม่ปกติ แก้ไข: สถานการณ์ข้างต้นเป็นเพียงคำอธิบายที่ฉันพยายามให้สำหรับปัญหาของฉัน ฉันมีชุดข้อมูลซึ่งมีตัวแปรมากกว่า 1,000 รายการและตัวอย่างประมาณ 4000 รายการ พวกมันมีทั้งต่อเนื่องหรือเด็ดขาดในธรรมชาติ งานของฉันคือการทำนายตัวแปรแบบแบ่งขั้วตามตัวแปรเหล่านี้ (อาจเกิดขึ้นกับแบบจำลองการถดถอยโลจิสติก) ดังนั้นฉันคิดว่าการตรวจสอบเบื้องต้นจะเกี่ยวข้องกับการค้นหาความสัมพันธ์ระหว่างโดมิโนและตัวแปรต่อเนื่อง ฉันพยายามที่จะดูว่าการกระจายตัวของตัวแปรเป็นอย่างไรและด้วยเหตุนี้จึงพยายามไปทดสอบ …

3
วิธีทดสอบอย่างเป็นทางการสำหรับ“ หยุด” ในการแจกแจงแบบปกติ (หรืออื่น ๆ )
บ่อยครั้งที่มันเกิดขึ้นในสังคมศาสตร์ว่าตัวแปรที่ควรแจกจ่ายในทางใดทางหนึ่งพูดตามปกติจบลงด้วยความไม่ต่อเนื่องในการกระจายรอบจุดต่าง ๆ ตัวอย่างเช่นหากมีการตัดเฉพาะเช่น "การผ่าน / ไม่ผ่าน" และหากมาตรการเหล่านี้มีการบิดเบือนอาจมีความไม่ต่อเนื่อง ณ จุดนั้น ตัวอย่างที่โดดเด่นหนึ่งตัวอย่าง (อ้างอิงด้านล่าง) มาจากคะแนนการทดสอบตามมาตรฐานของนักเรียนโดยทั่วไปจะกระจายอยู่ทั่วไปทุกที่ยกเว้น 60% ที่มีมวลน้อยมากจาก 50-60% และมีมวลมากเกินไปประมาณ 60-65% สิ่งนี้เกิดขึ้นในกรณีที่ครูให้คะแนนนักเรียนของตนเอง ผู้เขียนตรวจสอบว่าครูช่วยนักเรียนสอบจริง ๆ หรือไม่ หลักฐานที่น่าเชื่อถือที่สุดอย่างไม่ต้องสงสัยมาจากการแสดงกราฟของเส้นโค้งระฆังที่มีความไม่ต่อเนื่องรอบการตัดที่แตกต่างกันสำหรับการทดสอบที่แตกต่างกัน อย่างไรก็ตามคุณจะพัฒนาการทดสอบทางสถิติอย่างไร? พวกเขาพยายามแก้ไขแล้วเปรียบเทียบเศษส่วนด้านบนหรือด้านล่างและทดสอบ t ในส่วนที่ 5 คะแนนด้านบนและด้านล่างตัด ในขณะที่มีเหตุผลเหล่านี้เป็นเฉพาะกิจ ใครสามารถคิดอะไรดีกว่า Link: หลักเกณฑ์และดุลยพินิจในการประเมินผลของนักเรียนและโรงเรียน: กรณีของนิวยอร์กผู้สำเร็จราชการสอบ http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

3
เทคนิคการติดตามแบบสุ่ม
ฉันได้พบกับเทคนิคการติดตามแบบสุ่มต่อไปนี้ใน M. Seeger“ การอัปเดตระดับต่ำสำหรับการสลายตัวของ Cholesky” University of California ที่ Berkeley, Tech ตัวแทน, 2007 TR( A ) = E[ xTA x ]TR⁡(A)=E[xTAx]\operatorname{tr}(\mathbf{A}) = {E[\mathbf{x}^T \mathbf{A} \mathbf{x}]} ที่x ∼N( 0 , ฉัน )x~ยังไม่มีข้อความ(0,ผม)\mathbf{x} \sim N(\mathbf{0},\mathbf{I}) ) ในฐานะคนที่ไม่มีพื้นฐานคณิตศาสตร์ลึกฉันสงสัยว่าความสำเร็จนี้จะเกิดขึ้นได้อย่างไร ยิ่งกว่านั้นเราจะตีความxTA xxTAx\mathbf{x}^T \mathbf{A} \mathbf{x}อย่างไรตัวอย่างเช่นในเชิงเรขาคณิต? ฉันควรดูเพื่อทำความเข้าใจความหมายของการนำผลิตภัณฑ์ภายในของเวกเตอร์และค่าของช่วงได้อย่างไร ทำไมค่าเฉลี่ยเท่ากับผลรวมของค่าลักษณะเฉพาะ นอกจากคุณสมบัติทางทฤษฎีแล้วความสำคัญของการปฏิบัติคืออะไร ฉันได้เขียนโค้ด MATLAB เพื่อดูว่ามันใช้งานได้หรือไม่ #% tr(A) == E[x'Ax], x …

2
การใช้ส่วนเบี่ยงเบนมาตรฐานสร้างขึ้นบนสมมติฐานของการแจกแจงแบบปกติหรือไม่?
ฉันสงสัยว่าค่าเบี่ยงเบนมาตรฐานมักถูกสร้างขึ้นบนสมมติฐานของการแจกแจงแบบปกติหรือไม่ กล่าวอีกนัยหนึ่งถ้าตัวอย่างไม่กระจายตามปกติแล้วควรใช้การเบี่ยงเบนมาตรฐานถือเป็นข้อผิดพลาดหรือไม่?

3
การแจกแจงแบบ t มีหางที่หนักกว่าการแจกแจงแบบปกติ
ในบันทึกการบรรยายของฉันมันบอกว่า การแจกแจงแบบทีดูเหมือนปกติ แต่มีหางที่หนักกว่าเล็กน้อย ฉันเข้าใจว่าทำไมมันจึงดูเป็นปกติ (เพราะทฤษฎีบทขีด จำกัด กลาง) แต่ฉันมีเวลายากที่จะเข้าใจวิธีการพิสูจน์ทางคณิตศาสตร์ว่ามันมีหางที่หนักกว่าการแจกแจงแบบปกติและหากมีวิธีการวัดจนถึงระดับที่หนักกว่าการกระจายแบบปกติ

6
สัญกรณ์เป็นอย่างไร
สัญกรณ์อ่านอย่างไร? มันเป็นต่อไปนี้การกระจายปกติ? หรือคือการกระจายปกติ? หรือบางทีเป็นปกติประมาณ ..X∼N(μ,σ2)X∼N(μ,σ2)X\sim N(\mu,\sigma^2)XXX XXX XXX เกิดอะไรขึ้นถ้ามีตัวแปรหลายตัวที่ตามมา (หรือคำใดก็ตาม) การกระจายตัวเดียวกัน มันเขียนอย่างไร

2
แปลงการแจกแจงปัวซองเป็นการแจกแจงแบบปกติ
ฉันมีพื้นฐานด้านวิทยาศาสตร์คอมพิวเตอร์เป็นหลัก แต่ตอนนี้ฉันพยายามสอนตัวเองเกี่ยวกับสถิติพื้นฐาน ฉันมีข้อมูลบางอย่างที่ฉันคิดว่ามีการแจกแจงแบบปัวซอง ฉันมีสองคำถาม: นี่คือการแจกแจงปัวซองหรือไม่ ประการที่สองเป็นไปได้ไหมที่จะแปลงเป็นการแจกแจงแบบปกติ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม ขอบคุณมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.