คำถามติดแท็ก interpretation

อ้างถึงข้อสรุปที่สำคัญจากผลการวิเคราะห์ทางสถิติ

11
จะเข้าใจองศาอิสระได้อย่างไร?
จากWikipediaมีการตีความสามระดับของอิสรภาพในสถิติ: ในสถิติจำนวนองศาความเป็นอิสระคือจำนวนของค่าในการคำนวณขั้นสุดท้ายของสถิติที่สามารถเปลี่ยนแปลงได้ฟรี การประมาณค่าพารามิเตอร์ทางสถิติอาจขึ้นอยู่กับจำนวนข้อมูลหรือข้อมูลที่แตกต่างกัน จำนวนชิ้นส่วนข้อมูลอิสระที่เข้าสู่การประมาณค่าพารามิเตอร์เรียกว่า degree of freedom (df) โดยทั่วไปแล้วองศาอิสระของการประมาณค่าพารามิเตอร์จะเท่ากับจำนวนคะแนนอิสระที่เข้าไปในการประมาณลบด้วยจำนวนพารามิเตอร์ที่ใช้เป็นขั้นตอนกลางในการประมาณค่าพารามิเตอร์ของตัวเอง (ซึ่งในความแปรปรวนตัวอย่าง) หนึ่งเนื่องจากค่าเฉลี่ยตัวอย่างเป็นเพียงขั้นตอนกลางเท่านั้น) ศาสตร์องศาอิสระคือมิติของโดเมนของเวกเตอร์สุ่มหรือหลักจำนวนขององค์ประกอบ 'ฟรี': วิธีหลายส่วนประกอบจะต้องมีการรู้จักมาก่อนเวกเตอร์จะถูกกำหนดอย่างเต็มที่ คำที่เป็นตัวหนาคือสิ่งที่ฉันไม่ค่อยเข้าใจ ถ้าเป็นไปได้สูตรทางคณิตศาสตร์บางอย่างจะช่วยอธิบายแนวคิด การตีความทั้งสามนี้เห็นด้วยกันหรือไม่

16
ความหมายของค่า p และค่า t ในการทดสอบทางสถิติคืออะไร?
หลังจากลงเรียนวิชาสถิติแล้วพยายามช่วยเหลือเพื่อนนักเรียนฉันสังเกตเห็นวิชาหนึ่งที่ดลใจให้อาจารย์ใหญ่ตีกันมากคือตีความผลการทดสอบสมมติฐานทางสถิติ ดูเหมือนว่านักเรียนจะเรียนรู้วิธีการคำนวณตามที่กำหนดโดยการทดสอบที่กำหนดได้อย่างง่ายดาย เครื่องมือที่ใช้คอมพิวเตอร์หลายเครื่องรายงานผลการทดสอบในรูปของ "ค่า p" หรือ "ค่าที" คุณจะอธิบายประเด็นต่อไปนี้ให้กับนักเรียนที่เรียนหลักสูตรแรกในสถิติได้อย่างไร: "p-value" หมายถึงอะไรที่เกี่ยวข้องกับสมมติฐานที่กำลังทดสอบ มีกรณีที่ควรมองหาค่า p สูงหรือค่า p ต่ำหรือไม่ ความสัมพันธ์ระหว่างค่า p และค่า t คืออะไร?

2
การตีความเอาต์พุตของ R's lm ()
หน้าความช่วยเหลือใน R คิดว่าฉันรู้ว่าตัวเลขเหล่านั้นมีความหมายอย่างไร แต่ฉันไม่เข้าใจ ฉันพยายามที่จะเข้าใจตัวเลขทุกตัวที่นี่อย่างสังหรณ์ใจ ฉันจะโพสต์ผลลัพธ์และแสดงความคิดเห็นในสิ่งที่ฉันค้นพบ อาจมี (จะ) ผิดพลาดอย่างฉันจะเขียนสิ่งที่ฉันคิด ส่วนใหญ่ฉันต้องการทราบว่าค่า t ในสัมประสิทธิ์หมายความว่าอย่างไรและทำไมพวกเขาพิมพ์ข้อผิดพลาดมาตรฐานที่เหลือ Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 นี่คือสรุป 5 จุดของส่วนที่เหลือ (ค่าเฉลี่ยของพวกเขาคือ 0 เสมอใช่ไหม) ตัวเลขสามารถใช้ (ฉันเดาที่นี่) เพื่อดูว่ามีค่าผิดปกติใหญ่ ๆ อย่างรวดเร็วหรือไม่ นอกจากนี้คุณสามารถดูได้ที่นี่หากส่วนที่เหลืออยู่ไกลจากการกระจายปกติ (พวกเขาควรจะกระจายตามปกติ) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) …

2
การกำจัดคำดักจับทางสถิติสำคัญเพิ่มในตัวแบบเชิงเส้น
ในโมเดลเชิงเส้นอย่างง่ายพร้อมตัวแปรอธิบายเดียว αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i ฉันพบว่าการลบคำดักจับช่วยเพิ่มความพอดีอย่างมาก (ค่าจาก 0.3 เป็น 0.9) อย่างไรก็ตามคำว่าการดักจับนั้นมีนัยสำคัญทางสถิติR2R2R^2 ด้วยการสกัดกั้น: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta …

6
การทำคลัสเตอร์บนเอาต์พุตของ t-SNE
ฉันมีแอปพลิเคชั่นที่จะสะดวกในการจัดกลุ่มชุดข้อมูลที่มีเสียงดังก่อนที่จะมองหาเอฟเฟกต์กลุ่มย่อยภายในกลุ่ม ครั้งแรกที่ฉันดู PCA แต่ต้องใช้ส่วนประกอบประมาณ 30 ชิ้นเพื่อรับความแปรปรวนได้ถึง 90% ดังนั้นการรวมกลุ่มกับพีซีเพียงไม่กี่เครื่องจะทำให้ข้อมูลจำนวนมากหมด จากนั้นฉันก็ลอง t-SNE (เป็นครั้งแรก) ซึ่งทำให้ฉันมีรูปร่างแปลก ๆ ในสองมิติที่คล้อยตามการจัดกลุ่มผ่าน k-mean ยิ่งไปกว่านั้นการรันฟอเรสต์แบบสุ่มบนข้อมูลด้วยการกำหนดคลัสเตอร์เนื่องจากผลลัพธ์แสดงว่ากลุ่มมีการตีความที่สมเหตุสมผลพอสมควรตามบริบทของปัญหาในแง่ของตัวแปรที่ประกอบขึ้นเป็นข้อมูลดิบ แต่ถ้าฉันจะรายงานเกี่ยวกับกลุ่มเหล่านี้ฉันจะอธิบายพวกเขาได้อย่างไร K-หมายถึงกลุ่มบนส่วนประกอบหลักเปิดเผยบุคคลที่อยู่ใกล้กันในแง่ของตัวแปรที่ได้รับซึ่งประกอบด้วย X% ของความแปรปรวนในชุดข้อมูล คำสั่งที่เทียบเท่าสามารถทำอะไรได้บ้างเกี่ยวกับกลุ่ม t-SNE บางทีสิ่งที่จะเป็นผลของ: t-SNE แสดงให้เห็นถึงความใกล้เคียงกันโดยประมาณในนานามิติมิติพื้นฐานดังนั้นกลุ่มที่มีมิติต่ำของพื้นที่มิติสูงจะเพิ่ม "โอกาส" ที่บุคคลที่อยู่ติดกันจะไม่อยู่ในกลุ่มเดียวกัน ทุกคนสามารถเสนอการแจ้งเตือนที่ดีกว่านั้นได้หรือไม่?

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
แผนภูมินี้แสดงแนวโน้มของการโจมตีของผู้ก่อการร้ายที่เป็นประโยชน์หรือไม่?
ฉันเห็นภาพนี้ผ่านไปมาก ฉันมีความรู้สึกว่าข้อมูลที่ให้ในลักษณะนี้ไม่สมบูรณ์หรือผิดพลาด แต่ฉันไม่มีประสบการณ์เพียงพอในสถิติที่จะตอบสนอง มันทำให้ฉันคิดว่าการ์ตูน xkcdนี้ถึงแม้จะมีข้อมูลทางประวัติศาสตร์ที่แข็งแกร่งบางสถานการณ์ก็สามารถเปลี่ยนวิธีการทำนายสิ่งต่าง ๆ ได้ แผนภูมินี้ตามที่นำเสนอมีประโยชน์สำหรับการแสดงระดับภัยคุกคามจากผู้ลี้ภัยอย่างถูกต้องหรือไม่ มีบริบททางสถิติที่จำเป็นที่ทำให้แผนภูมินี้มีประโยชน์มากขึ้นหรือน้อยลง? หมายเหตุ: พยายามเก็บไว้ในเงื่อนไขของคนธรรมดา :)

1
วิธีการตีความสัมประสิทธิ์ในการถดถอยปัวซอง?
ฉันจะตีความผลกระทบหลัก (ค่าสัมประสิทธิ์สำหรับปัจจัยจำลอง) ในการถดถอยปัวซองได้อย่างไร สมมติตัวอย่างต่อไปนี้: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- …

5
วิธีการตีความความแปรปรวนร่วมหรือเมทริกซ์ความแม่นยำ?
ฉันสงสัยว่าใครสามารถชี้ให้ฉันดูการอ้างอิงบางอย่างที่อธิบายการตีความองค์ประกอบของเมทริกซ์ความแปรปรวนร่วมแบบผกผันหรือที่เรียกว่าเมทริกซ์ความเข้มข้นหรือเมทริกซ์ความแม่นยำ ฉันสามารถเข้าถึงการพึ่งพาหลายตัวแปรของ Cox และ Wermuth แต่สิ่งที่ฉันกำลังมองหาคือการตีความของแต่ละองค์ประกอบในเมทริกซ์ผกผัน วิกิพีเดียระบุ "องค์ประกอบของเมทริกซ์ความแม่นยำมีการตีความในแง่ของความสัมพันธ์บางส่วนและความแปรปรวนบางส่วน" ซึ่งทำให้ผมนี้หน้า มีการตีความโดยไม่ใช้การถดถอยเชิงเส้นหรือไม่? IE ในแง่ของความแปรปรวนร่วมหรือรูปทรงเรขาคณิต?

9
การใช้ถ้อยคำใหม่“ มี 1 ใน 80 คนเกิดจากอุบัติเหตุทางรถยนต์หรือไม่” เนื่องจาก“ 1 ใน 80 คนเสียชีวิตเนื่องจากอุบัติเหตุรถยนต์หรือไม่”
คำแถลง One (S1): "การเสียชีวิตหนึ่งใน 80 เกิดจากอุบัติเหตุทางรถยนต์" คำแถลงสอง (S2): "หนึ่งใน 80 คนเสียชีวิตเนื่องจากอุบัติเหตุรถยนต์" ตอนนี้ฉันเองไม่เห็นความแตกต่างอย่างมากเลยระหว่างแถลงการณ์ทั้งสองนี้ เมื่อเขียนฉันจะพิจารณาพวกมันแทนกันได้กับผู้ชมทั่วไป อย่างไรก็ตามตอนนี้ฉันถูกท้าทายโดยสองคนนี้และกำลังมองหามุมมองเพิ่มเติม การตีความค่าเริ่มต้นของ S2 คือ "จาก 80 คนที่สุ่มอย่างสม่ำเสมอจากประชากรมนุษย์เราคาดหวังว่าหนึ่งในนั้นจะตายเนื่องจากอุบัติเหตุทางรถยนต์" - และฉันถือว่าข้อความรับรองนี้เทียบเท่ากับ S1 คำถามของฉันมีดังนี้: Q1) การตีความค่าเริ่มต้นของฉันเทียบเท่ากับแถลงการณ์หนึ่งจริงหรือไม่ Q2) การตีความเริ่มต้นของฉันผิดปกติหรือไม่ประมาทหรือไม่ Q3) หากคุณคิดว่า S1 และ S2 แตกต่างกันดังนั้นหากกล่าวถึงวินาทีที่หนึ่งหมายถึงสิ่งที่ทำให้เข้าใจผิด / ไม่ถูกต้องคุณสามารถแก้ไข S2 ที่มีคุณสมบัติครบถ้วนซึ่งเทียบเท่าได้หรือไม่ ลองแยกการเล่นแร่แปรธาตุที่เห็นได้ชัดที่ S1 ไม่ได้อ้างถึงการตายของมนุษย์โดยเฉพาะและสมมติว่าเข้าใจในบริบท ให้เราอภิปรายกันถึงความเป็นจริงของข้อเรียกร้องด้วย: มันมีไว้เพื่อเป็นตัวอย่าง อย่างที่ฉันสามารถบอกได้ความขัดแย้งที่ฉันได้ยินมาดูเหมือนจะมุ่งเน้นไปที่การผิดนัดการตีความที่แตกต่างกันของคำสั่งที่หนึ่งและที่สอง สำหรับครั้งแรกผู้ท้าทายของฉันดูเหมือนจะตีความว่าเป็น 1/80 * num_deaths = จำนวนการเสียชีวิตที่เกิดจากอุบัติเหตุทางรถยนต์ …

2
ตัวอย่างชีวิตจริงของกระบวนการเฉลี่ยเคลื่อนที่
คุณสามารถให้ตัวอย่างชีวิตจริงของอนุกรมเวลาที่กระบวนการเฉลี่ยเคลื่อนที่ที่เป็นระเบียบของได้เช่น มีเหตุผลเบื้องต้นในการเป็นแบบอย่างที่ดีหรือไม่? อย่างน้อยสำหรับฉันกระบวนการตอบโต้อัตโนมัติดูเหมือนจะค่อนข้างง่ายที่จะเข้าใจโดยสังหรณ์ใจในขณะที่กระบวนการ MA ไม่ได้ดูเป็นธรรมชาติตั้งแต่แรกเห็น โปรดทราบว่าฉันไม่สนใจผลลัพธ์ทางทฤษฎีที่นี่ (เช่นทฤษฎีบทของ Woldหรือการกลับหัว)qqqyt=∑i=1qθiεt−i+εt, where εt∼N(0,σ2)yt=∑i=1qθiεt−i+εt, where εt∼N(0,σ2) y_t = \sum_{i=1}^q \theta_i \varepsilon_{t-i} + \varepsilon_t, \text{ where } \varepsilon_t \sim \mathcal{N}(0, \sigma^2) ในฐานะที่เป็นตัวอย่างของสิ่งที่ฉันกำลังมองหาสมมติว่าคุณมีผลตอบแทนหุ้นประจำวัน2) จากนั้นผลตอบแทนหุ้นรายสัปดาห์เฉลี่ยจะมีโครงสร้าง MA (4) เป็นสิ่งประดิษฐ์ทางสถิติอย่างหมดจดrt∼IID(0,σ2)rt∼IID(0,σ2)r_t \sim \text{IID}(0, \sigma^2)

5
การตีความ QQplot - มีกฎของหัวแม่มือในการตัดสินใจที่ไม่ปกติหรือไม่?
ฉันได้อ่านเธรดบน QQplots เพียงพอที่นี่เพื่อทำความเข้าใจว่า QQplot สามารถให้ข้อมูลได้มากกว่าการทดสอบตามปกติอื่น ๆ อย่างไรก็ตามฉันไม่มีประสบการณ์กับการตีความ QQplots ฉันเที่ยวมาก ฉันพบกราฟจำนวนมากของ QQplots ที่ไม่ปกติ แต่ไม่มีกฎที่ชัดเจนเกี่ยวกับวิธีการตีความพวกเขานอกเหนือจากสิ่งที่ดูเหมือนว่าจะเป็นการเปรียบเทียบกับการแจกแจงแบบรู้พร้อมกับ "ความรู้สึกทางเดิน" ฉันต้องการทราบว่าคุณมีกฎ (หรือที่คุณรู้) กฎง่ายๆที่จะช่วยให้คุณตัดสินใจไม่ปกติ คำถามนี้เกิดขึ้นเมื่อฉันเห็นกราฟทั้งสองนี้: ฉันเข้าใจว่าการตัดสินใจที่ไม่เป็นมาตรฐานนั้นขึ้นอยู่กับข้อมูลและสิ่งที่ฉันต้องการจะทำกับพวกเขา อย่างไรก็ตามคำถามของฉันคือ: โดยทั่วไปแล้วการสังเกตที่ออกจากเส้นตรงเมื่อใดจะมีหลักฐานมากพอที่จะทำให้การประมาณค่าปกติไม่มีเหตุผล? สำหรับสิ่งที่คุ้มค่าการทดสอบชาปิโร - วิลค์ล้มเหลวในการปฏิเสธสมมติฐานที่ไม่เป็นมาตรฐานในทั้งสองกรณี

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
สัมประสิทธิ์การถดถอยโลจิสติกส์มีความสำคัญอย่างไร?
ฉันกำลังอ่านบทความเกี่ยวกับตำแหน่งการลงคะแนนและการตั้งค่าการลงคะแนนในการเลือกตั้งปี 2000 และ 2004 ในนั้นมีแผนภูมิที่แสดงค่าสัมประสิทธิ์การถดถอยโลจิสติก จากหลักสูตรปีหลัง ๆ และอ่านน้อยฉันเข้าใจการถดถอยโลจิสติกเป็นวิธีการอธิบายความสัมพันธ์ระหว่างตัวแปรอิสระหลายตัวและตัวแปรตอบกลับแบบไบนารี่ สิ่งที่ฉันสับสนเกี่ยวกับคือให้ตารางด้านล่างเพราะภาคใต้มีค่าสัมประสิทธิ์การถดถอยโลจิสติกที่. 903 นั่นหมายความว่า 90.3% ของภาคใต้โหวตสาธารณรัฐรีพับลิกัน? เนื่องจากลักษณะทางลอจิสติกของตัวชี้วัดจึงไม่มีความสัมพันธ์โดยตรงนี้ แต่ฉันคิดว่าคุณสามารถพูดได้ว่าทางใต้ด้วย. 903 โหวตให้รีพับลิกันมากกว่าภูเขา / ที่ราบด้วยการลดลงของ. 506 เมื่อพิจารณาถึงกรณีฉันจะรู้ได้อย่างไรว่าอะไรคือสิ่งสำคัญและอะไรที่ไม่เป็นไปได้และเป็นไปได้ที่จะประเมินเปอร์เซ็นต์ของการลงมติพรรครีพับลิกันจากค่าสัมประสิทธิ์การถดถอยแบบโลจิสติกส์ ในฐานะที่เป็นบันทึกด้านข้างโปรดแก้ไขโพสต์ของฉันหากมีสิ่งใดที่ระบุไว้ไม่ถูกต้อง

3
วิธีการตีความ F- และค่า p ใน ANOVA?
ฉันใหม่กับสถิติและฉันกำลังจัดการกับ ANOVA ฉันทำการทดสอบ ANOVA ใน R โดยใช้ aov(dependendVar ~ IndependendVar) ฉันได้รับ - กลุ่มอื่น ๆ - ค่า F และค่า p สมมติฐานว่างของฉัน ( ) คือทุกกลุ่มมีความหมายเท่ากันH0H0H_0 มีข้อมูลมากมายเกี่ยวกับวิธีการคำนวณ Fแต่ฉันไม่รู้วิธีอ่านสถิติ F และการเชื่อมต่อ F และ p ดังนั้นคำถามของฉันคือ: ฉันจะกำหนดค่า F สำคัญอย่างยิ่งสำหรับการปฏิเสธอย่างไรH0H0H_0 ค่า F แต่ละตัวมีค่า p ที่สอดคล้องกันหรือไม่ (เช่นถ้าดังนั้นH 0จะถูกปฏิเสธ)p &lt; 0.05พี&lt;0.05p<0.05H0H0H_0

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.