สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
การอธิบายความแปรปรวนหมายถึงอะไร
โดยเฉพาะอย่างยิ่งฉันสงสัยว่าทำไมเรามีแนวคิดนี้หลาย R (ซึ่งฉันสามารถเข้าใจเป็นความสัมพันธ์ระหว่างคะแนนที่สังเกตและทำนายในการถดถอยหลายครั้ง) แล้วแนวคิดแยกต่างหาก R-squared ซึ่งเป็นเพียงตารางหรืออาร์ ฉันได้รับแจ้งว่า R-squared เป็นการอธิบายเปอร์เซ็นต์ความแปรปรวนและ R ไม่ใช่ แต่ฉันไม่เข้าใจความแตกต่างระหว่างสหสัมพันธ์และความแปรปรวนที่อธิบาย

3
SVM สำหรับข้อมูลที่ไม่สมดุล
ฉันต้องการใช้ Support Vector Machines (SVMs) ในชุดข้อมูลของฉัน ก่อนที่ฉันจะพยายามแก้ปัญหาฉันได้รับคำเตือนว่า SVM ไม่ทำงานได้ดีกับข้อมูลที่ไม่สมดุลอย่างยิ่ง ในกรณีของฉันฉันสามารถมีได้มากถึง 95-98% 0 และ 2-5% 1 ฉันพยายามค้นหาทรัพยากรที่พูดคุยเกี่ยวกับการใช้ SVM ในข้อมูลที่กระจัดกระจาย / ไม่สมดุล แต่สิ่งที่ฉันพบคือ 'sparseSVMs' (ซึ่งใช้เวกเตอร์สนับสนุนจำนวนเล็กน้อย) ฉันหวังว่าบางคนสามารถอธิบายสั้น ๆ : SVM คาดว่าจะทำอย่างไรกับชุดข้อมูลดังกล่าว ซึ่งหากมีการปรับเปลี่ยนจะต้องทำกับอัลกอริทึม SVM แหล่งข้อมูล / เอกสารใดที่กล่าวถึงเรื่องนี้

6
วิธีการตรวจสอบความคิดเห็นของผู้ใช้โพลาไรซ์ (ระดับดาวสูงและต่ำ)
หากฉันมีระบบการจัดอันดับดาวที่ผู้ใช้สามารถแสดงความพึงพอใจต่อผลิตภัณฑ์หรือรายการได้ฉันจะตรวจสอบสถิติได้อย่างไรหากคะแนนโหวต "แบ่ง" สูง ความหมายแม้ว่าค่าเฉลี่ยคือ 3 จาก 5 สำหรับผลิตภัณฑ์ที่กำหนดฉันจะตรวจสอบได้อย่างไรว่านั่นคือการแบ่ง 1-5 เมื่อเทียบกับฉันทามติ 3 โดยใช้ข้อมูล (ไม่มีวิธีกราฟิก)

3
เหตุใดจึงไม่มีใครใช้ตัวจําแนกแบบหลายคนของ Bayesian Naive Bayes?
ดังนั้นในการสร้างแบบจำลองข้อความ (ที่ไม่ได้รับอนุญาต) ดังนั้น Latent Dirichlet Allocation (LDA) จึงเป็นแบบจำลอง Bayesian ของ Probabilistic Latent Semantic Analysis (PLSA) เป็นหลัก LDA = PLSA + Dirichlet ก่อนพารามิเตอร์ ความเข้าใจของฉันคือตอนนี้ LDA เป็นอัลกอริธึมอ้างอิงและนำไปใช้ในแพ็คเกจต่าง ๆ ในขณะที่ PLSA ไม่ควรใช้อีก แต่ในการจัดหมวดหมู่ข้อความ (ภายใต้การดูแล) เราสามารถทำสิ่งเดียวกันสำหรับตัวจําแนกหลายกลุ่ม Naive Bayes และวาง Dirichlet ไว้เหนือพารามิเตอร์ แต่ฉันไม่คิดว่าฉันจะเคยเห็นใครทำอย่างนั้นและเวอร์ชั่น "พอยต์ประมาณ" ของ Naive Bayes multinomial ดูเหมือนจะเป็นเวอร์ชั่นที่ติดตั้งในแพ็คเกจส่วนใหญ่ มีเหตุผลอะไรบ้าง?

4
ข้อผิดพลาดที่ควรหลีกเลี่ยงเมื่อเปลี่ยนข้อมูล?
ฉันได้รับความสัมพันธ์เชิงเส้นตรงที่แข็งแกร่งระหว่างตัวแปรและหลังจากเปลี่ยนการตอบสนองเป็นสองเท่า แบบจำลองคือ แต่ฉันเปลี่ยนเป็น ปรับปรุงจาก. 19 เป็น. 76XXXYYYY∼XY∼XY\sim XYX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X}R2R2R^2 เห็นได้ชัดว่าฉันทำการผ่าตัดที่เหมาะสมกับความสัมพันธ์นี้ ทุกคนสามารถพูดถึงข้อผิดพลาดในการทำเช่นนี้เช่นอันตรายจากการเปลี่ยนแปลงมากเกินไปหรือการละเมิดหลักการทางสถิติที่เป็นไปได้หรือไม่?

2
การคำนวณ AIC“ ด้วยมือ” ใน R
ฉันได้ลองคำนวณ AIC ของการถดถอยเชิงเส้นใน R แต่ไม่ได้ใช้AICฟังก์ชันเช่นนี้ lm_mtcars <- lm(mpg ~ drat, mtcars) nrow(mtcars)*(log((sum(lm_mtcars$residuals^2)/nrow(mtcars))))+(length(lm_mtcars$coefficients)*2) [1] 97.98786 อย่างไรก็ตามAICให้ค่าที่แตกต่าง: AIC(lm_mtcars) [1] 190.7999 มีคนบอกฉันว่าฉันทำอะไรผิดหรือเปล่า?

2
การสุ่มตัวอย่างถูกต้องตามกฎหมายสำหรับการอนุมานหรือไม่?
Bayesians บางคนโจมตีการอนุมานบ่อยครั้งที่ระบุว่า "ไม่มีการกระจายตัวอย่างที่ไม่ซ้ำ" เพราะมันขึ้นอยู่กับความตั้งใจของนักวิจัย (Kruschke, Aguinis, & Joo, 2012, p. 733) ตัวอย่างเช่นสมมติว่านักวิจัยเริ่มเก็บข้อมูล แต่เงินทุนของเขาลดลงอย่างไม่คาดคิดหลังจากมีผู้เข้าร่วม 40 คน การแจกแจงการสุ่มตัวอย่าง (และ CIs ที่ตามมาและค่า p) จะถูกกำหนดที่นี่ได้อย่างไร เราจะสมมติว่ากลุ่มตัวอย่างแต่ละชุดมี N = 40 หรือไม่ หรือมันจะประกอบไปด้วยตัวอย่างที่มี N ที่แตกต่างกันโดยแต่ละขนาดจะพิจารณาจากเวลาสุ่มอื่น ๆ ที่เงินทุนของเขาอาจถูกตัด? t, F, chi-square (ฯลฯ ), การแจกแจงโมฆะที่พบในตำราเรียนทั้งหมดสันนิษฐานว่า N ได้รับการแก้ไขและคงที่สำหรับตัวอย่างที่เป็นส่วนประกอบทั้งหมด แต่สิ่งนี้อาจไม่เป็นจริงในทางปฏิบัติ ด้วยขั้นตอนการหยุดที่แตกต่างกันทุกครั้ง (เช่นหลังจากช่วงเวลาหนึ่งหรือจนกว่าผู้ช่วยของฉันจะเหนื่อย) ดูเหมือนจะมีการแจกแจงตัวอย่างที่แตกต่างกันและการใช้การแจกแจงคงที่ N แบบลองและจริงเหล่านี้ไม่เหมาะสม การวิพากษ์วิจารณ์นี้สร้างความเสียหายต่อความถูกต้องตามกฎหมายของ CIs บ่อยและค่า p อย่างไร …

1
วิธีการคาดการณ์ในเชิงบวกอย่างเคร่งครัด?
ฉันทำงานในชุดเวลาที่มีค่าเป็นบวกอย่างเคร่งครัด การทำงานกับรุ่นต่างๆรวมถึง AR, MA, ARMA และอื่น ๆ ฉันไม่สามารถหาวิธีที่ง่ายในการบรรลุการคาดการณ์ในเชิงบวกอย่างเคร่งครัด ฉันใช้Rเพื่อทำการคาดการณ์ของฉันและสิ่งที่ฉันสามารถหาได้คือ forecast.hts {hts} ที่มีพารามิเตอร์เชิงบวกที่อธิบายไว้ที่นี่: พยากรณ์ชุดลำดับชั้นหรือเวลาที่จัดกลุ่มแพ็กเกจ hts ## S3 method for class 'gts': forecast((object, h, method = c("comb", "bu", "mo", "tdgsf", "tdgsa", "tdfp", "all"), fmethod = c("ets", "rw", "arima"), level, positive = FALSE, xreg = NULL, newxreg = NULL, ...)) positive If TRUE, …

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
การประเมิน ARIMA ด้วยมือ
ฉันพยายามที่จะเข้าใจวิธีการประมาณค่าพารามิเตอร์ในการสร้างแบบจำลอง ARIMA / Box Jenkins (BJ) น่าเสียดายที่ไม่มีหนังสือเล่มใดที่ฉันได้พบอธิบายขั้นตอนการประมาณค่าเช่นขั้นตอนการประมาณความน่าจะเป็นบันทึกโดยละเอียด ฉันพบเว็บไซต์ / สื่อการสอนที่มีประโยชน์มาก ต่อไปนี้เป็นสมการจากแหล่งอ้างอิงข้างต้น L L ( θ ) = - n2เข้าสู่ระบบ( 2 π) - n2เข้าสู่ระบบ( σ2) - ∑t = 1nอี2เสื้อ2 σ2LL(θ)=-n2เข้าสู่ระบบ⁡(2π)-n2เข้าสู่ระบบ⁡(σ2)-Σเสื้อ=1nอีเสื้อ22σ2 LL(\theta)=-\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \sum\limits_{t=1}^n\frac{e_t^2}{2\sigma^2} ฉันต้องการเรียนรู้การประมาณค่า ARIMA / BJ ด้วยการทำเอง ดังนั้นฉันจึงใช้เพื่อเขียนโค้ดเพื่อประมาณค่า ARMA ด้วยมือ ด้านล่างนี้คือสิ่งที่ผมทำในR ,RRRRRR ฉันจำลอง ARMA (1,1) เขียนสมการข้างต้นเป็นฟังก์ชัน ใช้ข้อมูลจำลองและฟังก์ชันเพิ่มประสิทธิภาพเพื่อประมาณค่าพารามิเตอร์ AR …

4
ฉันจะดำเนินการถดถอยกับข้อมูลที่ไม่ปกติซึ่งยังคงไม่ปกติเมื่อเปลี่ยนเป็นอย่างไร
ฉันมีข้อมูล (158 ราย) ซึ่งได้มาจากคำตอบของ Likert ในการตอบแบบสอบถาม 21 ข้อ ฉันต้องการ / จำเป็นต้องทำการวิเคราะห์การถดถอยเพื่อดูว่ารายการใดในแบบสอบถามทำนายการตอบสนองต่อรายการโดยรวม (ความพึงพอใจ) คำตอบจะไม่กระจายตามปกติ (ตามการทดสอบของ KS) และฉันได้เปลี่ยนมันในทุก ๆ วิธีที่ฉันสามารถคิดได้ (ผกผัน, บันทึก, log10, sqrt, กำลังสอง) และมันก็ปฏิเสธที่จะกระจายตามปกติอย่างดื้อรั้น พล็อตที่เหลือดูทั่วทุกสถานที่ดังนั้นฉันเชื่อว่ามันไม่ถูกต้องตามกฎหมายที่จะทำการถดถอยเชิงเส้นและแกล้งทำเป็นว่ามันทำงานได้ตามปกติ (ไม่ใช่การกระจายปัวซอง) ฉันคิดว่าเป็นเพราะคำตอบมีการรวมกลุ่มอย่างใกล้ชิดมาก (ค่าเฉลี่ยคือ 3.91, 95% CI 3.88 ถึง 3.95) ดังนั้นฉันคิดว่าฉันต้องการวิธีใหม่ในการแปลงข้อมูลของฉันหรือต้องการการถดถอยแบบไม่ใช้พารามิเตอร์ แต่ฉันไม่รู้ว่าฉันสามารถทำได้ใน SPSS

1
เหตุใดจึงใช้ไคสแควร์เมื่อสร้างช่วงความมั่นใจสำหรับความแปรปรวน
นี่เป็นคำถามพื้นฐานมาก ทำไมเราถึงใช้การแจกแจงแบบไคสแควร์? ความหมายของการแจกแจงนี้คืออะไร? ทำไมการแจกแจงแบบนี้ใช้สำหรับสร้างช่วงความมั่นใจสำหรับความแปรปรวน? ทุกสถานที่ที่ฉัน google สำหรับคำอธิบายเพียงนำเสนอความจริงนี้อธิบายว่าเมื่อใดที่จะใช้ไค แต่ไม่ได้อธิบายว่าทำไมต้องใช้ไคและทำไมมันดูวิธีที่มันทำ ขอบคุณมากสำหรับใครก็ตามที่ชี้ให้ฉันไปในทิศทางที่ถูกต้องและนั่นคือ - เข้าใจจริงๆว่าทำไมฉันถึงใช้ไคเมื่อฉันสร้างช่วงความมั่นใจสำหรับความแปรปรวน

1
จะเข้าใจสูตรสัมประสิทธิ์สหสัมพันธ์ได้อย่างไร
ทุกคนสามารถช่วยฉันเข้าใจสูตรสหสัมพันธ์ของเพียร์สันได้ไหม ตัวอย่างrrr = ค่าเฉลี่ยของผลิตภัณฑ์ของคะแนนมาตรฐานของตัวแปรXXXและYYYY ฉันเข้าใจว่าทำไมพวกเขาต้องสร้างมาตรฐานXXXและYYYแต่จะเข้าใจผลิตภัณฑ์ของทั้งสองคะแนนได้อย่างไร สูตรนี้เรียกอีกอย่างว่า "สัมประสิทธิ์สหสัมพันธ์ของโมเมนต์ผลิตภัณฑ์" แต่เหตุผลในการดำเนินการของผลิตภัณฑ์คืออะไร ฉันไม่แน่ใจว่าฉันได้ทำคำถามของฉันชัดเจนหรือไม่ แต่ฉันต้องการที่จะจำสูตรอย่างสังหรณ์ใจ

3
ทำความเข้าใจกับทฤษฎีการแยก d ในเครือข่าย Bayesian ที่เป็นสาเหตุ
ฉันกำลังพยายามทำความเข้าใจกับตรรกะการแบ่งแยกในเครือข่าย Causal Bayesian ฉันรู้ว่าอัลกอริทึมทำงานอย่างไร แต่ฉันไม่เข้าใจว่าทำไม "การไหลของข้อมูล" ทำงานตามที่ระบุไว้ในอัลกอริทึม ตัวอย่างเช่นในกราฟด้านบนสมมติว่าเราได้รับ X เท่านั้นและไม่พบตัวแปรอื่น จากนั้นตามกฎของการแยก d การไหลของข้อมูลจาก X ถึง D: X อิทธิพลซึ่งเป็นX) ไม่เป็นไรเนื่องจาก A เป็นสาเหตุของ X และหากเราทราบเกี่ยวกับผลกระทบ X สิ่งนี้จะส่งผลต่อความเชื่อของเราเกี่ยวกับสาเหตุ A. ข้อมูลไหลP(A)≠P(A|X)P(A)≠P(A|X)P(A)\neq P(A|X) X มีอิทธิพลต่อ B ซึ่งเป็นX) ไม่เป็นไรเนื่องจากความรู้ของเราเกี่ยวกับ X เปลี่ยนแปลงไป A การเปลี่ยนแปลงที่ A สามารถส่งผลต่อความเชื่อของเราเกี่ยวกับสาเหตุ B เช่นกันP(B)≠P(B|X)P(B)≠P(B|X)P(B)\neq P(B|X) X มีอิทธิพลต่อ C ซึ่งเป็นX) ไม่เป็นไรเพราะเรารู้ว่า B นั้นลำเอียงโดยความรู้ของเราเกี่ยวกับผลกระทบทางอ้อม X …

1
การแปลงแปลงการติดตามตัวแปร LASSO
ฉันยังใหม่กับglmnetแพ็คเกจและฉันก็ยังไม่แน่ใจว่าจะตีความผลลัพธ์ได้อย่างไร ใครช่วยกรุณาอ่านพล็อตการติดตามต่อไปนี้ได้ไหม กราฟได้มาจากการรันสิ่งต่อไปนี้: library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.