สถิติและข้อมูลขนาดใหญ่

1

จำนวนจุดน้อยที่สุดสำหรับการถดถอยเชิงเส้น

จำนวนการสังเกตการณ์ขั้นต่ำที่ "สมเหตุสมผล" จะมองหาแนวโน้มเมื่อเวลาผ่านไปด้วยการถดถอยเชิงเส้นคืออะไร แล้วแบบจำลองกำลังสองเหมาะสมกับอะไร? ฉันทำงานกับดัชนีรวมของความไม่เท่าเทียมกันในสุขภาพ (SII, RII) และมีเพียง 4 คลื่นของการสำรวจดังนั้น 4 คะแนน (1997,2001,2004,2008) ฉันไม่ใช่นักสถิติ แต่ฉันมีความประทับใจที่น่าประทับใจ 4 คะแนนไม่เพียงพอ คุณมีคำตอบและ / หรือการอ้างอิง? ขอบคุณมาก, Françoise

16 regression

2

เทคนิคใดบ้างสำหรับการสุ่มตัวอย่างสองตัวแปรสุ่มที่สัมพันธ์กัน?

เทคนิคใดบ้างสำหรับการสุ่มตัวอย่างตัวแปรสุ่มที่มีความสัมพันธ์สองตัว: ถ้าการแจกแจงความน่าจะเป็นของพวกเขาถูกแปร (เช่น log-normal) หากพวกเขามีการแจกแจงแบบไม่อิงพารามิเตอร์ ข้อมูลเป็นอนุกรมเวลาสองชุดที่เราสามารถคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ได้ เราต้องการจำลองข้อมูลเหล่านี้ในอนาคตโดยสมมติว่าความสัมพันธ์ทางประวัติศาสตร์และอนุกรมเวลา CDF นั้นคงที่ สำหรับกรณี (2) อะนาล็อก 1-D จะสร้าง CDF และตัวอย่างจากมัน ดังนั้นฉันเดาว่าฉันสามารถสร้าง CDF 2 มิติและทำสิ่งเดียวกัน อย่างไรก็ตามฉันสงสัยว่ามีวิธีที่จะเข้าใกล้โดยใช้ 1-D CDFs แต่ละรายการและเชื่อมโยงตัวเลือกอย่างใด ขอบคุณ!

16 correlation sampling monte-carlo stochastic-processes copula

2

วิธีการพล็อตขอบเขตการตัดสินใจใน R สำหรับรูปแบบการถดถอยโลจิสติก?

ฉันสร้างโมเดลการถดถอยโลจิสติกโดยใช้ glm ใน R. ฉันมีตัวแปรอิสระสองตัว ฉันจะพล็อตขอบเขตการตัดสินใจของโมเดลของฉันในพล็อตกระจายของสองตัวแปรได้อย่างไร ตัวอย่างเช่นฉันจะพล็อตร่างเช่น: http://onlinecourses.science.psu.edu/stat557/node/55 ขอบคุณ

16 r logistic

2

Scikit วิธีที่ถูกต้องในการปรับเทียบตัวแยกประเภทด้วย CalibratedClassifierCV

Scikit มีCalibratedClassifierCVซึ่งช่วยให้เราสามารถสอบเทียบโมเดลของเราในคู่ X, y ที่เฉพาะเจาะจง มันยังระบุไว้อย่างชัดเจนว่าdata for fitting the classifier and for calibrating it must be disjoint. หากพวกเขาจะต้องแยกจากกันมันถูกต้องหรือไม่ที่จะฝึกตัวจําแนก model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) ฉันกลัวว่าด้วยการใช้ชุดฝึกอบรมชุดเดียวกันฉันกำลังฝ่าฝืนdisjoint dataกฎ ทางเลือกอื่นอาจมีชุดการตรวจสอบความถูกต้อง my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) ซึ่งมีข้อเสียคือการทิ้งข้อมูลไว้เพื่อการฝึกอบรมน้อยลง นอกจากนี้หากCalibratedClassifierCVควรพอดีกับรุ่นที่พอดีกับชุดการฝึกอบรมที่แตกต่างกันเหตุใดจึงเป็นตัวเลือกเริ่มต้นcv=3ซึ่งจะพอดีกับตัวประมาณการพื้นฐาน การตรวจสอบความถูกต้องไขว้จัดการกฎความไม่ลงรอยกันด้วยตัวเองหรือไม่? คำถาม: วิธีที่ถูกต้องในการใช้ CalibratedClassifierCV คืออะไร?

16 cross-validation scikit-learn validation train calibration

3

`คาดการณ์สุ่มป่าเถื่อน 'ประเมินความน่าจะเป็นของคลาสได้อย่างไร

วิธีการที่ไม่randomForestน่าจะเป็นระดับประมาณการแพคเกจเมื่อฉันใช้predict(model, data, type = "prob")? ฉันใช้rangerสำหรับฝึกป่าสุ่มโดยใช้probability = Tอาร์กิวเมนต์เพื่อทำนายความน่าจะเป็น rangerพูดในเอกสารว่า: ปลูกป่าน่าจะเป็นเหมือนใน Malley และคณะ (2012) ฉันจำลองข้อมูลและลองทั้งแพ็คเกจและได้ผลลัพธ์ที่แตกต่างกันมาก (ดูรหัสด้านล่าง) ดังนั้นฉันรู้ว่ามันใช้เทคนิคต่าง ๆ (จากนั้นแรนเจอร์) เพื่อประเมินความน่าจะเป็น แต่อันไหน simulate_data <- function(n){ X <- data.frame(matrix(runif(n*10), ncol = 10)) Y <- data.frame(Y = rbinom(n, size = 1, prob = apply(X, 1, sum) %>% pnorm(mean = 5) ) %>% as.factor() ) …

16 r random-forest prediction

1

วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht

ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

3

ความแตกต่างระหว่าง statsmodel OLS และ scikit การถดถอยเชิงเส้น

ฉันมีคำถามเกี่ยวกับวิธีการที่แตกต่างกันสองวิธีจากห้องสมุดที่แตกต่างกันซึ่งดูเหมือนจะทำงานเดียวกัน ฉันกำลังพยายามสร้างแบบจำลองการถดถอยเชิงเส้น นี่คือรหัสที่ฉันใช้ห้องสมุด statsmodel กับ OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", results.rsquared เอกสารนี้พิมพ์GFT + Wiki / GT R-squared 0.981434611923 และอันที่สองคือ scikit Learn library วิธีการโมเดลเชิงเส้น: model = LinearRegression() model.fit(X_train, y_train) …

16 regression python scikit-learn statsmodels

1

Weibull Distribution v / s การแจกแจงแกมม่า

ความแตกต่างระหว่างสัญชาตญาณเบื้องหลังการแจกแจงแกมม่าและไวบูลคืออะไร? มีความสัมพันธ์ระหว่างสองความหนาแน่นหรือไม่? กรุณาช่วย

16 gamma-distribution weibull

3

เมื่อใดที่ฉัน * ไม่ * อนุญาตให้เอฟเฟกต์คงที่เพื่อเปลี่ยนแปลงระดับเอฟเฟกต์แบบสุ่มในโมเดลเอฟเฟกต์ผสม

ด้วยตัวแปรที่คาดการณ์ (P), เอฟเฟกต์แบบสุ่ม (R) และเอฟเฟกต์คงที่ (F) เราสามารถใส่เอฟเฟกต์ผสม * สองรูปแบบ ( ไวยากรณ์lme4 ): m1 = lmer( P ~ (1|R) + F ) m2 = lmer( P ~ (1+F|R) + F) ตามที่ฉันเข้าใจแล้วรุ่นที่สองคือรุ่นที่อนุญาตให้เอฟเฟกต์คงที่ในระดับที่แตกต่างกันของเอฟเฟกต์แบบสุ่ม ในการวิจัยของฉันฉันมักจะใช้แบบจำลองเอฟเฟกต์ผสมเพื่อวิเคราะห์ข้อมูลจากการทดลองที่ดำเนินการในผู้เข้าร่วมหลายคน ฉันจำลองผู้เข้าร่วมว่าเป็นเอฟเฟกต์แบบสุ่มและการทดลองเชิงทดลองเป็นเอฟเฟกต์คงที่ ฉันคิดว่ามันสมเหตุสมผลแล้วที่จะให้ระดับที่เอฟเฟกต์คงที่มีผลต่อประสิทธิภาพในการทดสอบนั้นแตกต่างกันไปตามผู้เข้าร่วม อย่างไรก็ตามฉันมีปัญหาในการจินตนาการภายใต้สถานการณ์ที่ฉันไม่ควรอนุญาตให้มีผลกระทบคงที่ในระดับที่แตกต่างกันของผลสุ่มดังนั้นคำถามของฉันคือ: เมื่อใดที่เราไม่ควรอนุญาตให้ใช้เอฟเฟกต์คงที่ในการปรับระดับเอฟเฟกต์แบบสุ่ม

16 mixed-model

2

เหตุใดการสูญเสียบรรทัดฐาน L2 จึงมีโซลูชันที่ไม่เหมือนใครและการสูญเสีย norm L1 อาจมีวิธีแก้ปัญหาที่หลากหลาย

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ ถ้าคุณดูที่ด้านบนสุดของโพสต์นี้ผู้เขียนกล่าวว่า L2 norm มีทางออกที่ไม่เหมือนใครและ L1 norm อาจมีวิธีแก้ปัญหามากมาย ฉันเข้าใจสิ่งนี้ในแง่ของการทำให้เป็นมาตรฐาน แต่ไม่ใช่ในแง่ของการใช้ L1 norm หรือ L2 norm ในฟังก์ชันการสูญเสีย หากคุณดูกราฟของฟังก์ชั่นของสเกลาร์ x (x ^ 2 และ | x |) คุณจะเห็นว่าทั้งคู่มีวิธีแก้ปัญหาที่ไม่เหมือนใคร

16 regression lasso regularization

1

อนุพันธ์ของฟังก์ชันการเปิดใช้งาน ReLU คืออะไร

อนุพันธ์ของฟังก์ชันการเปิดใช้งาน ReLU คืออะไร: ReLU(x)=max(0,x)ReLU(x)=max(0,x) \mathrm{ReLU}(x) = \mathrm{max}(0, x) แล้วกรณีพิเศษที่ฟังก์ชันมีความไม่ต่อเนื่องที่ไหร่?x=0x=0x=0

16 self-study neural-networks

3

AUC-ROC อยู่ระหว่าง 0-0.5 หรือไม่

ค่า AUC-ROC อยู่ระหว่าง 0-0.5 หรือไม่ รุ่นส่งออกค่าระหว่าง 0 ถึง 0.5 หรือไม่?

16 roc model-evaluation auc

2

ความแตกต่างระหว่างการเลือกคุณสมบัติตาม“ F ถดถอย” และขึ้นอยู่กับค่า ?

การเปรียบเทียบคุณสมบัติต่าง ๆ โดยใช้คุณลักษณะF-regressionเดียวกับการเชื่อมโยงคุณสมบัติกับฉลากแต่ละรายการและการสังเกตค่าหรือไม่R2R2R^2 ฉันมักจะเห็นเพื่อนร่วมงานของฉันใช้F regressionสำหรับการเลือกคุณสมบัติในการเรียนรู้ของเครื่องจากsklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` บางคนบอกฉัน - ทำไมมันให้ผลลัพธ์เช่นเดียวกับที่สัมพันธ์กับตัวแปรฉลาก / depedendent? ข้อได้เปรียบของการใช้งานF_regressionในการเลือกคุณสมบัติ ไม่ชัดเจนสำหรับฉัน นี่คือรหัสของฉัน: ฉันใช้mtcarsชุดข้อมูลจากR: import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical …

16 feature-selection python scikit-learn r-squared f-test

2

การจัดการกับขนาดที่เป็นเอกเทศในรุ่นผสม

สมมติว่าเรามีแบบจำลอง mod <- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects summary(model) Random effects: …

16 mixed-model lme4-nlme overfitting singular

3

อะไรคือค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนเมื่อตัวส่วนเท่ากับ 0

ความแม่นยำหมายถึง: p = จริงบวก / (บวกจริง + บวกเท็จ) ค่าของความแม่นยำคืออะไร ((บวกจริงบวกเท็จบวก) = 0? มันเป็นเพียงไม่ได้กำหนด? คำถามเดียวกันสำหรับการเรียกคืน: r = จริงบวก / (บวกจริง + ลบเท็จ) ในกรณีนี้มูลค่าของการเรียกคืนคืออะไรถ้า (บวกจริง + เชิงลบเท็จ) = 0? ป.ล. คำถามนี้คล้ายกับคำถามอะไรคือค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบ? .

16 precision-recall