สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
จำนวนจุดน้อยที่สุดสำหรับการถดถอยเชิงเส้น
จำนวนการสังเกตการณ์ขั้นต่ำที่ "สมเหตุสมผล" จะมองหาแนวโน้มเมื่อเวลาผ่านไปด้วยการถดถอยเชิงเส้นคืออะไร แล้วแบบจำลองกำลังสองเหมาะสมกับอะไร? ฉันทำงานกับดัชนีรวมของความไม่เท่าเทียมกันในสุขภาพ (SII, RII) และมีเพียง 4 คลื่นของการสำรวจดังนั้น 4 คะแนน (1997,2001,2004,2008) ฉันไม่ใช่นักสถิติ แต่ฉันมีความประทับใจที่น่าประทับใจ 4 คะแนนไม่เพียงพอ คุณมีคำตอบและ / หรือการอ้างอิง? ขอบคุณมาก, Françoise
16 regression 

2
เทคนิคใดบ้างสำหรับการสุ่มตัวอย่างสองตัวแปรสุ่มที่สัมพันธ์กัน?
เทคนิคใดบ้างสำหรับการสุ่มตัวอย่างตัวแปรสุ่มที่มีความสัมพันธ์สองตัว: ถ้าการแจกแจงความน่าจะเป็นของพวกเขาถูกแปร (เช่น log-normal) หากพวกเขามีการแจกแจงแบบไม่อิงพารามิเตอร์ ข้อมูลเป็นอนุกรมเวลาสองชุดที่เราสามารถคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ได้ เราต้องการจำลองข้อมูลเหล่านี้ในอนาคตโดยสมมติว่าความสัมพันธ์ทางประวัติศาสตร์และอนุกรมเวลา CDF นั้นคงที่ สำหรับกรณี (2) อะนาล็อก 1-D จะสร้าง CDF และตัวอย่างจากมัน ดังนั้นฉันเดาว่าฉันสามารถสร้าง CDF 2 มิติและทำสิ่งเดียวกัน อย่างไรก็ตามฉันสงสัยว่ามีวิธีที่จะเข้าใกล้โดยใช้ 1-D CDFs แต่ละรายการและเชื่อมโยงตัวเลือกอย่างใด ขอบคุณ!

2
วิธีการพล็อตขอบเขตการตัดสินใจใน R สำหรับรูปแบบการถดถอยโลจิสติก?
ฉันสร้างโมเดลการถดถอยโลจิสติกโดยใช้ glm ใน R. ฉันมีตัวแปรอิสระสองตัว ฉันจะพล็อตขอบเขตการตัดสินใจของโมเดลของฉันในพล็อตกระจายของสองตัวแปรได้อย่างไร ตัวอย่างเช่นฉันจะพล็อตร่างเช่น: http://onlinecourses.science.psu.edu/stat557/node/55 ขอบคุณ
16 r  logistic 

2
Scikit วิธีที่ถูกต้องในการปรับเทียบตัวแยกประเภทด้วย CalibratedClassifierCV
Scikit มีCalibratedClassifierCVซึ่งช่วยให้เราสามารถสอบเทียบโมเดลของเราในคู่ X, y ที่เฉพาะเจาะจง มันยังระบุไว้อย่างชัดเจนว่าdata for fitting the classifier and for calibrating it must be disjoint. หากพวกเขาจะต้องแยกจากกันมันถูกต้องหรือไม่ที่จะฝึกตัวจําแนก model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) ฉันกลัวว่าด้วยการใช้ชุดฝึกอบรมชุดเดียวกันฉันกำลังฝ่าฝืนdisjoint dataกฎ ทางเลือกอื่นอาจมีชุดการตรวจสอบความถูกต้อง my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) ซึ่งมีข้อเสียคือการทิ้งข้อมูลไว้เพื่อการฝึกอบรมน้อยลง นอกจากนี้หากCalibratedClassifierCVควรพอดีกับรุ่นที่พอดีกับชุดการฝึกอบรมที่แตกต่างกันเหตุใดจึงเป็นตัวเลือกเริ่มต้นcv=3ซึ่งจะพอดีกับตัวประมาณการพื้นฐาน การตรวจสอบความถูกต้องไขว้จัดการกฎความไม่ลงรอยกันด้วยตัวเองหรือไม่? คำถาม: วิธีที่ถูกต้องในการใช้ CalibratedClassifierCV คืออะไร?

3
`คาดการณ์สุ่มป่าเถื่อน 'ประเมินความน่าจะเป็นของคลาสได้อย่างไร
วิธีการที่ไม่randomForestน่าจะเป็นระดับประมาณการแพคเกจเมื่อฉันใช้predict(model, data, type = "prob")? ฉันใช้rangerสำหรับฝึกป่าสุ่มโดยใช้probability = Tอาร์กิวเมนต์เพื่อทำนายความน่าจะเป็น rangerพูดในเอกสารว่า: ปลูกป่าน่าจะเป็นเหมือนใน Malley และคณะ (2012) ฉันจำลองข้อมูลและลองทั้งแพ็คเกจและได้ผลลัพธ์ที่แตกต่างกันมาก (ดูรหัสด้านล่าง) ดังนั้นฉันรู้ว่ามันใช้เทคนิคต่าง ๆ (จากนั้นแรนเจอร์) เพื่อประเมินความน่าจะเป็น แต่อันไหน simulate_data <- function(n){ X <- data.frame(matrix(runif(n*10), ncol = 10)) Y <- data.frame(Y = rbinom(n, size = 1, prob = apply(X, 1, sum) %>% pnorm(mean = 5) ) %>% as.factor() ) …

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

3
ความแตกต่างระหว่าง statsmodel OLS และ scikit การถดถอยเชิงเส้น
ฉันมีคำถามเกี่ยวกับวิธีการที่แตกต่างกันสองวิธีจากห้องสมุดที่แตกต่างกันซึ่งดูเหมือนจะทำงานเดียวกัน ฉันกำลังพยายามสร้างแบบจำลองการถดถอยเชิงเส้น นี่คือรหัสที่ฉันใช้ห้องสมุด statsmodel กับ OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) results = model.fit() print "GFT + Wiki / GT R-squared", results.rsquared เอกสารนี้พิมพ์GFT + Wiki / GT R-squared 0.981434611923 และอันที่สองคือ scikit Learn library วิธีการโมเดลเชิงเส้น: model = LinearRegression() model.fit(X_train, y_train) …


3
เมื่อใดที่ฉัน * ไม่ * อนุญาตให้เอฟเฟกต์คงที่เพื่อเปลี่ยนแปลงระดับเอฟเฟกต์แบบสุ่มในโมเดลเอฟเฟกต์ผสม
ด้วยตัวแปรที่คาดการณ์ (P), เอฟเฟกต์แบบสุ่ม (R) และเอฟเฟกต์คงที่ (F) เราสามารถใส่เอฟเฟกต์ผสม * สองรูปแบบ ( ไวยากรณ์lme4 ): m1 = lmer( P ~ (1|R) + F ) m2 = lmer( P ~ (1+F|R) + F) ตามที่ฉันเข้าใจแล้วรุ่นที่สองคือรุ่นที่อนุญาตให้เอฟเฟกต์คงที่ในระดับที่แตกต่างกันของเอฟเฟกต์แบบสุ่ม ในการวิจัยของฉันฉันมักจะใช้แบบจำลองเอฟเฟกต์ผสมเพื่อวิเคราะห์ข้อมูลจากการทดลองที่ดำเนินการในผู้เข้าร่วมหลายคน ฉันจำลองผู้เข้าร่วมว่าเป็นเอฟเฟกต์แบบสุ่มและการทดลองเชิงทดลองเป็นเอฟเฟกต์คงที่ ฉันคิดว่ามันสมเหตุสมผลแล้วที่จะให้ระดับที่เอฟเฟกต์คงที่มีผลต่อประสิทธิภาพในการทดสอบนั้นแตกต่างกันไปตามผู้เข้าร่วม อย่างไรก็ตามฉันมีปัญหาในการจินตนาการภายใต้สถานการณ์ที่ฉันไม่ควรอนุญาตให้มีผลกระทบคงที่ในระดับที่แตกต่างกันของผลสุ่มดังนั้นคำถามของฉันคือ: เมื่อใดที่เราไม่ควรอนุญาตให้ใช้เอฟเฟกต์คงที่ในการปรับระดับเอฟเฟกต์แบบสุ่ม

2
เหตุใดการสูญเสียบรรทัดฐาน L2 จึงมีโซลูชันที่ไม่เหมือนใครและการสูญเสีย norm L1 อาจมีวิธีแก้ปัญหาที่หลากหลาย
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ ถ้าคุณดูที่ด้านบนสุดของโพสต์นี้ผู้เขียนกล่าวว่า L2 norm มีทางออกที่ไม่เหมือนใครและ L1 norm อาจมีวิธีแก้ปัญหามากมาย ฉันเข้าใจสิ่งนี้ในแง่ของการทำให้เป็นมาตรฐาน แต่ไม่ใช่ในแง่ของการใช้ L1 norm หรือ L2 norm ในฟังก์ชันการสูญเสีย หากคุณดูกราฟของฟังก์ชั่นของสเกลาร์ x (x ^ 2 และ | x |) คุณจะเห็นว่าทั้งคู่มีวิธีแก้ปัญหาที่ไม่เหมือนใคร

1
อนุพันธ์ของฟังก์ชันการเปิดใช้งาน ReLU คืออะไร
อนุพันธ์ของฟังก์ชันการเปิดใช้งาน ReLU คืออะไร: ReLU(x)=max(0,x)ReLU(x)=max(0,x) \mathrm{ReLU}(x) = \mathrm{max}(0, x) แล้วกรณีพิเศษที่ฟังก์ชันมีความไม่ต่อเนื่องที่ไหร่?x=0x=0x=0


2
ความแตกต่างระหว่างการเลือกคุณสมบัติตาม“ F ถดถอย” และขึ้นอยู่กับค่า ?
การเปรียบเทียบคุณสมบัติต่าง ๆ โดยใช้คุณลักษณะF-regressionเดียวกับการเชื่อมโยงคุณสมบัติกับฉลากแต่ละรายการและการสังเกตค่าหรือไม่R2R2R^2 ฉันมักจะเห็นเพื่อนร่วมงานของฉันใช้F regressionสำหรับการเลือกคุณสมบัติในการเรียนรู้ของเครื่องจากsklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` บางคนบอกฉัน - ทำไมมันให้ผลลัพธ์เช่นเดียวกับที่สัมพันธ์กับตัวแปรฉลาก / depedendent? ข้อได้เปรียบของการใช้งานF_regressionในการเลือกคุณสมบัติ ไม่ชัดเจนสำหรับฉัน นี่คือรหัสของฉัน: ฉันใช้mtcarsชุดข้อมูลจากR: import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical …

2
การจัดการกับขนาดที่เป็นเอกเทศในรุ่นผสม
สมมติว่าเรามีแบบจำลอง mod <- Y ~ X*Condition + (X*Condition|subject) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects summary(model) Random effects: …

3
อะไรคือค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนเมื่อตัวส่วนเท่ากับ 0
ความแม่นยำหมายถึง: p = จริงบวก / (บวกจริง + บวกเท็จ) ค่าของความแม่นยำคืออะไร ((บวกจริงบวกเท็จบวก) = 0? มันเป็นเพียงไม่ได้กำหนด? คำถามเดียวกันสำหรับการเรียกคืน: r = จริงบวก / (บวกจริง + ลบเท็จ) ในกรณีนี้มูลค่าของการเรียกคืนคืออะไรถ้า (บวกจริง + เชิงลบเท็จ) = 0? ป.ล. คำถามนี้คล้ายกับคำถามอะไรคือค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบ? .

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.