สถิติและข้อมูลขนาดใหญ่ probit

10

LogitและProbit modelแตกต่างกันอย่างไร? ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยแบบลอจิสติกเมื่อใดและเมื่อใดควรใช้ Probit หากมีวรรณกรรมใด ๆ ที่กำหนดโดยใช้Rก็จะเป็นประโยชน์เช่นกัน

299 r generalized-linear-model logistic probit link-function

5

วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง

ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

การตีความตัวแปรแฝงของตัวแบบเชิงเส้นทั่วไป (GLM)

เวอร์ชั่นสั้น: เรารู้ว่าการถดถอยโลจิสติกและการถดถอยแบบ probit สามารถตีความได้ว่าเกี่ยวข้องกับตัวแปรแฝงอย่างต่อเนื่องที่ได้รับการแยกตามเกณฑ์คงที่บางส่วนก่อนที่จะสังเกต การตีความตัวแปรแฝงที่คล้ายกันมีให้สำหรับการพูดการถดถอยของปัวซองหรือไม่ วิธีการเกี่ยวกับการถดถอยแบบทวินาม (เช่น logit หรือ probit) เมื่อมีผลลัพธ์ที่ไม่ต่อเนื่องกันมากกว่าสองรายการ ในระดับทั่วไปส่วนใหญ่มีวิธีการตีความ GLM ใด ๆ ในแง่ของตัวแปรแฝงหรือไม่? รุ่นยาว: วิธีมาตรฐานในการสร้างแรงจูงใจให้กับโมเดล probit สำหรับผลลัพธ์ไบนารี (เช่นจาก Wikipedia ) มีดังต่อไปนี้ เรามีไม่มีใครสังเกต / แฝงผลตัวแปรที่มีการกระจายตามปกติเงื่อนไขในการทำนายXตัวแปรแฝงนี้อยู่ภายใต้กระบวนการ thresholding เพื่อให้ผลที่ไม่ต่อเนื่องเราจริงสังเกตคือถ้า ,ถ้า<\ สิ่งนี้นำไปสู่ความน่าจะเป็นของให้เพื่อให้อยู่ในรูปแบบของ CDF ปกติพร้อมค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานฟังก์ชันของ thresholdและความชันของการถดถอยของบนX U = 1 Y ≥ γ U = 0 Y < γ U = 1 X …

21 logistic generalized-linear-model poisson-regression probit latent-variable

1

2SLS แต่ Probit ขั้นที่สอง

ฉันพยายามใช้การวิเคราะห์ตัวแปรเครื่องมือเพื่ออนุมานสาเหตุของข้อมูลเชิงสังเกต ฉันได้เจอการถดถอยสองขั้นตอนสองขั้น (2SLS) ซึ่งมีแนวโน้มที่จะแก้ไขปัญหา endogeneity ในการวิจัยของฉัน อย่างไรก็ตามฉันอยากจะเป็นด่านแรกที่จะเป็น OLS และด่านที่สองเพื่อเป็นผู้ที่อยู่ภายใน 2SLS จากการอ่านและการค้นหาของฉันฉันได้เห็นนักวิจัยใช้ 2SLS หรือ prost ขั้นตอนแรกและขั้นตอนที่สอง OLS แต่ไม่ใช่รอบอื่น ๆ ซึ่งเป็นสิ่งที่ฉันพยายามบรรลุ ฉันกำลังใช้คำสั่งStata และivregใน Stata สำหรับ 2SLS แบบตรง

15 stata probit instrumental-variables 2sls

3

วิธีการทดสอบความเท่าเทียมกันพร้อมกันของสัมประสิทธิ์เลือกใน logit หรือ probit model?

วิธีการทดสอบความเท่าเทียมกันพร้อมกันของสัมประสิทธิ์เลือกใน logit หรือ probit model? วิธีมาตรฐานคืออะไรและสถานะของศิลปะคืออะไร?

14 hypothesis-testing logit probit

2

ตัวแบบไบนารี (Probit and Logit) ที่มีการชดเชยแบบลอการิทึม

ไม่มีใครมีรากศัพท์ว่าออฟเซ็ตทำงานในรูปแบบไบนารีเช่น probit และ logit หรือไม่ ในปัญหาของฉันหน้าต่างติดตามผลอาจมีความยาวแตกต่างกันไป สมมติว่าผู้ป่วยได้รับการยิงป้องกันโรคในการรักษา การยิงเกิดขึ้นในเวลาที่ต่างกันดังนั้นหากผลลัพธ์เป็นตัวบ่งชี้ไบนารีว่ามีการเกิดวูบวาบเกิดขึ้นหรือไม่คุณจำเป็นต้องปรับเปลี่ยนตามความจริงที่ว่าบางคนมีเวลามากขึ้นในการแสดงอาการ ดูเหมือนว่าความน่าจะเป็นของการลุกเป็นไฟจะแปรผันตามความยาวของระยะเวลาติดตามผล มันไม่ชัดเจนสำหรับฉันในทางคณิตศาสตร์ว่าไบนารีโมเดลที่มีอ็อฟเซ็ตบันทึกสัญชาตญาณนี้อย่างไร (เหมือนกับปัวซง) ออฟเซ็ตเป็นตัวเลือกมาตรฐานทั้งในStata (หน้า 1666)และRและฉันสามารถเห็นมันสำหรับปัวซองได้อย่างง่ายดายแต่กรณีไบนารีนั้นเป็นบิตทึบแสง ตัวอย่างเช่นถ้าเรามี นี่คือพีชคณิตเทียบเท่ากับแบบจำลองที่ไหน ซึ่งเป็นรูปแบบมาตรฐานที่มีค่าสัมประสิทธิ์ในบีบบังคับให้1นี้เรียกว่าลอการิทึมชดเชย ฉันมีปัญหาในการหาวิธีการทำงานนี้ถ้าเราแทนที่กับหรือ()E[y|x]Z=exp{x′β},E[y|x]Z=exp⁡{x′β},\begin{equation} \frac{E[y \vert x]}{Z}=\exp\{x'\beta\}, \end{equation}E[y|x]=exp{x′β+logZ},E[y|x]=exp⁡{x′β+log⁡Z},\begin{equation}E[y \vert x]=\exp\{x'\beta+\log{Z}\}, \end{equation}logZlog⁡Z\log Z111exp{}exp⁡{}\exp\{\}Φ()Φ()\Phi()Λ()Λ()\Lambda() อัปเดต # 1: กรณี logit ถูกอธิบายด้านล่าง อัปเดต # 2: นี่คือคำอธิบายของสิ่งที่ดูเหมือนว่าเป็นการใช้หลักของ offsets สำหรับโมเดลที่ไม่ใช่ปัวซองเช่น probit ออฟเซ็ตสามารถใช้ในการทดสอบอัตราส่วนความน่าจะเป็นของสัมประสิทธิ์ฟังก์ชั่นดัชนี ก่อนอื่นให้คุณประเมินโมเดลที่ไม่มีข้อ จำกัด และจัดเก็บค่าประมาณ สมมติว่าคุณต้องการที่จะทดสอบสมมติฐานที่ว่า 2 จากนั้นคุณสร้างตัวแปรให้พอดีกับแบบจำลองและใช้เป็นออฟเซ็ตที่ไม่ใช่ลอการิทึม นี่เป็นโมเดลที่มีข้อ จำกัด การทดสอบ LR …

12 logit probit logarithm offset

2

Probit กำลังสองน้อยที่สุดสองขั้นตอน (2SLS)

ฉันได้รับการบอกว่าเป็นไปได้ที่จะเรียกใช้การถดถอย IV แบบสองขั้นตอนโดยขั้นตอนแรกเป็น probit และขั้นตอนที่สองคือ OLS เป็นไปได้ไหมที่จะใช้ 2SLS หากระยะแรกเป็น probit แต่ขั้นตอนที่สองเป็นแบบ probit / poisson?

12 binary-data instrumental-variables probit 2sls

3

ผลกระทบเล็กน้อยของรุ่น Probit และ Logit

ใครสามารถอธิบายวิธีการคำนวณผลกระทบส่วนเพิ่มของโมเดล Probit และ Logit ในแง่ของคนธรรมดา ฉันยังใหม่กับสถิติและฉันสับสนเกี่ยวกับแบบจำลองทั้งสองนี้

12 logistic interpretation logit probit

2

“ การถดถอยแบบขั้นตอน” ทำงานอย่างไร

ฉันใช้รหัส R ต่อไปนี้เพื่อให้พอดีกับโมเดล probit: p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1) stepwise(p1, direction='backward/forward', criterion='BIC') ฉันต้องการที่จะรู้ว่าสิ่งที่ทำstepwiseและbackward/forwardทำสิ่งที่แน่นอนและวิธีการเลือกตัวแปร?

11 r probit stepwise-regression

1

ฟังก์ชันความน่าจะเป็นที่ได้รับสำหรับ IV-probit

ดังนั้นฉันจึงมีรูปแบบไบนารี่โดยที่เป็นตัวแปรที่ไม่ซ่อนเร้นและข้อสังเกต กำหนดและจึงเป็นเครื่องมือของฉัน ดังนั้นในระยะสั้นรูปแบบคือ เนื่องจากข้อกำหนดข้อผิดพลาดไม่ขึ้นกับ แต่ ฉันใช้ประโยชน์จากรุ่น IV-probity∗1y1∗y_1^*y1∈{0,1}y1∈{0,1}y_1 \in \{0,1\}y2y2y_2y1y1y_1z2z2z_2y∗1y2y1===δ1z1+α1y2+u1δ21z1+δ22z2+v2=zδ+v21[y∗>0]y1∗=δ1z1+α1y2+u1y2=δ21z1+δ22z2+v2=zδ+v2y1=1[y∗>0]\begin{eqnarray} y_1^*&=& \delta_1 z_1 + \alpha_1 y_2 + u_1 \\ y_2 &=& \delta_{21} z_1 + \delta_{22}z_2 + v_2 = \textbf{z}\delta + v_2 \\ y_1 &=& \text{1}[y^*>0] \end{eqnarray}(u1v2)∼N(0,[1ηητ2]).(u1v2)∼N(0,[1ηητ2]).\begin{eqnarray} \begin{pmatrix} u_1 \\ v_2 \end{pmatrix} \sim \mathcal{N} \left(\textbf{0} \; , \begin{bmatrix} 1 &\eta \\ \eta …

10 maximum-likelihood econometrics probit

1

ความสอดคล้องของ 2SLS พร้อมกับตัวแปรภายนอก Binary

ฉันได้อ่านว่าตัวประมาณค่า 2SLS ยังคงสอดคล้องกันแม้จะมีตัวแปร endogenous แบบไบนารี ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ) ในระยะแรกจะใช้โมเดลการรักษาแบบ Probit แทนแบบจำลองเชิงเส้น มีหลักฐานที่เป็นทางการใด ๆ ที่แสดงว่า 2SLS ยังคงสอดคล้องกันแม้ในระยะที่ 1 เป็น probit หรือ logit model? แล้วถ้าผลออกมาเป็นเลขฐานสองล่ะ? ฉันเข้าใจว่าถ้าเรามีผลลัพธ์แบบไบนารีและตัวแปร endogenous แบบไบนารี (ขั้นตอนที่ 1 และ 2 เป็นทั้งแบบไบนารี probit / logit) การเลียนแบบวิธี 2SLS จะสร้างการประมาณที่ไม่สอดคล้องกัน มีหลักฐานอย่างเป็นทางการสำหรับเรื่องนี้หรือไม่? หนังสือเศรษฐมิติของ Wooldridge มีการพูดคุยกันบ้าง แต่ฉันคิดว่ามันไม่มีข้อพิสูจน์ที่ชัดเจนในการแสดงความไม่ลงรอยกัน data sim; do i=1 to 500000; iv=rand("normal",0,1); x2=rand("normal",0,1); …

10 probit instrumental-variables endogeneity

3

วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square

ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

1

รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน

ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร

สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

คำถามติดแท็ก probit