คำถามติดแท็ก probit

โดยทั่วไปหมายถึงขั้นตอนทางสถิติที่ใช้ฟังก์ชันโพรบิต ตัวอย่างหลักซึ่งคือการถดถอยเชิงโปรบิตที่การแปลงโปรบิตของพารามิเตอร์ p ของการแจกแจงการตอบสนองแบบไบนารีถูกใช้เป็นลิงก์

10
ความแตกต่างระหว่างรุ่น logit และ probit
LogitและProbit modelแตกต่างกันอย่างไร? ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยแบบลอจิสติกเมื่อใดและเมื่อใดควรใช้ Probit หากมีวรรณกรรมใด ๆ ที่กำหนดโดยใช้Rก็จะเป็นประโยชน์เช่นกัน

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
การตีความตัวแปรแฝงของตัวแบบเชิงเส้นทั่วไป (GLM)
เวอร์ชั่นสั้น: เรารู้ว่าการถดถอยโลจิสติกและการถดถอยแบบ probit สามารถตีความได้ว่าเกี่ยวข้องกับตัวแปรแฝงอย่างต่อเนื่องที่ได้รับการแยกตามเกณฑ์คงที่บางส่วนก่อนที่จะสังเกต การตีความตัวแปรแฝงที่คล้ายกันมีให้สำหรับการพูดการถดถอยของปัวซองหรือไม่ วิธีการเกี่ยวกับการถดถอยแบบทวินาม (เช่น logit หรือ probit) เมื่อมีผลลัพธ์ที่ไม่ต่อเนื่องกันมากกว่าสองรายการ ในระดับทั่วไปส่วนใหญ่มีวิธีการตีความ GLM ใด ๆ ในแง่ของตัวแปรแฝงหรือไม่? รุ่นยาว: วิธีมาตรฐานในการสร้างแรงจูงใจให้กับโมเดล probit สำหรับผลลัพธ์ไบนารี (เช่นจาก Wikipedia ) มีดังต่อไปนี้ เรามีไม่มีใครสังเกต / แฝงผลตัวแปรที่มีการกระจายตามปกติเงื่อนไขในการทำนายXตัวแปรแฝงนี้อยู่ภายใต้กระบวนการ thresholding เพื่อให้ผลที่ไม่ต่อเนื่องเราจริงสังเกตคือถ้า ,ถ้า<\ สิ่งนี้นำไปสู่ความน่าจะเป็นของให้เพื่อให้อยู่ในรูปแบบของ CDF ปกติพร้อมค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานฟังก์ชันของ thresholdและความชันของการถดถอยของบนX U = 1 Y ≥ γ U = 0 Y < γ U = 1 X …

1
2SLS แต่ Probit ขั้นที่สอง
ฉันพยายามใช้การวิเคราะห์ตัวแปรเครื่องมือเพื่ออนุมานสาเหตุของข้อมูลเชิงสังเกต ฉันได้เจอการถดถอยสองขั้นตอนสองขั้น (2SLS) ซึ่งมีแนวโน้มที่จะแก้ไขปัญหา endogeneity ในการวิจัยของฉัน อย่างไรก็ตามฉันอยากจะเป็นด่านแรกที่จะเป็น OLS และด่านที่สองเพื่อเป็นผู้ที่อยู่ภายใน 2SLS จากการอ่านและการค้นหาของฉันฉันได้เห็นนักวิจัยใช้ 2SLS หรือ prost ขั้นตอนแรกและขั้นตอนที่สอง OLS แต่ไม่ใช่รอบอื่น ๆ ซึ่งเป็นสิ่งที่ฉันพยายามบรรลุ ฉันกำลังใช้คำสั่งStata และivregใน Stata สำหรับ 2SLS แบบตรง

3
วิธีการทดสอบความเท่าเทียมกันพร้อมกันของสัมประสิทธิ์เลือกใน logit หรือ probit model?
วิธีการทดสอบความเท่าเทียมกันพร้อมกันของสัมประสิทธิ์เลือกใน logit หรือ probit model? วิธีมาตรฐานคืออะไรและสถานะของศิลปะคืออะไร?

2
ตัวแบบไบนารี (Probit and Logit) ที่มีการชดเชยแบบลอการิทึม
ไม่มีใครมีรากศัพท์ว่าออฟเซ็ตทำงานในรูปแบบไบนารีเช่น probit และ logit หรือไม่ ในปัญหาของฉันหน้าต่างติดตามผลอาจมีความยาวแตกต่างกันไป สมมติว่าผู้ป่วยได้รับการยิงป้องกันโรคในการรักษา การยิงเกิดขึ้นในเวลาที่ต่างกันดังนั้นหากผลลัพธ์เป็นตัวบ่งชี้ไบนารีว่ามีการเกิดวูบวาบเกิดขึ้นหรือไม่คุณจำเป็นต้องปรับเปลี่ยนตามความจริงที่ว่าบางคนมีเวลามากขึ้นในการแสดงอาการ ดูเหมือนว่าความน่าจะเป็นของการลุกเป็นไฟจะแปรผันตามความยาวของระยะเวลาติดตามผล มันไม่ชัดเจนสำหรับฉันในทางคณิตศาสตร์ว่าไบนารีโมเดลที่มีอ็อฟเซ็ตบันทึกสัญชาตญาณนี้อย่างไร (เหมือนกับปัวซง) ออฟเซ็ตเป็นตัวเลือกมาตรฐานทั้งในStata (หน้า 1666)และRและฉันสามารถเห็นมันสำหรับปัวซองได้อย่างง่ายดายแต่กรณีไบนารีนั้นเป็นบิตทึบแสง ตัวอย่างเช่นถ้าเรามี นี่คือพีชคณิตเทียบเท่ากับแบบจำลองที่ไหน ซึ่งเป็นรูปแบบมาตรฐานที่มีค่าสัมประสิทธิ์ในบีบบังคับให้1นี้เรียกว่าลอการิทึมชดเชย ฉันมีปัญหาในการหาวิธีการทำงานนี้ถ้าเราแทนที่กับหรือ()E[y|x]Z=exp{x′β},E[y|x]Z=exp⁡{x′β},\begin{equation} \frac{E[y \vert x]}{Z}=\exp\{x'\beta\}, \end{equation}E[y|x]=exp{x′β+logZ},E[y|x]=exp⁡{x′β+log⁡Z},\begin{equation}E[y \vert x]=\exp\{x'\beta+\log{Z}\}, \end{equation}logZlog⁡Z\log Z111exp{}exp⁡{}\exp\{\}Φ()Φ()\Phi()Λ()Λ()\Lambda() อัปเดต # 1: กรณี logit ถูกอธิบายด้านล่าง อัปเดต # 2: นี่คือคำอธิบายของสิ่งที่ดูเหมือนว่าเป็นการใช้หลักของ offsets สำหรับโมเดลที่ไม่ใช่ปัวซองเช่น probit ออฟเซ็ตสามารถใช้ในการทดสอบอัตราส่วนความน่าจะเป็นของสัมประสิทธิ์ฟังก์ชั่นดัชนี ก่อนอื่นให้คุณประเมินโมเดลที่ไม่มีข้อ จำกัด และจัดเก็บค่าประมาณ สมมติว่าคุณต้องการที่จะทดสอบสมมติฐานที่ว่า 2 จากนั้นคุณสร้างตัวแปรให้พอดีกับแบบจำลองและใช้เป็นออฟเซ็ตที่ไม่ใช่ลอการิทึม นี่เป็นโมเดลที่มีข้อ จำกัด การทดสอบ LR …

2
Probit กำลังสองน้อยที่สุดสองขั้นตอน (2SLS)
ฉันได้รับการบอกว่าเป็นไปได้ที่จะเรียกใช้การถดถอย IV แบบสองขั้นตอนโดยขั้นตอนแรกเป็น probit และขั้นตอนที่สองคือ OLS เป็นไปได้ไหมที่จะใช้ 2SLS หากระยะแรกเป็น probit แต่ขั้นตอนที่สองเป็นแบบ probit / poisson?

3
ผลกระทบเล็กน้อยของรุ่น Probit และ Logit
ใครสามารถอธิบายวิธีการคำนวณผลกระทบส่วนเพิ่มของโมเดล Probit และ Logit ในแง่ของคนธรรมดา ฉันยังใหม่กับสถิติและฉันสับสนเกี่ยวกับแบบจำลองทั้งสองนี้

2
“ การถดถอยแบบขั้นตอน” ทำงานอย่างไร
ฉันใช้รหัส R ต่อไปนี้เพื่อให้พอดีกับโมเดล probit: p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1) stepwise(p1, direction='backward/forward', criterion='BIC') ฉันต้องการที่จะรู้ว่าสิ่งที่ทำstepwiseและbackward/forwardทำสิ่งที่แน่นอนและวิธีการเลือกตัวแปร?

1
ฟังก์ชันความน่าจะเป็นที่ได้รับสำหรับ IV-probit
ดังนั้นฉันจึงมีรูปแบบไบนารี่โดยที่เป็นตัวแปรที่ไม่ซ่อนเร้นและข้อสังเกต กำหนดและจึงเป็นเครื่องมือของฉัน ดังนั้นในระยะสั้นรูปแบบคือ เนื่องจากข้อกำหนดข้อผิดพลาดไม่ขึ้นกับ แต่ ฉันใช้ประโยชน์จากรุ่น IV-probity∗1y1∗y_1^*y1∈{0,1}y1∈{0,1}y_1 \in \{0,1\}y2y2y_2y1y1y_1z2z2z_2y∗1y2y1===δ1z1+α1y2+u1δ21z1+δ22z2+v2=zδ+v21[y∗>0]y1∗=δ1z1+α1y2+u1y2=δ21z1+δ22z2+v2=zδ+v2y1=1[y∗>0]\begin{eqnarray} y_1^*&=& \delta_1 z_1 + \alpha_1 y_2 + u_1 \\ y_2 &=& \delta_{21} z_1 + \delta_{22}z_2 + v_2 = \textbf{z}\delta + v_2 \\ y_1 &=& \text{1}[y^*>0] \end{eqnarray}(u1v2)∼N(0,[1ηητ2]).(u1v2)∼N(0,[1ηητ2]).\begin{eqnarray} \begin{pmatrix} u_1 \\ v_2 \end{pmatrix} \sim \mathcal{N} \left(\textbf{0} \; , \begin{bmatrix} 1 &\eta \\ \eta …

1
ความสอดคล้องของ 2SLS พร้อมกับตัวแปรภายนอก Binary
ฉันได้อ่านว่าตัวประมาณค่า 2SLS ยังคงสอดคล้องกันแม้จะมีตัวแปร endogenous แบบไบนารี ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ) ในระยะแรกจะใช้โมเดลการรักษาแบบ Probit แทนแบบจำลองเชิงเส้น มีหลักฐานที่เป็นทางการใด ๆ ที่แสดงว่า 2SLS ยังคงสอดคล้องกันแม้ในระยะที่ 1 เป็น probit หรือ logit model? แล้วถ้าผลออกมาเป็นเลขฐานสองล่ะ? ฉันเข้าใจว่าถ้าเรามีผลลัพธ์แบบไบนารีและตัวแปร endogenous แบบไบนารี (ขั้นตอนที่ 1 และ 2 เป็นทั้งแบบไบนารี probit / logit) การเลียนแบบวิธี 2SLS จะสร้างการประมาณที่ไม่สอดคล้องกัน มีหลักฐานอย่างเป็นทางการสำหรับเรื่องนี้หรือไม่? หนังสือเศรษฐมิติของ Wooldridge มีการพูดคุยกันบ้าง แต่ฉันคิดว่ามันไม่มีข้อพิสูจน์ที่ชัดเจนในการแสดงความไม่ลงรอยกัน data sim; do i=1 to 500000; iv=rand("normal",0,1); x2=rand("normal",0,1); …

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.