คำถามติดแท็ก references

คำถามที่ค้นหาแหล่งอ้างอิงภายนอก (หนังสือเอกสาร ฯลฯ ) เกี่ยวกับเรื่องเฉพาะ ใช้แท็กเฉพาะเจาะจงเพิ่มเติมทุกครั้ง

2
เมื่อใช้ SVM ทำไมฉันต้องขยายขนาดคุณสมบัติ
ตามเอกสารของStandardScalerวัตถุใน scikit-learn: เช่นองค์ประกอบหลายอย่างที่ใช้ในฟังก์ชันวัตถุประสงค์ของอัลกอริทึมการเรียนรู้ (เช่นเคอร์เนล RBF ของ Support Vector Machines หรือ L1 และ L1 normalizers โมเดลเชิงเส้น) สมมติว่าคุณลักษณะทั้งหมดอยู่กึ่งกลางรอบ 0 และมีความแปรปรวนในลำดับเดียวกัน หากคุณลักษณะมีความแปรปรวนที่เป็นลำดับความสำคัญมากกว่าที่อื่น ๆ มันอาจครอบงำฟังก์ชันวัตถุประสงค์และทำให้ตัวประมาณไม่สามารถเรียนรู้จากคุณลักษณะอื่นได้อย่างถูกต้องตามที่คาดไว้ ฉันควรปรับขนาดคุณสมบัติของฉันก่อนจัดประเภท มีวิธีง่าย ๆ ที่จะแสดงว่าทำไมฉันควรทำเช่นนี้? การอ้างอิงบทความทางวิทยาศาสตร์จะดียิ่งขึ้น ฉันได้พบหนึ่งแต่อาจมีอื่น ๆ อีกมากมาย

2
การอ้างอิงสำหรับการทดสอบทางสถิติสำหรับความแตกต่างระหว่างสองอัตราเดิมพัน?
ในความคิดเห็นที่นี่ @gung เขียน ฉันเชื่อว่าพวกเขาสามารถทับซ้อนกันเล็กน้อย (อาจ ~ 25%) และยังคงมีนัยสำคัญในระดับ 5% โปรดจำไว้ว่า 95% CI ที่คุณเห็นนั้นสำหรับแต่ละคนหรือ แต่การทดสอบ 2 ORs นั้นเกี่ยวกับความแตกต่างระหว่างพวกเขา อย่างไรก็ตามหากพวกเขาไม่ทับซ้อนกันเลยพวกเขาแตกต่างกันอย่างมีนัยสำคัญอย่างแน่นอน & ถ้า 95% CI ทับซ้อนกับค่าคาดคะเน OR อื่น ๆ พวกเขาจะไม่แน่นอน ไม่มีใครมีการอ้างอิงสำหรับคำสั่งดังกล่าวหรือไม่ ผู้ตรวจทานต้องการให้ฉันคำนวณว่าสองอัตราต่อรองแตกต่างกันหรือไม่

1
ML ประมาณค่าการแจกแจงเอ็กซ์โปเนนเชียล (พร้อมข้อมูลเซ็นเซอร์)
ในการวิเคราะห์การเอาตัวรอดคุณจะถือว่าเวลาการอยู่รอดของ rvมีการแจกแจงแบบเอ็กซ์โพเนนเชียล พิจารณาว่าตอนนี้ฉันมี "ผล" ของ IID RV ของx_iมีเพียงบางส่วนของผลลัพธ์เหล่านี้ที่จริงแล้ว "รับรู้เต็มที่" เช่นการสังเกตที่เหลือยังคง "มีชีวิตอยู่"XผมXiX_ix1, … ,xnx1,…,xnx_1,\dots,x_nXผมXiX_i ถ้าฉันต้องการทำการประมาณ ML สำหรับพารามิเตอร์ rateของการกระจายฉันจะใช้การสังเกตการณ์ที่ไม่ได้รับรู้ในลักษณะที่สอดคล้อง / เหมาะสมได้อย่างไร ฉันเชื่อว่าพวกเขายังคงมีข้อมูลที่เป็นประโยชน์สำหรับการประเมินλλ\lambda ใครช่วยแนะนำฉันเกี่ยวกับวรรณกรรมในหัวข้อนี้ ฉันแน่ใจว่ามันมีอยู่ อย่างไรก็ตามฉันมีปัญหาในการค้นหาคำหลัก / คำค้นหาที่ดีสำหรับหัวข้อ

2
การประมาณอัตราส่วนความเสี่ยงที่ปรับแล้วในข้อมูลไบนารีโดยใช้การถดถอยแบบปัวซอง
ฉันสนใจที่จะประเมินอัตราส่วนความเสี่ยงที่ปรับแล้วซึ่งคล้ายกับวิธีที่เราประมาณการอัตราต่อรองที่ปรับแล้วโดยใช้การถดถอยโลจิสติกส์ วรรณกรรมบางฉบับ (เช่นนี้ ) บ่งชี้ว่าการใช้การถดถอยปัวซองกับข้อผิดพลาดมาตรฐานของฮิเบอร์ - ไวท์เป็นวิธีที่ใช้แบบจำลองในการทำสิ่งนี้ ฉันไม่พบวรรณกรรมเกี่ยวกับวิธีการปรับค่าความแปรปรวนร่วมต่อเนื่องที่มีผลต่อสิ่งนี้ การจำลองอย่างง่ายต่อไปนี้แสดงให้เห็นว่าปัญหานี้ไม่ตรงไปตรงมามาก: arr <- function(BLR,RR,p,n,nr,ce) { B = rep(0,nr) for(i in 1:nr){ b <- runif(n)<p x <- rnorm(n) pr <- exp( log(BLR) + log(RR)*b + ce*x) y <- runif(n)<pr model <- glm(y ~ b + x, family=poisson) B[i] <- coef(model)[2] } return( mean( …

1
ทดสอบว่าตัวอย่างของการแจกแจงทวินามสองตัวอย่างเป็นไปตาม p เดียวกันหรือไม่
สมมติว่าฉันได้ทำ: n1n1n_1 การทดลองอิสระด้วยอัตราความสำเร็จที่ไม่รู้จัก p1p1p_1 และสังเกต k1k1k_1 ประสบความสำเร็จ n2n2n_2 การทดลองอิสระด้วยอัตราความสำเร็จที่ไม่รู้จัก p2p2p_2 และสังเกต k2k2k_2 ประสบความสำเร็จ ถ้าตอนนี้ p1=p2=:pp1=p2=:pp_1 = p_2 =: p แต่ยังไม่ทราบความน่าจะเป็น p(k2)p(k2)p(k_2) สังเกต k2k2k_2 สำหรับที่กำหนด k1k1k_1(หรือกลับกัน) เป็นสัดส่วนกับดังนั้นถ้าฉันต้องการทดสอบp_1 \ neq p_2ฉันแค่ต้องการดูว่า ผลคูณของการแจกแจงที่สอดคล้องกันการสังเกตของฉันคือ∫10B(n1,p,k1)B(n2,p,k2)dp=1n1+n2+1(n1k1)(n2k2)(n1+n2k1+k2)−1∫01B(n1,p,k1)B(n2,p,k2)dp=1n1+n2+1(n1k1)(n2k2)(n1+n2k1+k2)−1\int_0^1 B(n_1,p,k_1) B(n_2, p, k_2) \text{d}p = \frac{1}{n_1+n_2+1}\binom{n_1}{k_1}\binom{n_2}{k_2}\binom{n_1+n_2}{k_1+k_2}^{-1}p1≠p2p1≠p2p_1 \neq p_2 จนถึงตอนนี้สำหรับการปรับแต่งล้อ ตอนนี้ปัญหาของฉันคือฉันไม่พบสิ่งนี้ในวรรณคดีและฉันอยากรู้: คำศัพท์ทางเทคนิคสำหรับการทดสอบนี้หรืออะไรที่คล้ายกันคืออะไร

3
หนังสือเกี่ยวกับนิเวศวิทยาทางสถิติ?
ฉันรู้ว่าคำถามนี้ถูกถามมาก่อน: หนังสืออ้างอิงสำหรับการศึกษาทางนิเวศวิทยาแต่ไม่ใช่สิ่งที่ฉันกำลังมองหา สิ่งที่ฉันกำลังมองหาคือถ้าใครสามารถแนะนำหนังสือที่ดี (หรืออ้างอิงที่เป็นที่ยอมรับ) เกี่ยวกับนิเวศวิทยาทางสถิติ? ฉันมีความเข้าใจเกี่ยวกับสถิติเป็นอย่างดีดังนั้นหนังสือเล่มนี้อาจอยู่ในระดับใดก็ได้ ฉันจะใช้หนังสือเล่มนี้เพื่อสอนตัวเองเกี่ยวกับการประยุกต์ใช้สถิติทางนิเวศวิทยามากกว่าสิ่งอื่นดังนั้นแม้แต่หนังสือเกริ่นนำที่มีตัวอย่างที่ดี / น่าสนใจก็จะได้รับการชื่นชมมาก นอกจากนี้งานวิจัยของฉันมีแนวโน้มที่จะมุ่งเน้นไปที่สถิติแบบเบย์ดังนั้นหนังสือที่รวมเอาสถิติแบบเบย์นั้นดียิ่งขึ้น!

1
การทดสอบที่ดีมีประโยชน์และมีลักษณะเฉพาะสำหรับการออกแบบเชิงสถิติของการทดลอง
มีปรากฏการณ์มากกว่าที่การออกแบบการทดลองอาจนำไปใช้มากกว่าที่จะมีกลยุทธ์การออกแบบที่ถูกต้องทางเลือก สิ่งนี้ควรเป็นจริงแม้ว่าจะมีหลายวิธีในการออกแบบการทดสอบอย่างถูกต้อง อะไรคือ "ปัญหา" ที่ดีที่สุดที่แสดงให้เห็นถึงคุณค่าและความแตกต่างของการออกแบบการทดลองที่ดีที่สุด (A, D, E, C, V, phi, .... ) คุณสามารถจัดหาหนังสือลิงก์บทความข้อมูลอ้างอิงหรือความคิดเห็นเชิงประจักษ์ที่ขับเคลื่อนไปด้วยดีอย่างน้อยได้หรือไม่?

2
ตำราเรียนเบื้องต้นเกี่ยวกับแบบจำลองที่ไม่ใช่พารามิเตอร์แบบเบส์?
ฉันต้องการปิดหัวของฉันในหัวข้อนี้ แต่การเรียนรู้จากเอกสารและแบบฝึกหัดนั้นยากเพราะมีช่องว่างมากมายที่มักจะถูกเติมในตำราเรียน ถ้ามันเป็นสิ่งสำคัญที่ฉันมีพื้นหลังทางคณิตศาสตร์ที่ค่อนข้างแข็งแกร่งเหมือนที่ฉันทำปริญญาเอกของฉัน ในคณิตศาสตร์ประยุกต์ (CFD จะแม่นยำยิ่งขึ้น)

1
หนังสือที่แนะนำเกี่ยวกับสถิติเชิงพื้นที่
อะไรคือหนังสือที่ดีที่สุดสำหรับการศึกษา i) ความแปรปรวนของตัวแปร univariate และหลายตัวแปร (ข้อมูลจริงนับจำนวน) ทั่วโดเมนเชิงพื้นที่ ii) การสุ่มตัวอย่างตัวแปร univariate หรือตัวแปรหลายตัวแปรตามการกระจายข้ามพื้นที่เชิงพื้นที่ (การสุ่มตัวอย่างเชิงพื้นที่ในระยะสั้น)

1
สถิติที่ใช้บ่อยสำหรับคนที่มีความเชี่ยวชาญในทฤษฎีความน่าจะเป็นสมัยใหม่
มาจากพื้นฐานที่เข้มงวดในการวิเคราะห์และทฤษฎีความน่าจะเป็นที่ทันสมัยฉันพบว่าสถิติแบบเบย์ตรงไปตรงมาและเข้าใจง่ายและสถิติบ่อยครั้งทำให้เกิดความสับสนและไม่เข้าใจง่ายอย่างเหลือเชื่อ ดูเหมือนว่าผู้ใช้บ่อยกำลังทำสถิติแบบเบย์จริง ๆ ยกเว้น "นักบวชลับ" ที่ไม่มีแรงจูงใจหรือคำจำกัดความที่ดี ในทางกลับกันนักสถิติที่ยอดเยี่ยมจำนวนมากที่เข้าใจทั้งสองมุมมองได้อธิบายมุมมองของผู้ใช้บ่อยดังนั้นจึงต้องมีบางสิ่งที่ฉันไม่เข้าใจ แทนที่จะยอมแพ้และประกาศตัวเองเป็นชาวเบย์ฉันต้องการเรียนรู้เพิ่มเติมเกี่ยวกับมุมมองของผู้ใช้บ่อย ๆ เพื่อพยายาม "หาความรู้" อย่างแท้จริง อะไรคือการอ้างอิงที่ดีสำหรับการเรียนรู้สถิติผู้ใช้บ่อยจากมุมมองที่เข้มงวด นึกคิดฉันกำลังมองหาหนังสือประเภทนิยามทฤษฎีบทพิสูจน์หรือปัญหาที่ยากอาจกำหนดว่าโดยการแก้ไขพวกเขาฉันจะได้รับความคิดที่ถูกต้อง ฉันได้อ่าน "เนื้อหาเชิงปรัชญา" มากกว่านี้แล้วอาจพบว่าการค้นหาทางอินเทอร์เน็ต - หน้าวิกิ, ไฟล์ PDF สุ่มจาก. edu / ~ ไซต์สุ่มสุ่ม ฯลฯ - และมันไม่ได้ช่วยอะไรเลย

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
แนะนำการอ้างอิงเกี่ยวกับน้ำหนักตัวอย่างของแบบสำรวจ
มาตั้งเป้าหมายไว้บ้างในระดับเกริ่นนำบทความและตำราบางเล่ม ใช้แล้วมีประโยชน์มากกว่ารวมถึงรหัส R นั้นยอดเยี่ยม ขอบคุณ!

4
วิธีการทดสอบไคสแควร์หลังการทดสอบหลายตารางในตาราง 2 X 3
ชุดข้อมูลของฉันประกอบด้วยการเสียชีวิตโดยรวมหรือการอยู่รอดของสิ่งมีชีวิตที่ไซต์สามประเภททั้งฝั่งกลางและกลาง ตัวเลขในตารางด้านล่างแสดงถึงจำนวนเว็บไซต์ 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 ฉันต้องการทราบว่า # ของเว็บไซต์ที่มีอัตราการตาย 100% มีความสำคัญตามประเภทของไซต์หรือไม่ ถ้าฉันใช้ไคสแควร์ 2 x 3 ฉันจะได้ผลลัพธ์ที่สำคัญ มีการเปรียบเทียบแบบคู่หลังที่ฉันสามารถเรียกใช้หรือฉันควรใช้ ANOVA จิสติกส์หรือการถดถอยด้วยการแจกแจงแบบทวินามหรือไม่ ขอบคุณ!

4
การอ้างอิงการเพิ่มประสิทธิภาพเชิงตัวเลขสำหรับนักสถิติ
ฉันกำลังมองหาการอ้างอิงที่มั่นคง (หรือการอ้างอิง) เกี่ยวกับเทคนิคการเพิ่มประสิทธิภาพเชิงตัวเลขที่มุ่งเป้าไปที่นักสถิตินั่นคือมันจะใช้วิธีการเหล่านี้กับปัญหาเชิงอนุมานมาตรฐาน (เช่น MAP / MLE ในแบบจำลองทั่วไป) สิ่งต่าง ๆ เช่นการไล่ระดับสี (ตรงและสุ่ม), EM และ spinoffs / ภาพรวม, การจำลองการหลอม ฯลฯ ฉันหวังว่ามันจะมีบันทึกการใช้งานจริงบางอย่าง (มักขาดในเอกสาร) ไม่จำเป็นต้องชัดเจนอย่างสมบูรณ์ แต่อย่างน้อยก็ควรมีบรรณานุกรมที่เป็นของแข็ง การค้นหาคร่าวๆปรากฏขึ้นมาสองสามข้อความ: การวิเคราะห์เชิงตัวเลขสำหรับนักสถิติโดย Ken Lange และวิธีการเชิงตัวเลขของ John Monahan ความเห็นของแต่ละคนดูหลากหลาย (และกระจัดกระจาย) จากการตรวจสารบัญสองอย่างแสดงให้เห็นว่าหนังสือของ Lange ฉบับที่ 2 นั้นใกล้เคียงกับสิ่งที่ฉันทำมากที่สุด

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.