คำถามติดแท็ก references

คำถามที่ค้นหาแหล่งอ้างอิงภายนอก (หนังสือเอกสาร ฯลฯ ) เกี่ยวกับเรื่องเฉพาะ ใช้แท็กเฉพาะเจาะจงเพิ่มเติมทุกครั้ง

4
ภาพรวมของฟังก์ชั่นการสูญเสียที่ครอบคลุม?
ฉันกำลังพยายามมองโลกในมุมมองที่สำคัญบางอย่างเกี่ยวกับการเรียนรู้ของเครื่องและฉันก็สงสัยว่าถ้ามีการรักษาที่ครอบคลุมเกี่ยวกับความสูญเสียที่แตกต่างกัน (ยกกำลังสอง, บันทึก, บานพับ, พร็อกซี่ ฯลฯ ) ผมคิดว่าสิ่งที่ตามสายของที่ครอบคลุมมากขึ้นนำเสนออย่างเป็นทางการของโพสต์ที่ยอดเยี่ยมจอห์นแลงในความหมายฟังก์ชั่นการสูญเสีย

4
หนังสือที่ดีที่สุดเกี่ยวกับโมเดลเชิงเส้นทั่วไปสำหรับผู้เริ่มหัดคืออะไร
ฉันยังค่อนข้างใหม่กับโมเดลเชิงเส้นทั่วไปและฉันต่อสู้กับสัญกรณ์จำนวนมากในตำรา GLM ส่วนใหญ่ที่ฉันหยิบขึ้นมา มีหนังสือ GLM ที่ได้รับความนิยมอย่างมากที่ให้ตัวเองอ่านง่ายขึ้นหรือไม่?

2
การเลือกระหว่าง "สถิติ" โดย Freedman et al. และ "แบบจำลองทางสถิติ: ทฤษฎีและการปฏิบัติ" โดย Freedman
ฉันไม่ใช่นักสถิติ แต่ฉันสนใจสถิติมากและฉันต้องการซื้อหนังสือเพื่อเป็นข้อมูลอ้างอิง ฉันมีหนังสือสองสามเล่มเกี่ยวกับวิชาเฉพาะ (เช่นองค์ประกอบของการเรียนรู้ทางสถิติสำหรับการเรียนรู้ของเครื่องหรือการวิเคราะห์ข้อมูลแบบเบส์สำหรับ ... เอ่อการวิเคราะห์ข้อมูลแบบเบย์ :) ฉันก็กำลังมองหาหนังสือทั่วไปอีกด้วย หนังสือของฟรีแมนมักได้รับการพิจารณาอย่างดีที่นี่: คำแนะนำหนังสือสถิติขั้นสูง คุณจะแนะนำหนังสือเล่มใดสำหรับนักวิทยาศาสตร์ที่ไม่ใช่นักสถิติ? สถิติโดย Freedman, Pisani และ Purves (A) เป็นคำตอบที่เลือกสำหรับคำถามหลังและฉันจะซื้อมัน อย่างไรก็ตามฉันพบเกี่ยวกับแบบจำลองทางสถิติ: ทฤษฎีและการปฏิบัติ (B) หนังสือสองเล่มนั้นคล้ายกัน (สำหรับสิ่งที่ฉันสามารถบอกได้: Amazon จำกัด ฉันไม่ให้อ่าน ToCs แบบเต็ม ... ฉันไม่รู้ว่าทำไม) วันที่เผยแพร่อยู่ใกล้มาก อย่างไรก็ตาม: B มีราคาถูกกว่ามาก ฉันสามารถใช้ A ได้ดังนั้นหาก A ดีกว่า B อย่างชัดเจนฉันยินดีที่จะไปหา A A ยาวกว่า แต่ดูเหมือนว่าบทหลักที่หายไปจาก B นั้นเกี่ยวข้องกับความน่าจะเป็น ฉันไม่ต้องการส่วนนั้นดังนั้นถ้านั่นเป็นความแตกต่างเพียงอย่างเดียวหรือความแตกต่างหลักฉันควรซื้อที่ถูกกว่าและขนส่งได้มากกว่า :) หนังสือเล่มไหนที่คุณอยากแนะนำให้ซื้อ
16 references 

1
วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht
ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

5
ข้อผิดพลาดโดยประมาณของช่วงความมั่นใจสำหรับค่าเฉลี่ยเมื่อ
Let {Xi}ni=1{Xi}i=1n\{X_i\}_{i=1}^nจะเป็นครอบครัวของตัวแปรสุ่ม IID สละค่าใน[0,1][0,1][0,1]มีค่าเฉลี่ยμμ\muและแปรปรวนσ2σ2\sigma^2 2 ช่วงความเชื่อมั่นที่ง่ายสำหรับค่าเฉลี่ยโดยใช้σσ\sigmaเมื่อใดก็ตามที่เป็นที่รู้จักกันจะได้รับจาก P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1).P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1). P( | \bar X - \mu| > \varepsilon) \le \frac{\sigma^2}{n\varepsilon^2} \le\frac{1}{n \varepsilon^2} \qquad (1). นอกจากนี้เนื่องจากX¯−μσ/n√X¯−μσ/n\frac{\bar X- \mu}{\sigma/\sqrt{n}}ถูกกระจายแบบ asymptotically เป็นตัวแปรสุ่มมาตรฐานแบบปกติการแจกแจงแบบปกติบางครั้งใช้เพื่อ "สร้าง" ช่วงความมั่นใจโดยประมาณ ในหลายทางเลือกสอบสถิติคำตอบที่ผมได้มีการใช้ประมาณแทนนี้(1)(1)(1)เมื่อใดก็ตามที่n≥30n≥30n \geq 30 30 ฉันมักจะรู้สึกไม่สบายใจกับสิ่งนี้มาก (เกินกว่าที่คุณจะจินตนาการได้) เนื่องจากข้อผิดพลาดการประมาณนั้นไม่ได้ถูกคำนวณปริมาณ ใช้ประมาณปกติมากกว่าทำไม(1)(1)(1) ? ฉันไม่ต้องการใช้กฎกับคนตาบอดอีกเลย มีการอ้างอิงที่ดีที่สามารถสนับสนุนฉันในการปฏิเสธที่จะทำเช่นนั้นและให้ทางเลือกที่เหมาะสมหรือไม่? ( ( 1 )เป็นตัวอย่างของสิ่งที่ฉันพิจารณาทางเลือกที่เหมาะสม)n≥30n≥30n \geq 30(1)(1)(1) ที่นี่ในขณะที่และE [ | X | …

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
มีวิธีการทางสถิติใดที่ล้าสมัยและควรละเว้นจากตำราเรียน [ปิด]
ตามที่เป็นอยู่ในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบคำถาม & คำตอบของเรา เราคาดหวังคำตอบที่จะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจเรียกร้องให้มีการถกเถียงอภิปรายโต้แย้งหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงและเปิดใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อขอคำแนะนำ ปิดให้บริการใน6 ปีที่ผ่านมา ในการตอบคำถามเกี่ยวกับช่วงความเชื่อมั่นสำหรับสัดส่วนทวินามฉันได้ชี้ให้เห็นข้อเท็จจริงที่ว่าการประมาณปกติเป็นวิธีที่ไม่น่าเชื่อถือซึ่งเป็นแบบโบราณ ไม่ควรสอนเป็นวิธีแม้ว่าอาจมีข้อโต้แย้งว่ามันถูกรวมเป็นส่วนหนึ่งของบทเรียนเกี่ยวกับสิ่งที่ทำให้วิธีการที่เพียงพอ อะไรคือวิธีการทางสถิติ 'มาตรฐาน' อื่น ๆ ที่ผ่านการใช้งานตามวันที่แล้วและควรละเว้นจากตำราเรียนในอนาคต (เพื่อให้มีพื้นที่สำหรับแนวคิดที่มีประโยชน์)

4
ฟังก์ชัน logit ดีที่สุดสำหรับการสร้างแบบจำลองการถดถอยของข้อมูลไบนารีหรือไม่?
ฉันกำลังคิดเกี่ยวกับปัญหานี้ ฟังก์ชันโลจิสติกส์ปกติสำหรับการสร้างแบบจำลองข้อมูลไบนารีคือ: อย่างไรก็ตามเป็นฟังก์ชัน logit ซึ่งเป็นรูปโค้ง S จะดีที่สุดสำหรับการสร้างแบบจำลองข้อมูลหรือไม่ บางทีคุณอาจจะมีเหตุผลที่จะเชื่อว่าข้อมูลของคุณไม่เป็นไปตามปกติ S- รูปโค้ง แต่เป็นชนิดที่แตกต่างกันของเส้นโค้งด้วยโดเมน(0,1)log(p1−p)=β0+β1X1+β2X2+…log⁡(p1−p)=β0+β1X1+β2X2+… \log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X_1+\beta_2X_2+\ldots (0,1)(0,1)(0,1) มีการวิจัยเกี่ยวกับเรื่องนี้หรือไม่? บางทีคุณอาจจำลองมันเป็นฟังก์ชั่น probit หรือคล้ายกัน แต่ถ้าเป็นอย่างอื่นล่ะ? สิ่งนี้นำไปสู่การประเมินผลที่ดีขึ้นหรือไม่? แค่คิดว่าฉันมีและฉันสงสัยว่ามีงานวิจัยเกี่ยวกับเรื่องนี้หรือไม่

2
การวิเคราะห์แบบรันไทม์ของอัลกอริทึมการเรียนรู้ของเครื่องทั่วไป
ไม่มีใครอ้างอิงถึงบทสรุปของการวิเคราะห์แบบรันไทม์สำหรับอัลกอริทึมการเรียนรู้ของเครื่องทั่วไป (รสชาติที่แตกต่างของ NN, SVMs ฯลฯ )

5
ทรัพยากรที่ดีที่มีการเปรียบเทียบข้อดีข้อเสียของตัวแยกประเภทที่แตกต่างกันคืออะไร?
ตัวจําแนกคลาส 2 ระดับที่ดีที่สุดคืออะไร? ใช่ฉันเดาว่าเป็นคำถามล้านดอลลาร์และใช่ฉันรู้ว่าไม่มีทฤษฎีอาหารกลางวันฟรีและฉันได้อ่านคำถามก่อนหน้านี้ด้วย: ตัวจําแนกคลาส 2 ระดับที่ดีที่สุดสำหรับการใช้งานของคุณคืออะไร? และลักษณนามที่เลวร้ายที่สุด แต่ถึงกระนั้นฉันสนใจที่จะอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ แหล่งข้อมูลที่ดีที่มีการเปรียบเทียบลักษณะทั่วไปประโยชน์และคุณสมบัติของตัวแยกประเภทที่แตกต่างกันคืออะไร

2
'วิธีการส่งข้อความ' คืออะไร?
ฉันมีความรู้สึกที่คลุมเครือในสิ่งที่วิธีการส่งข้อความคือ: อัลกอริทึมที่สร้างการประมาณการแจกแจงโดยการสร้างการประมาณซ้ำของปัจจัยการกระจายแบบมีเงื่อนไขในการประมาณทั้งหมดของปัจจัยอื่น ๆ ทั้งหมด ผมเชื่อว่าทั้งสองเป็นตัวอย่างแปรผันข้อความผ่านและคาดว่าจะมีการขยายพันธุ์ ข้อความที่ส่งผ่านอัลกอริทึมอย่างชัดเจน / ถูกต้องคืออะไร ยินดีต้อนรับการอ้างอิง

3
การแนะนำที่ดีกับอนุกรมเวลา (พร้อม R)
ขณะนี้ฉันกำลังรวบรวมข้อมูลสำหรับการทดลองในลักษณะทางจิตสังคมที่เกี่ยวข้องกับประสบการณ์ความเจ็บปวด เป็นส่วนหนึ่งของเรื่องนี้ฉันกำลังรวบรวมการวัด GSR และ BP ทางอิเล็กทรอนิกส์จากผู้เข้าร่วมของฉันพร้อมกับรายงานตนเองและมาตรการโดยนัย ฉันมีภูมิหลังทางจิตวิทยาและรู้สึกสบายใจกับการวิเคราะห์ปัจจัยตัวแบบเชิงเส้นและการวิเคราะห์เชิงทดลอง คำถามของฉันคือทรัพยากรที่มีประโยชน์ (ฟรี) ที่ดีสำหรับการเรียนรู้เกี่ยวกับการวิเคราะห์อนุกรมเวลา ฉันเป็น newb รวมเมื่อมันมาถึงพื้นที่นี้ดังนั้นความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก ฉันมีข้อมูลนำร่องที่จะฝึกปฏิบัติ แต่ต้องการให้แผนวิเคราะห์ของฉันทำงานโดยละเอียดก่อนที่ฉันจะรวบรวมข้อมูลให้เสร็จ หากการอ้างอิงที่ให้นั้นเกี่ยวข้องกับ R นั่นก็คงจะวิเศษมาก แก้ไข: เพื่อเปลี่ยนไวยากรณ์และเพื่อเพิ่ม 'รายงานตนเองและมาตรการโดยนัย'

9
หนังสือเล่มใดที่ให้ภาพรวมของสถิติการคำนวณตามที่ใช้กับวิทยาศาสตร์คอมพิวเตอร์
ในฐานะวิศวกรซอฟต์แวร์ฉันสนใจในหัวข้อต่าง ๆ เช่นอัลกอริธึมเชิงสถิติการขุดข้อมูลการเรียนรู้เครื่องเครือข่ายแบบเบย์อัลกอริธึมการจำแนกเครือข่ายนิวรัลเครือข่ายมาร์คอฟวิธีการของมอนติคาร์โลและการสร้างตัวเลขสุ่ม โดยส่วนตัวฉันไม่ได้มีความสุขที่ได้ทำงานด้วยเทคนิคเหล่านี้ แต่ฉันต้องทำงานกับซอฟต์แวร์ที่อยู่ภายใต้ประทุนใช้พวกเขาและต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับพวกเขาในระดับสูง ฉันกำลังมองหาหนังสือที่ครอบคลุมความกว้างมาก - ไม่จำเป็นต้องเจาะลึก ฉันคิดว่าฉันสามารถเรียนรู้มากมายเกี่ยวกับการพัฒนาซอฟต์แวร์หากฉันสามารถเข้าใจรากฐานทางคณิตศาสตร์ที่อยู่เบื้องหลังอัลกอริทึมและเทคนิคที่ใช้ ชุมชนการวิเคราะห์เชิงสถิติสามารถแนะนำหนังสือที่ฉันสามารถใช้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการใช้องค์ประกอบทางสถิติต่าง ๆ ในซอฟต์แวร์ได้หรือไม่

3
หลักสูตรความผิดพลาดในการประมาณค่าเฉลี่ยที่มีประสิทธิภาพ
ฉันมีการประมาณ (ประมาณ 1,000 รายการ) และพวกเขาทั้งหมดควรจะประมาณความยืดหยุ่นในระยะยาว น้อยกว่าครึ่งหนึ่งของจำนวนนี้ประมาณโดยใช้วิธี A และที่เหลือใช้วิธี B บางแห่งที่ฉันอ่านบางสิ่งบางอย่างเช่น "ฉันคิดว่าวิธี B ประมาณการบางสิ่งที่แตกต่างจากวิธี A มากขึ้นเนื่องจากการประมาณการสูงกว่ามาก (50-60%) " ความรู้เกี่ยวกับสถิติที่แข็งแกร่งของฉันนั้นอยู่ถัดจากอะไรเลยดังนั้นฉันจึงคำนวณค่าเฉลี่ยตัวอย่างและค่ามัธยฐานของตัวอย่างทั้งสอง ... และฉันเห็นความแตกต่างทันที วิธี A มีความเข้มข้นมากความแตกต่างระหว่างค่ามัธยฐานและค่าเฉลี่ยน้อยมาก แต่ตัวอย่างวิธี B แตกต่างกันอย่างมาก ฉันได้ข้อสรุปว่าค่าผิดปกติและการวัดผิดพลาดทำให้ตัวอย่างวิธี B ดังนั้นฉันโยนค่าประมาณ 50 ค่า (ประมาณ 15%) ที่ไม่สอดคล้องกับทฤษฎี ... และทันใดนั้นค่าเฉลี่ยของทั้งสองตัวอย่าง (รวมถึง CI) มีความคล้ายคลึงกันมาก . ความหนาแน่นของแปลงก็เช่นกัน (ในการค้นหาการกำจัดค่าผิดปกติฉันดูช่วงของตัวอย่าง A และลบจุดตัวอย่างทั้งหมดใน B ที่อยู่นอกมัน) ฉันอยากให้คุณบอกฉันว่าฉันสามารถหาข้อมูลเบื้องต้นเกี่ยวกับการประมาณค่าที่แข็งแกร่งของวิธีการที่จะ อนุญาตให้ฉันตัดสินสถานการณ์นี้อย่างจริงจังมากขึ้น และจะมีการอ้างอิงบางอย่าง ฉันไม่ต้องการความเข้าใจอย่างลึกซึ้งในเทคนิคต่าง …

9
อ้างอิงกับการแจกแจงที่มีคุณสมบัติต่าง ๆ
ฉันมักจะพบว่าตัวเองถามคำถามเช่น "ฉันรู้ว่าตัวแปรนี้ อยู่ในและมวลส่วนใหญ่อยู่ในแล้วลดลงอย่างต่อเนื่องต่อ 1 ฉันจะใช้การกระจายแบบใด "( 0 , 1 ) ( 0 , .20 )xxx( 0 , 1 )(0,1)(0,1)( 0 , .20 )(0,.20)(0,.20) ในทางปฏิบัติฉันไขลานโดยใช้การแจกแจงสองสามครั้งซ้ำแล้วซ้ำอีกเพียงเพราะฉันรู้จักพวกเขา แต่ฉันต้องการค้นหาพวกเขาอย่างเป็นระบบมากกว่า ฉันจะไปเกี่ยวกับการเข้าถึงความมั่งคั่งของงานที่ probabilitists ได้ทำการพัฒนาการกระจายเหล่านี้ทั้งหมดได้อย่างไร เป็นการดีที่ฉันต้องการการอ้างอิงที่จัดโดยคุณสมบัติ (ภูมิภาคที่ให้การสนับสนุน ฯลฯ ) ดังนั้นฉันจึงสามารถหาการแจกแจงตามลักษณะของพวกเขาแล้วเรียนรู้เพิ่มเติมเกี่ยวกับการแจกแจงแต่ละครั้งตามความสามารถในการรองรับของ pdf / cdf และความใกล้ชิด ปัญหาที่ฉันกำลังทำอยู่ มีการอ้างอิงดังกล่าวอยู่หรือไม่ถ้าไม่คุณจะเลือกการแจกแจงได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.