คำถามติดแท็ก predictive-models

แบบจำลองเชิงทำนายเป็นแบบจำลองทางสถิติซึ่งมีจุดประสงค์หลักคือการทำนายการสังเกตอื่น ๆ ของระบบอย่างเหมาะสมเมื่อเทียบกับแบบจำลองที่มีจุดประสงค์เพื่อทดสอบสมมติฐานเฉพาะหรืออธิบายปรากฏการณ์ทางกลไก ดังนั้นโมเดลการทำนายที่ให้ความสำคัญกับความสามารถในการตีความและความสำคัญกับประสิทธิภาพก็จะน้อยลง

1
เราจะทำนายเหตุการณ์ที่หายากได้อย่างไร
ฉันกำลังพัฒนารูปแบบการทำนายความเสี่ยงด้านการประกันภัย โมเดลเหล่านี้เป็น "เหตุการณ์ที่หายาก" เช่นการคาดคะเนการไม่แสดงตัวตนของสายการบินการตรวจจับข้อผิดพลาดของฮาร์ดแวร์ ฯลฯ ขณะที่ฉันเตรียมชุดข้อมูลของฉันฉันพยายามใช้การจำแนกประเภท แต่ฉันไม่สามารถรับตัวแยกประเภทที่มีประโยชน์ได้ . ฉันไม่มีประสบการณ์ด้านสถิติและการสร้างแบบจำลองมากไปกว่าหลักสูตรสถิติของโรงเรียนมัธยมดังนั้นฉันจึงสับสน อย่างที่ฉันคิดไว้ฉันคิดว่าจะใช้แบบจำลองกระบวนการปัวซองซึ่งมีความเป็นเนื้อเดียวกัน ฉันจัดประเภทตามข้อมูลเหตุการณ์ (date, lat, lon) เพื่อให้ได้ค่าประมาณความเสี่ยงที่ดี ณ เวลาใดเวลาหนึ่งของแต่ละวัน ฉันอยากรู้ว่าอะไรคือวิธีการ / ขั้นตอนวิธีในการทำนายเหตุการณ์ที่เกิดขึ้นได้ยาก คุณแนะนำอะไรเป็นวิธีแก้ไขปัญหานี้

1
วิธีการทำนายข้อมูลใหม่ด้วยการถดถอยอิสระ
ใครสามารถช่วยอธิบายแนวคิดเกี่ยวกับวิธีการคาดการณ์สำหรับข้อมูลใหม่เมื่อใช้แบบเรียบ / เส้นโค้งสำหรับแบบจำลองการทำนายได้หรือไม่ ตัวอย่างเช่นเมื่อสร้างแบบจำลองที่ใช้gamboostในmboostแพ็คเกจใน R ด้วย p-splines การคาดการณ์สำหรับข้อมูลใหม่ทำอย่างไร ข้อมูลอะไรที่ใช้ในการฝึกอบรม? สมมติว่ามีค่าใหม่ของตัวแปรอิสระ x และเราต้องการทำนาย y สูตรสำหรับการสร้างอิสระถูกนำไปใช้กับค่าข้อมูลใหม่นี้โดยใช้ knots หรือ df ที่ใช้เมื่อทำการฝึกอบรมรูปแบบแล้วค่าสัมประสิทธิ์จากแบบจำลองที่ผ่านการฝึกอบรมจะถูกนำไปใช้ในการทำนายผลลัพธ์หรือไม่? นี่คือตัวอย่างของ R สิ่งที่คาดการณ์ว่าจะทำให้เกิดแนวคิดในการแสดงผล 899.4139 สำหรับข้อมูลใหม่ mean_radius = 15.99 #take the data wpbc as example library(mboost) data(wpbc) modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5)) test<-data.frame(mean_radius=15.99) …

7
หลีกเลี่ยงการเลือกปฏิบัติทางสังคมในการสร้างแบบจำลอง
ฉันมีคำถามที่ได้รับแรงบันดาลใจจากเรื่องอื้อฉาวการรับสมัครงานล่าสุดของ Amazon ที่พวกเขาถูกกล่าวหาว่าเลือกปฏิบัติต่อสตรีในกระบวนการสรรหา ข้อมูลเพิ่มเติมที่นี่ : ผู้เชี่ยวชาญด้านการเรียนรู้เครื่องจักรของ Amazon.com Inc เปิดเผยปัญหาใหญ่: เครื่องมือการสรรหาคนใหม่ของพวกเขาไม่ชอบผู้หญิง ทีมได้สร้างโปรแกรมคอมพิวเตอร์ตั้งแต่ปี 2014 เพื่อตรวจสอบประวัติย่อของผู้สมัครงานโดยมีจุดประสงค์ในการค้นหาผู้มีความสามารถสูงสุด ...... เครื่องมือการทดลองเชิงทดลองของ บริษัท ใช้ปัญญาประดิษฐ์เพื่อให้คะแนนผู้สมัครงานตั้งแต่หนึ่งถึงห้าดาว ... ... แต่ในปี 2558 บริษัท ตระหนักว่าระบบใหม่ไม่ใช่การให้คะแนนผู้สมัครสำหรับงานพัฒนาซอฟต์แวร์และการโพสต์ทางเทคนิคอื่น ๆ ในลักษณะที่เป็นกลางทางเพศ นั่นเป็นเพราะโมเดลคอมพิวเตอร์ของอเมซอนได้รับการฝึกฝนให้ใช้สัตว์แพทย์โดยการสังเกตรูปแบบการดำเนินการต่อที่ส่งมาถึง บริษัท ในช่วงระยะเวลา 10 ปี ส่วนใหญ่มาจากผู้ชายซึ่งเป็นภาพสะท้อนของการครอบงำชายในอุตสาหกรรมเทคโนโลยี (สำหรับกราฟิกเกี่ยวกับการแยกเพศในเทคโนโลยีดูที่นี่ ) ผลของระบบ Amazon สอนตัวเองว่าผู้สมัครชายเป็นที่ต้องการ มันดำเนินการลงโทษที่รวมคำว่า "ผู้หญิง" ไว้ใน "กัปตันชมรมหมากรุกของผู้หญิง" และมันได้ปรับลดบัณฑิตของวิทยาลัยสตรีทั้งสองแห่งตามที่คนคุ้นเคยกับเรื่องนี้ พวกเขาไม่ได้ระบุชื่อโรงเรียน Amazon แก้ไขโปรแกรมเพื่อให้เป็นกลางกับข้อกำหนดเฉพาะเหล่านี้ แต่นั่นไม่รับประกันว่าเครื่องจะไม่คิดวิธีการคัดแยกผู้สมัครที่สามารถพิสูจน์การเลือกปฏิบัติได้ ท้ายที่สุด บริษัท ซีแอตเทิลยกเลิกทีมเมื่อต้นปีที่แล้วเพราะผู้บริหารสูญเสียความหวังในโครงการ ...... การทดลองของ …

1
ชี้แจงเกี่ยวกับการอ่านคำย่อ
ต่อไปนี้เป็น Nomogram ที่สร้างขึ้นจากชุดข้อมูล mtcars พร้อมแพ็กเกจ rms สำหรับสูตร: mpg ~ wt + am + qsec ตัวแบบนั้นดูดีด้วย R2 ที่ 0.85 และ P <0.00001 > mod Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 …

3
การตัดสินใจระหว่างตัวแบบการถดถอยเชิงเส้นหรือตัวแบบการถดถอยเชิงเส้น
เราควรเลือกระหว่างการใช้โมเดลการถดถอยเชิงเส้นหรือแบบจำลองการถดถอยเชิงเส้นอย่างไร เป้าหมายของฉันคือการทำนาย Y ในกรณีของชุดข้อมูลและy ที่เรียบง่ายฉันสามารถตัดสินใจได้อย่างง่ายดายว่ารูปแบบการถดถอยควรใช้โดยการพล็อตพล็อตกระจายxxxyyy ในกรณีที่มีหลายตัวแปรเช่นและY ฉันจะตัดสินใจได้อย่างไรว่าจะใช้รูปแบบการถดถอยแบบใด นั่นคือฉันจะตัดสินใจเกี่ยวกับการใช้โมเดลเชิงเส้นอย่างง่ายหรือแบบจำลองเชิงเส้นแบบไม่ได้เช่น quadric, cubic เป็นต้นx1,x2,...xnx1,x2,...xnx_1,x_2,...x_nyyy มีเทคนิคหรือวิธีการทางสถิติหรือแปลงกราฟิกเพื่ออนุมานและตัดสินใจว่าจะใช้รูปแบบการถดถอยหรือไม่?

1
การกระจายที่เหมาะสมกับข้อมูลเชิงพื้นที่
ข้ามการโพสต์คำถามของฉันจาก mathoverflowเพื่อค้นหาความช่วยเหลือเฉพาะสถิติ ฉันกำลังศึกษากระบวนการทางกายภาพในการสร้างข้อมูลซึ่งมีโครงงานเป็นสองมิติด้วยค่าที่ไม่เป็นลบ แต่ละขั้นตอนมีแทร็ก (ที่คาดการณ์) จุด - - ดูภาพด้านล่างxxxYYy แทร็กตัวอย่างเป็นสีน้ำเงินแทร็กที่มีปัญหาได้รับการวาดด้วยสีเขียวและพื้นที่ที่มีข้อกังวลเป็นสีแดง: แต่ละแทร็กเป็นผลมาจากการทดสอบอิสระ มีการทดลองกว่ายี่สิบล้านครั้งในช่วงหลายปีที่ผ่านมา แต่จากการทดสอบเพียงสองพันครั้งนั้นแสดงให้เห็นถึงคุณลักษณะที่เราวางแผนไว้ เรากังวลเฉพาะกับการทดลองที่สร้างแทร็กดังนั้นชุดข้อมูลของเราคือ (โดยประมาณ) สองพันแทร็ก มีความเป็นไปได้สำหรับแทร็กที่จะเข้าสู่พื้นที่ที่น่าเป็นห่วงและเราคาดหวังว่าจะเรียงตามลำดับในแทร็ก การประมาณจำนวนนั้นเป็นคำถามในมือ:11110410410^4 เราจะคำนวณความน่าจะเป็นของการติดตามโดยพลการเข้าสู่พื้นที่ที่น่าเป็นห่วงได้อย่างไร เป็นไปไม่ได้ที่จะทำการทดลองอย่างรวดเร็วพอที่จะดูว่ามีการสร้างแทร็กบ่อยครั้งเพียงใดซึ่งเข้าสู่พื้นที่ที่น่าเป็นห่วงดังนั้นเราจึงจำเป็นต้องประเมินจากข้อมูลที่มีอยู่ เราได้ติดตั้งตัวอย่างเช่นค่าให้ไว้แต่สิ่งนี้ไม่สามารถจัดการข้อมูลได้อย่างเพียงพอเช่นแทร็กสีเขียว - ดูเหมือนว่าจำเป็นต้องมีโมเดลที่ครอบคลุมทั้งสองมิติxxxY≥ 200Y≥200y\ge200 เราได้ติดตั้งระยะห่างขั้นต่ำจากแต่ละแทร็กไปยังพื้นที่ที่น่ากังวล แต่เราไม่มั่นใจว่าสิ่งนี้จะให้ผลลัพธ์ที่สมเหตุสมผล 1) มีวิธีทราบที่เหมาะสมกับการกระจายข้อมูลประเภทนี้เพื่อการประมาณค่าหรือไม่? -หรือ- 2) มีวิธีที่ชัดเจนในการใช้ข้อมูลนี้เพื่อสร้างแบบจำลองสำหรับการสร้างแทร็กหรือไม่? ตัวอย่างเช่นใช้การวิเคราะห์องค์ประกอบหลักบนแทร็กเป็นจุดในพื้นที่ขนาดใหญ่จากนั้นปรับการกระจาย (Pearson?) ให้พอดีกับแทร็กที่ฉายลงบนส่วนประกอบเหล่านั้น

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
วิธีที่ดีที่สุดในการรวมการตอบสนองแบบไบนารีและแบบต่อเนื่อง
ฉันกำลังพยายามหาวิธีที่ดีที่สุดในการทำนายจำนวนเงินที่ชำระสำหรับ บริษัท ตัวแทนเรียกเก็บเงิน ตัวแปรตามไม่ได้เป็นศูนย์เฉพาะเมื่อมีการชำระเงินแล้ว เป็นที่เข้าใจกันดีว่ามีจำนวนศูนย์เป็นจำนวนมากเพราะคนส่วนใหญ่ไม่สามารถเข้าถึงหรือไม่สามารถชำระหนี้คืนได้ นอกจากนี้ยังมีความสัมพันธ์เชิงลบที่แข็งแกร่งมากระหว่างจำนวนหนี้และความน่าจะเป็นในการชำระเงิน โดยปกติแล้วฉันจะสร้างแบบจำลองโลจิสติกส์เพื่อทำนายความน่าจะเป็นของการจ่าย / ไม่จ่ายเงิน แต่สิ่งนี้มีผลลัพธ์ที่โชคร้ายในการค้นหาคนที่มียอดคงเหลือต่ำสุด มีวิธีรวมรูปแบบการจ่าย / การจ่ายที่ไม่ใช่โลจิสติกเข้ากับแบบจำลองแยกที่ทำนายจำนวนเงินที่ชำระหรือไม่

3
สถิติสำหรับเว็บไซต์หาคู่ออนไลน์
ฉันอยากรู้ว่าระบบการออกเดทออนไลน์อาจใช้ข้อมูลการสำรวจเพื่อกำหนดการแข่งขันอย่างไร สมมติว่าพวกเขามีข้อมูลผลจากการแข่งขันที่ผ่านมา (เช่น 1 = แต่งงานอย่างมีความสุข, 0 = ไม่มีวันที่ 2) ต่อไปสมมติว่าพวกเขามี 2 คำถามที่ชอบ "คุณชอบกิจกรรมกลางแจ้งมากแค่ไหน (1 = ไม่ชอบอย่างยิ่ง 5 = ชอบอย่างยิ่ง)" "คุณเป็นคนมองโลกในแง่ดีแค่ไหน (1 = ไม่ชอบอย่างยิ่ง 5 = ชอบอย่างยิ่ง") สมมติว่าสำหรับแต่ละคำถามที่พวกเขามีตัวบ่งชี้ "คู่สมรสของคุณมีความสำคัญต่อการตั้งค่าของคุณอย่างไร (1 = ไม่สำคัญ 3 = สำคัญมาก)" หากพวกเขามีคำถาม 4 ข้อสำหรับแต่ละคู่และผลลัพธ์ว่าการแข่งขันประสบความสำเร็จหรือไม่โมเดลพื้นฐานที่จะใช้ข้อมูลนั้นเพื่อทำนายการแข่งขันในอนาคตคืออะไร

6
แนะนำหนังสือ / บทความ / คำแนะนำเพื่อป้อนการวิเคราะห์เชิงทำนายไหม
สื่อการเรียนรู้แบบไหนที่คุณจะแนะนำสำหรับนักคณิตศาสตร์ CS person / นักสามเณร / สามเณรที่จะเข้าสู่การวิเคราะห์เชิงทำนาย

2
'' ตัวแปรที่สำคัญ '' ที่ไม่ได้ปรับปรุงการพยากรณ์นอกตัวอย่าง - จะตีความได้อย่างไร
ฉันมีคำถามที่ฉันคิดว่าจะค่อนข้างพื้นฐานสำหรับผู้ใช้จำนวนมาก ฉันใช้ตัวแบบการถดถอยเชิงเส้นเพื่อ (i) ตรวจสอบความสัมพันธ์ของตัวแปรอธิบายหลายตัวและตัวแปรตอบสนองของฉันและ (ii) ทำนายตัวแปรตอบสนองของฉันโดยใช้ตัวแปรอธิบาย ตัวแปรอธิบายอย่างใดอย่างหนึ่ง X ดูเหมือนจะส่งผลกระทบต่อตัวแปรตอบกลับของฉันอย่างมาก เพื่อทดสอบมูลค่าเพิ่มของตัวแปรอธิบายนี้เพื่อวัตถุประสงค์ในการคาดการณ์นอกตัวอย่างของตัวแปรตอบสนองของฉันฉันใช้สองแบบจำลอง: model (a) ซึ่งใช้ตัวแปรอธิบายและแบบจำลองทั้งหมด (b) ซึ่งใช้ตัวแปรทั้งหมด ยกเว้นตัวแปร X สำหรับทั้งสองรุ่นฉันรายงานประสิทธิภาพนอกตัวอย่างเท่านั้น ปรากฏว่าทั้งสองรุ่นมีประสิทธิภาพเกือบเหมือนกัน กล่าวอีกนัยหนึ่งการเพิ่มตัวแปรอธิบาย X ไม่ได้ปรับปรุงการพยากรณ์นอกตัวอย่าง โปรดทราบว่าฉันยังใช้ model (a) เช่นโมเดลที่มีตัวแปรอธิบายทั้งหมดเพื่อค้นหาว่าตัวแปรอธิบาย X ส่งผลกระทบอย่างมากต่อตัวแปรตอบกลับของฉัน คำถามของฉันคือ: จะตีความการค้นพบนี้ได้อย่างไร? ข้อสรุปที่ตรงไปตรงมาคือแม้ว่าตัวแปร X ดูเหมือนจะมีอิทธิพลต่อตัวแปรตอบสนองของฉันอย่างมีนัยสำคัญโดยใช้แบบจำลองที่อนุมานได้ แต่ก็ไม่ได้ปรับปรุงการทำนายนอกตัวอย่าง อย่างไรก็ตามฉันมีปัญหาในการอธิบายการค้นพบนี้เพิ่มเติม สิ่งนี้จะเป็นไปได้อย่างไรและอะไรคือคำอธิบายสำหรับการค้นพบนี้ ขอบคุณล่วงหน้า! ข้อมูลเพิ่มเติม: ด้วย 'อิทธิพลอย่างมีนัยสำคัญ' ฉันหมายความว่า 0 ไม่รวมอยู่ในช่วงความหนาแน่นหลังสูงสุด 95% ของการประมาณพารามิเตอร์ (ฉันใช้วิธีเบส์) ในแง่บ่อยๆสิ่งนี้มีความสัมพันธ์กับการมีค่า p ต่ำกว่า 0.05 …

2
ประเมินการกระจายการทำนายหลังในการถดถอยเชิงเส้นแบบเบย์
ฉันสับสนเกี่ยวกับวิธีการประเมินการกระจายการทำนายหลังสำหรับการถดถอยเชิงเส้นแบบเบย์ผ่านกรณีพื้นฐานที่อธิบายไว้ที่นี่ในหน้า 3 และคัดลอกด้านล่าง p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y)p(y~∣y)=∫p(y~∣β,σ2)p(β,σ2∣y) p(\tilde y \mid y) = \int p(\tilde y \mid \beta, \sigma^2) p(\beta, \sigma^2 \mid y) กรณีพื้นฐานคือตัวแบบการถดถอยเชิงเส้น: y=Xβ+ϵ,y∼N(Xβ,σ2)y=Xβ+ϵ,y∼N(Xβ,σ2) y = X \beta + \epsilon, \hspace{10mm} y \sim N(X \beta, \sigma^2) ถ้าเราใช้ทั้งเครื่องแบบก่อนหน้าโดยมีมาตราส่วน-Invก่อนหน้าบนหรือค่าผกผันแกมมาปกติก่อนหน้า (ดูที่นี่ ) การกระจายการทำนายหลังเป็นแบบวิเคราะห์และเป็นนักเรียน t ββ\betaχ2χ2\chi^2σ2σ2\sigma^2 แล้วรุ่นนี้ล่ะ? y=Xβ+ϵ,y∼N(Xβ,Σ)y=Xβ+ϵ,y∼N(Xβ,Σ) y = X \beta + \epsilon, \hspace{10mm} y \sim …

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
การถดถอยแบบเกาส์กระบวนการสำหรับชุดข้อมูลมิติสูง
แค่อยากจะดูว่าใครมีประสบการณ์ใด ๆ ที่ใช้การถดถอยแบบเกาส์กระบวนการ (GPR) กับชุดข้อมูลมิติสูง ฉันกำลังดูวิธีการ GPR แบบกระจัดกระจายบางอย่าง (เช่นแบบ spse pseudo-inputs GPR) เพื่อดูว่าอะไรสามารถใช้งานได้กับชุดข้อมูลมิติสูงที่การเลือกคุณสมบัติเป็นส่วนหนึ่งของกระบวนการเลือกพารามิเตอร์ ข้อเสนอแนะใด ๆ เกี่ยวกับเอกสาร / รหัส / หรือวิธีการต่างๆที่จะลองแน่นอนชื่นชม ขอบคุณ

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.