คำถามติดแท็ก computational-statistics

อ้างถึงอินเทอร์เฟซของสถิติและการคำนวณ การใช้อัลกอริทึมและซอฟต์แวร์เพื่อจุดประสงค์ทางสถิติ

1
การวิเคราะห์เชิงหน้าที่และพื้นที่ฮิลแบร์ตมีประโยชน์ในการเรียนรู้ของเครื่องหรือไม่ ถ้าเป็นเช่นนั้นได้อย่างไร
ฉันสงสัยว่าช่องว่างของฮิลแบร์ตและการวิเคราะห์การทำงานมีประโยชน์ต่อการเรียนรู้ของเครื่องอย่างไร ฉันคิดว่าการเรียนรู้ของเครื่องเป็นการผสมผสานระหว่างสถิติวิทยาการคอมพิวเตอร์และการเพิ่มประสิทธิภาพ การวิเคราะห์การทำงานมีความสัมพันธ์กับสิ่งนั้นอย่างไร

1
บางคนสามารถอธิบายได้ว่าฉันอายุ 5 ปีเกี่ยวกับปัญหานี้จากหนังสือ ESL ของ Hastie หรือไม่?
ฉันทำงานผ่านหนังสือ ESL ของ Hastie และฉันมีช่วงเวลาที่ยากลำบากสำหรับคำถาม 2.3 คำถามดังต่อไปนี้: เรากำลังพิจารณาการประมาณเพื่อนบ้านที่ใกล้ที่สุดที่จุดเริ่มต้นและระยะทางเฉลี่ยจากจุดกำเนิดไปยังจุดข้อมูลที่ใกล้เคียงที่สุดจะได้รับจากสมการนี้ ฉันไม่รู้ว่าจะเริ่มต้นอย่างไรในแง่ของการพยายามหามา ฉันรู้ว่าจุดข้อมูลส่วนใหญ่อยู่ใกล้กับขอบเขตของพื้นที่ตัวอย่างมากกว่าจุดข้อมูลอื่น ๆ (การสาปแช่งของมิติ) แต่ฉันมีปัญหาในการแปลสิ่งนี้เป็นความรู้สึกเชิงพีชคณิต / ความน่าจะเป็นเชิงเส้น ขอบคุณ!

1
ลักษณนามเกี่ยวกับพีชคณิตข้อมูลเพิ่มเติมหรือไม่
ฉันได้อ่านลักษณนามพีชคณิต: วิธีการทั่วไปในการตรวจสอบข้ามอย่างรวดเร็วการฝึกอบรมออนไลน์และการฝึกอบรมแบบขนานและรู้สึกทึ่งกับประสิทธิภาพของอัลกอริทึมที่ได้รับ อย่างไรก็ตามดูเหมือนว่าเกินกว่า Naive Bayes (และ GBM) มีอัลกอริธึมไม่มากที่ปรับให้เข้ากับกรอบงาน มีเอกสารอื่น ๆ ที่ใช้ตัวแยกประเภทที่แตกต่างกันหรือไม่ (SVMs ป่าสุ่ม)

3
เครื่องกำเนิดเลขสุ่มของ Mathematica เบี่ยงเบนจากความน่าจะเป็นทวินาม?
สมมติว่าคุณพลิกเหรียญ 10 ครั้งแล้วโทรหา 1 "เหตุการณ์" หากคุณเรียกใช้ 1,000,000 ของ "กิจกรรม" เหล่านี้สัดส่วนของเหตุการณ์ที่มีส่วนหัวระหว่าง 0.4 ถึง 0.6 คือเท่าใด ความน่าจะเป็นแบบทวินามจะแนะนำว่านี่คือประมาณ 0.65 แต่รหัส Mathematica ของฉันบอกฉันเกี่ยวกับ 0.24 นี่คือไวยากรณ์ของฉัน: In[2]:= X:= RandomInteger[]; In[3]:= experiment[n_]:= Apply[Plus, Table[X, {n}]]/n; In[4]:= trialheadcount[n_]:= .4 < Apply[Plus, Table[X, {n}]]/n < .6 In[5]:= sample=Table[trialheadcount[10], {1000000}] In[6]:= Count[sample2,True]; Out[6]:= 245682 อุบัติเหตุอยู่ที่ไหน

2
จะค้นหาค่าที่ดีที่สุดสำหรับพารามิเตอร์การปรับแต่งในการเพิ่มต้นไม้ได้อย่างไร?
ฉันรู้ว่ามีพารามิเตอร์การปรับแต่ง 3 แบบในรูปแบบต้นไม้ที่เพิ่มขึ้นเช่น จำนวนต้นไม้ (จำนวนการวนซ้ำ) พารามิเตอร์การหดตัว จำนวนของการแยก (ขนาดของต้นไม้แต่ละต้น) คำถามของฉันคือ: สำหรับพารามิเตอร์การปรับแต่ละค่าฉันจะหาค่าที่ดีที่สุดได้อย่างไร และวิธีการอะไร โปรดทราบว่า: พารามิเตอร์การหดตัวและจำนวนพารามิเตอร์ trees ทำงานร่วมกันเช่นค่าที่น้อยกว่าสำหรับพารามิเตอร์การหดตัวจะนำไปสู่ค่าที่สูงขึ้นสำหรับจำนวนต้นไม้ และเราต้องคำนึงเรื่องนี้ด้วย ฉันสนใจเป็นพิเศษในวิธีการค้นหาค่าที่เหมาะสมที่สุดสำหรับจำนวนการแบ่ง มันควรจะขึ้นอยู่กับการตรวจสอบข้ามหรือความรู้เกี่ยวกับรูปแบบโดเมนที่อยู่เบื้องหลัง? และสิ่งเหล่านี้ถูกนำไปใช้ในgbmแพ็คเกจใน R อย่างไร

1
ฉันจะคำนวณการประมาณความหนาแน่นหลังจากก่อนและโอกาสได้อย่างไร
ฉันพยายามที่จะเข้าใจวิธีการใช้ทฤษฎีบทของเบย์ในการคำนวณหลัง แต่กำลังติดอยู่กับวิธีการคำนวณเช่นในกรณีต่อไปนี้มันไม่ชัดเจนสำหรับฉันที่จะใช้ผลิตภัณฑ์ของความน่าจะเป็นก่อนและจากนั้นคำนวณ หลัง: สำหรับตัวอย่างนี้ฉันสนใจในการคำนวณความน่าจะเป็นหลังของและฉันใช้มาตรฐานปกติก่อนหน้านี้ในแต่ฉันอยากรู้ วิธีการคำนวณหลังจากก่อนหน้านี้ที่แสดงโดยห่วงโซ่ MCMC ดังนั้นฉันจะใช้ 1,000 ตัวอย่างเป็นจุดเริ่มต้นของฉันμμ\muμμ\mu p(μ)∼N(μ=0,σ=1)p(μ)∼N(μ=0,σ=1)p(\mu)\sim N(\mu = 0, \sigma = 1)μμ\mu ตัวอย่าง 1,000 จากก่อนหน้า set.seed(0) prior.mu <- 0 prior.sigma <- 1 prior.samples <- sort(rnorm(1000, prior.mu, prior.sigma)) ทำการสังเกตบางอย่าง: observations <- c(0.4, 0.5, 0.8, 0.1) และคำนวณความน่าจะเป็นเช่น :p(y|μ,σ)p(y|μ,σ)p(y | \mu, \sigma) likelihood <- prod(dnorm(observations, mean(prior.samplse), sd(prior.samples))) สิ่งที่ฉันไม่ค่อยเข้าใจคือ: เมื่อใด …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.