สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ผลรวมของตัวแปรสุ่มไคสแควร์ที่ไม่ใช่ศูนย์กลาง
ฉันต้องการค้นหาการกระจายตัวของตัวแปรสุ่ม Y= ∑i = 1n( Xผม)2Y=Σผม=1n(Xผม)2Y=\sum_{i=1}^{n}(X_i)^2 โดยที่Xผม∼ N( μผม, σ2ผม)Xผม~ยังไม่มีข้อความ(μผม,σผม2)X_i\sim{\cal{N}}(\mu_i,\sigma^2_i)และXผมXผมX_i s ทั้งหมดเป็นอิสระ ฉันรู้ว่ามันเป็นไปได้ที่จะหาผลิตภัณฑ์ของทุกช่วงเวลาที่สร้างฟังก์ชั่นสำหรับและจากนั้นแปลงกลับเพื่อให้ได้การแจกแจงของอย่างไรก็ตามฉันสงสัยว่ามีรูปแบบทั่วไปสำหรับ YXผมXผมX_iYYYYYY เช่นกรณี Gaussian: เรารู้ว่าผลรวมของ Gaussian อิสระยังคงเป็น Gaussian และดังนั้นเราจำเป็นต้องทราบค่าเฉลี่ยและความแปรปรวนสรุป วิธีการเกี่ยวกับทุก ? เงื่อนไขนี้จะทำให้การแก้ปัญหาทั่วไป?σ2ผม= σ2σผม2=σ2\sigma^2_i=\sigma^2

2
การรวมข้อมูลจากการศึกษาหลายครั้งเพื่อประเมินค่าเฉลี่ยและความแปรปรวนของข้อมูลที่กระจายตามปกติ - วิธีเบย์และวิธีการวิเคราะห์เชิงเมตา
ฉันได้รับการตรวจสอบชุดของเอกสารรายงานการสังเกตค่าเฉลี่ยและ SD ของการวัดของแต่ละในกลุ่มตัวอย่างของแต่ละขนาดที่รู้จักกัน n ฉันต้องการคาดเดาที่ดีที่สุดเกี่ยวกับการกระจายตัวของมาตรการเดียวกันในการศึกษาใหม่ที่ฉันกำลังออกแบบและความไม่แน่นอนในการเดานั้น ฉันยินดีที่จะรับX ∼ N ( μ , σ 2 )XXXnnnX∼ N( μ , σ2X~ยังไม่มีข้อความ(μ,σ2X \sim N(\mu, \sigma^2 ความคิดแรกของฉันคือการวิเคราะห์อภิมาน แต่โดยทั่วไปแล้วตัวแบบจะใช้การประมาณจุดและช่วงความมั่นใจที่สอดคล้องกัน แต่ผมอยากจะบอกอะไรบางอย่างเกี่ยวกับการกระจายเต็มรูปแบบของซึ่งในกรณีนี้จะรวมทั้งยังทำให้การคาดเดาเกี่ยวกับความแปรปรวนσ 2 XXXσ2σ2\sigma^2 ฉันได้อ่านเกี่ยวกับวิธีการของ Bayeisan ที่เป็นไปได้ในการประมาณค่าพารามิเตอร์ชุดสมบูรณ์ของการแจกแจงที่กำหนดในแง่ของความรู้ก่อนหน้า โดยทั่วไปแล้วสิ่งนี้เหมาะสมสำหรับฉัน แต่ฉันไม่มีประสบการณ์ในการวิเคราะห์แบบเบย์ นี่เป็นปัญหาที่ค่อนข้างง่ายและตรงไปตรงมาที่จะตัดฟันของฉัน 1) จากปัญหาของฉันวิธีการใดที่เหมาะสมที่สุดและเพราะเหตุใด การวิเคราะห์เมตาดาต้าหรือวิธีการแบบเบย์? 2) ถ้าคุณคิดว่าวิธีการแบบเบย์นั้นดีที่สุดคุณสามารถชี้ให้ฉันเห็นวิธีการที่จะนำไปใช้ (ควรเป็น R) หรือไม่? คำถามที่เกี่ยวข้อง การแก้ไข: ฉันพยายามทำสิ่งนี้ในสิ่งที่ฉันคิดว่าเป็นแบบเบย์เรียบง่าย ดังที่ฉันได้กล่าวไว้ข้างต้นฉันไม่เพียง แต่สนใจค่าเฉลี่ยที่ประมาณแต่ยังรวมถึงความแปรปรวนσ 2ในแง่ของข้อมูลก่อนหน้าเช่นP ( μ , σ …

6
ด้านหลังแตกต่างจากก่อนและมีโอกาสมาก
หากก่อนหน้านี้และโอกาสที่แตกต่างกันมากจากนั้นบางครั้งสถานการณ์ที่เกิดขึ้นที่หลังหลังจะไม่เหมือนกัน ดูตัวอย่างภาพนี้ซึ่งใช้การแจกแจงแบบปกติ แม้ว่านี่จะถูกต้องในเชิงคณิตศาสตร์ แต่ดูเหมือนว่าจะไม่สอดคล้องกับสัญชาตญาณของฉัน - ถ้าข้อมูลไม่ตรงกับความเชื่อหรือข้อมูลที่จัดขึ้นอย่างรุนแรงของฉัน ทั้งช่วงหรือบางทีการกระจาย bimodal รอบก่อนและโอกาส (ฉันไม่แน่ใจซึ่งทำให้รู้สึกตรรกะเพิ่มเติม) แน่นอนว่าฉันจะไม่คาดหวังว่าคนหลังแน่นหนาในช่วงที่ไม่ตรงกับความเชื่อหรือข้อมูลของฉัน ฉันเข้าใจว่าเมื่อมีการรวบรวมข้อมูลมากขึ้นผู้หลังจะย้ายไปสู่ความเป็นไปได้ แต่ในสถานการณ์เช่นนี้ดูเหมือนว่าจะตอบโต้ได้ง่าย คำถามของฉันคือ: ความเข้าใจของฉันเกี่ยวกับสถานการณ์นี้มีข้อบกพร่องอย่างไร (หรือมีข้อบกพร่อง) ด้านหลังเป็นฟังก์ชัน `ถูกต้อง 'สำหรับสถานการณ์นี้หรือไม่ และถ้าไม่ทำเช่นนั้น เพื่อประโยชน์ครบถ้วนก่อนที่จะได้รับเป็นและความน่าจะเป็น0.4)N ( μ = 6.1 , σ = 0.4 )ยังไม่มีข้อความ( μ = 1.5 , σ= 0.4 )ยังไม่มีข้อความ(μ=1.5,σ=0.4)\mathcal{N}(\mu=1.5, \sigma=0.4)ยังไม่มีข้อความ( μ = 6.1 , σ= 0.4 )ยังไม่มีข้อความ(μ=6.1,σ=0.4)\mathcal{N}(\mu=6.1, \sigma=0.4) แก้ไข: ดูคำตอบที่ได้รับฉันรู้สึกว่าฉันไม่ได้อธิบายสถานการณ์ได้ดีนัก ประเด็นของฉันคือการวิเคราะห์แบบเบย์ดูเหมือนจะให้ผลลัพธ์ที่ไม่เป็นไปตามสัญชาตญาณเนื่องจากข้อสมมติฐานในแบบจำลอง ความหวังของฉันคือการที่หลังผู้ใดจะ …

5
หลังเบย์ต้องมีการกระจายที่เหมาะสมหรือไม่?
ฉันรู้ว่านักบวชไม่จำเป็นต้องเหมาะสมและฟังก์ชั่นความน่าจะเป็นไม่ได้รวมเข้ากับ 1 เช่นกัน แต่คนหลังต้องมีการกระจายตัวที่เหมาะสมหรือไม่? อะไรคือความหมายถ้ามัน / ไม่

1
การแปลง (การทำให้เป็นปกติ) ค่าความน่าจะเป็นที่น้อยมากเป็นความน่าจะเป็น
ฉันกำลังเขียนอัลกอริทึมที่ได้รับแบบจำลองฉันคำนวณความน่าจะเป็นของรายการชุดข้อมูลจากนั้นจำเป็นต้องทำให้เป็นปกติ (เป็นความน่าจะเป็น) แต่ละโอกาส ดังนั้นบางอย่างเช่น [0.00043, 0.00004, 0.00321] อาจถูกแปลงเป็นอาจจะเป็น [0.2, 0.03, 0.77] ปัญหาของฉันคือความน่าจะเป็นของบันทึกที่ฉันกำลังทำงานอยู่มีขนาดค่อนข้างเล็ก (ตัวอย่างเช่นในพื้นที่บันทึกค่ามีค่าเช่น -269647.432, -231444.981 เป็นต้น) ในรหัส C ++ ของฉันเมื่อฉันพยายามเพิ่มพวกเขาสองคน (โดยการยกกำลังของพวกเขา) ฉันได้รับคำตอบของ "Inf" ฉันพยายามเพิ่มพวกเขาใน log-space (Summation / Subtraction of log)แต่ก็พบปัญหาเดียวกันอีกครั้ง ใครสามารถแบ่งปันความเห็นของผู้เชี่ยวชาญเกี่ยวกับเรื่องนี้?

3
อย่างไรและเมื่อใดที่จะใช้การปรับ Bonferroni
ฉันมีคำถามสองข้อเกี่ยวกับเวลาที่จะใช้การปรับ Bonferroni: เหมาะสมที่จะใช้การปรับ Bonferroni ในทุกกรณีของการทดสอบหลายครั้งหรือไม่? หากมีการทดสอบกับชุดข้อมูลหนึ่งชุดจะแยกชุดข้อมูลออกเป็นระดับปลีกย่อย (เช่นแยกข้อมูลตามเพศ) และทำการทดสอบเดียวกันสิ่งนี้จะมีผลต่อจำนวนการทดสอบแต่ละรายการที่รับรู้อย่างไร นั่นคือถ้ามีการทดสอบสมมติฐาน X บนชุดข้อมูลที่มีข้อมูลจากทั้งชายและหญิงจากนั้นชุดข้อมูลจะถูกแบ่งออกเพื่อให้ข้อมูลเพศชายและเพศหญิงแยกกันและสมมติฐานเดียวกันที่ทดสอบจำนวนของสมมติฐานแต่ละรายการจะยังคงเป็น X หรือเพิ่มขึ้นเนื่องจาก การทดสอบเพิ่มเติม? ขอบคุณสำหรับความคิดเห็นของคุณ

5
การสุ่มป่าเทียบกับการถดถอย
ฉันใช้โมเดลการถดถอย OLS ในชุดข้อมูลที่มี 5 ตัวแปรอิสระ ตัวแปรอิสระและตัวแปรตามมีทั้งต่อเนื่องและเกี่ยวข้องเชิงเส้น R Square อยู่ที่ประมาณ 99.3% แต่เมื่อฉันเรียกใช้เดียวกันโดยใช้ฟอเรสต์แบบสุ่มใน R ผลลัพธ์ของฉันคือ '% Var อธิบาย: 88.42' เหตุใดผลการสุ่มป่าจึงต่ำกว่าการถดถอย สมมติฐานของฉันคือป่าสุ่มจะดีเท่ากับ OLS regression

1
ตรวจจับค่าผิดปกติในข้อมูลการนับ
ฉันมีสิ่งที่ฉันคิดอย่างไร้เดียงสาว่าเป็นปัญหาที่ค่อนข้างตรงไปตรงมาซึ่งเกี่ยวข้องกับการตรวจจับนอกขอบเขตสำหรับชุดข้อมูลนับที่แตกต่างกันจำนวนมาก โดยเฉพาะฉันต้องการตรวจสอบว่าหนึ่งหรือมากกว่าหนึ่งค่าในชุดข้อมูลการนับจะสูงกว่าหรือต่ำกว่าที่คาดไว้เมื่อเทียบกับการนับที่เหลือในการแจกแจง ปัจจัยที่ทำให้สับสนคือฉันต้องทำสิ่งนี้สำหรับการแจกแจง 3,500 ครั้งและมีโอกาสที่พวกเขาบางคนจะพอดีกับปัวซองที่มีสัญญาณเกินศูนย์ที่สูงเกินจริงในขณะที่คนอื่น ๆ ด้วยเหตุนี้คะแนน Z แบบง่ายหรือการวางแผนการแจกแจงจึงไม่เหมาะสมกับชุดข้อมูลจำนวนมาก นี่คือตัวอย่างของข้อมูลการนับที่ฉันต้องการตรวจจับค่าผิดปกติ counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 …

3
เคยมีคอนจูเกตก่อนหน้า: ทรัพย์สินลึกหรืออุบัติเหตุทางคณิตศาสตร์
การแจกแจงบางอย่างมีคอนจูเกตคอนจูเกตและบางอันไม่มี ความแตกต่างนี้เป็นเพียงอุบัติเหตุหรือไม่? นั่นคือคุณทำคณิตศาสตร์และมันได้ผลในทางใดทางหนึ่ง แต่มันไม่ได้บอกอะไรที่สำคัญเกี่ยวกับการแจกแจงยกเว้นความจริงด้วยตัวเอง? หรือการมีหรือไม่มีคอนจูเกตก่อนสะท้อนถึงคุณสมบัติที่ลึกกว่าของการแจกแจงหรือไม่? การแจกแจงกับนักบวชสังฆะแบ่งปันคุณสมบัติที่น่าสนใจอื่น ๆ หรือคุณสมบัติที่การกระจายอื่น ๆ ขาดที่ทำให้เกิดการกระจายเหล่านั้นและไม่ใช่ผู้อื่นที่จะมีการผันก่อนหน้านี้?

1
มีการปรับปรุงอะไรบ้างที่รู้จักกันดีในอัลกอริทึม MCMC แบบเรียนที่ผู้คนใช้สำหรับการอนุมานแบบเบย์?
เมื่อฉันเขียนโค้ดสำหรับการจำลอง Monte Carlo สำหรับปัญหาบางอย่างและตัวแบบนั้นง่ายพอฉันใช้การสุ่มตัวอย่างตำราเรียนพื้นฐานกิ๊บส์ เมื่อเป็นไปไม่ได้ที่จะใช้การสุ่มตัวอย่างของกิ๊บส์ฉันจะเขียนรหัสตำราเรียน Metropolis-Hastings ที่ฉันเรียนรู้เมื่อหลายปีก่อน ความคิดเดียวที่ฉันมอบให้คือเลือกการกระจายการกระโดดหรือพารามิเตอร์ ฉันรู้ว่ามีวิธีการพิเศษหลายร้อยและหลายร้อยวิธีที่พัฒนาขึ้นจากตัวเลือกตำราเรียนเหล่านั้น แต่ฉันมักไม่เคยคิดถึงการใช้ / การเรียนรู้ มันมักจะรู้สึกว่ามันเป็นความพยายามมากเกินไปในการปรับปรุงนิดหน่อยสิ่งที่ทำงานได้ดีอยู่แล้ว แต่เมื่อเร็ว ๆ นี้ฉันกำลังคิดว่าอาจจะไม่มีวิธีการทั่วไปแบบใหม่ที่สามารถปรับปรุงสิ่งที่ฉันทำ เป็นเวลาหลายทศวรรษแล้วที่ค้นพบวิธีการเหล่านั้น บางทีฉันล้าสมัยจริงๆ ! มีทางเลือกอื่น ๆ ที่รู้จักกันดีใน Metropolis-Hastings หรือไม่: ใช้งานง่ายพอสมควร เป็นที่ยอมรับในระดับสากลว่าเป็น MH และปรับปรุงผลลัพธ์ของ MH ให้ดีขึ้นอยู่เสมอ (การคำนวณประสิทธิภาพความแม่นยำ ฯลฯ ) ฉันรู้เกี่ยวกับการปรับปรุงที่พิเศษมากสำหรับโมเดลที่มีความพิเศษมาก แต่มีบางสิ่งที่ทุกคนใช้โดยทั่วไปที่ฉันไม่รู้

5
แหล่งที่มาสำหรับการเรียนรู้ (ไม่ใช่แค่ทำงาน) สถิติ / คณิตศาสตร์ผ่าน R
ฉันสนใจตัวอย่างของแหล่งข้อมูล (รหัส R, แพ็คเกจ R, หนังสือ, บทหนังสือ, บทความ, ลิงก์ ฯลฯ ) สำหรับการเรียนรู้แนวคิดทางสถิติและคณิตศาสตร์ผ่าน R (อาจเป็นภาษาอื่นได้ แต่ R คือรสนิยมที่ฉันโปรดปราน) ความท้าทายคือการเรียนรู้ของวัสดุอาศัยการเขียนโปรแกรมไม่ใช่เพียงแค่วิธีการเรียกใช้โค้ดที่ดำเนินการตามขั้นตอนวิธี ดังนั้น (ตัวอย่าง) หนังสือเช่นรุ่นเชิงเส้นที่มี R (ซึ่งเป็นหนังสือที่ยอดเยี่ยม) ไม่ใช่สิ่งที่ฉันกำลังมองหา นี่เป็นเพราะว่าหนังสือเล่มนี้ส่วนใหญ่แสดงวิธีการใช้ตัวแบบเชิงเส้นใน R แต่มันไม่ได้หมุนรอบการสอนแบบเชิงเส้นโดยใช้ R ไฟล์ช่วยเหลือสำหรับแพ็คเกจการสอน (มหัศจรรย์) เป็นตัวอย่างที่ดีของสิ่งที่ฉันกำลังมองหา มันเป็นแพคเกจ R ซึ่งรวมถึงฟังก์ชั่นสำหรับการเรียนรู้แนวคิดทางสถิติผ่านแอปเพล็ต R และการจำลองต่างๆ ไฟล์ช่วยเหลือมาพร้อมดี แน่นอนว่าไม่เพียงพอและต้องใช้ตำราเรียนภายนอกเพื่อฝึกฝนรายละเอียดที่แน่นอนหลายอย่างเพื่อเรียนรู้ (เช่นไฟล์ช่วยเหลือ) โอกาสในการขายทั้งหมดจะได้รับการชื่นชมมาก

4
การใส่หลายแบบและการเลือกแบบจำลอง
การใส่หลายแบบนั้นค่อนข้างตรงไปตรงมาเมื่อคุณมีโมเดลเชิงเส้นเบื้องต้นที่คุณต้องการประมาณ อย่างไรก็ตามสิ่งต่าง ๆ ดูเหมือนจะมีเล่ห์เหลี่ยมกว่าเมื่อคุณต้องการเลือกแบบจำลองบางอย่าง (เช่นค้นหาชุดตัวทำนายที่ดีที่สุดจากตัวแปรตัวเลือกที่มีขนาดใหญ่กว่า - ฉันกำลังคิดถึง LASSO และพหุนามเศษส่วนโดยใช้ R) แนวคิดหนึ่งคือให้พอดีกับโมเดลในข้อมูลต้นฉบับที่มีค่าที่หายไปจากนั้นประเมินโมเดลนี้ใหม่ในชุดข้อมูล MI และรวมการประมาณการตามปกติ อย่างไรก็ตามนี่เป็นปัญหาเนื่องจากคุณคาดหวังความลำเอียง (หรือทำไม MI ในตอนแรก?) ซึ่งอาจนำไปสู่การเลือกแบบจำลอง "ผิด" ตั้งแต่เริ่มต้น ความคิดอีกอย่างหนึ่งก็คือการทำตามขั้นตอนการเลือกแบบจำลองใด ๆ ที่คุณใช้ในชุดข้อมูล MI แต่ละชุด - แต่คุณจะรวมผลลัพธ์อย่างไรหากรวมตัวแปรชุดต่าง ๆ เข้าด้วยกัน หนึ่งคิดว่าฉันต้องซ้อนชุดข้อมูล MI และวิเคราะห์เป็นชุดข้อมูลขนาดใหญ่ที่คุณจะใช้เพื่อให้พอดีกับรูปแบบ "ดีที่สุด" เดี่ยวและรวมถึงผลกระทบแบบสุ่มในบัญชีสำหรับความจริงที่คุณใช้มาตรการซ้ำสำหรับ การสังเกตแต่ละครั้ง เสียงนี้สมเหตุสมผลหรือไม่ หรืออาจจะไร้เดียงสาอย่างไม่น่าเชื่อ? พอยน์เตอร์ใด ๆ ในปัญหานี้ (การเลือกรุ่นที่มีการใส่หลายครั้ง) จะได้รับการชื่นชมอย่างมาก

5
วิธีการควบคุมค่าใช้จ่ายของการจำแนกประเภทในป่าสุ่ม?
เป็นไปได้หรือไม่ที่จะควบคุมค่าใช้จ่ายในการจำแนกประเภทใน R แพ็คเกจแบบสุ่มป่าไม้ ? ในงานของฉันเองเชิงลบเท็จ (เช่นหายไปในข้อผิดพลาดที่บุคคลอาจมีโรค) มีราคาแพงกว่าบวกเท็จ แพ็คเกจrpartช่วยให้ผู้ใช้สามารถควบคุมค่าใช้จ่ายในการจำแนกประเภทได้โดยการระบุเมทริกซ์การสูญเสียไปยังการจัดประเภทน้ำหนักที่แตกต่างกัน มีอะไรที่คล้ายกันเกิดขึ้นเพื่อrandomForestอะไร? ตัวอย่างเช่นฉันควรใช้classwtตัวเลือกในการควบคุมเกณฑ์ของ Gini หรือไม่

4
เหตุใดการแก้ปัญหาแบบกำลังสองน้อยที่สุดจึงให้ผลลัพธ์ไม่ดีในกรณีนี้
มีรูปภาพในหน้า 204 บทที่ 4 ของ "การจดจำรูปแบบและการเรียนรู้ของเครื่อง" โดย Bishop ซึ่งฉันไม่เข้าใจว่าทำไม Least Square solution จึงให้ผลลัพธ์ที่ไม่ดีที่นี่: ย่อหน้าก่อนหน้านี้เกี่ยวกับข้อเท็จจริงที่ว่าวิธีแก้ปัญหากำลังสองน้อยที่สุดนั้นไม่มีความทนทานต่อค่าผิดปกติอย่างที่คุณเห็นในภาพต่อไปนี้ แต่ฉันไม่เข้าใจว่าเกิดอะไรขึ้นในภาพอื่นและทำไม LS จึงให้ผลลัพธ์ที่แย่เช่นกัน

3
จะเกิดอะไรขึ้นเมื่อคุณใช้ SVD กับปัญหาการกรองร่วมกัน ความแตกต่างระหว่างสองคืออะไร?
ในการกรองร่วมกันเรามีค่าที่ไม่ได้กรอกหากผู้ใช้ไม่ได้ดูภาพยนตร์แล้วเราต้องใส่ 'na' ลงไปที่นั่น ถ้าฉันจะใช้ SVD ของเมทริกซ์นี้จากนั้นฉันต้องใส่ตัวเลขลงไปที่นั่น - บอก 0 ตอนนี้ถ้าฉันแยกเมทริกซ์เมทริกซ์ฉันมีวิธีหาผู้ใช้ที่คล้ายกัน พื้นที่มิติลดลง) แต่การตั้งค่าที่คาดการณ์เอง - สำหรับผู้ใช้รายการจะเป็นศูนย์ (เพราะนั่นคือสิ่งที่เราป้อนในคอลัมน์ที่ไม่รู้จัก) ดังนั้นฉันจึงติดอยู่กับปัญหาของการกรองการทำงานร่วมกันกับ SVD พวกเขาดูเหมือนจะเกือบจะเหมือนกัน แต่ไม่มาก อะไรคือความแตกต่างระหว่างสิ่งเหล่านี้กับสิ่งที่เกิดขึ้นเมื่อฉันใช้ SVD กับปัญหาการกรองแบบทำงานร่วมกัน ฉันทำแล้วและผลลัพธ์ดูเหมือนจะยอมรับได้ในแง่ของการค้นหาผู้ใช้ใกล้เคียงซึ่งยอดเยี่ยม แต่อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.