สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
โมเดล Cox เทียบกับการถดถอยโลจิสติก
สมมติว่าเราได้รับปัญหาต่อไปนี้: ทำนายว่าลูกค้ารายใดที่มีแนวโน้มจะหยุดซื้อในร้านของเราในอีก 3 เดือนข้างหน้า สำหรับลูกค้าแต่ละรายเรารู้ว่าเดือนใดที่ลูกค้าเริ่มซื้อสินค้าในร้านของเราและนอกจากนี้เรายังมีคุณสมบัติด้านพฤติกรรมหลายอย่างในการรวบรวมรายเดือน ลูกค้า 'คนโต' ซื้อมาแล้วห้าสิบเดือน มาแสดงเวลาตั้งแต่ลูกค้าเริ่มซื้อโดย ( ) สามารถสันนิษฐานได้ว่าจำนวนลูกค้ามีขนาดใหญ่มาก หากลูกค้าหยุดซื้อเป็นเวลาสามเดือนจากนั้นกลับมาเขาจะถือว่าเป็นลูกค้าใหม่เพื่อให้เหตุการณ์ (หยุดซื้อ) สามารถเกิดขึ้นได้เพียงครั้งเดียวt ∈ [ 0 , 50 ]tttt∈[0,50]t∈[0,50]t \in [0, 50] การแก้ปัญหาสองข้อนั้นอยู่ในใจของฉัน: การถดถอยแบบลอจิสติก - สำหรับลูกค้าแต่ละรายและในแต่ละเดือน (อาจยกเว้น 3 เดือนล่าสุด) เราสามารถพูดได้ว่าลูกค้าหยุดซื้อหรือไม่ดังนั้นเราสามารถทำการสุ่มตัวอย่างด้วยการสังเกตหนึ่งครั้งต่อลูกค้าและเดือน เราสามารถใช้จำนวนเดือนนับตั้งแต่เริ่มต้นเป็นตัวแปรเด็ดขาดเพื่อรับฟังก์ชั่นความอันตรายพื้นฐานบางอย่าง Extended Cox model - ปัญหานี้สามารถจำลองได้ด้วยการใช้ Extended Cox model ดูเหมือนว่าปัญหานี้เหมาะกับการวิเคราะห์เพื่อความอยู่รอด คำถาม:อะไรคือข้อดีของการวิเคราะห์การอยู่รอดในปัญหาที่คล้ายกัน? การวิเคราะห์การอยู่รอดถูกคิดค้นขึ้นด้วยเหตุผลบางอย่างดังนั้นจะต้องมีข้อได้เปรียบที่ร้ายแรงบางอย่าง ความรู้ของฉันในการวิเคราะห์การเอาชีวิตรอดนั้นไม่ลึกมากและฉันคิดว่าข้อดีที่เป็นไปได้มากที่สุดของโมเดล Cox สามารถทำได้โดยใช้การถดถอยโลจิสติก รูปแบบค็อกซ์เทียบเท่าสามารถแบ่งชั้นได้โดยใช้การโต้ตอบของและตัวแปรแบ่งชั้น ttt แบบจำลองปฏิสัมพันธ์ …

2
การวิเคราะห์ความสัมพันธ์ของ Canonical ที่มีสหสัมพันธ์อันดับ
การวิเคราะห์ความสัมพันธ์ของ Canonical (CCA) มีจุดมุ่งหมายเพื่อเพิ่มความสัมพันธ์ของเพียร์สันในช่วงเวลาปกติ (เช่นค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้น) ของการรวมกันเชิงเส้นของชุดข้อมูลทั้งสอง ตอนนี้ให้พิจารณาความจริงที่ว่าสัมประสิทธิ์สหสัมพันธ์นี้วัดได้เพียงการเชื่อมโยงเชิงเส้นเท่านั้น - นี่คือเหตุผลที่เราใช้เช่น Spearman-หรือ Kendall-ρρ\rhoττ\tau (อันดับ) สัมประสิทธิ์สหสัมพันธ์ การเชื่อมต่อระหว่างตัวแปร ดังนั้นฉันคิดต่อไปนี้: ข้อ จำกัด หนึ่งของ CCA คือพยายามจับความสัมพันธ์เชิงเส้นระหว่างชุดค่าผสมเชิงเส้นที่เกิดขึ้นเนื่องจากฟังก์ชันวัตถุประสงค์เท่านั้น เป็นไปได้ไหมที่จะขยาย CCA ในบางแง่มุมโดยการเพิ่มพูด Spearman- แทน Pearson-ρρ\rho ?rrr ขั้นตอนดังกล่าวจะนำไปสู่สิ่งที่ตีความและมีความหมายทางสถิติหรือไม่ (มันสมเหตุสมผลหรือไม่ - ตัวอย่างเช่น - เพื่อดำเนินการ CCA ในอันดับ ... ?) ฉันสงสัยว่ามันจะช่วยได้เมื่อเราจัดการกับข้อมูลที่ไม่ปกติหรือไม่ ...

1
มีวิธีการทางสถิติใดที่ล้าสมัยและควรละเว้นจากตำราเรียน [ปิด]
ตามที่เป็นอยู่ในปัจจุบันคำถามนี้ไม่เหมาะสำหรับรูปแบบคำถาม & คำตอบของเรา เราคาดหวังคำตอบที่จะได้รับการสนับสนุนจากข้อเท็จจริงการอ้างอิงหรือความเชี่ยวชาญ แต่คำถามนี้อาจเรียกร้องให้มีการถกเถียงอภิปรายโต้แย้งหรือการอภิปรายเพิ่มเติม หากคุณรู้สึกว่าคำถามนี้สามารถปรับปรุงและเปิดใหม่ได้โปรดไปที่ศูนย์ช่วยเหลือเพื่อขอคำแนะนำ ปิดให้บริการใน6 ปีที่ผ่านมา ในการตอบคำถามเกี่ยวกับช่วงความเชื่อมั่นสำหรับสัดส่วนทวินามฉันได้ชี้ให้เห็นข้อเท็จจริงที่ว่าการประมาณปกติเป็นวิธีที่ไม่น่าเชื่อถือซึ่งเป็นแบบโบราณ ไม่ควรสอนเป็นวิธีแม้ว่าอาจมีข้อโต้แย้งว่ามันถูกรวมเป็นส่วนหนึ่งของบทเรียนเกี่ยวกับสิ่งที่ทำให้วิธีการที่เพียงพอ อะไรคือวิธีการทางสถิติ 'มาตรฐาน' อื่น ๆ ที่ผ่านการใช้งานตามวันที่แล้วและควรละเว้นจากตำราเรียนในอนาคต (เพื่อให้มีพื้นที่สำหรับแนวคิดที่มีประโยชน์)

1
ฉันสามารถแปลงเมทริกซ์ความแปรปรวนร่วมเป็นความไม่แน่นอนของตัวแปรได้หรือไม่?
ฉันมีหน่วย GPS ที่ให้เอาต์พุตการวัดสัญญาณรบกวนผ่านเมทริกซ์ความแปรปรวนร่วม :ΣΣ\Sigma Σ=⎡⎣⎢σxxσyxσxzσxyσyyσyzσxzσyzσzz⎤⎦⎥Σ=[σxxσxyσxzσyxσyyσyzσxzσyzσzZ]\Sigma = \left[\begin{matrix} \sigma_{xx} & \sigma_{xy} & \sigma_{xz} \\ \sigma_{yx} & \sigma_{yy} & \sigma_{yz} \\ \sigma_{xz} & \sigma_{yz} & \sigma_{zz} \end{matrix}\right] (นอกจากนี้ยังมีมีส่วนร่วม แต่ขอไม่สนใจว่าเป็นครั้งที่สอง.)เสื้อเสื้อt สมมติว่าฉันต้องการบอกคนอื่นว่าความถูกต้องในแต่ละทิศทาง ( ) คือจำนวนหนึ่ง μ x , μ Y , μ Z กล่าวคือ GPS ของฉันอาจให้ฉันอ่านx = ˉ x ± μ xฯลฯ ความเข้าใจของฉันคือx,y, zx,Y,Zx,y,zμx, …

1
ggplot คำนวณช่วงความเชื่อมั่นสำหรับการถดถอยอย่างไร
แพ็คเกจการลงจุด R ggplot2 มีฟังก์ชั่นที่ยอดเยี่ยมที่เรียกว่าstat_smoothสำหรับการลงจุดเส้นถดถอย (หรือเส้นโค้ง) ด้วยแถบความเชื่อมั่นที่เกี่ยวข้อง อย่างไรก็ตามฉันมีเวลายากที่จะหาว่าแถบความเชื่อมั่นนี้จะถูกสร้างขึ้นได้อย่างไรในทุกครั้งที่มีการถดถอย (หรือ "วิธี") ฉันจะหาข้อมูลนี้ได้อย่างไร

2
การประมาณค่าความแปรปรวนร่วมหลังของเกาวาสหลายตัวแปร
ฉันต้องการ "เรียนรู้" การกระจายตัวของเกาวาสแบบไบวารีที่มีตัวอย่างน้อย แต่เป็นสมมติฐานที่ดีเกี่ยวกับการแจกแจงก่อนหน้าดังนั้นฉันจึงต้องการใช้วิธีแบบเบส์ ฉันกำหนดก่อนหน้านี้: P(μ)∼N(μ0,Σ0)P(μ)∼N(μ0,Σ0) \mathbf{P}(\mathbf{\mu}) \sim \mathcal{N}(\mathbf{\mu_0},\mathbf{\Sigma_0}) μ0=[00] Σ0=[160027]μ0=[00] Σ0=[160027] \mathbf{\mu_0} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \ \ \ \mathbf{\Sigma_0} = \begin{bmatrix} 16 & 0 \\ 0 & 27 \end{bmatrix} และการแจกแจงของฉันให้สมมติฐาน P(x|μ,Σ)∼N(μ,Σ)P(x|μ,Σ)∼N(μ,Σ) \mathbf{P}(x|\mathbf{\mu},\mathbf{\Sigma}) \sim \mathcal{N}(\mathbf{\mu},\mathbf{\Sigma}) μ=[00] Σ=[180018]μ=[00] Σ=[180018] \mathbf{\mu} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \ \ …

1
วิธีประมาณกระบวนการปัวซองโดยใช้ R (หรือ: วิธีการใช้แพคเกจ NHPoisson?)
ฉันมีฐานข้อมูลของเหตุการณ์ (เช่นตัวแปรของวันที่) และ covariates ที่เกี่ยวข้อง เหตุการณ์ถูกสร้างขึ้นโดยกระบวนการปัวซองที่ไม่อยู่กับที่ซึ่งพารามิเตอร์เป็นฟังก์ชันที่ไม่รู้จัก (แต่อาจเป็นเชิงเส้น) ของ covariates บางตัว ฉันคิดว่าแพ็คเกจ NHPoisson มีไว้เพื่อจุดประสงค์นี้เท่านั้น แต่หลังจากการวิจัยไม่ประสบความสำเร็จ 15 ชั่วโมงฉันก็ยังไม่รู้ว่าจะใช้อย่างไร Heck ฉันลองอ่านหนังสืออ้างอิงทั้งสองเล่ม: Coles, S. (2001) บทนำสู่การสร้างแบบจำลองทางสถิติของค่าที่สูงที่สุด สปริงเกอร์ Casella, G. และ Berger, RL, (2002) อนุมานทางสถิติ. บรูคส์ / โคล ตัวอย่างเดียวในเอกสารประกอบของ fitPP.fun ดูเหมือนจะไม่เหมาะกับการตั้งค่าของฉัน ฉันไม่มีคุณค่ามากนัก! ฉันเพิ่งมีเหตุการณ์ที่เปลือยเปล่า ทุกคนได้โปรดช่วยฉันด้วยตัวอย่างง่ายๆของการกระชับกระบวนการ Poisson กับพารามิเตอร์กับตัวแปรร่วมเดียวและสมมติฐานที่ ? ฉันสนใจในการประมาณและ\ฉันให้ชุดข้อมูลสองคอลัมน์พร้อมเวลาของเหตุการณ์ (สมมติว่าวัดเป็นวินาทีหลังจากเวลาโดยพลการ ) และอีกคอลัมน์หนึ่งที่มีค่าของ covariate ?X λ = …

2
การประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติ: ค่ามัธยฐานแทนค่าเฉลี่ย?
วิธีการทั่วไปในการประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติคือการใช้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน / ความแปรปรวนตัวอย่าง อย่างไรก็ตามหากมีค่าผิดปกติค่ามัธยฐานและค่าเบี่ยงเบนเฉลี่ยจากค่ามัธยฐานควรจะแข็งแกร่งกว่านี้ใช่ไหม ในชุดข้อมูลบางชุดที่ฉันพยายามการแจกแจงแบบปกติประมาณโดยดูเหมือนจะทำให้เกิดอะไรมากมาย ดีกว่าแบบคลาสสิกโดยใช้ค่าเฉลี่ยและส่วนเบี่ยงเบน RMSN ( μ , σ )N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)N(μ^,σ^)N(μ^,σ^)\mathcal{N}(\hat\mu, \hat\sigma) มีเหตุผลใดที่จะไม่ใช้ค่ามัธยฐานถ้าคุณคิดว่ามีค่าผิดปกติบางอย่างในชุดข้อมูลหรือไม่? คุณรู้การอ้างอิงบางส่วนสำหรับวิธีการนี้หรือไม่? การค้นหาอย่างรวดเร็วบน Google ไม่พบผลลัพธ์ที่มีประโยชน์ที่พูดถึงประโยชน์ของการใช้สื่อตรงกลางที่นี่ (แต่เห็นได้ชัดว่า "มัธยฐานการประมาณค่าพารามิเตอร์การกระจายทั่วไป" ไม่ใช่คำค้นหาที่เจาะจงมาก) ค่าเบี่ยงเบนเฉลี่ย, มันมีอคติหรือไม่? ฉันควรคูณมันด้วยเพื่อลดอคติหรือไม่n−1nn−1n\frac{n-1}{n} คุณรู้วิธีการประมาณค่าพารามิเตอร์ที่มีประสิทธิภาพที่ใกล้เคียงกันสำหรับการแจกแจงอื่น ๆ เช่นการแจกแจงแกมม่าหรือการแจกแจงแบบเกาส์แบบเอ็กซ์โปเนนเชียล (ซึ่งต้องการความเบ้ในการประมาณค่าพารามิเตอร์และค่าผิดปกติทำให้ยุ่งเหยิง)

4
ฟังก์ชัน logit ดีที่สุดสำหรับการสร้างแบบจำลองการถดถอยของข้อมูลไบนารีหรือไม่?
ฉันกำลังคิดเกี่ยวกับปัญหานี้ ฟังก์ชันโลจิสติกส์ปกติสำหรับการสร้างแบบจำลองข้อมูลไบนารีคือ: อย่างไรก็ตามเป็นฟังก์ชัน logit ซึ่งเป็นรูปโค้ง S จะดีที่สุดสำหรับการสร้างแบบจำลองข้อมูลหรือไม่ บางทีคุณอาจจะมีเหตุผลที่จะเชื่อว่าข้อมูลของคุณไม่เป็นไปตามปกติ S- รูปโค้ง แต่เป็นชนิดที่แตกต่างกันของเส้นโค้งด้วยโดเมน(0,1)log(p1−p)=β0+β1X1+β2X2+…log⁡(p1−p)=β0+β1X1+β2X2+… \log\left(\frac{p}{1-p}\right)=\beta_0+\beta_1X_1+\beta_2X_2+\ldots (0,1)(0,1)(0,1) มีการวิจัยเกี่ยวกับเรื่องนี้หรือไม่? บางทีคุณอาจจำลองมันเป็นฟังก์ชั่น probit หรือคล้ายกัน แต่ถ้าเป็นอย่างอื่นล่ะ? สิ่งนี้นำไปสู่การประเมินผลที่ดีขึ้นหรือไม่? แค่คิดว่าฉันมีและฉันสงสัยว่ามีงานวิจัยเกี่ยวกับเรื่องนี้หรือไม่

2
การระบุโครงสร้างความแปรปรวนร่วม: ข้อดีและข้อเสีย
ประโยชน์ของการระบุโครงสร้างความแปรปรวนร่วมใน GLM คืออะไร (แทนที่จะจัดการกับรายการนอกแนวทแยงทั้งหมดในเมทริกซ์ความแปรปรวนร่วมเป็นศูนย์) นอกเหนือจากการสะท้อนสิ่งที่คนรู้จากข้อมูลแล้ว ปรับปรุงความดีของพอดี? ปรับปรุงความแม่นยำในการทำนายข้อมูลที่จัดขึ้น? อนุญาตให้เราประเมินขอบเขตความแปรปรวนร่วมได้หรือไม่ ค่าใช้จ่ายในการกำหนดโครงสร้างความแปรปรวนร่วมคืออะไร? ทำมัน เพิ่มความยุ่งยากในการคำนวณสำหรับอัลกอริทึมการประมาณค่าหรือไม่? เพิ่มจำนวนพารามิเตอร์โดยประมาณรวมถึงการเพิ่ม AIC, BIC, DIC เป็นไปได้หรือไม่ที่จะกำหนดโครงสร้างความแปรปรวนร่วมที่ถูกต้องเชิงประจักษ์หรือเป็นสิ่งที่ขึ้นอยู่กับความรู้ของคุณเกี่ยวกับกระบวนการสร้างข้อมูล ค่าใช้จ่าย / ผลประโยชน์ใด ๆ ที่ฉันไม่ได้พูดถึง?

1
ความหมายของเงื่อนไขการส่งออกในแพคเกจ gbm?
ฉันใช้แพ็คเกจ gbm เพื่อจัดหมวดหมู่ ตามที่คาดหวังผลลัพธ์ที่ดี แต่ฉันพยายามที่จะเข้าใจผลลัพธ์ของตัวจําแนก เอาต์พุตมีห้าเทอม `Iter TrainDeviance ValidDeviance StepSize Improve` ทุกคนสามารถอธิบายความหมายของแต่ละคำโดยเฉพาะอย่างยิ่งความหมายของการปรับปรุง

1
ทำไมเราถึงรักษาความแปรปรวนได้
ฉันมาข้ามความแปรปรวนเปลี่ยนแปลงการรักษาเสถียรภาพในขณะที่อ่านKaggle เรียงความวิธี พวกเขาใช้การแปลงความเสถียรของผลต่างเพื่อแปลงค่าคัปปาก่อนที่จะรับค่าเฉลี่ยแล้วเปลี่ยนกลับ แม้หลังจากอ่านวิกิเกี่ยวกับความแปรปรวนของการแปรปรวนที่ทำให้เกิดความแปรปรวนฉันไม่เข้าใจทำไมเราถึงทำให้ความแปรปรวนของความมั่นคงมีอยู่จริง? เราได้รับประโยชน์อะไรจากสิ่งนี้?

7
ฟอเรสต์แบบสุ่มมีมากเกินไป
ฉันกำลังพยายามใช้ Random Forest Regression ใน Scikits-Learn ปัญหาคือฉันได้รับข้อผิดพลาดการทดสอบที่สูงมาก: train MSE, 4.64, test MSE: 252.25. นี่คือลักษณะที่ข้อมูลของฉัน: (สีน้ำเงิน: ข้อมูลจริง, สีเขียว: คาดการณ์): ฉันใช้ 90% สำหรับการฝึกอบรมและ 10% สำหรับการทดสอบ นี่คือรหัสที่ฉันใช้หลังจากลองชุดพารามิเตอร์หลายชุด: rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1) test_mse = mean_squared_error(y_test, rf.predict(X_test)) train_mse = mean_squared_error(y_train, rf.predict(X_train)) print("train MSE, %.4f, test MSE: %.4f" % (train_mse, …

1
การแสดงผลแบบจำลองผสม
หนึ่งในปัญหาที่ฉันมีกับรุ่นที่ผสมกันคือการหาการสร้างภาพข้อมูลในรูปแบบที่สามารถลงเอยด้วยกระดาษหรือโปสเตอร์เมื่อมีผลลัพธ์แล้ว ตอนนี้ฉันกำลังทำงานกับโมเดลเอฟเฟกต์ผสมปัวซองด้วยสูตรที่มีลักษณะดังนี้: a <- glmer(counts ~ X + Y + Time + (Y + Time | Site) + offset(log(people)) ด้วยบางสิ่งที่ติดตั้งใน glm () เราสามารถใช้การทำนาย () เพื่อรับการทำนายสำหรับชุดข้อมูลใหม่ได้อย่างง่ายดายและสร้างบางสิ่งจากนั้น แต่ด้วยผลลัพธ์เช่นนี้ - คุณจะสร้างบางสิ่งเช่นพล็อตของอัตราเมื่อเวลาผ่านไปด้วยการเลื่อนจาก X (และน่าจะมีค่าที่ตั้งไว้เป็น Y) ได้อย่างไร ฉันคิดว่ามีใครสามารถทำนายขนาดพอดีได้ดีพอจากประมาณการคงที่ผลกระทบ แต่สิ่งที่เกี่ยวกับ 95% CI? มีใครอีกบ้างที่คิดว่าจะช่วยให้เห็นภาพผลลัพธ์ ผลลัพธ์ของโมเดลอยู่ด้านล่าง: Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 5.3678e-01 0.7326513 time …

3
เหตุใดจึงใช้การวัดข้อผิดพลาดการคาดการณ์บางอย่าง (เช่น MAD) เมื่อเทียบกับข้อผิดพลาดอื่น (เช่น MSE)
MAD = Mean เบี่ยงเบนจากค่าสัมบูรณ์สัมบูรณ์ MSE = Mean Squared Error ฉันเคยเห็นคำแนะนำจากสถานที่ต่าง ๆ ที่ใช้ MSE แม้จะมีคุณสมบัติที่ไม่พึงประสงค์บางอย่าง (เช่นhttp://www.stat.nus.edu.sg/~staxyc/T12.pdfซึ่งกล่าวถึง p8 "เป็นที่เชื่อกันโดยทั่วไปว่า MAD เป็นเกณฑ์ที่ดีกว่า MSE อย่างไรก็ตาม MSE ทางคณิตศาสตร์สะดวกกว่า MAD ") มีอะไรมากกว่านั้นอีกไหม? มีกระดาษที่วิเคราะห์สถานการณ์อย่างละเอียดซึ่งวิธีการต่างๆในการวัดข้อผิดพลาดการคาดการณ์มีความเหมาะสมมากขึ้นหรือน้อยลงหรือไม่? การค้นหา google ของฉันยังไม่เปิดเผยอะไรเลย คำถามที่คล้ายกันนี้ถูกถามที่/programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sdeและผู้ใช้ถูกถาม โพสต์บน stats.stackexchange.com แต่ฉันไม่คิดว่าพวกเขาเคยทำ
15 forecasting  error  mse  mae 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.