สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
เสียงสีขาวในสถิติ
ฉันมักจะเห็นคำว่าเสียงสีขาวปรากฏขึ้นเมื่ออ่านเกี่ยวกับแบบจำลองทางสถิติที่แตกต่างกัน อย่างไรก็ตามฉันต้องยอมรับว่าฉันไม่แน่ใจว่าสิ่งนี้หมายความว่าอะไร มันมักจะย่อเป็นWN(0,σ2)WN(0,σ2)WN(0,σ^2)2) นั่นหมายความว่ามันกระจายตามปกติหรืออาจตามการกระจายตัวใด ๆ ?

2
เหตุใดค่า p จึงทำให้เข้าใจผิดหลังจากทำการเลือกตามลำดับขั้นตอน
ลองพิจารณาตัวอย่างเช่นโมเดลการถดถอยเชิงเส้น ฉันได้ยินมาว่าในการขุดข้อมูลหลังจากทำการเลือกตามขั้นตอนตามเกณฑ์ AIC มันทำให้เข้าใจผิดว่าการดูค่า p เพื่อทดสอบสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยจริงแต่ละตัวมีค่าเป็นศูนย์ ฉันได้ยินมาว่าควรพิจารณาตัวแปรทั้งหมดที่เหลือในตัวแบบว่ามีสัมประสิทธิ์การถดถอยที่แท้จริงแตกต่างจากศูนย์แทน มีใครอธิบายได้ไหม ขอขอบคุณ.

1
แบบจำลองการถดถอยไม่ถูกต้องอย่างไรเมื่อไม่ตรงตามสมมติฐาน?
เมื่อติดตั้งโมเดลการถดถอยจะเกิดอะไรขึ้นถ้าข้อสันนิษฐานของผลลัพธ์ไม่เป็นไปตามที่ระบุ: จะเกิดอะไรขึ้นถ้าสิ่งที่เหลืออยู่ไม่เป็นเนื้อเดียวกัน? หากส่วนที่เหลือแสดงรูปแบบที่เพิ่มขึ้นหรือลดลงในส่วนที่เหลือกับพล็อตที่ติดตั้ง จะเกิดอะไรขึ้นหากส่วนที่เหลือไม่ได้ถูกแจกจ่ายและล้มเหลวในการทดสอบ Shapiro-Wilk การทดสอบตามปกติของชาปิโร่วิลค์เป็นการทดสอบที่เข้มงวดมากและบางครั้งแม้ว่าพล็อตปกติ -QQ จะดูสมเหตุสมผล แต่ข้อมูลก็ล้มเหลวในการทดสอบ จะเกิดอะไรขึ้นถ้าตัวทำนายหนึ่งตัวหรือมากกว่านั้นไม่ได้ถูกกระจายโดยทั่วไปอย่ามองไปที่พล็อตปกติ -QQ หรือถ้าข้อมูลล้มเหลวในการทดสอบ Shapiro-Wilk? ฉันเข้าใจว่าไม่มีการแบ่งสีดำและสีขาวอย่างหนักว่า 0.94 ถูกต้องและ 0.95 ไม่ถูกต้องและในคำถามฉันต้องการทราบว่า: ความล้มเหลวของภาวะปกตินั้นหมายถึงอะไรสำหรับแบบจำลองที่เหมาะสมตามค่า R-Squared มันเชื่อถือได้น้อยลงหรือไร้ประโยชน์อย่างสมบูรณ์หรือไม่? การเบี่ยงเบนนั้นยอมรับได้หรือว่ายอมรับได้ในระดับใด? เมื่อใช้การแปลงข้อมูลเพื่อให้เป็นไปตามเกณฑ์ปกติแบบจำลองจะดีขึ้นหรือไม่ถ้าข้อมูลเป็นปกติมากขึ้น (ค่า P-value ที่สูงกว่าในการทดสอบ Shapiro-Wilk, ดูดีขึ้นในแผน QQ ปกติ) หรือมันไร้ประโยชน์ (เท่าเทียมกันดีหรือ ไม่ดีเมื่อเทียบกับต้นฉบับ) จนกว่าข้อมูลจะผ่านการทดสอบตามปกติ?

4
การกระจายค่า p-value หลายชุดให้หลักฐานทางสถิติว่า H0 จริงหรือไม่?
การทดสอบทางสถิติเดียวสามารถให้หลักฐานว่าสมมติฐานว่าง (H0) เป็นเท็จและดังนั้นสมมติฐานทางเลือก (H1) เป็นจริง แต่ไม่สามารถใช้เพื่อแสดงว่า H0 เป็นจริงเนื่องจากความล้มเหลวในการปฏิเสธ H0 ไม่ได้หมายความว่า H0 เป็นจริง แต่สมมติว่าคุณมีความเป็นไปได้ที่จะทำการทดสอบทางสถิติหลายครั้งเพราะคุณมีชุดข้อมูลจำนวนมากทั้งหมดเป็นอิสระจากกัน ชุดข้อมูลทั้งหมดเป็นผลมาจากกระบวนการเดียวกันและคุณต้องการที่จะทำคำสั่ง (H0 / H1) เหนือกระบวนการเองและไม่สนใจผลลัพธ์ของการทดสอบแต่ละครั้ง จากนั้นคุณจะรวบรวมค่า p ทั้งหมดที่เกิดขึ้นและดูผ่านพล็อตฮิสโตแกรมที่ค่า p ถูกกระจายอย่างสม่ำเสมอ เหตุผลของฉันตอนนี้คือสิ่งนี้สามารถเกิดขึ้นได้ถ้า H0 เป็นจริงเท่านั้นมิฉะนั้นค่า p จะถูกกระจายออกไปต่างกัน นี่เป็นหลักฐานเพียงพอที่จะสรุปว่า H0 เป็นจริงหรือไม่? หรือฉันพลาดอะไรบางอย่างที่นี่ไปแล้วเพราะมันทำให้ฉันมีความมุ่งมั่นในการเขียน "สรุปว่า H0 นั้นเป็นจริง" ซึ่งฟังดูผิดอย่างน่ากลัวในหัวของฉัน

1
เหตุใดฉันจึงได้รับโซลูชัน lasso แบบปิดไม่ถูกต้อง
ปัญหา lassoมีรูปแบบการปิด: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + ถ้าXมีคอลัมน์แบบออโธเทนเน็ต นี่ก็แสดงให้เห็นในกระทู้นี้: ที่มาของรูปแบบปิดวิธีการแก้เชือกβlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX อย่างไรก็ตามฉันไม่เข้าใจว่าทำไมไม่มีโซลูชันแบบปิดโดยทั่วไป ใช้ subifferentials …

3
ช่วยพัฒนาสมอง: ความยาวที่คาดหวังของลำดับ iid ที่เพิ่มขึ้นแบบซ้ำซากคืออะไรเมื่อดึงจากการแจกแจงแบบ [0,1]
นี่เป็นคำถามที่สัมภาษณ์สำหรับตำแหน่งนักวิเคราะห์เชิงปริมาณรายงานที่นี่ สมมติว่าเราวาดจากการแจกแจงแบบสม่ำเสมอและการจับสลากคือ iid ความยาวที่คาดหวังของการแจกแจงแบบซ้ำซ้อนเพิ่มขึ้นคือเท่าใด? คือเราหยุดการวาดถ้าการดึงปัจจุบันมีขนาดเล็กกว่าหรือเท่ากับการวาดก่อนหน้า[0,1][0,1][0,1] ฉันได้รับสองสามครั้งแรก: \ Pr (\ text {length} = 2) = \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_0 ^ {x_2} \ mathrm {d} x_3 \, \ mathrm {d} x_2 \, \ mathrm {d} x_1 = 1/3 \ Pr (\ text {length} = 3) …

1
ฟังก์ชั่นการสูญเสีย XGBoost ประมาณด้วยการขยายตัวของเทย์เลอร์
ยกตัวอย่างเช่นใช้ฟังก์ชันวัตถุประสงค์ของโมเดล XGBoost ในการวนซ้ำ 'th:tเสื้อt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(เสื้อ)=Σผม=1nℓ(Yผม,Y^ผม(เสื้อ-1)+ฉเสื้อ(xผม))+Ω(ฉเสื้อ)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) ที่เป็นฟังก์ชั่นการสูญเสียเป็น 'เอาท์พุทต้นไม้ TH และเป็นกู หนึ่งในขั้นตอนสำคัญ (มากมาย) สำหรับการคำนวณที่รวดเร็วคือการประมาณ:ℓℓ\ellftฉเสื้อf_ttเสื้อtΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), โดยที่และเป็นอนุพันธ์อันดับหนึ่งและสองของฟังก์ชันการสูญเสียgigig_ihihih_i สิ่งที่ฉันขอคือข้อโต้แย้งที่น่าเชื่อถือเพื่อทำให้เข้าใจผิดว่าเหตุใดการประมาณข้างต้นจึงทำงาน: 1) XGBoost ที่มีการประมาณด้านบนเปรียบเทียบกับ XGBoost กับฟังก์ชั่นวัตถุประสงค์ได้อย่างไร สิ่งที่น่าสนใจพฤติกรรมที่มีลำดับสูงกว่าจะหายไปในการประมาณ? 2) มันค่อนข้างยากที่จะเห็นภาพ (และขึ้นอยู่กับฟังก์ชั่นการสูญเสีย) แต่ถ้าฟังก์ชั่นการสูญเสียมีองค์ประกอบลูกบาศก์ขนาดใหญ่แล้วการประมาณอาจจะล้มเหลว มันเป็นวิธีการที่ไม่ก่อให้เกิดปัญหาสำหรับ XGBoost?

7
แนวคิดสถิติเพื่ออธิบายว่าทำไมคุณถึงมีโอกาสน้อยที่จะพลิกจำนวนหัวเท่ากันกับก้อยเมื่อจำนวนการโยนเพิ่มขึ้น
ฉันทำงานเกี่ยวกับการเรียนรู้ความน่าจะเป็นและสถิติโดยการอ่านหนังสือสองสามเล่มและเขียนรหัสบางส่วนและในขณะที่การจำลองเหรียญพลิกฉันสังเกตเห็นบางสิ่งบางอย่างที่ทำให้ฉันเป็นตัวนับสัญชาตญาณไร้เดียงสาเล็กน้อย หากคุณพลิกเหรียญที่ยุติธรรมครั้งอัตราส่วนของหัวต่อหางจะแปรเปลี่ยนเป็น 1 เมื่อเพิ่มขึ้นตามที่คุณคาดหวัง แต่ในทางกลับกันเมื่อเพิ่มขึ้นปรากฏว่าคุณมีโอกาสน้อยที่จะพลิกจำนวนหัวเท่ากันเป็นหางดังนั้นจะได้อัตราส่วน1 ที่แน่นอนn nnnnnnnnnn ตัวอย่างเช่น (ผลงานบางส่วนจากโปรแกรมของฉัน) For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS) For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS) For 1000 flips, it took 11 experiments …

2
เครือข่ายความเชื่อลึกหรือเครื่องจักร Deep Boltzmann
ฉันสับสน มีความแตกต่างระหว่างเครือข่ายความเชื่อลึกและเครื่องจักร Deep Boltzmann หรือไม่? ถ้าเป็นเช่นนั้นความแตกต่างคืออะไร?

2
แง่มุมใดของชุดข้อมูล“ Iris” ที่ทำให้ประสบความสำเร็จเช่นชุดข้อมูลตัวอย่างการสอน / การทดสอบ
"ไอริส"ชุดข้อมูลที่น่าจะเป็นที่คุ้นเคยกับคนส่วนใหญ่ที่นี่ - มันเป็นหนึ่งในชุดข้อมูลการทดสอบเป็นที่ยอมรับและการเดินทางไปตัวอย่างเช่นชุดสำหรับทุกอย่างจากการแสดงข้อมูลในการเรียนรู้ของเครื่อง ตัวอย่างเช่นทุกคนในคำถามนี้ลงเอยด้วยการใช้มันเพื่อการอภิปรายเกี่ยวกับแผนการกระจายที่แยกออกจากกันโดยการรักษา อะไรที่ทำให้ชุดข้อมูลIrisมีประโยชน์มาก? แค่นั้นแหละที่นั่นก่อน? หากมีคนพยายามสร้างชุดข้อมูล / ตัวอย่างทดสอบที่มีประโยชน์พวกเขาสามารถนำบทเรียนใดไปใช้
28 dataset 

1
ค่า“ ความถี่” สำหรับข้อมูลช่วงเวลาวินาที / นาทีใน R
ฉันใช้ R (3.1.1) และโมเดล ARIMA สำหรับการคาดการณ์ ฉันต้องการที่จะรู้ว่าสิ่งที่ควรเป็นพารามิเตอร์ "ความถี่" ซึ่งได้รับมอบหมายในts()ฟังก์ชั่นถ้าฉันใช้ข้อมูลอนุกรมเวลาซึ่งเป็น: คั่นด้วยนาทีและกระจายไปทั่ว 180 วัน (1440 นาที / วัน) คั่นด้วยวินาทีและกระจายไปทั่ว 180 วัน (86,400 วินาที / วัน) ถ้าฉันจำคำจำกัดความได้ถูกต้อง "ความถี่" ใน ts ใน R คือจำนวนการสังเกตต่อ "ซีซัน" คำถามตอนที่ 1: "ฤดูกาล" ในกรณีของฉันคืออะไร หากฤดูกาลคือ "วัน" ดังนั้น "ความถี่" เป็นนาที = 1440 และ 86,400 เป็นวินาทีหรือไม่ คำถามที่ 2: "ความถี่" อาจขึ้นอยู่กับสิ่งที่ฉันพยายามบรรลุ / …

2
เหตุใดจึงต้องใช้การตรวจสอบข้ามแบบแบ่งชั้น ทำไมสิ่งนี้จึงไม่ได้สร้างความเสียหายแปรปรวนที่เกี่ยวข้องกับผลประโยชน์?
ฉันได้รับการบอกว่าเป็นประโยชน์ในการใช้การตรวจสอบความถูกต้องข้ามกลุ่มโดยเฉพาะอย่างยิ่งเมื่อคลาสการตอบกลับไม่สมดุล หากจุดประสงค์หนึ่งของการตรวจสอบข้ามจุดประสงค์คือเพื่อช่วยให้บัญชีสุ่มตัวอย่างข้อมูลการฝึกอบรมเดิมของเราแน่นอนว่าแต่ละครั้งที่การแจกจ่ายคลาสเดียวกันจะทำงานกับสิ่งนี้เว้นแต่ว่าคุณแน่ใจว่าชุดการฝึกอบรมดั้งเดิมของคุณมีการแจกจ่ายชั้นตัวแทน ตรรกะของฉันมีข้อบกพร่องหรือไม่ แก้ไข ฉันสนใจว่าวิธีนี้จะทำลายผลดีของ CV หรือไม่ ฉันสามารถดูว่าทำไมมันเป็นสิ่งจำเป็นถ้าคุณมีตัวอย่างขนาดเล็ก / คลาสที่ไม่สมดุลมาก / ทั้งคู่เพื่อหลีกเลี่ยงการไม่มีตัวแทนคนเดียวของคลาสรองลงมา กระดาษแอปเปิ้ลต่อแอปเปิ้ลในการศึกษาการตรวจสอบข้าม: ข้อผิดพลาดในการวัดประสิทธิภาพลักษณนามส่งต่อกรณีสำหรับการแบ่งชั้นเป็นอย่างดี แต่ข้อโต้แย้งทั้งหมดดูเหมือนจะเป็นจำนวน 'การแบ่งชั้นเป็น ข้อมูล. คือคำตอบง่ายๆ"เราใช้มันโดยไม่จำเป็นเพราะเราไม่ค่อยมีข้อมูลเพียงพอ" ?

7
ชื่อของการเข้าใจผิดทางสถิติคืออะไรโดยผลของการโยนเหรียญก่อนหน้ามีอิทธิพลต่อความเชื่อเกี่ยวกับการพลิกเหรียญครั้งต่อไป?
อย่างที่เราทุกคนรู้กันดีว่าถ้าคุณพลิกเหรียญที่มีโอกาสเท่ากันในการลงจอดหัวเหมือนหางจากนั้นถ้าคุณพลิกเหรียญหลายครั้งครึ่งเวลาคุณจะได้หัวและครึ่งเวลาคุณจะได้หาง เมื่อพูดถึงเรื่องนี้กับเพื่อนพวกเขาบอกว่าถ้าคุณต้องพลิกเหรียญ 1,000 ครั้งและให้บอกว่า 100 ครั้งแรกที่มันตกลงมาจากหัวแล้วโอกาสในการลงหางก็เพิ่มขึ้น (ตรรกะก็คือถ้ามันไม่เอนเอียง) จากนั้นตามเวลาที่คุณพลิกมัน 1,000 ครั้งคุณจะมีประมาณ 500 หัวและ 500 ก้อยดังนั้นก้อยจะต้องมีโอกาสมากขึ้น) ฉันรู้ว่าการเข้าใจผิดเพราะผลลัพธ์ที่ผ่านมาไม่มีผลต่อผลลัพธ์ในอนาคต มีชื่อสำหรับการเข้าใจผิดที่เฉพาะเจาะจงหรือไม่? นอกจากนี้ยังมีคำอธิบายที่ดีกว่าว่าทำไมนี่ถึงผิดพลาด?

5
ความแตกต่างระหว่างเครือข่ายแบบเบย์และกระบวนการมาร์คอฟหรือไม่?
ความแตกต่างระหว่างเครือข่ายแบบเบย์และกระบวนการมาร์คอฟคืออะไร? ฉันเชื่อว่าฉันเข้าใจหลักการของทั้งสอง แต่ตอนนี้เมื่อฉันต้องการเปรียบเทียบทั้งสองที่ฉันรู้สึกว่าหายไป พวกเขามีความหมายเหมือนกันกับฉัน แน่นอนพวกเขาไม่ใช่ ลิงค์ไปยังแหล่งข้อมูลอื่น ๆ ก็ชื่นชม

1
การเปรียบเทียบการจัดกลุ่มลำดับชั้นแบบย่อที่ได้จากระยะทางและวิธีการต่าง ๆ
[ชื่อเริ่มต้น "การวัดความคล้ายคลึงกันสำหรับต้นไม้การจัดกลุ่มแบบลำดับชั้น" ถูกเปลี่ยนในภายหลังโดย @ttnphns เพื่อให้สะท้อนหัวข้อได้ดียิ่งขึ้น] ฉันกำลังทำการวิเคราะห์คลัสเตอร์แบบลำดับชั้นจำนวนหนึ่งเกี่ยวกับ dataframe ของบันทึกผู้ป่วย (เช่นคล้ายกับhttp://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) ฉันกำลังทดลองกับการวัดระยะทางที่แตกต่างกันน้ำหนักของพารามิเตอร์ที่แตกต่างกันและวิธีการลำดับชั้นที่แตกต่างกันเพื่อทำความเข้าใจผลกระทบที่มีต่อกลุ่ม / โครงสร้าง / มุมมองสุดท้ายของต้นไม้ (dendrogram) คำถามของฉันไม่ว่าจะมีการคำนวณมาตรฐาน / การวัดเพื่อคำนวณความแตกต่างระหว่างต้นไม้แบบลำดับชั้นที่แตกต่างกันและวิธีการใช้สิ่งนี้ใน R (เช่นเพื่อหาจำนวนที่ต้นไม้บางต้นเกือบเหมือนกันและแตกต่างกันอย่างมาก)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.