สถิติและข้อมูลขนาดใหญ่

8

จะบอกความน่าจะเป็นของความล้มเหลวได้อย่างไรถ้าไม่มีความล้มเหลว?

ฉันสงสัยว่ามีวิธีที่จะบอกความน่าจะเป็นของสิ่งที่ล้มเหลว (ผลิตภัณฑ์) ถ้าเรามีผลิตภัณฑ์ 100,000 รายการในเขตข้อมูลเป็นเวลา 1 ปีและไม่มีความล้มเหลวหรือไม่? ความน่าจะเป็นที่ผลิตภัณฑ์หนึ่งใน 10,000 รายการที่ขายไปนั้นล้มเหลวคืออะไร

50 probability survival binomial

5

ความแตกต่างระหว่าง N และ N-1 ในการคำนวณความแปรปรวนของประชากรคืออะไร?

ฉันไม่เข้าใจว่าทำไมถึงมีNและN-1ขณะคำนวณความแปรปรวนของประชากร เวลาที่เราใช้Nและเมื่อไหร่ที่เราจะใช้N-1? คลิกที่นี่สำหรับรุ่นที่ใหญ่กว่า มันบอกว่าเมื่อประชากรมีขนาดใหญ่มากไม่มีความแตกต่างระหว่าง N และ N-1 แต่ไม่ได้บอกว่าทำไมถึงมี N-1 ตั้งแต่แรก แก้ไข: โปรดอย่าสับสนnและn-1ใช้ในการประมาณ แก้ไข 2: ฉันไม่ได้พูดถึงการประมาณประชากร

50 variance population

6

การถดถอยของสันเขาไร้ประโยชน์ในมิติที่สูง ( ) หรือไม่? OLS จะล้มเหลวได้อย่างไร

พิจารณาปัญหาการถดถอยที่ดีเก่ากับพยากรณ์และขนาดของกลุ่มตัวอย่างnภูมิปัญญาปกติคือตัวประมาณค่า OLS จะ overfit และโดยทั่วไปแล้วจะดีกว่าโดยตัวประมาณถดถอยสัน:มันเป็นมาตรฐานที่จะใช้การตรวจสอบข้ามที่จะหาที่ดีที่สุด regularization พารามิเตอร์\ที่นี่ฉันใช้ CV 10 เท่า ปรับปรุงการชี้แจง:เมื่อ , โดย "OLS ตัวประมาณ" ฉันเข้าใจ "ตัวประมาณค่าต่ำสุด - บรรทัดฐาน OLS" ที่กำหนดโดยpppβ = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Y λnnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdaβ OLS = ( X ⊤ X ) + …

50 cross-validation regularization overfitting ridge-regression shrinkage

3

เราจะกำหนด 'การวิจัยที่ทำซ้ำได้' อย่างไร

ตอนนี้มีคำถามสองสามข้อที่เกิดขึ้นและฉันสงสัยเกี่ยวกับบางสิ่งบางอย่าง ฟิลด์ทั้งหมดย้ายไปที่ "ความสามารถในการทำซ้ำ" โดยมุ่งเน้นไปที่ความพร้อมใช้งานของข้อมูลดั้งเดิมและรหัสที่เป็นปัญหาหรือไม่ ฉันได้รับการสอนอยู่เสมอว่าแกนของความสามารถในการทำซ้ำนั้นไม่จำเป็นอย่างที่ฉันเคยพูดถึงความสามารถในการคลิกเรียกใช้และรับผลลัพธ์เดียวกัน วิธีการดาต้าและรหัสดูเหมือนว่าจะถือว่าข้อมูลนั้นถูกต้อง - ซึ่งไม่มีข้อบกพร่องในการรวบรวมข้อมูลเอง (มักเป็นเท็จในกรณีของการฉ้อโกงทางวิทยาศาสตร์) นอกจากนี้ยังมุ่งเน้นไปที่กลุ่มตัวอย่างเดียวของประชากรเป้าหมายแทนที่จะเป็นความสามารถในการจำลองแบบของการค้นหาตัวอย่างอิสระหลายรายการ เหตุใดจึงมีความสำคัญต่อความสามารถในการวิเคราะห์อีกครั้งแทนที่จะทำซ้ำการศึกษาจากพื้นดินขึ้นมา? บทความที่กล่าวถึงในความคิดเห็นด้านล่างที่มีอยู่ที่นี่

50 reproducible-research philosophical

13

ซอฟต์แวร์สำหรับการวาดเครือข่ายแบบเบย์ (โมเดลกราฟิก)

ฉันกำลังค้นหาซอฟต์แวร์ [ฟรี] ที่สามารถสร้างตัวแบบกราฟิกที่ดูดีได้เช่น ข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชม

50 graphical-model software

5

การสะกดคำที่ถูกต้อง (ตัวพิมพ์ใหญ่, ตัวเอียง, ยัติภังค์) ของ“ p-value”?

ฉันรู้ว่าสิ่งนี้เป็นเรื่องอื้อฉาวและน่าเบื่อ แต่ในฐานะนักวิจัยในสาขานอกสถิติด้วยการศึกษาอย่างเป็นทางการในสถิติที่ จำกัด ฉันมักจะสงสัยว่าฉันเขียน "p-value" ถูกต้องหรือไม่ โดยเฉพาะ: "p" ควรจะเป็นตัวพิมพ์ใหญ่หรือไม่ "p" ควรจะเป็นตัวเอียงหรือไม่ (หรือในแบบอักษรคณิตศาสตร์ใน TeX?) ควรมีเครื่องหมายขีดคั่นระหว่าง "p" และ "value" หรือไม่? อีกวิธีหนึ่งไม่มีวิธีการเขียน "p-value" ที่เหมาะสม "และ dolt ใด ๆ จะเข้าใจสิ่งที่ฉันหมายถึงถ้าฉันวาง" p "ถัดจาก" value "ในการเปลี่ยนแปลงตัวเลือกเหล่านี้

50 hypothesis-testing p-value terminology

1

การเข้ารหัสดัมมี่เทียบกับหนึ่งใน Scikit เรียนรู้

มีวิธีการเข้ารหัสตัวแปรเด็ดขาดสองวิธี กล่าวว่าหนึ่งตัวแปรเด็ดขาดมีค่าn การเข้ารหัสแบบ one-hotจะแปลงเป็นตัวแปรnในขณะที่การเข้ารหัสแบบจำลองจะแปลงเป็นตัวแปรn-1 ถ้าเรามีตัวแปรเด็ดขาดkแต่ละตัวมีค่าn การเข้ารหัสฮอตหนึ่งจบลงด้วยตัวแปรknในขณะที่การเข้ารหัสดัมมี่ลงท้ายด้วยตัวแปรkn-k ฉันได้ยินมาว่าสำหรับการเข้ารหัสที่ร้อนแรงเพียงครั้งเดียวการสกัดกั้นอาจนำไปสู่ปัญหา collinearity ซึ่งทำให้ตัวแบบไม่ดัง บางคนเรียกมันว่า " กับดักตัวแปรจำลอง " คำถามของฉัน: โมเดลการถดถอยเชิงเส้นของ Scikit-Learn ช่วยให้ผู้ใช้ปิดใช้งานการสกัดกั้น ดังนั้นสำหรับการเข้ารหัสที่ร้อนแรงฉันควรตั้งค่า fit_intercept = False เสมอหรือไม่ สำหรับการเข้ารหัสแบบสุ่มควรตั้งค่า fit_intercept เป็น True หรือไม่ ฉันไม่เห็น "คำเตือน" บนเว็บไซต์ เนื่องจากการเข้ารหัสแบบร้อนแรงสร้างตัวแปรมากขึ้นมันมีระดับความอิสระมากกว่าการเข้ารหัสแบบจำลองหรือไม่?

50 regression categorical-data data-transformation scikit-learn data-preprocessing

3

สัญชาตญาณของ SVD คืออะไร?

ฉันได้อ่านเกี่ยวกับการสลายตัวของค่าเอกพจน์ (SVD) แล้ว ในหนังสือเกือบทุกเล่มมีการกล่าวถึงว่ามันทำให้เมทริกซ์แยกตัวเป็นเมทริกซ์สามตัวพร้อมการกำหนด แต่ปรีชาที่อยู่เบื้องหลังการแยกเมทริกซ์ในรูปแบบดังกล่าวคืออะไร? PCA และอัลกอริธึมอื่น ๆ สำหรับการลดขนาดนั้นใช้งานง่ายในแง่ที่ว่าอัลกอริทึมมีคุณสมบัติการสร้างภาพที่ดี แต่ด้วย SVD ไม่ใช่กรณี

50 matrix linear-algebra svd intuition

3

การทำคลัสเตอร์กับ K-Means และ EM: พวกเขาเกี่ยวข้องกันอย่างไร

ฉันได้ศึกษาอัลกอริทึมสำหรับการจัดกลุ่มข้อมูล (การเรียนรู้ที่ไม่สำรอง): EM และ k-mean ฉันอ่านต่อไปนี้: k-mean คือตัวแปรของ EM โดยมีข้อสันนิษฐานว่ากระจุกดาวทรงกลม ใครสามารถอธิบายประโยคข้างต้นได้บ้าง ฉันไม่เข้าใจความหมายของทรงกลมและความสัมพันธ์ของ kmeans และ EM เนื่องจากมีความน่าจะเป็นที่ได้รับมอบหมาย นอกจากนี้ในสถานการณ์ใดควรใช้การจัดกลุ่ม k-mean หรือใช้การทำคลัสเตอร์ EM

50 machine-learning clustering data-mining k-means expectation-maximization

2

มีความแตกต่างระหว่าง 'การควบคุมสำหรับ' และ 'ละเว้น' ตัวแปรอื่น ๆ ในการถดถอยหลายครั้งหรือไม่?

สัมประสิทธิ์ของตัวแปรอธิบายในการถดถอยหลายครั้งจะบอกเราว่าความสัมพันธ์ของตัวแปรอธิบายนั้นกับตัวแปรตาม ทั้งหมดนี้ในขณะที่ 'ควบคุม' สำหรับตัวแปรอธิบายอื่น ๆ ฉันได้ดูอย่างไร: ในขณะที่มีการคำนวณสัมประสิทธิ์แต่ละตัวตัวแปรอื่น ๆ จะไม่นำมาพิจารณาดังนั้นฉันจึงถือว่าพวกมันถูกเพิกเฉย ดังนั้นฉันถูกต้องเมื่อฉันคิดว่าคำว่า 'ควบคุม' และ 'ละเว้น' สามารถใช้แทนกันได้?

50 regression multiple-regression

1

การรับค่าที่คาดการณ์ (Y = 1 หรือ 0) จากแบบจำลองการถดถอยโลจิสติกพอดี

สมมติว่าผมมีวัตถุของคลาสglm(สอดคล้องกับรูปแบบการถดถอยโลจิสติก) และฉันต้องการที่จะเปิดความน่าจะเป็นที่คาดการณ์ที่ได้รับจากpredict.glmการใช้อาร์กิวเมนต์type="response"ลงในการตอบสนองไบนารีคือหรือ 0 วิธีที่เร็วและเป็นที่ยอมรับมากที่สุดในการทำเช่นนี้ใน R คืออะไร?Y = 0Y=1Y=1Y=1Y=0Y=0Y=0 ในขณะที่อีกครั้งฉันรู้predict.glmฉันไม่ทราบว่าค่า cutoff ที่อยู่ตรงไหน- และฉันคิดว่านี่เป็นบล็อกหลักของฉันที่นี่P(Yi=1|X^i)P(Yi=1|X^i)P(Y_i=1|\hat X_{i})

50 r generalized-linear-model logistic

4

ทำไมต้องกังวลกับปัญหาสองอย่างเมื่อทำการปรับแต่ง SVM?

เมื่อกำหนดจุดข้อมูลและป้ายกำกับy 1 , … , y n ∈ { - 1 , 1 } , ปัญหาระยะขอบ SVM ที่ยากคือx1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} s.t.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1 ซึ่งเป็นโปรแกรมกำลังสองที่มีตัวแปรที่จะปรับให้เหมาะสมสำหรับและข้อ จำกัด …

50 svm

16

หนังสือที่แนะนำเกี่ยวกับการออกแบบการทดสอบ

คำแนะนำของแผงหนังสือเกี่ยวกับการออกแบบการทดลองคืออะไร ตามหลักการแล้วหนังสือควรจะยังคงอยู่ในรูปแบบสิ่งพิมพ์หรือเป็นสื่ออิเล็กทรอนิกส์แม้ว่าจะไม่เป็นไปได้เสมอไป หากคุณรู้สึกว่าต้องการเพิ่มคำสองสามคำเกี่ยวกับสิ่งที่ดีเกี่ยวกับหนังสือเล่มนั้นก็คงจะดีเช่นกัน นอกจากนี้ตั้งเป้าหมายสำหรับหนังสือหนึ่งเล่มต่อคำตอบเพื่อให้การลงคะแนนสามารถช่วยเรียงลำดับข้อเสนอแนะ (Community Wiki โปรดแก้ไขคำถามหากคุณสามารถทำให้ดีขึ้นได้!)

50 references experiment-design

4

ทำไม ANOVA จึงเทียบเท่ากับการถดถอยเชิงเส้น

ฉันอ่านว่า ANOVA และการถดถอยเชิงเส้นเป็นสิ่งเดียวกัน จะเป็นไปได้อย่างไรในการพิจารณาว่าเอาต์พุตของ ANOVA คือค่าบางตัวและค่าบางส่วนที่คุณสรุปได้ว่าตัวอย่างนั้นมีความหมายเหมือนกันหรือต่างกันพีFFFพีpp แต่สมมติว่าค่าเฉลี่ยไม่เท่ากัน (ปฏิเสธสมมติฐานว่าง), ANOVA จะบอกอะไรคุณเกี่ยวกับสัมประสิทธิ์ของตัวแบบเชิงเส้น การถดถอยเชิงเส้นเหมือนกับ ANOVA เป็นอย่างไร

50 regression anova

4

เกณฑ์ความน่าจะเป็นการจำแนกประเภท

ฉันมีคำถามเกี่ยวกับการจำแนกประเภทโดยทั่วไป ให้ f เป็นตัวจําแนกซึ่งส่งออกชุดของความน่าจะเป็นที่ให้ข้อมูลบางตัว D โดยปกติเราจะบอกว่า: ดีถ้า P (c | D)> 0.5 เราจะกำหนด class 1 มิฉะนั้น 0 (ปล่อยให้นี่เป็นเลขฐานสอง การจำแนกประเภท). คำถามของฉันคือถ้าฉันพบว่าถ้าฉันจำแนกเป็น 1 ยังมีความน่าจะเป็นที่ใหญ่กว่า: เช่น 0.2 ตัวแยกประเภทจะทำงานได้ดีขึ้น การใช้เกณฑ์ใหม่นี้ถูกต้องตามกฎหมายหรือไม่เมื่อทำการจัดประเภท ฉันจะตีความความจำเป็นสำหรับการจำแนกประเภทที่ต่ำกว่าที่ถูกผูกไว้ในบริบทของข้อมูลที่เปล่งสัญญาณขนาดเล็ก แต่ยังคงมีความสำคัญสำหรับปัญหาการจำแนก ฉันรู้ว่านี่เป็นวิธีหนึ่งที่จะทำ แต่ถ้านี่ไม่ใช่การคิดที่ถูกต้องอะไรจะเป็นการแปลงข้อมูลบางอย่างซึ่งเน้นคุณลักษณะของแต่ละบุคคลในลักษณะที่คล้ายคลึงกัน

49 machine-learning classification binary-data threshold