สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
แกมมากับการแจกแจงล็อกปกติ
ฉันมีการแจกแจงที่สังเกตได้จากการทดลองซึ่งดูคล้ายกับการแจกแจงแกมม่าหรือ lognormal ฉันได้อ่านแล้วว่าการแจกแจงแบบล็อกนอเรนเป็นการแจกแจงความน่าจะเป็นเอนโทรปีสูงสุดสำหรับตัวแปรแบบสุ่มซึ่งค่าเฉลี่ยและความแปรปรวนของได้รับการแก้ไข การกระจายของแกมม่ามีคุณสมบัติคล้ายกันหรือไม่?XXXln(X)ln⁡(X)\ln(X)

1
พิสูจน์ว่าสัมประสิทธิ์ในแบบจำลอง OLS เป็นไปตามการแจกแจงแบบ t ด้วย (nk) องศาอิสระ
พื้นหลัง สมมติว่าเรามีโมเดลกำลังสองน้อยที่สุดซึ่งเรามีค่าสัมประสิทธิ์ในแบบจำลองการถดถอยของเรา kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} โดยที่เป็นเวกเตอร์ของสัมประสิทธิ์ ,คือเมทริกซ์การออกแบบที่กำหนดโดยββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix} และข้อผิดพลาดคือ IID ปกติ …

10
การถดถอยของการเข้าใจผิดของนักการพนันหมายถึง
ในมือข้างหนึ่งผมมีความถดถอยไปหมายและในทางกลับกันผมมีความเชื่อที่ผิด gambler's ความผิดพลาดของนักพนันนั้นถูกนิยามโดยมิลเลอร์และซันจูร์โจ (2019) ว่า“ ความเชื่อที่ผิดที่ว่าลำดับแบบสุ่มมีแนวโน้มที่จะกลับรายการอย่างเป็นระบบนั่นคือแนวโน้มของผลลัพธ์ที่คล้ายกันนั้นมีแนวโน้มที่จะจบลงมากกว่า ครั้งในแถวจะคิดว่ามีแนวโน้มที่จะตกก้อยในการทดลองครั้งต่อไป ฉันมีผลงานที่ดีในเกมที่แล้วและจากการถดถอยถึงค่าเฉลี่ยฉันอาจจะมีประสิทธิภาพที่แย่ลงในเกมถัดไป แต่จากการเข้าใจผิดของนักการพนัน: พิจารณาความน่าจะเป็นที่สองต่อไปนี้โดยสมมติว่าเป็นเหรียญที่ยุติธรรม ความน่าจะเป็น 20 หัวจากนั้น 1 หาง = 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} ความน่าจะเป็น 20 หัวจากนั้น 1 หัว = 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} จากนั้น ... ลองพิจารณาตัวอย่างง่ายๆ: ชั้นเรียนของนักเรียนทำการทดสอบจริง / เท็จ 100 เรื่องในหัวข้อ สมมติว่านักเรียนทุกคนสุ่มเลือกคำถามทุกข้อ จากนั้นคะแนนของนักเรียนแต่ละคนจะได้รับการตระหนักถึงหนึ่งในชุดของตัวแปรสุ่มแบบอิสระและแบบกระจายซึ่งมีค่าเฉลี่ยที่คาดหวังไว้ที่ 50 โดยธรรมชาติแล้วนักเรียนบางคนจะได้คะแนนสูงกว่า 50 และอย่างมีนัยสำคัญต่ำกว่า 50 โดยบังเอิญ หากใช้เพียงคะแนนสูงสุด 10% …

3
ทำไมไม่รายงานค่าเฉลี่ยของการกระจาย bootstrap?
เมื่อหนึ่ง bootstraps พารามิเตอร์เพื่อรับข้อผิดพลาดมาตรฐานที่เราได้รับการกระจายของพารามิเตอร์ ทำไมเราไม่ใช้ค่าเฉลี่ยของการแจกแจงนั้นเป็นผลลัพธ์หรือค่าประมาณสำหรับพารามิเตอร์ที่เราพยายามหา การกระจายไม่ควรประมาณค่าจริงหรือไม่ ดังนั้นเราจะได้ค่าประมาณที่ดี "ที่แท้จริง"? แต่เรารายงานพารามิเตอร์ดั้งเดิมที่เราได้รับจากตัวอย่างของเรา ทำไมถึงเป็นอย่างนั้น? ขอบคุณ

2
การบูตสแตรปปิ้งประมาณการกระจายตัวตัวอย่างของตัวประมาณได้ดีเพียงใด
หลังจากศึกษา bootstrap มาฉันมีคำถามแนวความคิดที่ยังคงไขปริศนาฉันอยู่: คุณมีประชากรและคุณต้องการทราบแอตทริบิวต์ของประชากรนั่นคือซึ่งฉันใช้เพื่อเป็นตัวแทนของประชากร นี้อาจจะหมายถึงประชากรตัวอย่างเช่น โดยปกติแล้วคุณไม่สามารถรับข้อมูลทั้งหมดจากประชากร คุณวาดตัวอย่างขนาดจากประชากร สมมติว่าคุณมีตัวอย่าง iid เพื่อความง่าย แล้วคุณจะได้รับการประมาณการของคุณ(X) คุณต้องการที่จะใช้ที่จะทำให้การหาข้อสรุปเกี่ยวกับดังนั้นคุณอยากจะรู้ว่าความแปรปรวนของ theta}θ=g(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXNNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θθ\thetaθ^θ^\hat{\theta} ครั้งแรกมีความเป็นจริงการกระจายตัวอย่างของtheta} ตามแนวคิดคุณสามารถวาดตัวอย่างจำนวนมาก (แต่ละอันมีขนาด ) จากประชากร ในแต่ละครั้งที่คุณมีการรับรู้ตั้งแต่แต่ละครั้งคุณจะมีตัวอย่างที่แตกต่างกัน จากนั้นในท้ายที่สุดแล้วคุณจะสามารถที่จะกู้จริงการกระจายของtheta} ตกลงนี้อย่างน้อยเป็นมาตรฐานแนวคิดสำหรับการประมาณค่าการกระจายของtheta} ผมขอย้ำว่ามัน: เป้าหมายสูงสุดคือการใช้วิธีการต่างๆในการประมาณการหรือใกล้เคียงกับความจริงการกระจายของtheta}θ^θ^\hat{\theta}NNNθ^=g(X)θ^=g(X)\hat{\theta}=g(X)θ^θ^\hat{\theta}θ^θ^\hat{\theta}θ^θ^\hat{\theta} ตอนนี้ที่นี่คำถามมา โดยปกติคุณจะมีหนึ่งตัวอย่างที่มีจุดข้อมูลแล้วคุณ resample จากนี้ตัวอย่างหลายครั้งและคุณจะเกิดขึ้นกับการกระจายของบูตtheta} คำถามของฉันคือการกระจาย bootstrap นี้ใกล้กับการแจกแจงตัวอย่างที่แท้จริงของแค่ไหน มีวิธีหาปริมาณหรือไม่XXXNNNθ^θ^\hat{\theta}θ^θ^\hat{\theta}

1
ข้อผิดพลาดมาตรฐานคำนวณอย่างไรสำหรับค่าติดตั้งจากการถดถอยโลจิสติก
เมื่อคุณทำนายค่าที่ติดตั้งจากตัวแบบการถดถอยโลจิสติกจะคำนวณข้อผิดพลาดมาตรฐานอย่างไร ฉันหมายถึงค่าติดตั้งไม่ใช่สำหรับค่าสัมประสิทธิ์ (ซึ่งเกี่ยวข้องกับเมทริกซ์ข้อมูลฟิชเชอร์) ฉันค้นพบวิธีรับตัวเลขด้วยเท่านั้นR(เช่นที่นี่ในวิธีใช้ r-help หรือที่นี่ใน Stack Overflow) แต่ฉันไม่สามารถหาสูตรได้ pred <- predict(y.glm, newdata= something, se.fit=TRUE) หากคุณสามารถให้แหล่งข้อมูลออนไลน์ (ควรอยู่บนเว็บไซต์มหาวิทยาลัย) นั่นจะเป็นสิ่งที่ยอดเยี่ยม

2
การปฏิเสธสมมติฐานโดยใช้ p-value เทียบเท่ากับสมมติฐานที่ไม่ได้อยู่ในช่วงความเชื่อมั่นหรือไม่?
ในขณะที่ได้รับช่วงความเชื่อมั่นอย่างเป็นทางการของการประเมินฉันลงเอยด้วยสูตรที่คล้ายกับวิธีคำนวณค่าppp ดังนั้นคำถาม: พวกเขาเทียบเท่าอย่างเป็นทางการ? Ie กำลังปฏิเสธสมมติฐานมีค่าวิกฤตเทียบเท่ากับไม่ได้อยู่ในช่วงความเชื่อมั่นที่มีค่าวิกฤต ?α 0 αH0=0H0=0H_0 = 0αα\alpha000αα\alpha

1
การเลือกคุณสมบัติและรุ่นที่มี glmnet บนข้อมูล Methylation (p >> N)
ฉันต้องการใช้ GLM และ Elastic Net เพื่อเลือกคุณลักษณะที่เกี่ยวข้องเหล่านั้น + สร้างแบบจำลองการถดถอยเชิงเส้น (เช่นทั้งการคาดคะเนและความเข้าใจดังนั้นมันจะดีกว่าถ้าปล่อยให้มีพารามิเตอร์ค่อนข้างน้อย) ผลลัพธ์จะต่อเนื่อง มันคือยีนต่อราย ฉันได้อ่านเกี่ยวกับแพ็คเกจแล้ว แต่ฉันไม่แน่ใจ 100% เกี่ยวกับขั้นตอนการปฏิบัติตาม:200002000020000505050glmnet ดำเนินการ CV เพื่อเลือกแลมบ์ดา: cv <- cv.glmnet(x,y,alpha=0.5) (Q1) เมื่อได้รับข้อมูลอินพุตแล้วคุณจะเลือกค่าอัลฟาที่ต่างออกไปหรือไม่ (Q2)ฉันต้องทำอย่างอื่นก่อนสร้างแบบจำลองหรือไม่ พอดีกับรุ่น: model=glmnet(x,y,type.gaussian="covariance",lambda=cv$lambda.min) (Q3) มีอะไรดีไปกว่า "ความแปรปรวนร่วม" หรือไม่? (Q4)หากเลือกแลมบ์ดาโดย CV ทำไมขั้นตอนนี้จึงจำเป็นต้องใช้nlambda=? (Q5)ดีกว่าที่จะใช้lambda.minหรือlambda.1se? รับค่าสัมประสิทธิ์เพื่อดูว่าพารามิเตอร์ใดมีหลุด ("."): predict(model, type="coefficients") ในหน้าช่วยเหลือมีหลายpredictวิธีการ (เช่นpredict.fishnet, predict.glmnet, predict.lognetฯลฯ ) แต่มีคำว่า "ธรรมดา" ทำนายตามที่ฉันเห็นในตัวอย่าง (Q6)ฉันควรใช้predictหรือpredict.glmnetอื่น ๆ หรือ? แม้จะเป็นสิ่งที่ฉันได้อ่านเกี่ยวกับวิธีการทำให้เป็นมาตรฐาน …

2
จำเป็นหรือไม่ที่จะต้องทำการฟื้นฟูสำหรับ SVM และ Random Forest?
คุณลักษณะของฉัน 'ทุกมิติมีช่วงของค่าที่แตกต่างกัน ฉันต้องการทราบว่าจำเป็นหรือไม่ที่จะทำให้ชุดข้อมูลนี้เป็นมาตรฐาน

3
ความแตกต่างระหว่าง SVM และ perceptron
ฉันสับสนเล็กน้อยกับความแตกต่างระหว่าง SVM และ perceptron ให้ฉันพยายามสรุปความเข้าใจของฉันที่นี่และอย่าลังเลที่จะแก้ไขเมื่อฉันผิดและเติมสิ่งที่ฉันพลาดไป Perceptron ไม่พยายามเพิ่มประสิทธิภาพการแยก "ระยะทาง" ตราบใดที่มันพบไฮเปอร์เพลนที่แยกทั้งสองเซตมันก็ดี SVM ในอีกทางหนึ่งพยายามที่จะเพิ่ม "เวกเตอร์สนับสนุน" ให้มากที่สุดนั่นคือระยะห่างระหว่างจุดตัวอย่างที่ตรงข้ามกันสองจุดที่ใกล้เคียงที่สุด SVM มักจะพยายามใช้ "ฟังก์ชั่นเคอร์เนล" เพื่อฉายจุดตัวอย่างไปยังพื้นที่มิติสูงเพื่อให้แยกได้เป็นเส้นตรงในขณะที่ Perceptron ถือว่าจุดตัวอย่างนั้นแยกออกจากกันเป็นเส้นตรง

5
เหตุใดช่วงเวลาบูตของฉันจึงมีความครอบคลุมที่แย่มาก
ฉันต้องการทำการสาธิตคลาสที่ฉันเปรียบเทียบช่วงเวลา t กับช่วง bootstrap และคำนวณความน่าจะเป็นที่ครอบคลุมของทั้งคู่ ฉันต้องการข้อมูลที่มาจากการแจกแจงแบบเบ้ดังนั้นฉันเลือกที่จะสร้างข้อมูลเป็นexp(rnorm(10, 0, 2)) + 1ตัวอย่างขนาด 10 จาก lognormal ที่เปลี่ยนไป ฉันเขียนสคริปต์เพื่อวาดตัวอย่าง 1,000 รายการและสำหรับแต่ละตัวอย่างให้คำนวณทั้งช่วงเวลา 95% t และช่วงเวลาบูตเปอร์เซ็นต์ไทล์ 95% จากการจำลองซ้ำ 1,000 ครั้ง เมื่อฉันเรียกใช้สคริปต์วิธีการทั้งสองให้ช่วงเวลาที่คล้ายกันมากและทั้งสองมีโอกาสครอบคลุม 50-60% ฉันประหลาดใจเพราะฉันคิดว่าช่วงบูทสแตรปจะดีกว่า คำถามของฉันคือฉันมี ทำผิดพลาดในรหัส? ทำผิดพลาดในการคำนวณช่วงเวลาหรือไม่? ทำผิดพลาดโดยคาดหวังว่าช่วงเวลา bootstrap จะมีคุณสมบัติครอบคลุมที่ดีขึ้นหรือไม่ นอกจากนี้ยังมีวิธีการสร้าง CI ที่น่าเชื่อถือมากขึ้นในสถานการณ์นี้หรือไม่? tCI.total <- 0 bootCI.total <- 0 m <- 10 # sample size true.mean <- …

4
บริเวณใต้กราฟของ ROC กับความแม่นยำโดยรวม
ฉันสับสนเล็กน้อยเกี่ยวกับ Area Under Curve (AUC) ของ ROC และความแม่นยำโดยรวม AUC จะเป็นสัดส่วนกับความแม่นยำโดยรวมหรือไม่ กล่าวอีกนัยหนึ่งเมื่อเรามีความแม่นยำโดยรวมที่มากขึ้นเราจะได้รับ AUC ที่มากขึ้นอย่างแน่นอนหรือไม่ หรือพวกเขาโดยนิยามมีความสัมพันธ์เชิงบวก? หากพวกเขามีความสัมพันธ์เชิงบวกทำไมเราถึงต้องรายงานทั้งสองอย่างในสิ่งพิมพ์บางเล่ม? ในกรณีจริงฉันดำเนินการจัดหมวดหมู่และได้ผลลัพธ์ดังนี้ลักษณนาม A มีความแม่นยำ 85% และ AUC 0.98 และลักษณนาม B มีความแม่นยำ 93% และ AUC 0.92 คำถามคือลักษณนามอะไรดีกว่ากัน? หรือเป็นไปได้ที่จะได้รับผลลัพธ์ที่คล้ายกันเช่นนี้ (ฉันหมายถึงอาจมีข้อผิดพลาดในการใช้งานของฉัน)?

1
วิธีการสกัดปัจจัยที่ดีที่สุดในการวิเคราะห์ปัจจัย
SPSS เสนอวิธีการสกัดปัจจัยหลายวิธี: องค์ประกอบหลัก (ซึ่งไม่ใช่การวิเคราะห์ปัจจัยทั้งหมด) ไม่ยกกำลังสองน้อยที่สุด ทั่วไปกำลังสองน้อยที่สุด โอกาสสูงสุด แกนหลัก แฟคตอริ่ง ภาพแฟ ไม่สนใจวิธีแรกซึ่งไม่ใช่การวิเคราะห์ปัจจัย (แต่การวิเคราะห์องค์ประกอบหลักคือ PCA) วิธีใดที่ "ดีที่สุด" อะไรคือข้อดีข้อได้เปรียบของวิธีการที่แตกต่างกันอย่างไร โดยพื้นฐานแล้วฉันจะเลือกใช้อันไหนดี? คำถามเพิ่มเติม: ควรได้รับผลลัพธ์ที่คล้ายกันจากทั้ง 6 วิธี?

3
การตีความการทำนายอย่างง่ายต่ออัตราต่อรองในการถดถอยโลจิสติก
ฉันค่อนข้างใหม่ในการใช้การถดถอยโลจิสติกและสับสนเล็กน้อยโดยความแตกต่างระหว่างการตีความของฉันของค่าต่อไปนี้ซึ่งฉันคิดว่าจะเหมือนกัน: ค่าเบต้าแบบยกกำลัง ทำนายความน่าจะเป็นของผลลัพธ์โดยใช้ค่าเบต้า นี่คือรุ่นที่เรียบง่ายของรุ่นที่ฉันใช้ซึ่งการขาดสารอาหารและการประกันภัยเป็นทั้งไบนารีและความมั่งคั่งยังคงต่อเนื่อง: Under.Nutrition ~ insurance + wealth แบบจำลองของฉัน (จริง) คืนค่าเบต้าเป็นเลขชี้กำลัง 0.8 สำหรับการประกันซึ่งฉันจะตีความว่า: "ความน่าจะเป็นของการได้รับอาหารไม่เพียงพอสำหรับผู้ประกันตนคือ 0.8 เท่าของความน่าจะเป็นของการได้รับอาหารไม่เพียงพอสำหรับบุคคลที่ไม่มีประกัน" อย่างไรก็ตามเมื่อฉันคำนวณความแตกต่างของความน่าจะเป็นของแต่ละบุคคลโดยการใส่ค่า 0 และ 1 ลงในตัวแปรประกันภัยและค่าเฉลี่ยของความมั่งคั่งความแตกต่างของการขาดสารอาหารเพียง 0.04 นั่นคือการคำนวณดังนี้: Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) ฉันจะซาบซึ้งจริง ๆ ถ้ามีใครสามารถอธิบายได้ว่าทำไมค่าเหล่านี้แตกต่างกันและการตีความที่ดีกว่า (โดยเฉพาะสำหรับค่าที่สอง) อาจจะเป็นอย่างไร การแก้ไขคำชี้แจงเพิ่มเติม เมื่อฉันเข้าใจแล้วความน่าจะเป็นที่ได้รับการเลี้ยงดูสำหรับบุคคลที่ไม่มีประกัน (ที่ B1 สอดคล้องกับการประกันภัย) คือ: Prob(Unins) …

2
ความแตกต่างระหว่าง Bayes ไร้เดียงสาและ Bayes ไร้เดียงสาหลายอัน
ฉันเคยจัดการตัวจําแนกNaive Bayesมาก่อน ฉันได้อ่านเกี่ยวกับMultinomial Naive Bayesเมื่อเร็ว ๆ นี้ นอกจากนี้หลังน่าจะเป็น = (ก่อน * โอกาส) / (หลักฐาน) ข้อแตกต่างที่สำคัญเพียงอย่างเดียว (ในขณะที่เขียนโปรแกรมตัวแยกประเภทเหล่านี้) ที่ฉันพบระหว่าง Naive Bayes และ Multinomial Naive Bayes ก็คือ Multinomial Naive Bayesคำนวณความน่าจะเป็นที่จะนับคำ / โทเค็น (ตัวแปรสุ่ม) และNaive Bayesคำนวณความน่าจะเป็นที่จะติดตาม: ช่วยแก้ให้ด้วยนะถ้าฉันผิด!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.