สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

8
สาเหตุบ่งบอกถึงความสัมพันธ์หรือไม่?
ความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุเนื่องจากอาจมีคำอธิบายมากมายสำหรับสหสัมพันธ์ แต่สาเหตุแสดงถึงความสัมพันธ์หรือไม่? โดยสังหรณ์ใจฉันจะคิดว่าการปรากฏตัวของสาเหตุหมายถึงมีความสัมพันธ์จำเป็น แต่สัญชาตญาณของฉันไม่ได้ให้บริการฉันอย่างดีในสถิติ สาเหตุบ่งบอกถึงความสัมพันธ์หรือไม่?

5
การทำให้เป็นมาตรฐานและความแตกต่างคืออะไร
ที่ทำงานเราคุยกันเรื่องนี้ในขณะที่หัวหน้าของฉันไม่เคยได้ยินเกี่ยวกับการทำให้เป็นมาตรฐาน ในพีชคณิตเชิงเส้นดูเหมือนว่าการทำให้เป็นมาตรฐานจะหมายถึงการหารเวกเตอร์ด้วยความยาว และในสถิติมาตรฐานดูเหมือนว่าจะหมายถึงการลบค่าเฉลี่ยแล้วหารด้วย SD แต่พวกเขาดูเหมือนจะเปลี่ยนได้กับความเป็นไปได้อื่น ๆ เช่นกัน เมื่อสร้างคะแนนสากลบางประเภทซึ่งประกอบด้วยตัวชี้วัดที่แตกต่างกันแบบซึ่งมีวิธีการต่างกันและ SD ที่แตกต่างกันคุณจะทำให้ปกติเป็นมาตรฐานหรืออย่างอื่นหรือไม่ คนคนหนึ่งบอกฉันว่ามันเป็นแค่เรื่องของการวัดแต่ละครั้งและหารด้วย SD ของพวกเขาทีละคน จากนั้นรวมทั้งสอง และนั่นจะส่งผลคะแนนสากลที่สามารถใช้ตัดสินทั้งสองเมทริกได้222 ตัวอย่างเช่นสมมติว่าคุณมีจำนวนคนที่ขึ้นรถไฟใต้ดินไปทำงาน (ในนิวยอร์ค) และจำนวนคนที่ขับรถไปทำงาน (ในนิวยอร์ค) รถยนต์⟶ yTrain⟶xTrain⟶x\text{Train} \longrightarrow x Car⟶yCar⟶y\text{Car} \longrightarrow y หากคุณต้องการสร้างคะแนนสากลเพื่อรายงานความผันผวนของการจราจรอย่างรวดเร็วคุณไม่สามารถเพิ่มและค่าเฉลี่ย( y )เพราะจะมีผู้คนจำนวนมากที่ขี่รถไฟ มีคน 8 ล้านคนอาศัยอยู่ในนิวยอร์ครวมถึงนักท่องเที่ยว นั่นคือผู้คนนับล้านที่ขึ้นรถไฟทุกวันข้อร้อยคนในรถยนต์ ดังนั้นพวกเขาจะต้องถูกแปลงให้มีขนาดใกล้เคียงกันเพื่อที่จะเปรียบเทียบmean(x)mean(x)\text{mean}(x)mean(y)mean(y)\text{mean}(y) ถ้าmean(x)=8,000,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 และmean(y)=800,000mean(y)=800,000\text{mean}(y) = 800,000 คุณจะทำให้ & yเป็นปกติแล้วรวม? คุณจะทำให้x & y เป็นมาตรฐานแล้วรวม? หรือคุณจะแบ่งแต่ละส่วนด้วย SD ของพวกเขาแล้วรวม? …

9
เมื่อใดที่จะเอาการสกัดกั้นในตัวแบบการถดถอยเชิงเส้นเมื่อใด
ฉันกำลังใช้ตัวแบบการถดถอยเชิงเส้นและสงสัยว่าเงื่อนไขสำหรับการลบคำดักจับนั้นคืออะไร ในการเปรียบเทียบผลลัพธ์จากการถดถอยสองแบบที่หนึ่งมีการสกัดกั้นและอื่น ๆ ไม่ได้ฉันสังเกตว่าของฟังก์ชันที่ไม่มีการสกัดกั้นนั้นสูงกว่ามาก มีเงื่อนไขหรือข้อสมมติฐานบางอย่างที่ฉันควรปฏิบัติตามเพื่อให้แน่ใจว่าการลบคำดักฟังนั้นถูกต้องหรือไม่R2R2R^2

9
ตัวอย่างเชิงตัวเลขเพื่อทำความเข้าใจเกี่ยวกับความคาดหวังสูงสุด
ฉันพยายามเข้าใจอัลกอริธึม EM อย่างดีเพื่อให้สามารถใช้งานและใช้งานได้ ฉันใช้เวลาทั้งวันในการอ่านทฤษฎีและกระดาษที่ EM ใช้ในการติดตามอากาศยานโดยใช้ข้อมูลตำแหน่งที่มาจากเรดาร์ สุจริตฉันไม่คิดว่าฉันเข้าใจความคิดพื้นฐานทั้งหมด ใครบางคนสามารถชี้ให้ฉันเป็นตัวอย่างของตัวเลขที่แสดงการวนซ้ำสองสาม (3-4) ของ EM สำหรับปัญหาที่ง่ายกว่า (เช่นการประมาณค่าพารามิเตอร์ของการแจกแจงแบบเกาส์หรือลำดับของชุดไซน์หรือปรับเส้นตรง) แม้ว่าใครบางคนสามารถชี้ให้ฉันเห็นชิ้นส่วนของรหัส (ด้วยข้อมูลสังเคราะห์) ฉันสามารถลองผ่านรหัสได้


6
เหตุใดค่า p จึงกระจายอย่างสม่ำเสมอภายใต้สมมติฐานว่าง?
เมื่อเร็ว ๆ นี้ฉันได้พบในหนังสือพิมพ์โดย Klammer และคณะ คำสั่งที่ค่า p ควรกระจายอย่างสม่ำเสมอ ฉันเชื่อผู้แต่ง แต่ไม่เข้าใจว่าทำไมจึงเป็นเช่นนั้น Klammer, AA, Park, CY และ Stafford โนเบิลดับบลิว (2009) สถิติการสอบเทียบของฟังก์ชั่น SEQUEST XCorr วารสารวิจัยโปรตีน 8 (4): 2106–2113
115 p-value  uniform 

16
ถ้าคน 900 คนจาก 1,000 คนบอกว่ารถยนต์เป็นสีน้ำเงินความน่าจะเป็นที่จะเป็นสีน้ำเงินคือเท่าไหร่
สิ่งนี้เกิดขึ้นจากการเชื่อมโยงงานบางอย่างที่เรากำลังทำกับแบบจำลองเพื่อจำแนกข้อความธรรมชาติ แต่ฉันได้ทำให้มันง่ายขึ้น ... อาจจะมากเกินไป คุณมีรถสีน้ำเงิน (โดยการวัดทางวิทยาศาสตร์บางอย่าง - เป็นสีน้ำเงิน) คุณแสดงให้คน 1,000 คนเห็น 900 บอกว่าเป็นสีฟ้า 100 อย่า คุณให้ข้อมูลนี้กับคนที่ไม่เห็นรถ สิ่งที่พวกเขารู้ก็คือคน 900 คนบอกว่าเป็นสีฟ้าและ 100 คนไม่ได้ คุณไม่รู้อะไรเกี่ยวกับคนเหล่านี้อีก (1,000 คน) จากสิ่งนี้คุณถามคน ๆ นั้นว่า "ความน่าจะเป็นที่รถสีฟ้าจะเป็นเท่าไหร่" สิ่งนี้ทำให้เกิดความคิดเห็นที่แตกต่างกันอย่างมากในหมู่ผู้ที่ฉันถาม! คำตอบที่ถูกต้องคืออะไรถ้ามี?
114 probability 

3
ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์คำนวณได้อย่างไรในการถดถอย
เพื่อความเข้าใจของฉันเองฉันสนใจที่จะจำลองการคำนวณข้อผิดพลาดมาตรฐานของสัมประสิทธิ์โดยประมาณด้วยตนเองเช่นมาพร้อมกับlm()ฟังก์ชั่นเอาท์พุทRแต่ไม่สามารถตรึงมันได้ มีการใช้สูตร / การนำไปปฏิบัติอย่างไร

2
สืบทอดการแจกแจงแบบมีเงื่อนไขของการแจกแจงปกติหลายตัวแปร
เรามีเวกเตอร์ปกติหลายตัวแปรSigma) พิจารณาการแบ่งและลงใน Y∼N(μ,Σ)Y∼N(μ,Σ){\boldsymbol Y} \sim \mathcal{N}(\boldsymbol\mu, \Sigma)μμ\boldsymbol\muYY{\boldsymbol Y}μ=[μ1μ2]μ=[μ1μ2]\boldsymbol\mu = \begin{bmatrix} \boldsymbol\mu_1 \\ \boldsymbol\mu_2 \end{bmatrix} Y=[y1y2]Y=[y1y2]{\boldsymbol Y}=\begin{bmatrix}{\boldsymbol y}_1 \\ {\boldsymbol y}_2 \end{bmatrix} กับพาร์ติชันที่คล้ายกันของΣΣ\Sigmaเป็น [Σ11Σ21Σ12Σ22][Σ11Σ12Σ21Σ22] \begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} จากนั้น(y1|y2=a)(y1|y2=a)({\boldsymbol y}_1|{\boldsymbol y}_2={\boldsymbol a})การแจกแจงแบบมีเงื่อนไขของพาร์ติชั่นแรกที่ได้รับสองคือ N(μ¯¯¯¯,Σ¯¯¯¯)N(μ¯,Σ¯)\mathcal{N}(\overline{\boldsymbol\mu},\overline{\Sigma})มีค่าเฉลี่ย μ¯¯¯¯=μ1+Σ12Σ22−1(a−μ2)μ¯=μ1+Σ12Σ22−1(a−μ2) \overline{\boldsymbol\mu}=\boldsymbol\mu_1+\Sigma_{12}{\Sigma_{22}}^{-1}({\boldsymbol a}-\boldsymbol\mu_2) และเมทริกซ์ความแปรปรวนร่วม Σ¯¯¯¯=Σ11−Σ12Σ22−1Σ21Σ¯=Σ11−Σ12Σ22−1Σ21 \overline{\Sigma}=\Sigma_{11}-\Sigma_{12}{\Sigma_{22}}^{-1}\Sigma_{21} ที่จริงแล้วผลลัพธ์เหล่านี้มีให้ใน Wikipedia ด้วย แต่ฉันไม่รู้ว่าμ¯¯¯¯μ¯\overline{\boldsymbol\mu}และΣ¯¯¯¯Σ¯\overline{\Sigma}มาจากไหน ผลลัพธ์เหล่านี้มีความสำคัญเนื่องจากพวกเขาเป็นสูตรทางสถิติที่สำคัญสำหรับ deriving กรองคาลมาน ใครบ้างจะให้ขั้นตอนที่ได้มาของฉันμ¯¯¯¯μ¯\overline{\boldsymbol\mu}และΣ¯¯¯¯Σ¯\overline{\Sigma}ขอบคุณมาก!

10
ความแตกต่างระหว่างเครือข่ายประสาทและเครือข่ายประสาทลึกคืออะไรและทำไมเครือข่ายลึกถึงทำงานได้ดีขึ้น?
ฉันไม่ได้เห็นคำถามที่ระบุไว้อย่างชัดเจนในข้อกำหนดเหล่านี้และนี่คือเหตุผลที่ฉันสร้างคำถามใหม่ สิ่งที่ฉันสนใจที่จะรู้ไม่ใช่คำจำกัดความของโครงข่ายประสาทเทียม แต่เข้าใจถึงความแตกต่างที่แท้จริงกับเครือข่ายประสาทลึก สำหรับบริบทเพิ่มเติม: ฉันรู้ว่าเครือข่ายประสาทคืออะไรและทำงานอย่างไร backpropagation ฉันรู้ว่า DNN ต้องมีเลเยอร์ที่ซ่อนอยู่หลายชั้น อย่างไรก็ตาม 10 ปีที่ผ่านมาในระดับผมได้เรียนรู้ว่ามีหลายชั้นหรือชั้นหนึ่ง (ไม่นับเข้าและส่งออกชั้น) ก็เท่ากับในแง่ของการทำงานเครือข่ายประสาทสามารถที่จะเป็นตัวแทน (ดู Cybenko ของทฤษฎีบทประมาณสากล ) และว่ามี เลเยอร์มากขึ้นทำให้การวิเคราะห์ซับซ้อนขึ้นโดยไม่เพิ่มประสิทธิภาพ เห็นได้ชัดว่านั่นไม่ใช่กรณีอีกต่อไป ฉันคิดว่าอาจผิดที่ความแตกต่างในแง่ของขั้นตอนวิธีการฝึกอบรมและคุณสมบัติมากกว่าโครงสร้างและดังนั้นฉันจะขอบคุณจริง ๆ ถ้าคำตอบสามารถขีดเส้นใต้เหตุผลที่ทำให้การย้ายไปยัง DNN เป็นไปได้ (เช่นหลักฐานทางคณิตศาสตร์หรือเล่นแบบสุ่มกับเครือข่าย ?) และสิ่งที่พึงประสงค์ (เช่นความเร็วของการบรรจบกัน)

13
มีอะไรผิดปกติกับการ์ตูนประจำของ XKCD เทียบกับ Bayesians?
การ์ตูน xkcd ฉบับนี้ (ผู้พบเห็นบ่อยครั้งและชาวเบย์)ทำให้ความสนุกของนักสถิติผู้ซึ่งได้ผลลัพธ์ที่ผิดอย่างเห็นได้ชัด อย่างไรก็ตามสำหรับฉันแล้วการให้เหตุผลของเขานั้นถูกต้องในแง่ที่ว่ามันเป็นไปตามวิธีการมาตรฐานของนักเล่นแร่แปรธาตุ ดังนั้นคำถามของฉันคือ "เขาใช้วิธีการแบบประจำอย่างถูกต้องหรือไม่" ถ้าไม่: สิ่งที่จะอนุมานบ่อยครั้งที่ถูกต้องในสถานการณ์นี้? วิธีการรวม "ความรู้ก่อนหน้า" เกี่ยวกับความเสถียรของดวงอาทิตย์ในวิธีการที่ใช้บ่อย? ถ้าใช่: wtf ;-)

4
เพียร์สันหรือสเปียร์แมนมีความสัมพันธ์กับข้อมูลที่ไม่ปกติ
ฉันได้รับคำถามนี้บ่อยครั้งเพียงพอในการให้คำปรึกษาด้านสถิติที่ฉันคิดว่าฉันโพสต์ไว้ที่นี่ ฉันมีคำตอบซึ่งโพสต์ด้านล่าง แต่ฉันกระตือรือร้นที่จะได้ยินสิ่งที่คนอื่นพูด คำถาม:หากคุณมีตัวแปรสองตัวที่ไม่ได้มีการแจกแจงแบบปกติคุณควรใช้ Rho ของ Spearman สำหรับความสัมพันธ์หรือไม่?

1
วิธีการย้อนกลับ PCA และสร้างตัวแปรดั้งเดิมจากองค์ประกอบหลักหลาย ๆ
การวิเคราะห์องค์ประกอบหลัก (PCA) สามารถใช้สำหรับการลดขนาด หลังจากดำเนินการลดขนาดเช่นนั้นหนึ่งจะประมาณสร้างตัวแปร / คุณสมบัติเดิมจากส่วนประกอบหลักจำนวนน้อยได้อย่างไร อีกวิธีหนึ่งสามารถลบหรือทิ้งองค์ประกอบหลักหลายอย่างจากข้อมูลได้อย่างไร ในคำอื่น ๆ วิธีการย้อนกลับ PCA เนื่องจาก PCA นั้นมีความสัมพันธ์อย่างใกล้ชิดกับการสลายตัวของค่าเอกพจน์ (SVD) คำถามเดียวกันสามารถถามได้ดังนี้: วิธีการกลับ SVD?


4
ประเมินการกระจายตัวของข้อมูลโดยประมาณตามฮิสโตแกรม
สมมติว่าฉันต้องการดูว่าข้อมูลของฉันเป็นเลขชี้กำลังอิงตามฮิสโตแกรมหรือไม่ (เช่นเอียงไปทางขวา) ฉันสามารถรับฮิสโตแกรมที่แตกต่างกันอย่างดุเดือดขึ้นอยู่กับว่าฉันจัดกลุ่มหรือถังข้อมูล ฮิสโทแกรมหนึ่งชุดจะทำให้ดูเหมือนว่าข้อมูลเป็นเลขชี้กำลัง อีกชุดหนึ่งจะทำให้ดูเหมือนว่าข้อมูลไม่ได้อธิบาย ฉันจะกำหนดการแจกแจงจากฮิสโทแกรมที่กำหนดอย่างดีได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.