สถิติและข้อมูลขนาดใหญ่

3

จากStatSoft, Inc. (2013), ตำราสถิติอิเล็กทรอนิกส์ , "Naive Bayes Classifier" : เพื่อแสดงแนวคิดของการจำแนกประเภทNaïve Bayes ให้พิจารณาตัวอย่างที่แสดงในภาพประกอบด้านบน ตามที่ระบุไว้วัตถุสามารถจัดเป็นสีเขียวหรือสีแดง งานของฉันคือการจำแนกกรณีใหม่เมื่อพวกเขามาถึงคือตัดสินใจว่าพวกเขาอยู่ในระดับใดบนพื้นฐานของวัตถุที่กำลังออกไป เนื่องจากมีวัตถุสีเขียวจำนวนมากเป็นสองเท่าของสีแดงจึงมีเหตุผลที่จะเชื่อว่ากรณีใหม่ (ซึ่งยังไม่ได้รับการสังเกต) จึงมีความเป็นไปได้ที่จะเป็นสมาชิก GREEN มากกว่าสองเท่า ในการวิเคราะห์แบบเบย์ความเชื่อนี้เรียกว่าความน่าจะเป็นก่อนหน้า ความน่าจะเป็นมาก่อนขึ้นอยู่กับประสบการณ์ก่อนหน้านี้ในกรณีนี้เปอร์เซ็นต์ของวัตถุสีเขียวและสีแดงและมักใช้เพื่อทำนายผลลัพธ์ก่อนที่จะเกิดขึ้นจริง ดังนั้นเราสามารถเขียน: เนื่องจากมีวัตถุทั้งหมด 60 ชิ้นซึ่ง 40 รายการเป็นสีเขียวและ 20 สีแดงความน่าจะเป็นก่อนหน้านี้สำหรับการเป็นสมาชิกชั้นเรียนคือ: ด้วยการกำหนดความน่าจะเป็นก่อนหน้าของเราตอนนี้เราพร้อมที่จะจำแนกวัตถุใหม่ (วงกลมสีขาว) เนื่องจากวัตถุมีการรวมกลุ่มกันเป็นอย่างดีจึงมีเหตุผลที่จะสมมติว่ามีวัตถุสีเขียว (หรือสีแดง) จำนวนมากในบริเวณใกล้เคียงของ X ยิ่งมีโอกาสมากขึ้นที่กรณีใหม่จะเป็นของสีนั้น ในการวัดความเป็นไปได้นี้เราจะวาดวงกลมรอบ X ซึ่งครอบคลุมจำนวน (เพื่อเลือกนิรนัย) ของคะแนนโดยไม่คำนึงถึงฉลากระดับของพวกเขา จากนั้นเราคำนวณจำนวนคะแนนในวงกลมที่อยู่ในป้ายกำกับของแต่ละชั้นเรียน จากนี้เราจะคำนวณความน่าจะเป็น: จากภาพประกอบด้านบนเป็นที่แน่ชัดว่าโอกาสของ X ที่ได้รับ GREEN นั้นน้อยกว่าความน่าจะเป็นของ X ที่ได้รับ …

47 machine-learning naive-bayes

5

การอนุมานทางสถิติเมื่อกลุ่มตัวอย่าง“ เป็น” ประชากร

ลองนึกภาพคุณต้องรายงานจำนวนผู้สมัครที่ทำแบบทดสอบรายปี ดูเหมือนว่าค่อนข้างยากที่จะอนุมาน% ของความสำเร็จที่สังเกตได้เช่นในประชากรที่กว้างขึ้นเนื่องจากความจำเพาะของประชากรเป้าหมาย ดังนั้นคุณอาจพิจารณาว่าข้อมูลเหล่านี้แสดงถึงประชากรทั้งหมด ผลการทดสอบแสดงให้เห็นว่าสัดส่วนของเพศชายและเพศหญิงแตกต่างกันจริงหรือไม่? การทดสอบเปรียบเทียบสัดส่วนที่สังเกตและสัดส่วนทางทฤษฎีดูเหมือนว่าถูกต้องหรือไม่เนื่องจากคุณพิจารณาประชากรทั้งหมด (ไม่ใช่ตัวอย่าง)?

47 hypothesis-testing population sampling

5

หากการทดสอบ t-test และ ANOVA สำหรับสองกลุ่มนั้นเท่ากันทำไมสมมติฐานของพวกเขาจึงไม่เท่ากัน?

ฉันแน่ใจว่าฉันมีสิ่งนี้ล้อมรอบหัวของฉันทั้งหมด แต่ฉันก็ไม่สามารถคิดออก t-test เปรียบเทียบการแจกแจงปกติสองรายการโดยใช้การแจกแจง Z นั่นเป็นเหตุผลที่มีการสันนิษฐานของปกติในข้อมูล ANOVA นั้นเทียบเท่ากับการถดถอยเชิงเส้นพร้อมตัวแปรจำลองและใช้ผลรวมของกำลังสองเหมือน OLS นั่นเป็นเหตุผลว่าทำไมจึงมีข้อสันนิษฐานเกี่ยวกับภาวะปกติของ ResidualS ฉันใช้เวลาหลายปี แต่ฉันคิดว่าในที่สุดฉันก็เข้าใจข้อเท็จจริงพื้นฐานเหล่านั้นแล้ว เหตุใดจึงต้องทดสอบ t-test เทียบเท่า ANOVA กับสองกลุ่ม พวกเขาจะเท่าเทียมกันได้อย่างไรถ้าพวกเขาไม่คิดแม้แต่เรื่องเดียวกันกับข้อมูล

47 distributions regression normality-assumption t-test anova

10

อัลกอริทึมที่ดีสำหรับการประมาณค่ามัธยฐานของชุดข้อมูลที่อ่านครั้งเดียวขนาดใหญ่คืออะไร?

ฉันกำลังมองหาอัลกอริทึมที่ดี (หมายถึงการคำนวณขั้นต่ำสุดข้อกำหนดด้านการจัดเก็บขั้นต่ำ) เพื่อประมาณค่ามัธยฐานของชุดข้อมูลที่ใหญ่เกินกว่าจะจัดเก็บได้เช่นว่าแต่ละค่าสามารถอ่านได้ครั้งเดียวเท่านั้น ไม่มีขอบเขตของข้อมูลที่สามารถสันนิษฐานได้ การประมาณนั้นดีตราบใดที่ทราบความแม่นยำ ตัวชี้ใด ๆ

47 algorithms median large-data

2

ทำไม Convolutional Neural Networks ไม่ใช้ Support Vector Machine เพื่อจัดประเภท?

ในช่วงไม่กี่ปีที่ผ่านมา Convolutional Neural Networks (CNNs) ได้กลายเป็นสุดยอดของการรับรู้วัตถุในคอมพิวเตอร์วิสัยทัศน์ โดยทั่วไปแล้วซีเอ็นเอ็นประกอบด้วยหลายชั้น convolutional ตามมาด้วยสองชั้นเชื่อมต่ออย่างเต็มที่ สัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้คือเลเยอร์ convolutional เรียนรู้การแสดงข้อมูลอินพุตที่ดีขึ้นและเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์จากนั้นเรียนรู้ที่จะจำแนกการแสดงนี้ตามชุดฉลาก อย่างไรก็ตามก่อนที่ CNNs จะเริ่มครอบครอง Support Vector Machines (SVMs) เป็นสิ่งที่ล้ำสมัย ดังนั้นจึงมีเหตุผลที่จะบอกว่า SVM ยังคงเป็นลักษณนามที่แข็งแกร่งกว่าเครือข่ายนิวรัลสองชั้นที่เชื่อมต่อเต็มที่ ดังนั้นฉันสงสัยว่าทำไม CNN ที่ล้ำสมัยมักใช้เลเยอร์ที่เชื่อมต่ออย่างเต็มที่เพื่อการจำแนกประเภทมากกว่า SVM ด้วยวิธีนี้คุณจะได้สิ่งที่ดีที่สุดทั้งสองโลก: การแสดงคุณสมบัติที่แข็งแกร่งและตัวจําแนกที่แข็งแกร่งมากกว่าการแสดงคุณสมบัติที่แข็งแกร่ง แต่เป็นตัวจําแนกที่อ่อนแอเท่านั้น ... ความคิดใด ๆ

46 machine-learning neural-networks svm deep-learning conv-neural-network

6

เศษซาก“ คาดการณ์ลบจริง” หรือ“ ลบจริงทำนาย”

ฉันเคยเห็น "ส่วนที่เหลือ" นิยามต่าง ๆ ว่าเป็น "คาดการณ์ลบค่าจริง" หรือ "ลบค่าคาดการณ์จริง" เพื่อวัตถุประสงค์ในการแสดงเพื่อแสดงว่ามีการใช้สูตรทั้งสองอย่างแพร่หลายให้เปรียบเทียบการค้นหาเว็บต่อไปนี้: ส่วนที่เหลือ "คาดการณ์ลบจริง" ส่วนที่เหลือ "ตามจริงลบด้วยคำทำนาย" ในทางปฏิบัติมันแทบไม่เคยสร้างความแตกต่างเลยเนื่องจากสัญญาณของสิ่งที่เหลือตามปกติไม่สำคัญ (เช่นถ้ามันถูกยกกำลังสองหรือค่าสัมบูรณ์ถูกใช้) อย่างไรก็ตามคำถามของฉันคือ: หนึ่งในสองเวอร์ชันนี้ (การคาดการณ์แรกและจริงก่อน) ถือเป็น "มาตรฐาน" หรือไม่ ฉันชอบที่จะสอดคล้องในการใช้งานของฉันดังนั้นหากมีมาตรฐานดั้งเดิมที่ดีขึ้นฉันต้องการที่จะปฏิบัติตาม อย่างไรก็ตามหากไม่มีมาตรฐานฉันยินดีที่จะยอมรับว่าเป็นคำตอบหากสามารถพิสูจน์ได้อย่างชัดเจนว่าไม่มีการประชุมมาตรฐาน

46 residuals terminology error

2

ทำไมการทดสอบสมมติฐานบ่อย ๆ จึงลำเอียงในการปฏิเสธสมมติฐานว่างด้วยตัวอย่างที่มีขนาดใหญ่เพียงพอ?

ฉันแค่อ่านบทความนี้เกี่ยวกับปัจจัย Bayes สำหรับปัญหาที่ไม่เกี่ยวข้องอย่างสมบูรณ์เมื่อฉันสะดุดกับข้อนี้ การทดสอบสมมติฐานด้วย Bayes factor นั้นแข็งแกร่งกว่าการทดสอบสมมติฐานบ่อยๆเนื่องจากรูปแบบ Bayesian หลีกเลี่ยงอคติการเลือกรูปแบบประเมินหลักฐานที่สนับสนุนสมมติฐานว่างรวมถึงความไม่แน่นอนของแบบจำลองและช่วยให้แบบจำลองที่ไม่ซ้อนกันต้องถูกเปรียบเทียบ มีตัวแปรตามเหมือนกัน) นอกจากนี้การทดสอบที่มีนัยสำคัญบ่อยครั้งกลายเป็นความลำเอียงในการปฏิเสธสมมติฐานว่างด้วยขนาดตัวอย่างที่มีขนาดใหญ่เพียงพอ [เน้นเพิ่ม] ผมเคยเห็นการเรียกร้องนี้มาก่อนในคาร์ล Friston 2012 กระดาษใน NeuroImageที่เขาเรียกมันว่าการเข้าใจผิดของการอนุมานคลาสสิก ฉันมีปัญหาเล็กน้อยในการค้นหาบัญชีการสอนอย่างแท้จริงว่าทำไมเรื่องนี้จึงควรเป็นจริง โดยเฉพาะฉันสงสัยว่า: ทำไมสิ่งนี้เกิดขึ้น วิธีการป้องกันมัน ความล้มเหลวนั้นวิธีการตรวจสอบ

46 hypothesis-testing frequentist

2

ทำไม Bayesian จึงไม่ได้รับอนุญาตให้ดูสิ่งตกค้าง

ในบทความ "การสนทนา: นักนิเวศวิทยาควรเป็นชาวเบย์หรือไม่?" ไบรอันเดนนิสให้มุมมองเชิงบวกและเชิงบวกที่น่าประหลาดใจของสถิติแบบเบย์เมื่อเป้าหมายของเขาดูเหมือนจะเตือนผู้คนเกี่ยวกับเรื่องนี้ อย่างไรก็ตามในวรรคหนึ่งโดยไม่มีการอ้างอิงหรือเหตุผลใด ๆ เขาพูดว่า: คุณเห็นไหมไม่ได้รับอนุญาตให้ดูสิ่งที่เหลืออยู่ของพวกเขา มันเป็นการละเมิดหลักการความน่าจะเป็นที่จะตัดสินผลลัพธ์โดยวิธีการที่รุนแรงภายใต้แบบจำลอง สำหรับชาวเบย์นั้นไม่มีรูปแบบที่ไม่ดี แต่เป็นความเชื่อที่ไม่ดี เหตุใดชาว Bayesian จึงไม่ได้รับอนุญาตให้ดูสิ่งตกค้าง การอ้างอิงที่เหมาะสมสำหรับสิ่งนี้คืออะไร (เขาคือใครอ้างอิง) เดนนิส, บี. อภิปราย: นักนิเวศวิทยาควรกลายเป็นชาวเบย์? การประยุกต์ใช้งานระบบนิเวศสังคมนิเวศวิทยาของอเมริกา , 1996 , 6, 1095-1103

46 bayesian residuals frequentist likelihood-principle

2

ค่าผกผันของเมทริกซ์ความแปรปรวนร่วมพูดถึงข้อมูลอย่างไร (สัญชาตญาณ)

ฉันอยากรู้เกี่ยวกับธรรมชาติของΣ−1Σ−1\Sigma^{-1} 1 ใครสามารถบอกอะไรบางอย่างที่ใช้งานง่ายเกี่ยวกับ "อะไรΣ−1Σ−1\Sigma^{-1}พูดเกี่ยวกับข้อมูล?" แก้ไข: ขอบคุณสำหรับการตอบกลับ หลังจากเรียนจบหลักสูตรที่ยอดเยี่ยมฉันต้องการเพิ่มคะแนน: มันเป็นตัวชี้วัดของข้อมูลเช่นxTΣ−1xxTΣ−1xx^T\Sigma^{-1}xคือปริมาณของข้อมูลตามทิศทางxxxx ความเป็นคู่:เนื่องจากΣΣ\Sigmaเป็นค่าบวกแน่นอนดังนั้นจึงเป็นΣ−1Σ−1\Sigma^{-1}ดังนั้นพวกมันจึงเป็นบรรทัดฐานของดอทโปรดัคยิ่งแม่นยำกว่าพวกเขาจึงเป็นสองมาตรฐานของกันและกันดังนั้นเราสามารถหาเฟนเนลคู่สำหรับปัญหากำลังสองน้อยที่สุด ปัญหา. เราสามารถเลือกอย่างใดอย่างหนึ่งของพวกเขาขึ้นอยู่กับเงื่อนไขของพวกเขา พื้นที่ Hilbert:คอลัมน์ (และแถว) ของΣ−1Σ−1\Sigma^{-1}และΣΣ\Sigmaขยายพื้นที่เดียวกัน ดังนั้นจึงไม่มีข้อได้เปรียบใด ๆ (อื่น ๆ ที่เมื่อหนึ่งในเมทริกซ์เหล่านี้ไม่มีเงื่อนไข) ระหว่างการแสดงด้วยΣ−1Σ−1\Sigma^{-1}หรือΣΣ\Sigma Σ−1Σ−1\Sigma^{-1}∥Σ−1∥→0‖Σ−1‖→0\|\Sigma^{-1}\|\rightarrow 0 สถิติผู้ใช้บ่อย:มันเกี่ยวข้องอย่างใกล้ชิดกับข้อมูลฟิชเชอร์โดยใช้Cramér – Rao ในความเป็นจริงเมทริกซ์ข้อมูลการตกปลา (ผลิตภัณฑ์ชั้นนอกของการไล่ระดับสีของความน่าจะเป็นกับตัวมันเอง) คือCramér – Rao ผูกไว้นั่นคือ (wrt บวกกึ่งกรวยแน่นอน ellipsoids) ดังนั้นเมื่อตัวประมาณความเป็นไปได้สูงสุดนั้นมีประสิทธิภาพนั่นคือข้อมูลสูงสุดที่มีอยู่ในข้อมูล ในคำที่ง่ายขึ้นสำหรับฟังก์ชั่นความเป็นไปได้บางอย่าง (โปรดทราบว่ารูปแบบการทำงานของความน่าจะเป็นล้วนขึ้นอยู่กับแบบจำลอง probablistic ซึ่งสร้างข้อมูลที่รู้จักกันว่าแบบจำลองกำเนิด) aka ความน่าจะเป็นที่มีประสิทธิภาพสูงสุด (ขออภัยที่ทำให้มากเกินไป)Σ−1⪯FΣ−1⪯F\Sigma^{-1}\preceq \mathcal{F}Σ−1=FΣ−1=F\Sigma^{-1}=\mathcal{F}

46 bayesian maximum-likelihood covariance matrix

7

ทำไม“ สำคัญทางสถิติ” ไม่เพียงพอ?

ฉันเสร็จสิ้นการวิเคราะห์ข้อมูลและได้รับ "ผลลัพธ์ที่มีนัยสำคัญทางสถิติ" ซึ่งสอดคล้องกับสมมติฐานของฉัน อย่างไรก็ตามนักเรียนในสถิติบอกว่านี่เป็นข้อสรุปก่อนวัยอันควร ทำไม? จำเป็นต้องมีสิ่งอื่นอีกไหมในรายงานของฉัน?

46 hypothesis-testing statistical-significance spss p-value

3

ตัวแบบเชิงเส้นพร้อมการตอบสนองแบบแปลงรูปเทียบกับแบบจำลองเชิงเส้นแบบทั่วไปพร้อมลิงค์บันทึก

ในบทความนี้มีชื่อว่า "การเลือกรุ่นเชิงเส้นในแบบฉบับที่นำไปใช้กับข้อมูลทางการแพทย์" ผู้เขียนเขียน: ในโมเดลเชิงเส้นทั่วไปค่าเฉลี่ยถูกเปลี่ยนโดยฟังก์ชันลิงก์แทนที่จะเปลี่ยนการตอบสนองเอง การเปลี่ยนแปลงสองวิธีสามารถนำไปสู่ผลลัพธ์ที่แตกต่างกันมาก ตัวอย่างเช่น ค่าเฉลี่ยของการตอบสนองการเข้าสู่ระบบเปลี่ยนไม่ได้เช่นเดียวกับลอการิทึมของการตอบสนองเฉลี่ย โดยทั่วไปแล้วอดีตไม่สามารถแปลงเป็นคำตอบที่หมายถึงได้ง่าย ดังนั้นการแปลงค่าเฉลี่ยจึงทำให้สามารถตีความผลลัพธ์ได้ง่ายขึ้นโดยเฉพาะในพารามิเตอร์ค่าเฉลี่ยนั้นยังคงอยู่ในระดับเดียวกับการตอบสนองที่วัดได้ ดูเหมือนว่าพวกเขาแนะนำการปรับให้เหมาะสมของโมเดลเชิงเส้นทั่วไป (GLM) พร้อมกับลิงค์บันทึกแทนที่จะเป็นโมเดลเชิงเส้น (LM) พร้อมการตอบกลับที่เปลี่ยนรูปแบบ ฉันไม่เข้าใจถึงข้อดีของวิธีการนี้และดูเหมือนว่าผิดปกติสำหรับฉัน ตัวแปรตอบสนองของฉันดูเหมือนกระจายตามปกติ ฉันได้รับผลลัพธ์ที่คล้ายกันในแง่ของค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานด้วยวิธีใดวิธีหนึ่ง ฉันยังคงสงสัยว่า: ถ้าตัวแปรมีการแจกแจงแบบล็อกปกติไม่ใช่ค่าเฉลี่ยของตัวแปรที่แปลงล็อกซึ่งดีกว่าล็อกของตัวแปรที่ไม่ถูกแปลงค่าเฉลี่ยเนื่องจากค่าเฉลี่ยคือการสรุปปกติของการแจกแจงแบบปกติและล็อก - ตัวแปรแปรผันมีการกระจายตามปกติในขณะที่ตัวแปรตัวเองไม่ได้?

46 generalized-linear-model model-selection lognormal

3

จำนวนต้นไม้ที่เหมาะสมในป่าสุ่มขึ้นอยู่กับจำนวนผู้ทำนายหรือไม่?

ใครสามารถอธิบายได้ว่าทำไมเราต้องมีต้นไม้จำนวนมากในป่าสุ่มเมื่อจำนวนผู้ทำนายมีมาก เราจะกำหนดจำนวนต้นไม้ที่เหมาะสมได้อย่างไร?

46 machine-learning random-forest

7

กราฟสำหรับความสัมพันธ์ระหว่างตัวแปรอันดับสอง

กราฟที่เหมาะสมในการแสดงความสัมพันธ์ระหว่างตัวแปรอันดับสองคืออะไร ตัวเลือกเล็ก ๆ น้อย ๆ ที่ฉันนึกได้: พล็อตกระจายที่มีตัวสั่นแบบสุ่มเพิ่มเพื่อหยุดจุดที่ซ่อนซึ่งกันและกัน เห็นได้ชัดว่ากราฟิกมาตรฐาน - Minitab เรียกสิ่งนี้ว่า "พล็อตค่าแต่ละค่า" ในความคิดของฉันมันอาจจะทำให้เข้าใจผิดตามที่เห็นกระตุ้นให้เกิดการแก้ไขเชิงเส้นระหว่างสายตาระดับลำดับราวกับว่าข้อมูลมาจากช่วงขนาด พล็อตกระจายที่ดัดแปลงเพื่อให้ขนาด (พื้นที่) ของจุดแทนความถี่ของการรวมกันของระดับนั้นแทนที่จะวาดหนึ่งจุดสำหรับแต่ละหน่วยสุ่มตัวอย่าง ฉันได้เห็นแผนการดังกล่าวเป็นครั้งคราวในทางปฏิบัติ พวกมันอ่านยาก แต่จุดนั้นอยู่บนโครงตาข่ายที่เว้นระยะสม่ำเสมอซึ่งจะเอาชนะการวิพากษ์วิจารณ์พล็อตกระจายที่กระวนกระวายใจ โดยเฉพาะอย่างยิ่งหากหนึ่งในตัวแปรนั้นถือว่าเป็นแบบพึ่งพาได้พล็อตกล่องจะถูกจัดกลุ่มตามระดับของตัวแปรอิสระ มีแนวโน้มที่จะดูแย่มากหากจำนวนระดับของตัวแปรตามไม่สูงพอ ("แบน" มากกับหนวดที่หายไปหรือแย่ลง quartiles ซึ่งทำให้การระบุภาพของค่ามัธยฐานเป็นไปไม่ได้) แต่อย่างน้อยก็ดึงดูดความสนใจไปที่มัธยฐานและควอไทล์ สถิติเชิงพรรณนาที่เกี่ยวข้องสำหรับตัวแปรลำดับ ตารางค่าหรือกริดเปล่าของเซลล์พร้อมแผนที่ความร้อนเพื่อระบุความถี่ มองเห็นแตกต่างกัน แต่มีแนวคิดคล้ายกับพล็อตกระจายที่มีพื้นที่จุดแสดงความถี่ มีความคิดอื่น ๆ หรือความคิดที่ดีกว่าแปลงไหน มีการวิจัยในสาขาใดบ้างที่มีการพิจารณาแปลงตามลำดับ - vs-ordinal บางแปลงเป็นมาตรฐานหรือไม่? (ฉันดูเหมือนจะจำความถี่ heatmap ที่แพร่หลายในจีโนมิกส์ แต่สงสัยว่าเป็นบ่อยขึ้นสำหรับเล็กน้อย - vs - ชื่อ.) คำแนะนำสำหรับการอ้างอิงมาตรฐานที่ดีก็จะได้รับการต้อนรับมากฉันคาดเดาบางอย่างจาก Agresti หากใครต้องการที่จะแสดงให้เห็นถึงพล็อตรหัส R สำหรับข้อมูลตัวอย่างปลอมดังต่อไปนี้ …

46 data-visualization categorical-data ordinal-data scatterplot

3

สัญชาตญาณของการแจกแจงแบบเกาส์ที่มีเงื่อนไขคืออะไร

สมมติว่าSigma}) จากนั้นการแจกแจงตามเงื่อนไขของเนื่องจากนั้นมีการกระจายหลายตัวแปรตามปกติด้วยค่าเฉลี่ยX∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) และความแปรปรวน:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} มันสมเหตุสมผลที่ความแปรปรวนจะลดลงเนื่องจากเรามีข้อมูลเพิ่มเติม แต่สัญชาตญาณที่อยู่เบื้องหลังสูตรหมายถึงอะไร ความแปรปรวนร่วมระหว่างและเป็นปัจจัยที่มีเงื่อนไขอย่างไรX 2X1X1X_1X2X2X_2

46 normal-distribution multivariate-analysis intuition

8

ข้อผิดพลาดในการวิเคราะห์อนุกรมเวลา

ฉันเพิ่งเริ่มเรียนรู้ด้วยตนเองในการวิเคราะห์อนุกรมเวลา ฉันสังเกตเห็นว่ามีข้อผิดพลาดที่อาจเกิดขึ้นจำนวนหนึ่งซึ่งไม่สามารถใช้ได้กับสถิติทั่วไป ดังนั้นการสร้างความผิดทางสถิติทั่วไปคืออะไร , ฉันอยากจะถาม: ข้อผิดพลาดทั่วไปหรือความผิดทางสถิติในการวิเคราะห์อนุกรมเวลาคืออะไร สิ่งนี้มีจุดประสงค์เพื่อเป็นชุมชนวิกิหนึ่งแนวคิดต่อหนึ่งคำตอบและโปรดไม่มีการทำซ้ำของข้อผิดพลาดทางสถิติทั่วไปเพิ่มเติมที่ (หรือควรจะ) แสดงรายการที่บาปทางสถิติทั่วไปคืออะไร

46 time-series self-study