สถิติและข้อมูลขนาดใหญ่

9

หนังสืออ้างอิงสำหรับพีชคณิตเชิงเส้นที่ใช้กับสถิติ?

ฉันทำงานใน R มาแล้วและต้องเผชิญกับสิ่งต่าง ๆ เช่น PCA, SVD, การย่อยสลาย QR และผลลัพธ์พีชคณิตเชิงเส้นจำนวนมากเช่นนี้ (เมื่อตรวจสอบการประเมินการถ่วงน้ำหนักและอื่น ๆ ) ดังนั้นฉันอยากรู้ว่าใครมีคำแนะนำที่ดี หนังสือพีชคณิตเชิงเส้นที่มีเนื้อหาครอบคลุมซึ่งไม่เชิงทฤษฎี แต่มีความเข้มงวดทางด้านคณิตศาสตร์และครอบคลุมหัวข้อเหล่านี้ทั้งหมด

54 references matrix linear-algebra weighted-regression

5

ทฤษฎีขีด จำกัด กลางสำหรับค่ามัธยฐานตัวอย่าง

ถ้าฉันคำนวณค่ามัธยฐานของจำนวนการสังเกตที่มากพอจากการแจกแจงแบบเดียวกันทฤษฎีบทขีด จำกัด กลางจะระบุว่าการกระจายของค่ามัธยฐานจะประมาณการกระจายตัวแบบปกติหรือไม่? ความเข้าใจของฉันคือว่านี่เป็นความจริงด้วยวิธีการของกลุ่มตัวอย่างจำนวนมาก แต่มันก็เป็นความจริงกับมัธยฐาน? ถ้าไม่เป็นเช่นนั้นการกระจายตัวพื้นฐานของค่ามัธยฐานตัวอย่างคืออะไร

54 normal-distribution mathematical-statistics sampling median central-limit-theorem

2

เราจำเป็นต้องมีการทดสอบระดับโลกก่อนการทดสอบแบบโพสต์เฉพาะกิจหรือไม่?

ฉันมักจะได้ยินว่าการทดสอบโพสต์เฉพาะกิจหลังจาก ANOVA สามารถใช้ได้เฉพาะในกรณีที่ ANOVA นั้นมีความสำคัญ อย่างไรก็ตามการทดสอบโพสต์เฉพาะกิจจะปรับค่าเพื่อให้อัตราการพิมพ์ผิดพลาดทั่วโลกอยู่ที่ 5% ใช่ไหม?ppp แล้วทำไมเราต้องมีการทดสอบระดับโลกก่อน หากเราไม่ต้องการการทดสอบระดับโลกคำศัพท์ "post hoc" ถูกต้องหรือไม่ หรือมีการทดสอบหลังจบหลายแบบบางคนคิดว่าเป็นผลการทดสอบระดับโลกที่สำคัญและอื่น ๆ โดยไม่มีข้อสันนิษฐานนั้น?

54 anova statistical-significance post-hoc

10

จะตัดสินใจเลือกกลุ่มที่ถูกต้องได้อย่างไร

เราค้นหาศูนย์คลัสเตอร์และกำหนดคะแนนให้กับกลุ่มถังขยะ k ที่แตกต่างกันในการจัดกลุ่ม k- หมายถึงซึ่งเป็นอัลกอริธึมที่รู้จักกันดีและพบได้ในเกือบทุกชุดการเรียนรู้ของเครื่องบนเน็ต แต่ส่วนที่ขาดหายไปและสำคัญที่สุดในความคิดของฉันคือการเลือก k ที่ถูกต้อง ค่าที่ดีที่สุดสำหรับมันคืออะไร? และสิ่งที่ดีที่สุดคืออะไร? ผมใช้ MATLAB สำหรับการคำนวณทางวิทยาศาสตร์ที่กำลังมองหาที่แปลงเงาจะได้รับเป็นวิธีการที่จะตัดสินใจเกี่ยวกับเคกล่าวถึงที่นี่ อย่างไรก็ตามฉันจะสนใจวิธีการแบบเบย์มากกว่า ข้อเสนอแนะใด ๆ ที่ชื่นชม

54 clustering k-means

3

ค่าเบี่ยงเบนมาตรฐานของค่าเบี่ยงเบนมาตรฐาน

ตัวประมาณค่าเบี่ยงเบนมาตรฐานของค่าเบี่ยงเบนมาตรฐานคืออะไรหากสามารถใช้ค่าปกติของข้อมูลได้

54 estimation standard-deviation normality-assumption

5

การปรับค่า p ในการถดถอยหลายครั้งสำหรับการเปรียบเทียบหลายรายการเป็นแนวคิดที่ดีหรือไม่

สมมติว่าคุณเป็นนักวิจัยสังคมศาสตร์ / เศรษฐมิติที่พยายามค้นหาตัวทำนายที่เกี่ยวข้องของความต้องการใช้บริการ คุณมี 2 ผลลัพธ์ / ตัวแปรตามที่อธิบายความต้องการ (ใช้บริการใช่ / ไม่ใช่และจำนวนครั้ง) คุณมีตัวแปรทำนาย 10 ตัว / ตัวแปรอิสระที่สามารถอธิบายความต้องการในทางทฤษฎี (เช่นอายุเพศรายได้ราคาเชื้อชาติ ฯลฯ ) การรันการถดถอยหลาย ๆ ตัวสองตัวที่แยกกันจะให้ค่าประมาณ 20 สัมประสิทธิ์และค่า p เมื่อมีตัวแปรอิสระเพียงพอในการถดถอยของคุณคุณจะพบตัวแปรอย่างน้อยหนึ่งตัวแปรที่มีความสัมพันธ์อย่างมีนัยสำคัญทางสถิติระหว่างตัวแปรที่ขึ้นอยู่กับตัวแปรอิสระ คำถามของฉัน: เป็นความคิดที่ดีหรือไม่ที่จะแก้ไขค่า p สำหรับการทดสอบหลายครั้งถ้าฉันต้องการรวมตัวแปรอิสระทั้งหมดในการถดถอย การอ้างอิงถึงงานก่อนหน้านี้ชื่นชมมาก

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

7

สุดยอดอัลกอริธึม PCA สำหรับฟีเจอร์มากมาย (> 10K)?

ก่อนหน้านี้ฉันเคยถามเรื่องนี้ใน StackOverflow แต่ดูเหมือนว่าอาจเหมาะสมกว่าที่นี่เนื่องจากไม่ได้รับคำตอบใด ๆ เกี่ยวกับ SO มันเป็นจุดตัดระหว่างสถิติกับการเขียนโปรแกรม ฉันต้องเขียนโค้ดบางอย่างเพื่อทำ PCA (การวิเคราะห์ส่วนประกอบหลัก) ฉันเรียกดูผ่านอัลกอริทึมที่รู้จักกันดีและใช้สิ่งนี้ซึ่งเท่าที่ฉันสามารถบอกได้เท่ากับอัลกอริทึม NIPALS มันใช้งานได้ดีสำหรับการค้นหาส่วนประกอบหลัก 2-3 ชิ้นแรก แต่ดูเหมือนจะช้ามากที่จะรวมกัน (ตามลำดับการทำซ้ำหลายร้อยถึงหลายพัน) นี่คือรายละเอียดของสิ่งที่ฉันต้องการ: อัลกอริทึมจะต้องมีประสิทธิภาพเมื่อจัดการกับคุณสมบัติจำนวนมาก (สั่ง 10,000 ถึง 20,000) และขนาดตัวอย่างตามลำดับไม่กี่ร้อย มันจะต้องสามารถนำไปใช้อย่างสมเหตุสมผลโดยไม่มีไลบรารี่พีชคณิตเชิงเส้น / เมทริกซ์ที่เหมาะสมเนื่องจากภาษาเป้าหมายคือ D ซึ่งยังไม่มีและแม้ว่ามันจะเป็นเช่นนั้นฉันก็ไม่ต้องการที่จะเพิ่มมันเป็นการพึ่งพาโครงการที่เป็นปัญหา . เป็นหมายเหตุด้านบนชุดข้อมูลเดียวกัน R ดูเหมือนว่าจะพบส่วนประกอบหลักทั้งหมดอย่างรวดเร็ว แต่ใช้การสลายตัวค่าเอกพจน์ซึ่งไม่ใช่สิ่งที่ฉันต้องการรหัสตัวเอง

54 pca algorithms model-evaluation high-dimensional

6

สถิติเบื้องต้นสำหรับนักคณิตศาสตร์

อะไรคือการแนะนำที่ดีสำหรับสถิติสำหรับนักคณิตศาสตร์ที่มีความรอบรู้ในความน่าจะเป็นอยู่แล้ว ฉันมีแรงจูงใจที่แตกต่างกันสองข้อสำหรับการถามซึ่งอาจนำไปสู่ข้อเสนอแนะที่แตกต่างกัน: ฉันต้องการเข้าใจแรงจูงใจด้านสถิติที่อยู่เบื้องหลังปัญหาที่พิจารณาโดยผู้น่าจะเป็นมากขึ้น ฉันต้องการทราบวิธีการตีความผลลัพธ์ของการจำลองแบบมอนติคาร์โลซึ่งบางครั้งฉันก็สามารถสร้างการคาดเดาทางคณิตศาสตร์ได้ดีขึ้น ฉันเปิดรับความเป็นไปได้ที่วิธีที่ดีที่สุดที่จะไปคือไม่มองหาบางอย่างเช่น "สถิติสำหรับผู้ที่น่าจะเป็น" และเพียงแค่ไปที่แหล่งข้อมูลเบื้องต้นเพิ่มเติม

54 references

19

วิดีโอสถิติเชิงคณิตศาสตร์

คำถามก่อนหน้านี้ได้ขอคำแนะนำสำหรับตำราเกี่ยวกับสถิติทางคณิตศาสตร์ ไม่มีใครรู้ว่าการบรรยายวิดีโอออนไลน์ที่ดีเกี่ยวกับสถิติทางคณิตศาสตร์ ? ที่ใกล้ที่สุดที่ฉันพบคือ: การเรียนรู้ของเครื่อง เศรษฐมิติ อัปเดต:คำแนะนำที่กล่าวถึงด้านล่างนี้เป็นวิดีโอประเภทสถิติ -101 ที่ดี อย่างไรก็ตามฉันสงสัยโดยเฉพาะว่ามีวิดีโอใด ๆ ที่ให้การนำเสนอทางคณิตศาสตร์อย่างเข้มงวดของสถิติหรือไม่ เช่นวิดีโอที่อาจมาพร้อมกับหลักสูตรที่ใช้ตำราเรียนที่กล่าวถึงในการอภิปรายเรื่อง mathoverflow

54 mathematical-statistics references

3

การถดถอยเชิงเส้นหลายตัวแปรเทียบกับเครือข่ายประสาทเทียม?

ดูเหมือนว่าเป็นไปได้ที่จะได้ผลลัพธ์ที่คล้ายคลึงกับเครือข่ายประสาทที่มีการถดถอยเชิงเส้นหลายตัวแปรในบางกรณีและการถดถอยเชิงเส้นหลายตัวแปรนั้นรวดเร็วและง่ายมาก เครือข่ายประสาทสามารถให้ผลลัพธ์ที่ดีกว่าการถดถอยเชิงเส้นหลายตัวแปรในสถานการณ์ใดบ้าง

54 regression multiple-regression neural-networks

5

อะไรคือคำอธิบายที่เข้าใจง่ายว่า PCA เปลี่ยนจากปัญหาเชิงเรขาคณิต (ด้วยระยะทาง) เป็นปัญหาพีชคณิตเชิงเส้น (กับ eigenvectors) อย่างไร

ฉันได้อ่านมากเกี่ยวกับ PCA รวมทั้งบทเรียนต่างๆและคำถาม (เช่นนี้ , คนนี้ , คนนี้และคนนี้ ) ปัญหาทางเรขาคณิตที่ PCA พยายามปรับให้เหมาะสมนั้นชัดเจนสำหรับฉัน: PCA พยายามค้นหาส่วนประกอบหลักแรกด้วยการลดข้อผิดพลาดการสร้างใหม่ (การฉายภาพ) ซึ่งลดความแปรปรวนของข้อมูลที่คาดการณ์ไว้พร้อมกัน เมื่อฉันอ่านครั้งแรกฉันก็นึกถึงบางสิ่งอย่างเช่นการถดถอยเชิงเส้น บางทีคุณสามารถแก้มันโดยใช้การไล่ระดับสีถ้าจำเป็น อย่างไรก็ตามแล้วใจของฉันก็ปลิวไปเมื่อฉันอ่านว่าปัญหาการหาค่าเหมาะที่สุดนั้นได้รับการแก้ไขโดยใช้พีชคณิตเชิงเส้นและหาค่าลักษณะเฉพาะและค่าลักษณะเฉพาะ ฉันไม่เข้าใจว่าการใช้พีชคณิตเชิงเส้นนี้เข้ามาในการเล่นได้อย่างไร ดังนั้นคำถามของฉันคือ PCA สามารถเปลี่ยนจากปัญหาการหาค่าเหมาะที่สุดเชิงเรขาคณิตเป็นปัญหาพีชคณิตเชิงเส้นได้อย่างไร ใครสามารถให้คำอธิบายง่ายๆ ฉันไม่ได้มองหาคำตอบเช่นนี้ที่กล่าวว่า "เมื่อคุณแก้ปัญหาทางคณิตศาสตร์ของ PCA มันจะเทียบเท่ากับการหาค่าลักษณะเฉพาะและ eigenvectors ของเมทริกซ์ความแปรปรวนร่วม" โปรดอธิบายว่าเหตุใด eigenvector จึงกลายเป็นองค์ประกอบหลักและทำไมค่าลักษณะเฉพาะออกมาเป็นความแปรปรวนของข้อมูลที่ฉายลงบนพวกเขา ฉันเป็นวิศวกรซอฟต์แวร์ไม่ใช่นักคณิตศาสตร์เลย หมายเหตุ: รูปด้านบนนี้ถูกถ่ายและแก้ไขจากบทช่วยสอน PCAนี้

54 pca optimization linear-algebra intuition

10

การตรวจสอบความถูกต้องโฮลด์กับการตรวจสอบข้าม

สำหรับฉันดูเหมือนว่าการตรวจสอบความถูกต้องของการระงับไม่ได้ผล นั่นคือการแบ่งชุดข้อมูลเดิมออกเป็นสองส่วน (การฝึกอบรมและการทดสอบ) และการใช้คะแนนการทดสอบเป็นมาตรการทั่วไปนั้นค่อนข้างไร้ประโยชน์ การตรวจสอบความถูกต้องไขว้ของ K-fold ดูเหมือนจะให้การประมาณที่ดีขึ้นของการวางนัยทั่วไป (ในขณะที่มันฝึกฝนและทดสอบทุกจุด) ดังนั้นทำไมเราจะใช้การตรวจสอบความถูกต้องของมาตรฐาน หรือแม้กระทั่งพูดคุยเกี่ยวกับมัน

54 machine-learning cross-validation validation

4

ความแปรปรวนและความเป็นอิสระ?

ฉันอ่านจากตำราเรียนว่าไม่รับประกันว่า X และ Y จะเป็นอิสระ แต่ถ้าพวกเขาเป็นอิสระความแปรปรวนร่วมของพวกเขาจะต้องเป็น 0 ฉันไม่สามารถนึกถึงตัวอย่างที่เหมาะสมได้ มีคนให้หรือไม่cov(X,Y)=0cov(X,Y)=0\text{cov}(X,Y)=0

54 independence covariance

3

การทำความเข้าใจการตรวจสอบความถูกต้องข้ามกลุ่ม

ความแตกต่างระหว่างคืออะไรแซดข้ามการตรวจสอบและการตรวจสอบข้าม ? Wikipedia พูดว่า: ในการตรวจสอบความถูกต้องไขว้ของ k-stratifiedการพับจะถูกเลือกเพื่อให้ค่าการตอบสนองเฉลี่ยมีค่าเท่ากันในการพับทั้งหมด ในกรณีของการจำแนกแบบแบ่งขั้วหมายความว่าแต่ละการพับมีสัดส่วนที่เท่ากันของฉลากระดับสองประเภท แต่ฉันยังคงสับสน อะไรmean response valueหมายถึงในบริบทนี้? ทำไมอันดับ 1 ถึงสำคัญ หนึ่งจะประสบความสำเร็จ # 1 ในทางปฏิบัติอย่างไร

54 cross-validation stratification

5

เกี่ยวกับความสำคัญของการตั้งสมมติฐานในการเรียนรู้ทางสถิติ

ในการเรียนรู้ทางสถิติโดยปริยายหรืออย่างชัดเจนเรามักจะสันนิษฐานว่าชุดการฝึกอบรมD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}ประกอบด้วยการป้อนข้อมูลNNN / ตอบสนอง tuples (Xi,yi)(Xi,yi)({\bf{X}}_i,y_i)ที่มาจากการกระจายข้อต่อเดียวกัน ด้วยP(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) และความสัมพันธ์ที่เราพยายามรวบรวมผ่านอัลกอริทึมการเรียนรู้เฉพาะ ในทางคณิตศาสตร์สมมติฐาน iid นี้เขียน:p(y|X)p(y|X)p( y \vert {\bf{X}}) (Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j …

54 machine-learning cross-validation non-independent iid