สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ทำไมต้องทดสอบ Levene ของความแตกต่างของความแปรปรวนมากกว่าอัตราส่วน F
SPSS ใช้การทดสอบ Levene เพื่อประเมินความสม่ำเสมอของความแปรปรวนในขั้นตอนการทดสอบกลุ่มอิสระ ทำไมการทดสอบ Levene ถึงดีกว่าอัตราส่วน F อย่างง่ายของอัตราส่วนของความแปรปรวนของทั้งสองกลุ่ม?

2
เมื่อความแปรปรวนทางไกลมีความเหมาะสมน้อยกว่าความแปรปรวนเชิงเส้นตรงหรือไม่
ฉันได้รับการแนะนำเพียง (ราง) เพื่อBrownian / ระยะทางแปรปรวน ดูเหมือนว่ามีประโยชน์โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ไม่ใช่เชิงเส้นเมื่อทำการทดสอบเพื่อการพึ่งพา แต่ดูเหมือนว่าจะไม่ได้ใช้บ่อยนักถึงแม้ว่าความแปรปรวนร่วม / ความสัมพันธ์มักใช้กับข้อมูลที่ไม่เป็นเชิงเส้น / ไม่เป็นระเบียบ ฉันคิดว่าอาจมีข้อเสียเปรียบในการแปรปรวนระยะทาง แล้วพวกมันคืออะไรและทำไมทุกคนไม่ใช้ความแปรปรวนแบบระยะทางเสมอ

5
วิธีที่ถูกต้องในการทดสอบความสำคัญของผลลัพธ์การจำแนกประเภทคืออะไร
มีหลายสถานการณ์ที่คุณสามารถฝึกตัวแยกประเภทที่แตกต่างกันหลายตัวหรือใช้วิธีการดึงคุณสมบัติที่แตกต่างกันหลายวิธี ในวรรณกรรมผู้เขียนมักจะให้ข้อผิดพลาดการจัดหมวดหมู่ค่าเฉลี่ยในชุดของการแยกแบบสุ่มของข้อมูล (เช่นหลังจากการตรวจสอบข้ามซ้อนสองเท่า) และบางครั้งก็ให้ความแตกต่างกับข้อผิดพลาดในการแยกเช่นกัน อย่างไรก็ตามสิ่งนี้ด้วยตัวมันเองไม่เพียงพอที่จะบอกได้ว่าตัวจําแนกประเภทหนึ่งดีกว่าตัวจําแนกอื่นอย่างมาก ฉันได้เห็นวิธีการที่แตกต่างมากมายในเรื่องนี้ - การใช้การทดสอบ Chi-squared, t-test, ANOVA พร้อมการทดสอบหลังเลิกเรียน ฯลฯ ควรใช้วิธีการใดเพื่อกำหนดนัยสำคัญทางสถิติ ภายใต้คำถามนั้นคือ: เราควรตั้งสมมติฐานอะไรเกี่ยวกับการแจกแจงคะแนนการจำแนกประเภท?

5
โครงข่ายประสาทที่ทันสมัยที่สร้างโทโพโลยีของตนเอง
ข้อ จำกัด ของอัลกอริทึมโครงข่ายประสาทแบบมาตรฐาน (เช่น backprop) คือคุณต้องตัดสินใจออกแบบจำนวนเลเยอร์ที่ซ่อนอยู่และเซลล์ประสาทต่อเลเยอร์ที่คุณต้องการ โดยทั่วไปแล้วอัตราการเรียนรู้และการวางนัยทั่วไปมีความไวสูงต่อตัวเลือกเหล่านี้ นี่เป็นเหตุผลว่าทำไมอัลกอริธึมโครงข่ายประสาทเช่นความสัมพันธ์แบบเรียงซ้อนได้สร้างความสนใจ มันเริ่มต้นด้วยโครงสร้างขั้นต่ำสุด (เพียงแค่หน่วยอินพุตและเอาต์พุต) และรับสมัครหน่วยที่ซ่อนใหม่เมื่อการเรียนรู้ดำเนินไป อัลกอริทึม CC-NN ได้รับการแนะนำโดย Fahlman ในปี 1990 และเวอร์ชันที่เกิดขึ้นซ้ำในปี 1991 อะไรคืออัลกอริทึม net neural net (post 1992) ล่าสุดที่เริ่มต้นด้วย topology ที่น้อยที่สุดคืออะไร คำถามที่เกี่ยวข้อง CogSci.SE: โครงข่ายประสาทเทียมที่มีความน่าเชื่อถือทางชีววิทยาของบัญชี neurogenesis

2
เราจะหาความน่าจะเป็นที่ตัวแปรสุ่มสูงสุดได้อย่างไร
\newcommand{\P}{\mathbb{P}}สมมติว่าเรามีตัวแปรสุ่มอิสระ , ,ด้วยวิธีการ จำกัดและความแปรปรวน , , 2 ฉันกำลังมองหาขอบเขตการกระจายฟรีที่น่าจะเป็นที่ใดมีขนาดใหญ่กว่าอื่น ๆ ทั้งหมด ,ฉันNNNX1X1X_1……\ldotsXnXnX_nμ1≤…≤μNμ1≤…≤μN\mu_1 \leq \ldots \leq \mu_Nσ21σ12\sigma_1^2……\ldotsσ2NσN2\sigma_N^2Xi≠XNXi≠XNX_i \neq X_NXjXjX_jj≠ij≠ij \neq i กล่าวอีกนัยหนึ่งถ้าเพื่อความง่ายเราถือว่าการแจกแจงของนั้นต่อเนื่อง (เช่น ) ฉันกำลังมองหาขอบเขตบน: ถ้าเราสามารถใช้อสมการของ Chebyshev เพื่อรับ: \ P (X_1 = \ max_j X_j) = \ P (X_1> X_2) \ leq \ frac {\ sigma_1 ^ 2 + \ sigma_2 ^ …

6
ตัวอย่างของปัญหาโมเดลมาร์คอฟที่ซ่อนอยู่?
ฉันอ่านรุ่นมาร์คอฟที่ซ่อนอยู่ค่อนข้างน้อยและสามารถเขียนโค้ดเวอร์ชั่นพื้นฐานได้ด้วยตัวเอง แต่มีสองวิธีหลักที่ฉันดูเหมือนจะเรียนรู้ หนึ่งคือการอ่านและนำไปใช้เป็นโค้ด (ซึ่งเสร็จแล้ว) และที่สองคือการเข้าใจวิธีการใช้ภายใต้สถานการณ์ที่แตกต่างกัน (ดังนั้นฉันจึงสามารถเข้าใจได้ดียิ่งขึ้น ตัวอย่างทั้งหมดที่ฉันได้ทำไปนั้นเกี่ยวข้องกับการทำนายดีเอ็นเอบางอย่างหรือการโยนเหรียญ ฉันสงสัยว่ามีแหล่งข้อมูลใดที่จะทำให้เกิดปัญหามาร์คอฟอื่น ๆ (ภาษาไม่สำคัญ แต่หวังว่าจะมีคำตอบเช่นกันดังนั้นฉันจึงรู้ได้ว่าฉันถูกหรือผิด)?

3
การถดถอยเทียบกับความคลาดเคลื่อน ANOVA (aov vs lm ใน R)
ฉันมักจะรู้สึกว่าการถดถอยเป็นเพียงรูปแบบทั่วไปของ ANOVA และผลลัพธ์ก็จะเหมือนกัน อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันได้รันทั้งการถดถอยและการวิเคราะห์ความแปรปรวนของข้อมูลเดียวกันและผลลัพธ์แตกต่างกันอย่างมีนัยสำคัญ นั่นคือในรูปแบบการถดถอยทั้งผลกระทบหลักและการมีปฏิสัมพันธ์อย่างมีนัยสำคัญในขณะที่ ANOVA หนึ่งผลกระทบหลักไม่สำคัญ ฉันคาดหวังว่าสิ่งนี้จะเกี่ยวข้องกับการโต้ตอบ แต่ไม่ชัดเจนสำหรับฉันเกี่ยวกับการสร้างแบบจำลองคำถามเดียวกัน หากเป็นสิ่งสำคัญตัวทำนายหนึ่งตัวจะจัดหมวดหมู่และอีกตัวเป็นแบบต่อเนื่องตามที่ระบุในการจำลองด้านล่าง นี่คือตัวอย่างของข้อมูลของฉันและการวิเคราะห์ที่ฉันใช้ แต่ไม่มีค่า p หรือเอฟเฟ็กต์ที่มีนัยสำคัญในผลลัพธ์ group<-c(1,1,1,0,0,0) moderator<-c(1,2,3,4,5,6) score<-c(6,3,8,5,7,4) summary(lm(score~group*moderator)) summary(aov(score~group*moderator))
21 r  regression  anova 

3
ฉันจะคำนวณระยะขอบของข้อผิดพลาดในผลลัพธ์ NPS (คะแนนโปรโมเตอร์สุทธิ) ได้อย่างไร
ฉันจะให้วิกิพีเดียอธิบายวิธีคำนวณNPS : คะแนนโปรโมเตอร์สุทธินั้นได้มาจากการถามคำถามเดียวกับลูกค้าในระดับคะแนน 0 ถึง 10 โดยที่ 10 คือ "มีโอกาสสูงมาก" และ 0 คือ "ไม่น่าจะเป็นไปได้มาก": "เป็นไปได้มากเพียงใดที่คุณจะแนะนำ บริษัท ของเรา เพื่อนหรือเพื่อนร่วมงาน? " ขึ้นอยู่กับการตอบสนองของพวกเขาลูกค้าแบ่งออกเป็นหนึ่งในสามกลุ่ม: ผู้สนับสนุน (9–10 คะแนน), Passives (7–8 คะแนน), และผู้ว่า (0–6 คะแนน) เปอร์เซ็นต์ของ Detractors จะถูกหักออกจากเปอร์เซ็นต์ของผู้สนับสนุนเพื่อรับคะแนน Net Promoter (NPS) NPS สามารถอยู่ในระดับต่ำถึง -100 (ทุกคนเป็นผู้ทำลาย) หรือสูงถึง +100 (ทุกคนเป็นผู้ก่อการ) เราดำเนินการสำรวจนี้เป็นระยะเวลาหลายปี เราได้รับคำตอบหลายร้อยครั้งในแต่ละครั้ง คะแนนที่ได้นั้นแตกต่างกันไปตามระยะเวลา 20-30 คะแนน ฉันพยายามคิดว่าการเคลื่อนไหวของคะแนนใดมีความสำคัญถ้ามี หากสิ่งนั้นพิสูจน์ได้ยากเกินไปฉันก็สนใจที่จะพยายามหาข้อผิดพลาดพื้นฐานของการคำนวณ ระยะขอบของข้อผิดพลาดของ …

3
เหตุใดเราจึงต้องใส่ใจกับการผสมอย่างรวดเร็วในเครือข่าย MCMC
เมื่อทำงานร่วมกับมาร์คอฟโซ่มอนติคาร์โลเพื่อวาดการอนุมานเราจำเป็นต้องมีห่วงโซ่ที่ผสมกันอย่างรวดเร็วนั่นคือการเคลื่อนที่อย่างสม่ำเสมอโดยการสนับสนุนของการกระจายด้านหลังอย่างรวดเร็ว แต่ฉันไม่เข้าใจว่าทำไมเราต้องใช้คุณสมบัตินี้เพราะจากสิ่งที่ฉันเข้าใจเทียนที่ได้รับการยอมรับควรและจะเข้มข้นในส่วนที่มีความหนาแน่นสูงของการกระจายหลัง หากสิ่งที่ฉันเข้าใจเป็นจริงเราจะยังต้องการให้ลูกโซ่เคลื่อนที่ผ่านการสนับสนุน (ซึ่งรวมถึงส่วนที่มีความหนาแน่นต่ำ) ด้วยหรือไม่ นอกจากนี้หากฉันใช้ MCMC เพื่อเพิ่มประสิทธิภาพฉันยังต้องใส่ใจกับการผสมอย่างรวดเร็วและเพราะเหตุใด ขอบคุณสำหรับการแบ่งปันความคิดของคุณ!
21 mcmc 

1
การคำนวณเมทริกซ์ผกผันใน R อย่างมีประสิทธิภาพ
ฉันต้องการคำนวณเมทริกซ์ผกผันและใช้solveฟังก์ชัน ในขณะที่มันใช้งานได้ดีกับเมทริกซ์ขนาดเล็ก แต่solveมีแนวโน้มที่จะช้ามากในเมทริกซ์ขนาดใหญ่ ฉันสงสัยว่ามีฟังก์ชั่นอื่น ๆ หรือการรวมกันของฟังก์ชั่น (ผ่าน SVD, QR, LU หรือฟังก์ชั่นการสลายตัวอื่น ๆ ) ที่สามารถให้ผลลัพธ์ที่เร็วขึ้น

1
ฉันจะทำนายค่าจากอินพุตใหม่ของโมเดลเชิงเส้นใน R ได้อย่างไร?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันได้สร้างโมเดลเชิงเส้นตรงใน mod = lm(train_y ~ train_x)R: ฉันต้องการส่งรายการของ X และรับการคาดการณ์ / ประเมิน / คาดการณ์ Y ฉันดูpredict()แต่ฉันคิดว่ามันมีไว้สำหรับอย่างอื่นหรือฉันไม่รู้ว่าจะใช้มันอย่างไร ฉันคาดเดาด้วยการใช้สัมประสิทธิ์ของแบบจำลองของฉันฉันสามารถปลั๊กอินตัวแปร test_x แบบตัวต่อตัวและทำนายค่า Y ได้ แต่ฉันเดาว่าจะมีวิธีที่มีประสิทธิภาพมากกว่านี้

4
คำสาปของมิติข้อมูลคืออะไร?
โดยเฉพาะฉันกำลังมองหาการอ้างอิง (เอกสารหนังสือ) ซึ่งจะแสดงอย่างจริงจังและอธิบายคำสาปของมิติ คำถามนี้เกิดขึ้นหลังจากที่ฉันเริ่มอ่านกระดาษสีขาวนี้โดย Lafferty และ Wasserman ในย่อหน้าที่สามพวกเขาพูดถึงสมการ "ที่รู้จักกันดี" ซึ่งหมายความว่าอัตราการบรรจบกันที่ดีที่สุดคือ ; หากใครก็ตามสามารถอธิบายได้ (และอธิบาย) นั่นจะเป็นประโยชน์มากn- 4 / ( 4 - d)n−4/(4−d)n^{-4/(4-d)} นอกจากนี้ทุกคนสามารถชี้ให้ฉันอ้างอิงซึ่งมาจากสมการ "ที่รู้จักกันดี"?
21 theory 

4
“ ความเป็นกลาง” หมายถึงอะไร?
มันหมายความว่าอย่างไรว่า "ความแปรปรวนเป็นตัวประมาณแบบเอนเอียง" การแปลงค่าประมาณแบบเอนเอียงเป็นค่าประมาณที่เป็นกลางโดยใช้สูตรอย่างง่ายหมายความว่าอะไร การแปลงนี้ทำอะไรกันแน่? นอกจากนี้การใช้การแปลงนี้ในทางปฏิบัติคืออะไร? คุณแปลงคะแนนเหล่านี้เมื่อใช้สถิติบางประเภทหรือไม่

5
ตัวอย่างของค่าสัมประสิทธิ์สหสัมพันธ์ที่แข็งแกร่งกับค่า p สูง
ฉันสงสัยว่าเป็นไปได้หรือไม่ที่จะมีค่าสัมประสิทธิ์สหสัมพันธ์ที่สูงมาก (พูด. 9 หรือสูงกว่า) ด้วยค่า p สูง (พูด. 25 หรือสูงกว่า)? นี่คือตัวอย่างของสัมประสิทธิ์สหสัมพันธ์ต่ำที่มีค่า p สูง: set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0.03908927, p = 0.6994 สัมประสิทธิ์สหสัมพันธ์สูงค่า p ต่ำ: y <- rnorm(100) x <- rnorm(100)+2*y cor.test(x,y) cor = 0.8807809, p = 2.2e-16 ค่าสัมประสิทธิ์สหสัมพันธ์ต่ำค่า p ต่ำ: y <- rnorm(100000) x …

1
การถดถอยโลจิสติกสำหรับอนุกรมเวลา
ฉันต้องการใช้แบบจำลองการถดถอยแบบลอจิสติกแบบไบนารีในบริบทของการสตรีมข้อมูล (อนุกรมเวลาหลายมิติ) เพื่อทำนายค่าของตัวแปรตามของข้อมูล (เช่นแถว) ที่เพิ่งมาถึงจากการสังเกตที่ผ่านมา เท่าที่ฉันทราบการถดถอยโลจิสติกส์นั้นใช้สำหรับการวิเคราะห์หลังการตายซึ่งตัวแปรตามแต่ละตัวได้ถูกตั้งค่าไว้แล้ว (ไม่ว่าจะโดยการตรวจสอบหรือโดยธรรมชาติของการศึกษา) สิ่งที่เกิดขึ้นในกรณีของอนุกรมเวลา แต่ที่เราต้องการที่จะทำให้การคาดการณ์ (การบิน) เกี่ยวกับตัวแปรในแง่ของข้อมูลทางประวัติศาสตร์ (ตัวอย่างเช่นในหน้าต่างเวลาของสุดท้ายวินาที) และแน่นอนก่อนหน้านี้ ประมาณการของตัวแปรตามเสื้อtt และถ้าคุณเห็นระบบข้างต้นเมื่อเวลาผ่านไปมันควรจะถูกสร้างขึ้นอย่างไรเพื่อให้การถดถอยทำงานได้? เราต้องฝึกมันก่อนโดยการติดฉลากสมมติว่า 50 แถวแรกของข้อมูลของเรา (เช่นการตั้งค่าตัวแปรตามเป็น 0 หรือ 1) จากนั้นใช้ประมาณการปัจจุบันของเวกเตอร์เพื่อประเมินความน่าจะเป็นใหม่ของตัวแปรตาม 0 หรือ 1 สำหรับข้อมูลที่เพิ่งมาถึง (เช่นแถวใหม่ที่เพิ่งเพิ่มไปยังระบบ)ββ{\beta} เพื่อทำให้ปัญหาของฉันชัดเจนยิ่งขึ้นฉันพยายามสร้างระบบที่แยกวิเคราะห์ชุดข้อมูลทีละแถวและพยายามคาดคะเนของผลลัพธ์ไบนารี (ตัวแปรตาม) ให้ความรู้ (การสังเกตหรือการประเมิน) ของทั้งหมดขึ้นอยู่กับหรืออธิบาย ตัวแปรที่มาถึงในช่วงเวลาที่แน่นอน ระบบของฉันอยู่ใน Rerl และใช้ R สำหรับการอนุมาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.