สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
ถ้าฉันต้องการโมเดลที่ตีความได้มีวิธีอื่นนอกเหนือจาก Linear Regression หรือไม่?
ฉันพบนักสถิติบางคนที่ไม่เคยใช้แบบจำลองอื่นนอกจากการถดถอยเชิงเส้นเพื่อการทำนายเพราะพวกเขาเชื่อว่า "โมเดล ML" เช่นฟอเรสต์แบบสุ่มหรือการเพิ่มระดับความลาดชันนั้นยากที่จะอธิบายหรือ "ไม่สามารถตีความได้" ในการถดถอยเชิงเส้นเนื่องจากชุดของสมมติฐานได้รับการตรวจสอบแล้ว (ความเป็นปกติของข้อผิดพลาด, homoskedasticity, ไม่มีหลาย collinearity), การทดสอบ t มีวิธีการทดสอบความสำคัญของตัวแปร, การทดสอบที่ความรู้ของฉันไม่สามารถใช้ได้ใน ฟอเรสต์แบบสุ่มหรือการส่งเสริมการไล่ระดับสี ดังนั้นคำถามของฉันคือถ้าฉันต้องการสร้างแบบจำลองตัวแปรตามด้วยชุดของตัวแปรอิสระเพื่อประโยชน์ในการตีความฉันควรใช้การถดถอยเชิงเส้นเสมอ?

3
ใช้การทำให้เป็นมาตรฐานเมื่อทำการอนุมานเชิงสถิติ
ฉันรู้เกี่ยวกับประโยชน์ของการทำให้เป็นปกติเมื่อสร้างแบบจำลองการทำนาย (อคติกับความแปรปรวนป้องกันการโอเวอร์) แต่ฉันสงสัยว่ามันเป็นความคิดที่ดีหรือไม่ที่จะทำการทำให้เป็นมาตรฐาน (lasso, ridge, elastic net) เมื่อจุดประสงค์หลักของแบบจำลองการถดถอยนั้นอนุมานถึงสัมประสิทธิ์ ฉันชอบที่จะได้ยินความคิดของผู้คนรวมถึงลิงก์ไปยังวารสารทางวิชาการหรือบทความที่ไม่ใช่ด้านวิชาการที่กล่าวถึงเรื่องนี้

2
จะทำการทดสอบหลังการขายรุ่น lmer ได้อย่างไร?
นี่คือกรอบข้อมูลของฉัน: Group <- c("G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3") Subject <- c("S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15") Value <- c(9.832217741,13.62390117,13.19671612,14.68552076,9.26683366,11.67886655,14.65083473,12.20969772,11.58494621,13.58474896,12.49053635,10.28208078,12.21945867,12.58276212,15.42648969,9.466436017,11.46582655,10.78725485,10.66159358,10.86701127,12.97863424,12.85276916,8.672953949,10.44587257,13.62135205,13.64038394,12.45778874,8.655142642,10.65925259,13.18336949,11.96595556,13.5552118,11.8337142,14.01763101,11.37502161,14.14801305,13.21640866,9.141392359,11.65848845,14.20350364,14.1829714,11.26202565,11.98431285,13.77216009,11.57303893) data <- data.frame(Group, Subject, Value) จากนั้นฉันเรียกใช้แบบจำลองเอฟเฟกต์แบบเชิงเส้นเพื่อเปรียบเทียบความแตกต่างของ 3 กลุ่มใน "ค่า" โดยที่ "หัวเรื่อง" เป็นปัจจัยแบบสุ่ม: library(lme4) library(lmerTest) model <- lmer (Value~Group + (1|Subject), data = data) summary(model) ผลลัพธ์ที่ได้คือ: Fixed effects: Estimate Std. Error df t value Pr(>|t|) (Intercept) 12.48771 0.42892 31.54000 29.114 <2e-16 …
18 r  lme4-nlme  post-hoc 

1
ความซับซ้อนในการคำนวณ k-NN
ความซับซ้อนของเวลาของอัลกอริทึมk -NN ด้วยวิธีการค้นหาแบบไร้เดียงสา (ไม่มี kd tree หรือ similars) คืออะไร? ผมสนใจในความซับซ้อนเวลาพิจารณายัง hyperparameter k ฉันได้พบคำตอบที่ขัดแย้ง: O (ND + kn) โดยที่nคือ cardinality ของชุดการฝึกอบรมและวันที่มิติของแต่ละตัวอย่าง [1] O (ndk) อีกครั้งที่nเป็น cardinality ของชุดการฝึกอบรมและวันที่มิติของแต่ละตัวอย่าง [2] [1] http://www.csd.uwo.ca/courses/CS9840a/Lecture2_knn.pdf (Pag. 18/20) [2] http://www.cs.haifa.ac.il/~rita/ml_course/lectures/KNN.pdf (หน้า 18/31)

4
ทำไมอนุพันธ์อันดับสองถึงมีประโยชน์ในการเพิ่มประสิทธิภาพของนูน?
ฉันเดาว่านี่เป็นคำถามพื้นฐานและเกี่ยวข้องกับทิศทางของการไล่ระดับสี แต่ฉันกำลังมองหาตัวอย่างที่วิธีการลำดับที่ 2 (เช่นBFGS ) มีประสิทธิภาพมากกว่าการไล่ระดับสีแบบง่าย

3
จำนวนที่คาดว่าจะโยนจนกว่าจะถึงหัวครั้งแรกขึ้นมา
สมมติว่าเหรียญยุติธรรมถูกโยนซ้ำ ๆ จนกว่าจะได้รับหัวเป็นครั้งแรก จำนวนของการโยนที่คาดว่าจะต้องมีเท่าไหร่? จำนวนหางที่คาดหวังที่จะได้รับก่อนที่จะได้รับหัวแรกคืออะไร?

3
การวิเคราะห์ความแตกต่างของ Kullback-Leibler
ขอให้เราพิจารณาการแจกแจงความน่าจะเป็นสองแบบต่อไปนี้ P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 ฉันได้คำนวณการ Kullback-Leibler ซึ่งเท่ากับ0.492820258ฉันต้องการที่จะรู้โดยทั่วไปหมายเลขนี้แสดงให้ฉันเห็นอะไร? โดยทั่วไปแล้วการเบี่ยงเบน Kullback-Leibler แสดงให้ฉันเห็นว่าการกระจายความน่าจะเป็นหนึ่งเดียวจากอีกอันนั้นอยู่เท่าใด มันคล้ายกับคำศัพท์เอนโทรปี แต่ในแง่ของตัวเลขมันหมายถึงอะไร? หากฉันมีผลลัพธ์เป็นผลลัพธ์จาก 0.49 ฉันสามารถพูดได้ว่าการกระจายตัวประมาณหนึ่งตัวนั้นอยู่ไกลจากอีก 50%?0.4928202580.4928202580.492820258

4
เมื่อใดวิธีการแบบเบย์จึงเป็นที่นิยมสำหรับผู้นิยมใช้บ่อย
ฉันต้องการเรียนรู้เกี่ยวกับเทคนิคแบบเบย์ดังนั้นฉันจึงพยายามสอนตัวเองเล็กน้อย อย่างไรก็ตามฉันมีช่วงเวลาที่ยากลำบากในการดูเมื่อใช้เทคนิคแบบเบย์ที่เคยได้รับประโยชน์มากกว่าวิธีการแบบใช้บ่อย ตัวอย่างเช่น: ฉันเคยเห็นในงานวรรณกรรมมาบ้างเกี่ยวกับวิธีที่บางคนใช้นักบวชที่ให้ข้อมูลในขณะที่คนอื่นใช้วิธีที่ไม่ให้ข้อมูลมาก่อน แต่ถ้าคุณใช้แบบไม่ให้ข้อมูลมาก่อน (ซึ่งดูเหมือนว่าเป็นเรื่องธรรมดาจริง ๆ ?) และคุณพบว่าการแจกแจงแบบหลังนั้นคือการแจกแจงแบบเบต้า ... คุณจะไม่พอดีกับการแจกแจงแบบเบต้าในตอนแรกและเรียกว่า มันดี? ฉันไม่เห็นวิธีการสร้างการกระจายก่อนหน้านี้ที่บอกอะไรคุณไม่ได้ ... สามารถบอกอะไรคุณได้จริงเหรอ? มันกลับกลายเป็นว่าวิธีการบางอย่างที่ฉันใช้ใน R ใช้วิธีผสมระหว่างแบบเบย์และแบบผู้ใช้ประจำ (ผู้เขียนยอมรับว่านี่ค่อนข้างไม่สอดคล้องกัน) และฉันไม่สามารถแยกแยะว่าส่วนใดเป็นแบบเบส์ นอกเหนือจากการกระจายตัวที่เหมาะสมฉันไม่สามารถเข้าใจวิธีที่คุณจะใช้วิธีการแบบเบย์ มี "การถดถอยแบบเบย์" หรือไม่? มันจะมีหน้าตาเป็นอย่างไร? ทั้งหมดที่ฉันจินตนาการได้คือการเดาว่ามีการแจกแจงพื้นฐานซ้ำแล้วซ้ำอีกในขณะที่นักคิดประจำคิดเกี่ยวกับข้อมูลบางอย่างมองมันเห็นการกระจายของปัวซองและเรียกใช้ GLM (นี่ไม่ใช่คำวิจารณ์ ... ฉันแค่ไม่เข้าใจจริงๆ!) ดังนั้น .. บางทีตัวอย่างเบื้องต้นบางอย่างอาจช่วยได้? และถ้าคุณรู้ถึงการอ้างอิงที่ใช้ได้จริงสำหรับผู้เริ่มต้นตัวจริงเช่นฉันนั่นก็จะเป็นประโยชน์เช่นกัน!

2
การจำแนกประเภทการทดสอบข้อมูลความไม่สมดุลที่เกินขนาด
ฉันกำลังทำงานกับข้อมูลที่ไม่สมดุลอย่างรุนแรง ในวรรณคดีมีวิธีการหลายวิธีที่ใช้ในการปรับสมดุลข้อมูลอีกครั้งโดยใช้การสุ่มตัวอย่างอีกครั้ง (เกินหรือต่ำกว่าการสุ่มตัวอย่าง) แนวทางที่ดีสองประการคือ: SMOTE: กลุ่มชนกลุ่มน้อยสังเคราะห์เทคนิคการสุ่มตัวอย่างมากกว่า TEOT ( SMOTE ) ADASYN: วิธีการสุ่มตัวอย่าง Adaptive Synthetic เพื่อการเรียนรู้ที่ไม่สมดุล ( ADASYN ) ฉันได้ติดตั้ง ADASYN เนื่องจากลักษณะการปรับตัวและความสะดวกในการขยายไปสู่ปัญหาหลายระดับ คำถามของฉันคือวิธีทดสอบข้อมูลที่เกินตัวอย่างที่สร้างโดย ADASYN (หรือวิธีการสุ่มตัวอย่างอื่น ๆ ) มันไม่ชัดเจนในบทความสองเรื่องที่กล่าวถึงวิธีการทดลองของพวกเขา มีสองสถานการณ์: 1- ทดสอบชุดข้อมูลทั้งหมดจากนั้นแบ่งเป็นชุดฝึกอบรมและชุดทดสอบ (หรือการตรวจสอบความถูกต้องข้าม) 2- หลังจากแยกชุดข้อมูลดั้งเดิมแล้วให้ดำเนินการตั้งค่าการสุ่มตัวอย่างมากเกินไปในชุดการฝึกอบรมเท่านั้นและทดสอบชุดทดสอบข้อมูลต้นฉบับ ในกรณีแรกผลลัพธ์จะดีกว่าโดยไม่มีการสุ่มตัวอย่างมากเกินไป แต่ฉันกังวลว่ามีการให้ข้อมูลมากเกินไป ในขณะที่ในกรณีที่สองผลลัพธ์จะดีกว่าเล็กน้อยโดยไม่มีการสุ่มตัวอย่างและแย่กว่าเคสแรกมาก แต่ข้อกังวลกับกรณีที่สองคือถ้าตัวอย่างกลุ่มชนกลุ่มน้อยทั้งหมดไปที่ชุดการทดสอบจะไม่มีผลประโยชน์ใด ๆ จากการทดสอบเกินจริง ฉันไม่แน่ใจว่ามีการตั้งค่าอื่น ๆ เพื่อทดสอบข้อมูลดังกล่าวหรือไม่

1
ความคาดหวังตามเงื่อนไขของ R-squared
พิจารณาโมเดลเชิงเส้นอย่างง่าย: yy=X′ββ+ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon ที่ϵi∼i.i.d.N(0,σ2)ϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2)และ X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p} ,p≥2p≥2p\geq2และXXXมีคอลัมน์ของค่าคงที่ คำถามของฉันคือให้E(X′X)E(X′X)\mathrm{E}(X'X) , ββ\betaและσσ\sigmaมีสูตรสำหรับขอบเขตบนที่ไม่น่ารำคาญบนE(R2)E(R2)\mathrm{E}(R^2) *? (สมมติว่าแบบจำลองนั้นประมาณโดย OLS) * ฉันสันนิษฐานว่าเขียนสิ่งนี้เพื่อรับE(R2)E(R2)E(R^2)นั้นเป็นไปไม่ได้ EDIT1 การใช้โซลูชันที่ได้รับจากStéphane Laurent (ดูด้านล่าง) เราจะได้ขอบเขตที่ไม่สำคัญบนE(R2)E(R2)E(R^2)) การจำลองเชิงตัวเลข (ด้านล่าง) แสดงว่าขอบเขตนี้แน่นจริง ๆ แล้ว Stéphane Laurent ได้รับสิ่งต่อไปนี้: R2∼B(p−1,n−p,λ)R2∼B(p−1,n−p,λ)R^2\sim\mathrm{B}(p-1,n-p,\lambda) โดยที่B(p−1,n−p,λ)B(p−1,n−p,λ)\mathrm{B}(p-1,n-p,\lambda)คือการแจกแจงเบต้าที่ไม่ได้อยู่ตรงกลางพร้อมพารามิเตอร์ non-centrality λλ\lambdaด้วย λ=||X′β−E(X)′β1n||2σ2λ=||X′β−E(X)′β1n||2σ2\lambda=\frac{||X'\beta-\mathrm{E}(X)'\beta1_n||^2}{\sigma^2} ดังนั้น E(R2)=E(χ2p−1(λ)χ2p−1(λ)+χ2n−p)≥E(χ2p−1(λ))E(χ2p−1(λ))+E(χ2n−p)E(R2)=E(χp−12(λ)χp−12(λ)+χn−p2)≥E(χp−12(λ))E(χp−12(λ))+E(χn−p2)\mathrm{E}(R^2)=\mathrm{E}\left(\frac{\chi^2_{p-1}(\lambda)}{\chi^2_{p-1}(\lambda)+\chi^2_{n-p}}\right)\geq\frac{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)}{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)+\mathrm{E}\left(\chi^2_{n-p}\right)} โดยที่เป็น non-central χ 2 ที่มีพารามิเตอร์λและk degree of freedom ดังนั้นขอบเขตบนที่ไม่สำคัญสำหรับE ( R 2 )คือχ2k(λ)χk2(λ)\chi^2_{k}(\lambda)χ2χ2\chi^2λλ\lambdakkkE(R2)E(R2)\mathrm{E}(R^2) λ+p−1λ+n−1λ+p−1λ+n−1\frac{\lambda+p-1}{\lambda+n-1} มันแน่นมาก (แน่นกว่าที่ฉันคาดไว้มากที่สุดเท่าที่จะเป็นไปได้): …

3
ความน่าจะเป็นข้อมูลสูงสุดสำหรับข้อมูลที่หายไปใน R
บริบท : การถดถอยตามลำดับชั้นด้วยข้อมูลที่ขาดหายไปบางส่วน คำถาม : ฉันจะใช้การประมาณค่าความน่าจะเป็นสูงสุด (FIML) ของข้อมูลแบบเต็มเพื่อจัดการกับข้อมูลที่ขาดหายไปใน R ได้อย่างไร มีแพ็คเกจอะไรที่คุณอยากจะแนะนำและมีขั้นตอนทั่วไปอย่างไรบ้าง? แหล่งข้อมูลออนไลน์และตัวอย่างจะมีประโยชน์มากเช่นกัน PS : ฉันเป็นนักวิทยาศาสตร์ทางสังคมที่เพิ่งเริ่มใช้ตัวเลือกหลายอาร์เป็นตัวเลือก แต่ฉันชอบที่โปรแกรม Mplus ที่สง่างามจัดการกับข้อมูลที่หายไปโดยใช้ FIML ได้อย่างไร น่าเสียดายที่ Mplus ดูเหมือนจะไม่เปรียบเทียบแบบจำลองในบริบทของการถดถอยแบบลำดับชั้นในขณะนี้ (โปรดแจ้งให้เราทราบหากคุณรู้วิธีการทำเช่นนั้น!) ฉันสงสัยว่ามีอะไรที่คล้ายกันใน R หรือไม่? ขอบคุณมาก!

1
ก่อสร้างการกระจาย Dirichlet ด้วยการกระจายแกมม่า
ให้X 1 , … , X k + 1X1,…,Xk+1X_1,\dots,X_{k+1}เป็นตัวแปรสุ่มอิสระที่ต่างกันซึ่งแต่ละอันมีการแจกแจงแกมม่าที่มีพารามิเตอร์α i , i = 1 , 2 , … , k + 1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1แสดงว่าY i = X iX 1 + ⋯ + X k + 1 ,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,k, มีการแบ่งส่วนร่วมเป็นDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) PDF ร่วมของ( X 1 , … , X k + 1 ) = e …

2
การแสดงภาพเป็นเส้นโค้ง
โดยปกติแล้วหนังสือเรียนจะมีตัวอย่างที่ดีในเรื่องพื้นฐานของเส้นโค้งสม่ำเสมอเมื่ออธิบายหัวข้อ บางอย่างเช่นแถวของสามเหลี่ยมเล็ก ๆ สำหรับเส้นโค้งเชิงเส้นหรือแถวของ humps เล็ก ๆ สำหรับลูกบาศก์เส้นโค้ง นี่คือตัวอย่างทั่วไป: http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introcom_a0000000525.htm ฉันสงสัยว่าถ้ามีวิธีง่ายๆในการสร้างพล็อตของพื้นฐาน spline โดยใช้ฟังก์ชั่น R มาตรฐาน (เช่น bs หรือ ns) ฉันเดาว่ามีบางส่วนของเลขคณิตเมทริกซ์ง่าย ๆ รวมกับโปรแกรม R เล็กน้อยซึ่งจะพ่นพล็อตพื้นฐานของเส้นโค้งในลักษณะที่สง่างาม ฉันคิดไม่ออกเลย!

1
ข้อผิดพลาดมาตรฐานสำหรับสัมประสิทธิ์การถดถอยหลายค่า?
ฉันรู้ว่านี่เป็นคำถามพื้นฐาน แต่ฉันไม่สามารถหาคำตอบได้ทุกที่ ฉันคำนวณสัมประสิทธิ์การถดถอยโดยใช้สมการปกติหรือการสลายตัว QR ฉันจะคำนวณข้อผิดพลาดมาตรฐานสำหรับแต่ละสัมประสิทธิ์ได้อย่างไร ฉันมักจะคิดว่าข้อผิดพลาดมาตรฐานที่คำนวณเป็น: SEx¯ =σx¯n√SEx¯ =σx¯nSE_\bar{x}\ = \frac{\sigma_{\bar x}}{\sqrt{n}} คืออะไรสำหรับแต่ละค่าสัมประสิทธิ์? วิธีที่มีประสิทธิภาพมากที่สุดในการคำนวณสิ่งนี้ในบริบทของ OLS คืออะไร?σx¯σx¯\sigma_{\bar x}

2
สัดส่วนของความแปรปรวนที่อธิบายในโมเดลผสมผลกระทบ
ฉันไม่ทราบว่ามีการถามก่อนหน้านี้หรือไม่ แต่ฉันไม่พบสิ่งใดเกี่ยวกับเรื่องนี้ คำถามของฉันคือถ้าทุกคนสามารถให้การอ้างอิงที่ดีเพื่อเรียนรู้วิธีการได้สัดส่วนสัดส่วนของความแปรปรวนที่อธิบายโดยแต่ละปัจจัยคงที่และสุ่มในรูปแบบผสมผลกระทบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.