สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
กำลังคำนวณทางสถิติ
เมื่อฉันเข้าใจแล้วฉันจำเป็นต้องรู้อย่างน้อยสามด้าน (จากสี่) ของการศึกษาที่ฉันเสนอเพื่อทำการวิเคราะห์พลังงาน ได้แก่ : ประเภทการทดสอบ - ฉันตั้งใจจะใช้ Pearson's r และ ANCOVA / Regression - GLM ระดับนัยสำคัญ (อัลฟา) - ฉันตั้งใจจะใช้ 0.05 ขนาดผลที่คาดหวัง - ฉันตั้งใจจะใช้ขนาดเอฟเฟกต์ขนาดกลาง (0.5) ขนาดตัวอย่าง ใครช่วยแนะนำเครื่องคิดเลขพลังงานออนไลน์ที่ดีที่ฉันสามารถใช้เพื่อทำการคำนวณพลังงานเบื้องต้น (สามารถทำ SPSS เบื้องต้นคำนวณพลังงาน?) ฉันเจอ GPower แล้ว แต่ฉันกำลังมองหาเครื่องมือที่ง่ายกว่านี้!

4
เหตุใดการถดถอยเชิงเส้นและ ANOVA จึงให้ค่า
ฉันพยายามใส่ข้อมูลอนุกรมเวลาหนึ่งชุด (โดยไม่ทำซ้ำ) โดยใช้แบบจำลองการถดถอย ข้อมูลมีลักษณะดังนี้: > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 8.090211 6 1 10 8.031459 12 1 11 …

2
เรื่อง“ พลัง” ของผู้เรียนที่อ่อนแอ
ฉันมีคำถามที่เกี่ยวข้องอย่างใกล้ชิดเกี่ยวกับผู้เรียนที่อ่อนแอในการเรียนรู้ทั้งมวล (เช่นการส่งเสริม) สิ่งนี้อาจฟังดูเป็นใบ้ แต่ประโยชน์ของการใช้ที่อ่อนแอเมื่อเทียบกับผู้เรียนที่แข็งแกร่งคืออะไร (เช่นทำไมไม่ส่งเสริมด้วยวิธีการเรียนรู้ "ที่รัดกุม") มีความแข็งแรง "ดีที่สุด" สำหรับผู้เรียนที่อ่อนแอ (เช่นในขณะที่รักษาพารามิเตอร์อื่น ๆ ทั้งหมดไว้)? มี "จุดหวาน" เมื่อพูดถึงจุดแข็งของพวกเขาหรือไม่? เราจะวัดความแข็งแกร่งของผู้เรียนที่อ่อนแอได้อย่างไรโดยเทียบกับวิธีการรวมกลุ่มที่เกิดขึ้น เราจะวัดผลประโยชน์ที่ได้จากการใช้ทั้งมวลในเชิงปริมาณได้อย่างไร เราจะเปรียบเทียบอัลกอริทึมการเรียนรู้ที่อ่อนแอหลายอย่างเพื่อตัดสินใจว่าจะใช้อันใดสำหรับวิธีการรวมวงที่กำหนดได้อย่างไร หากวิธีการของวงดนตรีที่ให้มาช่วยจำแนกลักษณนามที่อ่อนแอกว่าคนที่แข็งแกร่งเราจะบอกตัวจําแนกที่ได้รับมาว่า "แข็งแกร่งเกินไป" เพื่อให้ได้รับผลกําไรที่สําคัญเมื่อเพิ่มด้วย

3
สนับสนุนการถดถอยเวกเตอร์สำหรับการทำนายอนุกรมเวลาหลายตัวแปร
มีใครพยายามทำนายอนุกรมเวลาโดยใช้การถดถอยแบบเวกเตอร์สนับสนุนหรือไม่ ฉันเข้าใจการสนับสนุนเวกเตอร์แมชชีนและเข้าใจการสนับสนุนการถดถอยเวกเตอร์เป็นบางส่วน แต่ฉันไม่เข้าใจว่าจะสามารถใช้โมเดลอนุกรมเวลาโดยเฉพาะอนุกรมเวลาหลายตัวแปรได้อย่างไร ฉันพยายามอ่านบทความสองสามฉบับ แต่พวกเขาอยู่ในระดับสูงเกินไป ทุกคนสามารถอธิบายในแง่ของการทำงานได้อย่างไรโดยเฉพาะอย่างยิ่งเกี่ยวกับอนุกรมเวลาหลายตัวแปร? แก้ไข: เพื่ออธิบายรายละเอียดเล็กน้อยขอให้ฉันพยายามอธิบายด้วยตัวอย่างราคาหุ้น สมมติว่าเรามีราคาหุ้นเป็นเวลา N วัน จากนั้นในแต่ละวันเราสามารถสร้างเวกเตอร์คุณลักษณะซึ่งในกรณีง่าย ๆ อาจเป็นราคาของวันก่อนหน้าและราคาของวันปัจจุบัน การตอบสนองสำหรับแต่ละคุณสมบัติของเวกเตอร์จะเป็นราคาของวันถัดไป ดังนั้นเมื่อราคาของวานนี้และราคาของวันนี้มีวัตถุประสงค์เพื่อคาดการณ์ราคาของวันถัดไป สิ่งที่ฉันไม่เข้าใจคือว่าเรามีข้อมูลการฝึกอบรมหกเดือนคุณจะให้ความสำคัญกับเวกเตอร์คุณลักษณะล่าสุดได้อย่างไร

1
สิ่งใดที่อาจทำให้เกิดความแตกต่างใหญ่ในสัมประสิทธิ์สหสัมพันธ์ระหว่าง Pearson's และ Spearman's correlation สำหรับชุดข้อมูลที่กำหนด
สัมประสิทธิ์เพียร์สันระหว่างตัวแปรสองตัวนั้นค่อนข้างสูง (r = .65) แต่เมื่อฉันจัดอันดับค่าตัวแปรและเรียกใช้ความสัมพันธ์ของ Spearman ค่า cofficient ต่ำกว่ามาก (r = .30) การตีความของสิ่งนี้คืออะไร?

4
วิธีการตรวจสอบคุณสมบัติของเมทริกซ์ความแปรปรวนร่วมเมื่อปรับโมเดลปกติหลายตัวแปรโดยใช้ความน่าจะเป็นสูงสุด
สมมติว่าฉันมีรูปแบบดังต่อไปนี้ yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i ที่ , เป็นเวกเตอร์ของตัวแปรอธิบายเป็นพารามิเตอร์ของฟังก์ชันเชิงเส้น - ไม่ใช่และโดยที่ตามธรรมชาติคือคูณเมทริกซ์yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K เป้าหมายคือตามปกติในการประมาณการθθ\thetaและΣΣΣ\Sigmaตัวเลือกที่ชัดเจนคือวิธีความน่าจะเป็นสูงสุด Log-โอกาสสำหรับรุ่นนี้ (สมมติว่าเรามีตัวอย่าง(yi,xi),i=1,...,n(yi,xi),i=1,...,n(y_i,x_i),i=1,...,n ) ลักษณะเช่น l(θ,Σ)=−n2log(2π)−n2logdetΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(θ,Σ)=−n2log⁡(2π)−n2log⁡detΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta))) ตอนนี้ดูเหมือนง่ายบันทึกความน่าจะเป็นมีการระบุใส่ข้อมูลและใช้อัลกอริทึมบางอย่างสำหรับการเพิ่มประสิทธิภาพที่ไม่ใช่เชิงเส้น ปัญหาคือวิธีการตรวจสอบให้แน่ใจว่าΣΣ\Sigmaเป็นผลบวกแน่นอน การใช้ตัวอย่างoptimใน R (หรืออัลกอริทึมการเพิ่มประสิทธิภาพที่ไม่ใช่เชิงเส้นอื่น ๆ ) จะไม่รับประกันฉันว่าΣΣ\Sigmaนั้นแน่นอนแน่นอน ดังนั้นคำถามคือจะมั่นใจได้อย่างไรว่าΣΣ\Sigmaยังคงเป็นไปในทางบวกแน่นอน? ฉันเห็นทางออกที่เป็นไปได้สองข้อ: ซ่อมแซมΣΣ\Sigmaเป็น RR′RR′RR'โดยที่RRRคือเมทริกซ์รูปสามเหลี่ยมบนหรือสมมาตร จากนั้นΣΣ\Sigmaจะเป็นค่าบวกแน่นอนเสมอและRRRสามารถควบคุมได้ ใช้ความน่าจะเป็นของโปรไฟล์ สืบทอดมาสูตรสำหรับθ^(Σ)θ^(Σ)\hat\theta(\Sigma)และΣ^(θ)Σ^(θ)\hat{\Sigma}(\theta)theta) เริ่มต้นด้วยθ0θ0\theta_0และวนΣ^j=Σ^(θ^j−1)Σ^j=Σ^(θ^j−1)\hat{\Sigma}_j=\hat\Sigma(\hat\theta_{j-1}) , θ^j=θ^(Σ^j−1)θ^j=θ^(Σ^j−1)\hat{\theta}_j=\hat\theta(\hat\Sigma_{j-1})จนกระทั่งการบรรจบกัน มีวิธีอื่นอีกหรือไม่และวิธีการเกี่ยวกับ 2 วิธีนี้พวกเขาจะทำงานได้มาตรฐานหรือไม่ ดูเหมือนว่าจะเป็นปัญหามาตรฐาน แต่การค้นหาอย่างรวดเร็วไม่ได้ให้คำแนะนำใด ๆ แก่ฉัน ฉันรู้ว่าการประมาณแบบเบย์จะเป็นไปได้เช่นกัน แต่ในตอนนี้ฉันไม่ต้องการมีส่วนร่วม

2
แหล่งข้อมูลออนไลน์ที่ดีพร้อมเคล็ดลับในการเชื่อมโยงกราฟระหว่างตัวแปรตัวเลขสองตัวภายใต้เงื่อนไขต่าง ๆ
บริบท: ในขณะที่ฉันได้รับชุดของฮิวริสติกเกี่ยวกับวิธีการกำหนดความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวอย่างมีประสิทธิภาพ ฉันคิดว่าคนส่วนใหญ่ที่ทำงานกับข้อมูลจะมีชุดของกฎที่คล้ายกัน ตัวอย่างของกฎดังกล่าวอาจเป็น: หากตัวแปรตัวใดตัวหนึ่งเอียงเชิงบวกให้พิจารณาการวางแผนแกนนั้นในระดับบันทึก หากมีจุดข้อมูลจำนวนมาก (เช่น n> 1,000) ให้ใช้กลยุทธ์ที่แตกต่างเช่นการใช้ความโปร่งใสบางส่วนหรือสุ่มตัวอย่างข้อมูล หากตัวแปรตัวใดตัวหนึ่งมีจำนวนหมวดหมู่ไม่ต่อเนื่องกันให้พิจารณาใช้ส่วนที่กระวนกระวายใจหรือเนื้อเรื่องของดอกทานตะวัน หากมีสามตัวหรือมากกว่าให้ลองใช้เมทริกซ์ scatterplot การปรับเทรนด์ไลน์บางรูปแบบมักมีประโยชน์ ปรับขนาดของอักขระการพล็อตเป็นขนาดตัวอย่าง (สำหรับ n ที่ใหญ่กว่าให้ใช้อักขระการพล็อตที่เล็กกว่า) และอื่น ๆ คำถาม: ฉันต้องการที่จะสามารถอ้างถึงนักเรียนไปยังหน้าเว็บหรือเว็บไซต์ที่อธิบายถึงเทคนิคเหล่านี้และเทคนิคอื่น ๆ สำหรับการวางแผนความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวได้อย่างมีประสิทธิภาพหรืออาจเป็นตัวอย่าง มีหน้าเว็บหรือเว็บไซต์บนอินเทอร์เน็ตที่ใช้งานได้ดีหรือไม่?

2
วิธีที่ดีที่สุดสำหรับการเลือกแบบจำลองแบบเบส์หรือการตรวจสอบข้าม
เมื่อพยายามเลือกระหว่างรุ่นต่าง ๆ หรือจำนวนฟีเจอร์ที่ต้องระบุให้บอกคำทำนายว่าฉันสามารถคิดถึงสองวิธี แบ่งข้อมูลออกเป็นชุดฝึกอบรมและทดสอบ ยังดีกว่าใช้ bootstrapping หรือตรวจสอบข้าม k-fold ฝึกอบรมชุดฝึกอบรมในแต่ละครั้งและคำนวณข้อผิดพลาดเหนือชุดทดสอบ ข้อผิดพลาดการทดสอบพล็อตเทียบกับจำนวนพารามิเตอร์ โดยปกติคุณจะได้รับสิ่งนี้: คำนวณความน่าจะเป็นของโมเดลโดยรวมค่าพารามิเตอร์ต่างๆ คือการคำนวณและพล็อตนี้กับจำนวนพารามิเตอร์ จากนั้นเราจะได้รับสิ่งนี้:∫θP( D | θ ) P( θ ) dθ∫θP(D|θ)P(θ)dθ\int_\theta P(D|\theta)P(\theta)d \theta ดังนั้นคำถามของฉันคือ: แนวทางเหล่านี้เหมาะสมสำหรับการแก้ปัญหานี้หรือไม่ (ตัดสินใจว่าจะรวมพารามิเตอร์จำนวนเท่าใดในโมเดลของคุณหรือเลือกระหว่างรุ่นจำนวนหนึ่ง) พวกมันเท่ากันหรือเปล่า อาจจะไม่. พวกเขาจะให้แบบจำลองที่ดีที่สุดแบบเดียวกันภายใต้สมมติฐานหรือในทางปฏิบัติหรือไม่? นอกเหนือจากความแตกต่างทางปรัชญาตามปกติของการระบุความรู้เดิมในแบบจำลองเบย์ ฯลฯ ข้อดีและข้อเสียของแต่ละวิธีคืออะไร คุณจะเลือกอันไหน อัปเดต: ฉันพบคำถามที่เกี่ยวข้องกับการเปรียบเทียบ AIC และ BIC ด้วย ดูเหมือนว่าวิธีที่ 1 ของฉันเทียบเท่ากับ AIC และวิธีที่ 2 นั้นเกี่ยวข้องกับ BIC แต่ฉันก็อ่านว่า BIC …

2
การกระจายตัวของอัตราส่วนของตัวแปรสุ่มสองตัวของปัวซองคืออะไร
ฉันมีคำถามเกี่ยวกับตัวแปรสุ่ม ขอให้เราคิดว่าเรามีสองตัวแปรสุ่มและYสมมติว่าคือ Poisson กระจายกับพารามิเตอร์และเป็น Poisson กระจายกับพารามิเตอร์\XXXYYYXXXλ1λ1\lambda_1YYYλ2λ2\lambda_2 เมื่อคุณสร้างการแตกหักจากและเรียกสิ่งนี้ว่าตัวแปรสุ่มการกระจายตัวนี้เป็นอย่างไรและค่าเฉลี่ยคืออะไร? มันหรือไม่Z λ 1 / λ 2X/YX/YX/YZZZλ1/λ2λ1/λ2\lambda_1/\lambda_2

1
ความแตกต่างระหว่างหางที่หนักและการกระจายของหางที่อ้วน
ฉันคิดว่าหางหนา = หางอ้วน แต่มีบางบทความที่ฉันอ่านให้ความรู้สึกว่ามันไม่ใช่ หนึ่งในนั้นกล่าวว่า: หางที่หนักหมายถึงการกระจายนั้นมีช่วงเวลาที่ไม่มีที่สิ้นสุดของ j สำหรับจำนวนเต็มบางส่วนในเจ นอกจากนี้ dfs ทั้งหมดใน pot-domain ที่ดึงดูดของ Pareto df นั้นมีเทลด์หนา ถ้าความหนาแน่นมียอดเขาสูงและหางยาวปานกลางความหนานั้นจะใหญ่มาก df ที่มี kurtosis มากกว่า 3 เป็นไขมันเทลด์หรือ leptokurtic ฉันยังไม่มีความแตกต่างที่เป็นรูปธรรมระหว่างสองสิ่งนี้ (หางที่หนักและหางที่มีไขมัน) ความคิดหรือตัวชี้ไปยังบทความที่เกี่ยวข้องจะได้รับการชื่นชม

1
ทำไมฟังก์ชั่น R 'princomp' และ 'prcomp' ให้ค่าลักษณะที่แตกต่างกัน
คุณสามารถใช้ชุดข้อมูล Decathlon {FactoMineR} ในการทำซ้ำนี้ คำถามคือเหตุผลที่ค่าลักษณะเฉพาะที่คำนวณแตกต่างจากเมทริกซ์ความแปรปรวนร่วม นี่คือค่าลักษณะเฉพาะที่ใช้princomp: > library(FactoMineR);data(decathlon) > pr <- princomp(decathlon[1:10], cor=F) > pr$sd^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.348073e+02 2.293556e+01 9.747263e+00 1.117215e+00 3.477705e-01 1.326819e-01 Comp.7 Comp.8 Comp.9 Comp.10 6.208630e-02 4.938498e-02 2.504308e-02 4.908785e-03 และเช่นเดียวกันโดยใช้PCA: > res<-PCA(decathlon[1:10], scale.unit=FALSE, ncp=5, graph = FALSE) > res$eig eigenvalue percentage of variance cumulative …
22 r  pca 

2
คำแนะนำสำหรับการปรับปรุงความน่าจะเป็นและสูตรโกงสถิติ
บริบท: ในความพยายามที่จะจัดโครงสร้างชิ้นส่วนกลางที่ฉันเจอในทฤษฎีความน่าจะเป็นและสถิตศาสตร์ฉันได้สร้างเอกสารอ้างอิงโดยมุ่งเน้นที่ข้อมูลสำคัญทางคณิตศาสตร์ (มีให้ที่นี่ ) ด้วยการแบ่งปันเอกสารนี้ฉันหวังว่าจะให้สรุปสถิติที่ครอบคลุมเกี่ยวกับเนื้อหาหลักที่สอนในหลักสูตรระดับบัณฑิตศึกษาเกี่ยวกับหัวข้อเหล่านี้ ในขณะที่มีวัตถุประสงค์เพื่อใช้เป็นแหล่งข้อมูลการสอนผู้ใช้อาจใช้เป็นข้อมูลอ้างอิงส่วนตัวเช่นเพื่อค้นหาความสัมพันธ์การกระจายหรือภาพประกอบของ PDF ทั่วไป ฉันยังคง หน้าด้วยการปรับปรุงและแก้ไข คำติชมนั้นได้รับการชื่นชมอย่างมาก คำถาม: สถิติใดที่คุณชื่นชอบโกงแผ่นอ้างอิงหรือตำราที่ฉันสามารถใช้เป็นแรงบันดาลใจ อะไรช่วยคุณจัดโครงสร้างความรู้ในโดเมนนี้ ในระยะยาวแผนของฉันคือการเสริมสร้างเอกสารนี้ (หรือสร้างแยกต่างหาก) ด้วยตัวอย่าง R เพื่อเชื่อมช่องว่างระหว่างทฤษฎีและการปฏิบัติ คุณคิดว่านี่เป็นส่วนขยายที่มีค่าหรือไม่
22 teaching 

2
ทำไมสมมติฐานว่างเป็นค่าจุดแทนที่จะเป็นช่วงในการทดสอบสมมติฐานเสมอ
นี่ค่อนข้างเกี่ยวข้องกับคำถามอื่นที่ฉันถาม คำถามที่ฉันมีคือเมื่อทำการทดสอบสมมติฐานเมื่อสมมติฐานทางเลือกคือช่วงสมมุติฐานว่างยังคงเป็นค่าจุด ตัวอย่างเช่นเมื่อทดสอบว่าสัมประสิทธิ์สหสัมพันธ์มากกว่า 0.5 หรือไม่สมมุติฐานว่างคือ "correlation = 0.5" แทนที่จะเป็น "correlation <= 0.5" เหตุใดจึงเป็นเช่นนี้ (หรือว่าฉันเข้าใจผิด)

4
การสร้างดัชนีคุณภาพจากหลายตัวแปรเพื่อเปิดใช้งานการจัดอันดับ
ฉันมีตัวแปรตัวเลขสี่ตัว ทั้งหมดเป็นมาตรวัดคุณภาพดิน ตัวแปรยิ่งสูงคุณภาพก็ยิ่งสูงขึ้น ช่วงสำหรับพวกเขาทั้งหมดนั้นแตกต่างกัน: Var1 จาก 1 ถึง 10 Var2 จาก 1,000 ถึง 2000 Var3 จาก 150 ถึง 300 Var4 ตั้งแต่ 0 ถึง 5 ฉันต้องรวมตัวแปรสี่ตัวเป็นคะแนนคุณภาพดินเดียวซึ่งจะประสบความสำเร็จในการจัดอันดับ ความคิดของฉันง่ายมาก สร้างมาตรฐานของตัวแปรทั้งสี่ให้สรุปรวมและสิ่งที่คุณได้รับคือคะแนนที่ควรจัดลำดับ คุณเห็นปัญหาเกี่ยวกับการใช้วิธีนี้หรือไม่ มีวิธีอื่นที่ดีกว่าที่คุณอยากแนะนำไหม? ขอบคุณ แก้ไข: ขอบคุณเพื่อน. มีการถกเถียงกันมากมายในเรื่อง "ความเชี่ยวชาญด้านโดเมน" ... เนื้อหาด้านการเกษตร ... ในขณะที่ฉันคาดว่าจะมีการพูดคุยเรื่องสถิติมากขึ้น ในแง่ของเทคนิคที่ฉันจะใช้ ... มันอาจจะเป็นผลรวมของคะแนน z แบบง่าย + การถดถอยโลจิสติกในการทดลอง เพราะกลุ่มตัวอย่างส่วนใหญ่มีคุณภาพไม่ดี 90% ฉันจะรวม 3 หมวดหมู่คุณภาพเข้าเป็นหนึ่งเดียวและโดยทั่วไปมีปัญหาเลขฐานสอง …

6
ทฤษฎีกราฟ - การวิเคราะห์และการสร้างภาพ
ฉันไม่แน่ใจว่าหัวเรื่องเข้าสู่ความสนใจของ CrossValidated คุณจะบอกฉัน ฉันต้องศึกษากราฟ (จากทฤษฎีกราฟ ) เช่น ฉันมีจุดจำนวนหนึ่งที่เชื่อมต่ออยู่ ฉันมีตารางที่มีจุดทั้งหมดและจุดแต่ละจุดขึ้นอยู่กับ (ฉันมีตารางอื่นที่มีความหมาย) คำถามของฉันคือ: มีซอฟต์แวร์ที่ดี (หรือแพ็คเกจ R) เพื่อการศึกษาที่ง่ายดายหรือไม่? มีวิธีง่าย ๆ ในการแสดงกราฟหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.