สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
ในทางปฏิบัติเมทริกซ์ความแปรปรวนร่วมแบบสุ่มถูกคำนวณในรูปแบบเอฟเฟกต์ผสมอย่างไร
โดยพื้นฐานสิ่งที่ฉันสงสัยว่าโครงสร้างความแปรปรวนร่วมนั้นมีการบังคับใช้แตกต่างกันอย่างไรและวิธีคำนวณค่าภายในเมทริกซ์เหล่านี้อย่างไร ฟังก์ชั่นเช่น lme () ช่วยให้เราสามารถเลือกโครงสร้างที่เราต้องการได้ แต่ฉันชอบที่จะรู้ว่ามันเป็นอย่างไร พิจารณาผลกระทบเชิงเส้นผสมรุ่นYY= Xβ+ Zคุณ+ ϵY=Xβ+Zยู+εY=X\beta+Zu+\epsilon ที่ไหนและR) นอกจากนี้:ϵ d ∼ N ( 0 , R )คุณ∼dยังไม่มีข้อความ( 0 , D )ยู~dยังไม่มีข้อความ(0,D)u \stackrel{d}{\sim} N(0,D)ϵ ∼dยังไม่มีข้อความ( 0 , R )ε~dยังไม่มีข้อความ(0,R)\epsilon \stackrel{d}{\sim} N(0,R) VR ( Y| X, Z, β, u ) = RVaR(Y|X,Z,β,ยู)=RVar(Y|X,Z,\beta,u)=R VR ( Y| X, β) = Z'D …

3
ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร
ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร ฉันเข้าใจว่าวิธีการ bootstrap มักใช้ที่นี่ แต่ฉันเปิดให้ตัวเลือกอื่น ๆ ในขณะที่ฉันกำลังมองหาตัวเลือกที่ไม่ใช่พารามิเตอร์หากใครบางคนสามารถโน้มน้าวใจฉันได้ว่าการแก้ปัญหาแบบพารามิเตอร์นั้นใช้ได้อย่างถูกต้อง ขนาดตัวอย่างคือ> 400 ถ้าใครสามารถให้ตัวอย่างใน R มันจะได้รับการชื่นชมมาก

3
อะไรคือความแตกต่างระหว่าง lm () และ rlm ()
ฉันเพิ่งพบ "การติดตั้งอุปกรณ์ที่มีประสิทธิภาพเชิงเส้นรุ่น" rlm() ฟังก์ชั่นในMASSห้องสมุด ฉันต้องการทราบความแตกต่างระหว่างฟังก์ชันนี้กับฟังก์ชันถดถอยเชิงเส้นมาตรฐาน, lm(). ใครช่วยอธิบายสั้น ๆ ให้ฉันได้บ้าง
19 r  regression 

8
อะไรคือกฎสำคัญในการออกแบบและสร้างแปลง?
พื้นหลัง: ก่อนหน้านี้เกี่ยวกับการตรวจสอบข้ามเรามีคำถามเกี่ยวกับ: แนวปฏิบัติที่ดีที่สุดคืออะไรเมื่อเตรียมแปลง? มีเคล็ดลับอะไรดีแบบออนไลน์สำหรับการวางแผนตัวแปรตัวเลขสองตัว @davidแนะนำโดยในการแสดงความคิดเห็นต่อคำถามนี้ว่าเราควรมีคำถามวิกิชุมชนที่มีกฎการสร้างภาพข้อมูลหนึ่งข้อต่อคำตอบที่ชุมชนสามารถลงคะแนนได้ คำถาม อะไรคือกฎสำคัญในการออกแบบและสร้างข้อมูลกราฟิก? กฎระเบียบ หนึ่งกฎต่อคำตอบ เป็นการดีที่ควรรวมคำอธิบายสั้น ๆ ว่าทำไมคุณคิดว่าเป็นความคิดที่ดี คำตอบที่มีตัวอย่าง (รหัสและภาพ) ของการปฏิบัติที่ดีและไม่ดีที่ต้องการ

2
วัด ANOVA ซ้ำด้วย lme / lmer ใน R สำหรับปัจจัยภายในสองเรื่อง
ฉันพยายามใช้lmeจากnlmeแพ็คเกจเพื่อทำซ้ำผลลัพธ์จากaovมาตรการ ANOVAs ซ้ำ ๆ ฉันได้ทำสิ่งนี้สำหรับการทดสอบซ้ำปัจจัยเดียวและสำหรับการทดสอบสองปัจจัยด้วยปัจจัยหนึ่งระหว่างวิชาและอีกหนึ่งปัจจัยในวิชา แต่ฉันมีปัญหาในการทดลองสองปัจจัยกับสองภายใน - หัวข้อย่อย ตัวอย่างที่แสดงด้านล่าง AและBเป็นปัจจัยที่มีผลคงที่และsubjectเป็นปัจจัยที่มีผลแบบสุ่ม set.seed(1) d <- data.frame( Y = rnorm(48), subject = factor(rep(1:12, 4)), A = factor(rep(1:2, each=24)), B = factor(rep(rep(1:2, each=12), 2))) summary(aov(Y ~ A*B + Error(subject/(A*B)), data=d)) # Standard repeated measures ANOVA library(nlme) # Attempts: anova(lme(Y ~ A*B, data=d, random = …

2
วิธีการทดสอบความแตกต่างระหว่างสองกลุ่มหมายถึงเมื่อข้อมูลไม่กระจายตามปกติ?
ฉันจะกำจัดรายละเอียดและการทดลองทางชีวภาพทั้งหมดและเสนอราคาเพียงปัญหาในมือและสิ่งที่ฉันทำทางสถิติ ฉันอยากจะรู้ว่ามันถูกต้องหรือไม่และจะทำอย่างไรต่อไป หากข้อมูล (หรือคำอธิบายของฉัน) ไม่ชัดเจนเพียงพอฉันจะพยายามอธิบายให้ดีขึ้นโดยแก้ไข สมมติว่าฉันมีสองกลุ่ม / สังเกต X และ Y มีขนาดNx=215Nx=215N_x=215และNy=40Ny=40N_y=40 40 ฉันต้องการทราบว่าค่าเฉลี่ยของการสังเกตทั้งสองนี้เท่ากันหรือไม่ คำถามแรกของฉันคือ: หากสมมติฐานเป็นที่พอใจจะต้องใช้การทดสอบสองตัวอย่างพารามิเตอร์ที่นี่? ฉันถามสิ่งนี้เพราะจากความเข้าใจของฉันมันมักจะใช้เมื่อขนาดเล็ก? ฉันพล็อตฮิสโทแกรมของทั้ง X และ Y และพวกมันไม่ได้กระจายตามปกติซึ่งเป็นหนึ่งในสมมติฐานของการทดสอบสองตัวอย่าง ความสับสนของฉันคือว่าฉันคิดว่าพวกเขาเป็นสองประชากรและนั่นคือเหตุผลที่ฉันตรวจสอบการกระจายปกติ แต่ฉันกำลังจะทำการทดสอบสองตัวอย่าง ... นี่ถูกไหม? จากทฤษฎีบทขีด จำกัด กลางฉันเข้าใจว่าถ้าคุณทำการสุ่มตัวอย่าง (โดยมี / ไม่มีการซ้ำซ้อนขึ้นอยู่กับขนาดประชากรของคุณ) หลาย ๆ ครั้งและคำนวณค่าเฉลี่ยของตัวอย่างในแต่ละครั้งมันจะกระจายโดยประมาณปกติ และค่าเฉลี่ยของตัวแปรสุ่มนี้จะเป็นการประมาณค่าเฉลี่ยของประชากรที่ดี ดังนั้นฉันจึงตัดสินใจทำทั้ง X และ Y 1,000 ครั้งและได้รับตัวอย่างและฉันกำหนดตัวแปรสุ่มให้กับค่าเฉลี่ยของแต่ละตัวอย่าง พล็อตนั้นกระจายตามปกติอย่างมาก ค่าเฉลี่ยของ X และ Y เท่ากับ 4.2 และ …

4
การวัดประสิทธิภาพของผู้เล่นแต่ละคนในกีฬา 2 คนต่อทีมกีฬา
ฉันมีสเปรดชีทของคะแนนทีมบางส่วน ทีมแรกที่ชนะ 10 คะแนน มีผู้เล่น 2 คนในแต่ละทีม ผู้เล่นเล่นกับเพื่อนร่วมทีมที่แตกต่างกันตลอดเวลาแม้ว่าพวกเขาจะไม่ได้รับการสุ่มเลือกอย่างสมบูรณ์แบบ ไม่มีการเก็บคะแนนเป็นรายบุคคล โดยพื้นฐานแล้วเรามีบิลและบ๊อบชนะแอนดี้และอลิซ 10-4 เจคและบิลเอาชนะโจและจอห์น 10-8 ... เป็นไปได้หรือไม่ที่จะมีการจัดอันดับสำหรับผู้เล่นเดี่ยวตามข้อมูลการแข่งขันที่มีทั้งหมด โดยพื้นฐานแล้วเพื่อดูว่าผู้เล่นแต่ละคนมีส่วนร่วมในแต่ละเกมในแง่ของคะแนนหรือเกี่ยวข้องกับผู้เล่นอื่น ๆ หรือไม่?

3
มีการทดสอบ Kruskal Wallis ทางเดียวสำหรับแบบจำลองสองทางหรือไม่?
หากแบบจำลองนั้นไม่เป็นไปตามสมมติฐานของ ANOVA (โดยเฉพาะในภาวะปกติ) หากเป็นแบบทางเดียวแนะนำให้ทำการทดสอบแบบไม่ใช้พารามิเตอร์ของ Kruskal-Wallis แต่ถ้าคุณมีหลายปัจจัย

1
อะไรคือข้อเสียของความน่าจะเป็นของโปรไฟล์?
พิจารณาเวกเตอร์ของพารามิเตอร์โดยมีพารามิเตอร์ที่น่าสนใจและ a พารามิเตอร์ที่สร้างความรำคาญθ 1 θ 2( θ1, θ2)(θ1,θ2)(\theta_1, \theta_2)θ1θ1\theta_1θ2θ2\theta_2 หากเป็นโอกาสที่สร้างขึ้นจากข้อมูลความน่าจะเป็นของโปรไฟล์สำหรับถูกกำหนดเป็นที่เป็น MLE ของสำหรับค่าคงที่ของ\x θ 1 L P ( θ 1 ; x ) = L ( θ 1 , θ 2 ( θ 1 ) ; x ) θ 2 ( θ 1 ) θ 2 θ 1L ( θ1, θ2; …

5
การไกล่เกลี่ยวิเคราะห์สาเหตุโดยเนื้อแท้หรือไม่
ฉันสนใจที่จะทดสอบโมเดลการไกล่เกลี่ยอย่างง่ายกับหนึ่ง IV หนึ่ง DV และหนึ่งสื่อกลาง ผลทางอ้อมมีความสำคัญเมื่อทดสอบโดยมาโคร Preacher และ Hayes SPSS ซึ่งแนะนำว่าคนกลางทำหน้าที่เป็นสื่อกลางในการสื่อความสัมพันธ์ เมื่ออ่านเกี่ยวกับการไกล่เกลี่ยฉันได้อ่านสิ่งต่าง ๆ เช่น "โปรดสังเกตว่าแบบจำลองสื่อกลางเป็นแบบจำลองเชิงสาเหตุ" - เดวิดเคนนี แน่นอนฉันสามารถชื่นชมการใช้แบบจำลองการไกล่เกลี่ยเป็นแบบจำลองเชิงสาเหตุและแน่นอนถ้าแบบจำลองทางทฤษฎีฟังดูแล้วฉันจะเห็นว่ามันมีประโยชน์มาก ในแบบจำลองของฉันอย่างไรก็ตามผู้ไกล่เกลี่ย (ลักษณะที่พิจารณาว่าเป็น diathesis สำหรับโรควิตกกังวล) ไม่ได้เกิดจากตัวแปรอิสระ (อาการของโรควิตกกังวล) ค่อนข้างคนกลางและตัวแปรอิสระมีความเกี่ยวข้องและฉันเชื่อว่าความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตามสามารถอธิบายได้ส่วนใหญ่โดยความแปรปรวนระหว่าง IV-mediator-DV ในสาระสำคัญฉันพยายามแสดงให้เห็นว่ารายงานก่อนหน้านี้ของความสัมพันธ์ IV-DV สามารถอธิบายได้โดยผู้ไกล่เกลี่ยที่เกี่ยวข้องที่ไม่ได้เกิดจาก IV การไกล่เกลี่ยมีประโยชน์ในกรณีนี้เนื่องจากอธิบายว่าความสัมพันธ์ IV-DV สามารถอธิบายทางสถิติโดยความสัมพันธ์ IV-Mediator-DV ได้อย่างไร ปัญหาของฉันคือคำถามเกี่ยวกับสาเหตุ การตรวจสอบกลับมาและบอกเราว่าการไกล่เกลี่ยไม่เหมาะสมเพราะในความเป็นจริง IV ไม่ได้เป็นสาเหตุของผู้ไกล่เกลี่ย (ซึ่งฉันจะไม่เคยโต้เถียงในตอนแรก)? มันสมเหตุสมผลหรือไม่ ข้อเสนอแนะใด ๆ เกี่ยวกับเรื่องนี้จะได้รับการชื่นชมอย่างมาก! แก้ไข : สิ่งที่ฉันหมายถึงคือ X มีความสัมพันธ์กับ Y …

1
วิธีกำหนดจำนวนกลุ่มใน K-หมายถึงการจัดกลุ่ม?
มีวิธีใดในการกำหนดจำนวนคลัสเตอร์ที่ดีที่สุดหรือฉันควรลองค่าที่แตกต่างกันและตรวจสอบอัตราความผิดพลาดเพื่อตัดสินใจเลือกค่าที่ดีที่สุด

2
ข้อผิดพลาดการไล่ระดับสีเอกพจน์ใน nls ด้วยค่าเริ่มต้นที่ถูกต้อง
ฉันพยายามใส่เส้นโค้ง + เอ็กซ์โพเนนเชียลให้พอดีกับข้อมูลบางอย่าง เป็นการเริ่มต้นฉันพยายามทำสิ่งนี้กับข้อมูลเทียมบางอย่าง ฟังก์ชั่นคือ: มันเป็นเส้นโค้งเอ็กซ์โพเนนเชียลได้อย่างมีประสิทธิภาพกับส่วนเชิงเส้นเช่นเดียวกับพารามิเตอร์ shift แนวนอนเพิ่มเติม ( m ) อย่างไรก็ตามเมื่อฉันใช้ฟังก์ชั่นของ R ฉันได้รับข้อผิดพลาด " เมทริกซ์การไล่ระดับสีเอกพจน์ที่การประมาณการพารามิเตอร์เริ่มต้น " ที่น่ากลัวแม้ว่าฉันจะใช้พารามิเตอร์เดียวกันกับที่ฉันใช้ในการสร้างข้อมูลตั้งแต่แรก ฉันลองใช้อัลกอริทึมที่แตกต่างกันค่าเริ่มต้นที่แตกต่างกันและพยายามใช้Y= a + b ⋅ r( x - m )+ c ⋅ xY=a+ข⋅R(x-ม.)+ค⋅xy=a+b\cdot r^{(x-m)}+c\cdot xnls()optimเพื่อลดผลรวมที่เหลือของกำลังสองทั้งหมดนี้จะไม่มีประโยชน์ ฉันได้อ่านว่าสาเหตุที่เป็นไปได้สำหรับการทำเช่นนี้อาจเป็นการทำให้เกินขอบเขตของสูตร แต่ฉันไม่คิดว่ามันจะเป็น (คืออะไร) มีใครมีข้อเสนอแนะสำหรับปัญหานี้หรือไม่? หรือนี่เป็นเพียงโมเดลที่น่าอึดอัดใจ? ตัวอย่างสั้น ๆ : #parameters used to generate the data reala=-3 realb=5 realc=0.5 …

1
การวิเคราะห์อนุกรมเวลาที่มีค่าเป็นศูนย์จำนวนมาก
ปัญหานี้เป็นจริงเกี่ยวกับการตรวจจับอัคคีภัย แต่ก็คล้ายกับปัญหาการตรวจจับการสลายตัวของกัมมันตภาพรังสี ปรากฏการณ์ที่ถูกสังเกตมีทั้งเป็นระยะและแปรผันสูง ดังนั้นอนุกรมเวลาจะประกอบด้วยสตริงยาวเป็นศูนย์ซึ่งถูกขัดจังหวะด้วยค่าตัวแปร วัตถุประสงค์ไม่ได้เป็นเพียงการรวบรวมเหตุการณ์ (แบ่งเป็นศูนย์) แต่เป็นการอธิบายลักษณะเชิงปริมาณของเหตุการณ์เอง อย่างไรก็ตามเซ็นเซอร์มีข้อ จำกัด และบางครั้งจะบันทึกเป็นศูนย์แม้ว่า "ความจริง" จะไม่เป็นศูนย์ ด้วยเหตุผลนี้จึงต้องรวมศูนย์เมื่อเปรียบเทียบเซ็นเซอร์ เซ็นเซอร์ B อาจมีความไวมากกว่าเซ็นเซอร์ A และฉันอยากจะอธิบายสถิติได้ สำหรับการวิเคราะห์นี้ฉันไม่มี "ความจริง" แต่ฉันมีเซนเซอร์ C ซึ่งเป็นอิสระจากเซ็นเซอร์ A&B ดังนั้นความคาดหวังของฉันคือข้อตกลงที่ดีกว่าระหว่าง A / B และ C บ่งชี้ถึงข้อตกลงที่ดีกว่ากับ "ความจริง" (นี่อาจดูสั่นคลอน แต่คุณจะต้องเชื่อใจฉัน - ฉันอยู่บนพื้นแข็งที่นี่ตามสิ่งที่เป็นที่รู้จักจากการศึกษาอื่น ๆ เกี่ยวกับเซ็นเซอร์) จากนั้นปัญหาคือวิธีหาปริมาณ "ข้อตกลงที่ดีกว่าของอนุกรมเวลา" ความสัมพันธ์เป็นตัวเลือกที่ชัดเจน แต่จะได้รับผลกระทบจากศูนย์ทั้งหมด (ซึ่งไม่สามารถละทิ้งได้) และแน่นอนได้รับผลกระทบอย่างไม่เป็นสัดส่วนจากค่าสูงสุด สามารถคำนวณ RMSE ได้เช่นกัน แต่จะถูกถ่วงน้ำหนักอย่างมากต่อพฤติกรรมของเซ็นเซอร์ในกรณีใกล้ศูนย์ คำถามที่ 1: …

4
จำนวนตัวแปรอิสระสูงสุดที่สามารถป้อนลงในสมการการถดถอยหลายตัว
จำนวนตัวแปรอิสระที่ จำกัด ไว้ที่หนึ่งอาจป้อนในสมการถดถอยหลายคืออะไร? ฉันมีตัวทำนาย 10 ตัวที่ฉันต้องการตรวจสอบในแง่ของการมีส่วนร่วมของพวกเขากับตัวแปรผลลัพธ์ ฉันควรใช้การแก้ไข bonferroni เพื่อปรับสำหรับการวิเคราะห์หลายครั้งหรือไม่

3
วิธีตัวอย่างจาก ?
ฉันต้องการตัวอย่างตามความหนาแน่น โดยที่และเป็นบวกอย่างเคร่งครัด (แรงจูงใจ: สิ่งนี้อาจเป็นประโยชน์สำหรับการสุ่มตัวอย่างของกิ๊บส์เมื่อพารามิเตอร์รูปร่างของความหนาแน่นแกมมามีรูปแบบเหมือนกันมาก่อน)f(a)∝cada−1Γ(a)1(1,∞)(a)f(a)∝cada−1Γ(a)1(1,∞)(a) f(a) \propto \frac{c^a d^{a-1}}{\Gamma(a)} 1_{(1,\infty)}(a) cccddd ไม่มีใครรู้วิธีการสุ่มตัวอย่างจากความหนาแน่นนี้ได้อย่างง่ายดาย? อาจจะเป็นมาตรฐานและมีบางสิ่งที่ฉันไม่รู้ ฉันคิดว่าอัลกอริธึมการคัดแยกที่โง่ที่จะทำงานได้มากหรือน้อย (หาโหมดของ , ตัวอย่างจากเครื่องแบบในกล่องขนาดใหญ่และปฏิเสธถ้า ) แต่ (i) มันไม่ได้มีประสิทธิภาพเลยและ (ii)จะใหญ่เกินไปสำหรับคอมพิวเตอร์ที่จะจัดการได้อย่างง่ายดายแม้ในระดับปานกลาง ขนาดใหญ่และD (โปรดทราบว่าโหมดสำหรับcขนาดใหญ่และdจะอยู่ที่a = cd )a∗a∗a^*fff(a,u)(a,u)(a,u)[0,10a∗]×[0,f(a∗)][0,10a∗]×[0,f(a∗)][0,10a^*]\times [0,f(a^*)]u>f(a)u>f(a)u>f(a)f(a∗)f(a∗)f(a^*)cccdddcccddda=cda=cda=cd ขอบคุณล่วงหน้าสำหรับความช่วยเหลือใด ๆ !

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.