สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เป็นไปได้ไหมที่จะหาค่าเบี่ยงเบนมาตรฐานแบบรวม?
สมมติว่าฉันมี 2 ชุด: ชุด A : จำนวนรายการ , ,n = 10n=10n= 10μ = 2.4μ=2.4\mu = 2.4σ= 0.8σ=0.8\sigma = 0.8 ชุด B : จำนวนรายการ , ,n = 5n=5n= 5μ = 2μ=2\mu = 2σ= 1.2σ=1.2\sigma = 1.2 ฉันสามารถหาค่าเฉลี่ยรวม ( ) ได้อย่างง่ายดาย แต่ฉันควรจะหาค่าเบี่ยงเบนมาตรฐานแบบรวมได้อย่างไรμμ\mu

6
วิธีเริ่มต้นกับเครือข่ายประสาท
ฉันใหม่สำหรับเครือข่ายประสาทอย่างสมบูรณ์ แต่สนใจอย่างมากที่จะเข้าใจพวกเขา อย่างไรก็ตามการเริ่มต้นใช้งานไม่ใช่เรื่องง่ายเลย ใครช่วยแนะนำหนังสือดีๆหรือทรัพยากรประเภทอื่นได้บ้าง ต้องอ่านไหม? ฉันขอบคุณสำหรับเคล็ดลับใด ๆ

1
ทำไม R ถึงส่งกลับ NA เป็นสัมประสิทธิ์ lm ()
ฉันปรับlm()โมเดลให้เหมาะสมกับชุดข้อมูลที่มีตัวบ่งชี้สำหรับไตรมาสทางการเงิน (Q1, Q2, Q3 ทำให้ Q4 เป็นค่าเริ่มต้น) ใช้lm(Y~., data = data) ฉันได้รับNAเป็นค่าสัมประสิทธิ์สำหรับไตรมาสที่ 3 และคำเตือนว่าตัวแปรหนึ่งตัวถูกแยกออกเนื่องจากภาวะเอกฐาน ฉันต้องเพิ่มคอลัมน์ Q4 หรือไม่
32 r  regression 

5
จะเปลี่ยนข้อมูลระหว่างรูปแบบแบบกว้างและแบบยาวใน R ได้อย่างไร [ปิด]
คุณสามารถมีข้อมูลในรูปแบบกว้างหรือในรูปแบบยาว นี่เป็นสิ่งสำคัญเนื่องจากวิธีการใช้งานที่แตกต่างกันขึ้นอยู่กับรูปแบบ ฉันรู้ว่าคุณต้องทำงานกับmelt()และcast()จากแพคเกจการก่อร่างใหม่ แต่ดูเหมือนว่าบางสิ่งที่ฉันไม่ได้รับ มีคนให้ภาพรวมสั้น ๆ กับฉันว่าคุณทำสิ่งนี้ได้อย่างไร

1
ความแปรปรวนกับผลรวมของค่าที่คาดการณ์จากตัวแบบเอฟเฟกต์แบบผสมบนชุดเวลา
ฉันมีรูปแบบเอฟเฟกต์แบบผสม (อันที่จริงแล้วเป็นโมเดลผสมแบบผสมทั่วไป) ที่ให้การคาดการณ์สำหรับไทม์ ในการต่อต้านความสัมพันธ์อัตโนมัติฉันใช้โมเดล corCAR1 เนื่องจากข้อเท็จจริงที่ว่าฉันมีข้อมูลขาดหายไป ข้อมูลควรจะให้โหลดทั้งหมดแก่ฉันดังนั้นฉันต้องรวมช่วงเวลาการทำนายทั้งหมด แต่ฉันควรจะได้รับการประมาณข้อผิดพลาดมาตรฐานของการโหลดทั้งหมดด้วย หากการคาดคะเนทั้งหมดเป็นอิสระสิ่งนี้สามารถแก้ไขได้อย่างง่ายดายโดย: VR ( Σni = 1E[ Xผม] ) = ∑ni = 1VR ( E[ Xผม] )VaR(Σผม=1nE[Xผม])=Σผม=1nVaR(E[Xผม])Var(\sum^{n}_{i=1}E[X_i]) = \sum^{n}_{i=1}Var(E[X_i]) กับVR ( E[ Xผม] ) = SE( E[ Xผม] )2VaR(E[Xผม])=SE(E[Xผม])2Var(E[X_i]) = SE(E[X_i])^2 ปัญหาคือค่าที่คาดการณ์มาจากแบบจำลองและข้อมูลดั้งเดิมมีความสัมพันธ์อัตโนมัติ ปัญหาทั้งหมดนำไปสู่คำถามต่อไปนี้: ฉันถูกต้องในการสมมติว่า SE ในการทำนายที่คำนวณได้สามารถตีความได้ว่าเป็นรากของความแปรปรวนตามมูลค่าที่คาดหวังของการทำนายนั้นหรือไม่ ฉันมีแนวโน้มที่จะ interprete การทำนายเป็น "การคาดการณ์ความหมาย" และรวมชุดของวิธีการทั้งหมด ฉันจะรวมความสัมพันธ์อัตโนมัติในปัญหานี้ได้อย่างไรหรือฉันสามารถสรุปได้อย่างปลอดภัยว่าจะไม่มีผลต่อผลลัพธ์มากเกินไป นี่เป็นตัวอย่างใน …

3
วิธีการวาดรูปหลายเหลี่ยมเรียบร้อยรอบ ๆ ภูมิภาคกระจายใน ggplot2 [ปิด]
ฉันจะเพิ่มรูปหลายเหลี่ยมที่เรียบร้อยรอบ ๆ กลุ่มของจุดบนแผนการกระจายได้อย่างไร ฉันใช้ ggplot2 geom_polygonแต่กำลังผิดหวังกับผลของการ ชุดข้อมูลอยู่ที่นั่นเป็นไฟล์ข้อความที่คั่นด้วยแท็บ กราฟด้านล่างแสดงให้เห็นถึงสองมาตรการของทัศนคติต่อสุขภาพและการว่างงานในหลายประเทศ: ฉันต้องการที่จะเปลี่ยนจากgeom_density2dการแฟนซีน้อย geom_polygonแต่สังเกตุที่ถูกต้องมากขึ้น ผลลัพธ์ของข้อมูลที่ไม่เรียงลำดับนั้นไม่เป็นประโยชน์: ฉันจะวาดรูปหลายเหลี่ยมที่ 'เรียบร้อย' ที่ทำหน้าที่เป็นเส้นทางเส้นรอบ ๆ ค่า min-max yx ได้อย่างไร ฉันพยายามจัดเรียงข้อมูลให้ไม่มีประโยชน์ รหัส: print(fig2 <- ggplot(d, aes(man, eff, colour=issue, fill=issue)) + geom_point() + geom_density2d(alpha=.5) + labs(x = "Efficiency", y = "Mandate")) dวัตถุที่ได้รับกับไฟล์ CSV นี้ วิธีการแก้: ขอบคุณWayne , Andy Wและคนอื่น ๆ ที่เป็นตัวชี้! ข้อมูลรหัสและกราฟได้รับการโพสต์ไป …

6
ความแตกต่างระหว่างการถดถอยโลจิสติกและเครือข่ายประสาทคืออะไร?
เราจะอธิบายความแตกต่างระหว่างการถดถอยโลจิสติกและเครือข่ายประสาทเทียมให้กับผู้ชมที่ไม่มีพื้นฐานด้านสถิติได้อย่างไร

2
จะหาช่วงความมั่นใจสำหรับการจัดอันดับอย่างไร
Evan Miller ของ " วิธีไม่จัดเรียงตามคะแนนเฉลี่ย " เสนอให้ใช้ขอบเขตล่างของช่วงความมั่นใจเพื่อรับ "คะแนน" รวมที่สมเหตุสมผลสำหรับรายการที่ได้รับการจัดอันดับ อย่างไรก็ตามการทำงานกับโมเดลของ Bernoulli นั้นการให้คะแนนนั้นยกนิ้วขึ้นหรือยกลง ช่วงเวลาความเชื่อมั่นที่สมเหตุสมผลที่จะใช้สำหรับแบบจำลองการจัดอันดับซึ่งกำหนดคะแนนแบบไม่ต่อเนื่อง111ถึงดาวสมมติว่าจำนวนการจัดอันดับสำหรับรายการอาจมีขนาดเล็กkkk ฉันคิดว่าฉันสามารถดูวิธีการปรับจุดศูนย์กลางของช่วงเวลา Wilson และ Agresti-Coull เป็น p~=∑ni=1xi+z2α/2p0n+z2α/2p~=∑i=1nxi+zα/22p0n+zα/22\tilde{p} = \frac{\sum_{i=1}^n{x_i} + z_{\alpha/2}^2\; p_0}{n + z_{\alpha/2}^2} โดยที่หรือ (น่าจะดีกว่า) คือคะแนนเฉลี่ยของทุกรายการ อย่างไรก็ตามฉันไม่แน่ใจว่าจะปรับความกว้างของช่วงเวลาได้อย่างไร เดาที่ดีที่สุดของฉัน (แก้ไข) จะp0=k+12p0=k+12p_0 = \frac{k+1}{2} p~±zα/2n~∑ni=1(xi−p~)2+zα/2(p0−p~)2n~−−−−−−−−−−−−−−−−−−−−−−−−−√p~±zα/2n~∑i=1n(xi−p~)2+zα/2(p0−p~)2n~\tilde{p} \pm \frac{z_{\alpha/2}}{\tilde{n}} \sqrt{\frac{\sum_{i=1}^n{(x_i - \tilde{p})^2} + z_{\alpha/2}(p_0-\tilde{p})^2}{\tilde{n}}} ด้วยแต่ฉันไม่สามารถพิสูจน์ได้ว่ามีมากกว่าโบกมือด้วยมือราวกับการเปรียบเทียบของ Agresti-Coull โดยใช้เป็นn~=n+z2α/2n~=n+zα/22\tilde{n} = n + z_{\alpha/2}^2 …

12
แนวคิดทางสถิติที่ยากที่สุดที่จะเข้าใจคืออะไร?
นี่เป็นคำถามที่คล้ายกับคำถามที่นี่แต่แตกต่างกันมากพอที่ฉันคิดว่าคุ้มค่าที่จะถาม ฉันคิดว่าฉันจะเป็นผู้ริเริ่มสิ่งที่ฉันคิดว่าหนึ่งในสิ่งที่ยากที่สุดที่จะเข้าใจคือ เหมืองแร่คือความแตกต่างระหว่างความน่าจะเป็นและความถี่ หนึ่งอยู่ที่ระดับของ "ความรู้เกี่ยวกับความเป็นจริง" (ความน่าจะเป็น) ในขณะที่อีกอันอยู่ที่ระดับ "ความเป็นจริงของตัวเอง" (ความถี่) สิ่งนี้ทำให้ฉันสับสนบ่อยครั้งถ้าฉันคิดมากเกินไป Edwin Jaynes Coined คำที่เรียกว่า "การคิดผิดพลาดการคิด" เพื่ออธิบายสิ่งเหล่านี้ได้รับการผสมขึ้น ความคิดใด ๆ เกี่ยวกับแนวคิดที่ยากอื่น ๆ ที่จะเข้าใจ?
32 teaching 


7
มีอัลกอริทึมสำหรับการคำนวณพารามิเตอร์ "การทำงาน" เชิงเส้นหรือการถดถอยโลจิสติกหรือไม่?
กระดาษ "คำนวณความแปรปรวนในการทำงานอย่างถูกต้อง" ที่http://www.johndcook.com/standard_deviation.html แสดงวิธีคำนวณค่าเฉลี่ยความแปรปรวนและส่วนเบี่ยงเบนมาตรฐาน มีอัลกอริทึมที่พารามิเตอร์ของตัวแบบการถดถอยเชิงเส้นหรือแบบลอจิสติกสามารถอัปเดต "แบบไดนามิก" แบบเดียวกันได้หรือไม่เมื่อมีการจัดทำบันทึกการฝึกอบรมใหม่

5
การสร้างแบบจำลองข้อมูลระยะยาวที่ผลกระทบของเวลาแตกต่างกันไปในรูปแบบการทำงานระหว่างบุคคล
บริบท : ลองนึกภาพคุณมีการศึกษาระยะยาวซึ่งวัดตัวแปรตาม (DV) สัปดาห์ละครั้งเป็นเวลา 20 สัปดาห์สำหรับผู้เข้าร่วม 200 คน ถึงแม้ว่าฉันจะสนใจ DV ทั่วไป แต่ฉันคิดว่ารวมถึงการทำงานตามการจ้างงานหรือมาตรการความเป็นอยู่ที่หลากหลายหลังจากการแทรกแซงทางจิตวิทยาคลินิก ฉันรู้ว่าการสร้างแบบจำลองหลายระดับสามารถใช้เป็นแบบจำลองความสัมพันธ์ระหว่างเวลาและ DV นอกจากนี้คุณยังสามารถอนุญาตค่าสัมประสิทธิ์ (เช่นการสกัดกั้นความลาดชัน ฯลฯ ) เพื่อเปลี่ยนแปลงระหว่างบุคคลและประเมินค่าเฉพาะสำหรับผู้เข้าร่วม แต่จะเกิดอะไรขึ้นถ้าเมื่อตรวจสอบข้อมูลด้วยสายตาคุณจะพบว่าความสัมพันธ์ระหว่างเวลากับ DV นั้นเป็นอย่างใดอย่างหนึ่งต่อไปนี้: แตกต่างกันในรูปแบบการใช้งาน (อาจมีบางแบบเป็นแบบเส้นตรงและแบบอื่นอาจมีเลขยกกำลังหรือบางแบบอาจมีความไม่ต่อเนื่อง) แตกต่างกันในความแปรปรวนข้อผิดพลาด (บุคคลบางคนมีความผันผวนจากจุดหนึ่งไปยังอีกครั้ง) คำถาม : อะไรจะเป็นวิธีที่ดีในการเข้าถึงแบบจำลองข้อมูลเช่นนี้ โดยเฉพาะวิธีการใดที่ใช้ระบุความสัมพันธ์ประเภทต่าง ๆ ได้ดีและจัดประเภทบุคคลตามประเภทของพวกเขา มีการใช้งานอะไรบ้างใน R สำหรับการวิเคราะห์เช่นนี้? มีการอ้างอิงใด ๆ เกี่ยวกับวิธีการทำเช่นนี้: ตำราหรือแอปพลิเคชันจริง?

4
การวิเคราะห์ความแปรปรวนของข้อมูลทวินาม
ฉันกำลังวิเคราะห์ชุดข้อมูลการทดลอง ข้อมูลประกอบด้วยเวกเตอร์คู่ของประเภทการรักษาและผลลัพธ์ทวินาม: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... ในคอลัมน์ผลลัพธ์ 1 หมายถึงความสำเร็จและ 0 หมายถึงความล้มเหลว ฉันต้องการทราบว่าการรักษาแตกต่างกันอย่างมีนัยสำคัญผลลัพธ์ มีการรักษา 4 แบบที่แตกต่างกันในแต่ละการทดลองซ้ำหลายครั้ง (2000 ครั้งต่อการรักษาแต่ละครั้ง) คำถามของฉันคือฉันสามารถวิเคราะห์ผลลัพธ์ไบนารีโดยใช้ ANOVA ได้หรือไม่ หรือฉันควรใช้การทดสอบไคสแควร์เพื่อตรวจสอบข้อมูลทวินาม? ดูเหมือนว่าไคสแควร์จะถือว่าสัดส่วนจะแบ่งเท่า ๆ กันซึ่งไม่ใช่กรณี อีกแนวคิดหนึ่งคือการสรุปข้อมูลโดยใช้สัดส่วนของความสำเร็จต่อความล้มเหลวสำหรับการรักษาแต่ละครั้งและจากนั้นใช้การทดสอบสัดส่วน ฉันอยากรู้อยากเห็นคำแนะนำของคุณสำหรับการทดสอบที่เหมาะสมสำหรับการทดลองความสำเร็จ / ล้มเหลวแบบทวินามเหล่านี้

2
การแจกแจงอื่นนอกเหนือจากปกติที่ค่าเฉลี่ยและความแปรปรวนเป็นอิสระ
ฉันสงสัยว่ามีการแจกแจงนอกเหนือจากปกติที่ค่าเฉลี่ยและความแปรปรวนเป็นอิสระจากกัน (หรือกล่าวอีกนัยหนึ่งซึ่งความแปรปรวนไม่ใช่หน้าที่ของค่าเฉลี่ย)

6
การจำแนกทางสถิติของข้อความ
ฉันเป็นโปรแกรมเมอร์ที่ไม่มีพื้นฐานด้านสถิติและตอนนี้ฉันกำลังมองหาวิธีการจำแนกประเภทที่แตกต่างกันสำหรับเอกสารจำนวนมากที่ฉันต้องการจัดหมวดหมู่เป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า ฉันได้อ่านเกี่ยวกับ kNN, SVM และ NN อย่างไรก็ตามฉันมีปัญหาในการเริ่มต้น คุณแนะนำแหล่งข้อมูลใด ฉันรู้ว่าแคลคูลัสตัวแปรเดียวและตัวแปรหลายตัวค่อนข้างดีดังนั้นคณิตศาสตร์ของฉันควรแข็งแรงพอ ฉันเองเป็นเจ้าของหนังสือของ Bishop ใน Neural Networks แต่มันก็พิสูจน์แล้วว่ามีความหนาแน่นเล็กน้อยในการแนะนำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.