สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การกระจายแบบใดที่ใช้กันมากที่สุดในการจำลองเวลาตอบกลับของเซิร์ฟเวอร์
ฉันมีแอปพลิเคชันที่ใช้ servlet ซึ่งฉันจะวัดเวลาที่ใช้ในการดำเนินการตามคำขอแต่ละครั้งให้กับเซิร์ฟเล็ตนั้น ฉันคำนวณสถิติอย่างง่ายเช่นค่าเฉลี่ยและค่าสูงสุดแล้ว ฉันต้องการที่จะสร้างการวิเคราะห์ที่ซับซ้อนมากขึ้นและทำเช่นนั้นฉันเชื่อว่าฉันต้องทำแบบจำลองเวลาตอบสนองเหล่านี้อย่างถูกต้อง แน่นอนว่าเวลาตอบสนองนั้นเป็นไปตามการกระจายที่รู้จักกันดีและมีเหตุผลที่ดีที่จะเชื่อว่าการกระจายตัวเป็นรูปแบบที่ถูกต้อง อย่างไรก็ตามฉันไม่รู้ว่าการกระจายตัวนี้ควรเป็นอย่างไร Log-normal และ Gamma เป็นสิ่งที่คำนึงถึงและคุณสามารถสร้างข้อมูลเวลาตอบสนองตามจริงได้ ไม่มีใครมีมุมมองเกี่ยวกับสิ่งที่การกระจายเวลาตอบสนองควรทำตาม?

6
จะค้นหายอดเขา / หุบเขาในชุดข้อมูลได้อย่างไร?
นี่คือการทดลองของฉัน: ฉันใช้findPeaksฟังก์ชันในแพ็คเกจquantmod : ฉันต้องการตรวจหายอด "ท้องถิ่น" ภายในค่าเผื่อ 5 นั่นคือตำแหน่งแรกหลังจากที่อนุกรมเวลาลดลงจากยอดเขาท้องถิ่น 5: aa=100:1 bb=sin(aa/3) cc=aa*bb plot(cc, type="l") p=findPeaks(cc, 5) points(p, cc[p]) p ผลลัพธ์คือ [1] 3 22 41 ดูเหมือนว่าผิดเพราะฉันคาดว่าจะมี "ยอดเขา" มากกว่า 3 คน ... ความคิดใด ๆ
16 r  time-series 

4
ชุดข้อมูลที่ดีที่แสดงถึงลักษณะเฉพาะของการวิเคราะห์ทางสถิติคืออะไร
ฉันรู้ว่านี่เป็นเรื่องส่วนตัว แต่ฉันคิดว่ามันคงจะดีถ้าได้พูดถึงชุดข้อมูลที่เราโปรดปรานและสิ่งที่เราคิดว่าทำให้พวกเขาน่าสนใจ มีข้อมูลมากมายและสิ่งที่ API ทั้งหมด (เช่นDatamob ) พร้อมกับชุดข้อมูลคลาสสิก (เช่นข้อมูล R ) ฉันคิดว่านี่อาจมีคำตอบที่น่าสนใจมาก ตัวอย่างเช่นฉันเคยชอบชุดข้อมูลเช่นชุดข้อมูล "Boston Housing" (ความหมายที่โชคร้ายแม้จะมี) และ "mtcars" สำหรับความเก่งกาจของพวกเขา จากมุมมองของการสอนเราสามารถแสดงให้เห็นถึงข้อดีของเทคนิคทางสถิติที่หลากหลายโดยใช้พวกเขา และชุดข้อมูลม่านตาของ Anderson / Fisher จะมีที่อยู่ในใจของฉันเสมอ คิด?
16 dataset 

2
ปัวซองหรือปัวซองกึ่งในการถดถอยด้วยการนับข้อมูลและการกระจายเกินพิกัด?
ฉันมีข้อมูลนับจำนวน (การวิเคราะห์อุปสงค์ / ข้อเสนอพร้อมจำนวนการนับลูกค้าขึ้นอยู่กับปัจจัยหลายอย่าง) ฉันลองการถดถอยเชิงเส้นโดยมีข้อผิดพลาดปกติ แต่ QQ-plot ของฉันไม่ค่อยดี ฉันพยายามบันทึกการเปลี่ยนแปลงของคำตอบ: อีกครั้งแผนการดี QQ ดังนั้นตอนนี้ฉันกำลังลองถดถอยด้วยข้อผิดพลาดปัวซอง ด้วยโมเดลที่มีตัวแปรสำคัญทั้งหมดฉันจะได้รับ: Null deviance: 12593.2 on 53 degrees of freedom Residual deviance: 1161.3 on 37 degrees of freedom AIC: 1573.7 Number of Fisher Scoring iterations: 5 การเบี่ยงเบนส่วนที่เหลือมีขนาดใหญ่กว่าองศาอิสระที่เหลืออยู่ฉันมีการกระจายเกินกำหนด ฉันจะรู้ได้อย่างไรว่าฉันต้องใช้ quasipoisson? เป้าหมายของ quasipoisson ในกรณีนี้คืออะไร? ฉันอ่านคำแนะนำนี้ใน "The R Book" โดย Crawley แต่ฉันไม่เห็นประเด็นหรือการปรับปรุงขนาดใหญ่ในกรณีของฉัน

6
ความเร็วในการคำนวณใน R?
ฉันได้รับมอบหมายให้ย้ายหนึ่งในโมเดล stochastic ที่มีขนาดใหญ่ในปัจจุบันของเราออกจาก SAS และเป็นภาษาใหม่ โดยส่วนตัวแล้วฉันชอบภาษาที่รวบรวมแบบดั้งเดิม แต่ PI ต้องการให้ฉันตรวจสอบ R ซึ่งฉันไม่เคยใช้ แรงจูงใจของเราในการนำโมเดลออกมาจาก SAS คือ (1) หลายคนไม่สามารถเข้าถึงได้เพราะ SAS มีราคาแพง (2) เรากำลังมองหาที่จะย้ายออกจากภาษาที่ตีความและ (3) SAS ช้าสำหรับ ประเภทของแบบจำลองที่เรามี สำหรับ (1) เห็นได้ชัดว่า R ตอบสนองความต้องการที่จะให้เป็นอิสระ สำหรับ (2) เราควรจะสร้างไฟล์ที่เรียกทำงานได้ แต่โดยปกติแล้ว R จะใช้เป็นภาษาสคริปต์ ฉันเห็นว่ามีคนเพิ่งคอมไพเลอร์ R - ได้รับการตอบรับดีไหม? ใช้ง่ายไหม เราไม่ต้องการบังคับให้ผู้ใช้ดาวน์โหลด R เอง สำหรับ (3) ปัญหาของเรากับ SAS คือเวลาทั้งหมดในการเขียนและอ่านชุดข้อมูล I / …
16 r  computing 

1
ความต้องการสำหรับการจัดศูนย์กลางและข้อมูลที่เป็นมาตรฐานในการถดถอย
พิจารณาการถดถอยเชิงเส้นด้วยการทำให้เป็นมาตรฐาน: เช่นค้นหาที่ย่อเล็กสุด| | A x - b | | 2 + λ | | x | |xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 โดยปกติคอลัมน์ของ A จะเป็นมาตรฐานที่จะมีค่าเฉลี่ยศูนย์และบรรทัดฐานของหน่วยในขณะที่ bbbอยู่ตรงกลางให้มีค่าเฉลี่ยเป็นศูนย์ ฉันต้องการตรวจสอบให้แน่ใจว่าการทำความเข้าใจเกี่ยวกับเหตุผลในการกำหนดมาตรฐานและการจัดกึ่งกลางถูกต้องหรือไม่ ด้วยการทำให้คอลัมน์และbเป็นศูนย์ทำให้เราไม่จำเป็นต้องมีคำดักจับอีกต่อไป มิฉะนั้นวัตถุประสงค์จะเป็น| | A x - x 0 1 - b | | 2 + λ | | x | | 1 . ด้วยการสร้างบรรทัดฐานของคอลัมน์ A เท่ากับ …

2
ทำไมเมทริกซ์สำหรับการฉายภาพของการฉายฉากแบบฉากฉาก?
ฉันค่อนข้างใหม่สำหรับเรื่องนี้ดังนั้นฉันหวังว่าคุณจะยกโทษให้ฉันถ้าคำถามไร้เดียงสา (บริบท: ฉันกำลังเรียนรู้เศรษฐมิติจากหนังสือ Davidson & MacKinnon เรื่อง"เศรษฐมิติเชิงทฤษฎีและวิธีการ"และพวกเขาดูเหมือนจะไม่อธิบายสิ่งนี้ฉันยังได้ดูหนังสือการเพิ่มประสิทธิภาพของ Luenbergerที่เกี่ยวข้องกับการคาดการณ์ในระดับที่สูงขึ้นอีกเล็กน้อย ไม่มีโชค) สมมติว่าผมมีฉากฉายกับมีการเชื่อมโยงการฉายเมทริกซ์P ฉันสนใจในการฉายแต่ละเวกเตอร์ในเป็นบางส่วนสเปซ n P R n A ⊂ R nPP\mathbb PPP\bf PRnRn\mathbb{R}^nA ⊂ RnA⊂RnA \subset \mathbb{R}^n คำถาม : ทำไมมันเป็นไปตามนั้นนั่นคือสมมาตร? ฉันสามารถดูตำราแบบใดสำหรับผลลัพธ์นี้T PP = PP=P\bf{P}=PTT^TPP\bf P

4
รุ่นเชิงเส้นคลาสสิก - การเลือกรูปแบบ
ฉันมีโมเดลเชิงเส้นแบบคลาสสิกโดยมี 5 regressors ที่เป็นไปได้ พวกเขาไม่เกี่ยวข้องกันและมีความสัมพันธ์ค่อนข้างต่ำกับการตอบสนอง ฉันมาถึงแบบจำลองที่มี 3 regressors มีค่าสัมประสิทธิ์นัยสำคัญสำหรับสถิติ t (p <0.05) การเพิ่มตัวแปรที่เหลืออย่างใดอย่างหนึ่งหรือทั้งสองอย่างให้ค่า p> 0.05 สำหรับสถิติ t สำหรับตัวแปรเพิ่ม สิ่งนี้ทำให้ฉันเชื่อว่าโมเดล 3 ตัวแปรนั้น "ดีที่สุด" อย่างไรก็ตามการใช้คำสั่ง anova (a, b) ใน R โดยที่ a คือโมเดลตัวแปร 3 ตัวและ b เป็นรูปแบบเต็มค่า p สำหรับสถิติ F คือ <0.05 ซึ่งบอกให้ฉันชอบแบบเต็มมากกว่าตัวแปร 3 ตัว แบบ ฉันจะกระทบยอดความขัดแย้งที่เห็นได้ชัดเหล่านี้ได้อย่างไร ขอบคุณ PS Edit: พื้นหลังเพิ่มเติมบางส่วน นี่คือการบ้านดังนั้นฉันจะไม่โพสต์รายละเอียด …

4
การตีความ exp (B) ในการถดถอยโลจิสติกพหุนาม
นี่เป็นคำถามเริ่มต้น แต่ผู้แปลตีความผล exp (B) ของ 6.012 ในรูปแบบการถดถอยโลจิสติกพหุนามอย่างไร 1) มันคือ 6.012-1.0 = 5.012 = ความเสี่ยงเพิ่มขึ้น 5012%? หรือ 2) 6.012 / (1 + 6.012) = 0.857 = ความเสี่ยงที่เพิ่มขึ้น 85.7%? ในกรณีที่ทางเลือกทั้งสองไม่ถูกต้องใครช่วยพูดถึงวิธีที่ถูกต้องได้ไหม? ฉันได้ค้นหาแหล่งข้อมูลมากมายบนอินเทอร์เน็ตและฉันได้รับทางเลือกสองทางนี้และฉันไม่แน่ใจว่าสิ่งใดถูกต้อง

1
เมื่อใดที่ต้องใช้ระยะทางแบบยุคลิดแบบถ่วงน้ำหนักและวิธีการกำหนดน้ำหนักที่จะใช้
ฉันมีชุดของข้อมูลที่ข้อมูลแต่ละประกอบด้วยมาตรการที่แตกต่างกัน สำหรับการวัดแต่ละครั้งฉันมีค่ามาตรฐาน ฉันต้องการทราบว่าข้อมูลแต่ละอันใกล้เคียงกับค่ามาตรฐานอย่างไรnnn ฉันคิดถึงการใช้ระยะทางแบบยุคลิดแบบถ่วงน้ำหนักเช่นนี้: dx , b= ( ∑ni = 1Wผม( xผม- ขผม)2) )1 / 2dx,ข=(Σผม=1nWผม(xผม-ขผม)2))1/2\hspace{0.5in} d_{x,b}=\left( \sum_{i=1}^{n}w_i(x_i-b_i)^2)\right)^{1/2} ที่ไหน xผมxผม\hspace{0.5in}x_iคือค่าของการวัด i-th สำหรับข้อมูลเฉพาะ ขผมขผม\hspace{0.5in}b_iเป็นค่ามาตรฐานที่สอดคล้องกันสำหรับการวัดนั้น WผมWผม\hspace{0.5in} w_iคือค่าของน้ำหนักระหว่างฉันจะแนบไปกับการวัด i-th ภายใต้เงื่อนไขดังต่อไปนี้: 0 &lt; wผม&lt; 10&lt;Wผม&lt;1\hspace{1in}0<w_i<1และΣni = 11Σผม=1n1\sum_{i=1}^{n}1 อย่างไรก็ตามจากเอกสารนี้ฉันพบว่าน้ำหนักที่ใช้เป็นส่วนต่างของความแปรปรวนของการวัด i-th ฉันไม่คิดว่าการให้น้ำหนักแบบนี้จะคำนึงถึงความสำคัญที่ฉันจะแนบไปกับการวัดแต่ละครั้ง ดังนั้น: มีวิธีการในการจัดทำชุดของน้ำหนักที่สะท้อนถึงความสำคัญของสัมพัทธ์ของผู้สังเกตการณ์ของการวัดหรือผู้สังเกตการณ์สามารถกำหนดค่าโดยพลการสำหรับน้ำหนักได้หรือไม่? เหมาะสมที่จะใช้ระยะทางแบบยุคลิดแบบถ่วงน้ำหนักเพื่อแก้ไขปัญหานี้หรือไม่?

1
วิธีคำนวณแถบคาดคะเนสำหรับการถดถอยแบบไม่เชิงเส้น
หน้าความช่วยเหลือสำหรับปริซึมให้คำอธิบายต่อไปนี้สำหรับวิธีการคำนวณวงดนตรีทำนายสำหรับการถดถอยที่ไม่ใช่เชิงเส้น โปรดแก้ตัวอ้างนาน แต่ผมไม่ได้ดังต่อไปนี้วรรคสอง (ที่อธิบายถึงวิธีมีการกำหนดและd Y / d Pคำนวณ) ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก.G|xG|xG|xdY/dPdY/dPdY/dP การคำนวณค่าความเชื่อมั่นและการคาดคะเนนั้นค่อนข้างเป็นมาตรฐาน อ่านรายละเอียดเกี่ยวกับวิธีที่ Prism คำนวณแถบการทำนายและความมั่นใจของการถดถอยแบบไม่เชิงเส้น ก่อนอื่นเรามากำหนด G | x ซึ่งเป็นการไล่ระดับของพารามิเตอร์ที่ค่าเฉพาะของ X และใช้ค่าที่เหมาะสมที่สุดของพารามิเตอร์ ผลลัพธ์คือเวกเตอร์โดยมีหนึ่งองค์ประกอบต่อพารามิเตอร์ สำหรับแต่ละพารามิเตอร์จะถูกกำหนดเป็น dY / dP โดยที่ Y คือค่า Y ของเส้นโค้งที่ให้ค่าเฉพาะของ X และค่าพารามิเตอร์ที่ดีที่สุดและ P เป็นหนึ่งในพารามิเตอร์) G '| x เป็นเวกเตอร์ไล่ระดับสีที่ถูกย้ายดังนั้นจึงเป็นคอลัมน์แทนที่จะเป็นแถวของค่า Cov เป็นเมทริกซ์ความแปรปรวนร่วม (inversed Hessian จากการทำซ้ำครั้งล่าสุด) มันเป็นเมทริกซ์จตุรัสที่มีจำนวนแถวและคอลัมน์เท่ากับจำนวนพารามิเตอร์ แต่ละรายการในเมทริกซ์คือความแปรปรวนร่วมระหว่างสองพารามิเตอร์ ตอนนี้คำนวณ c = …

3
วิธีที่ดีที่สุดในการแสดงข้อผิดพลาดประเภท II (เบต้า) แบบกราฟิกกำลังไฟและขนาดตัวอย่าง?
ฉันถูกขอให้เขียนบทนำเกี่ยวกับสถิติและฉันกำลังดิ้นรนวิธีการแสดงกราฟค่า p และค่าพลังงานที่เกี่ยวข้อง ฉันมากับกราฟนี้: คำถามของฉัน: มีวิธีที่ดีกว่าในการแสดงนี้หรือไม่? นี่คือรหัส R ของฉัน x &lt;- seq(-4, 4, length=1000) hx &lt;- dnorm(x, mean=0, sd=1) plot(x, hx, type="n", xlim=c(-4, 8), ylim=c(0, 0.5), ylab = "", xlab = "", main= expression(paste("Type II (", beta, ") error")), axes=FALSE) axis(1, at = c(-qnorm(.025), 0, -4), labels = expression("p-value", 0, …
16 r  teaching  power 

2
เปลี่ยนการวิเคราะห์จุดโดยใช้ R's nls ()
ฉันกำลังพยายามใช้การวิเคราะห์ "จุดเปลี่ยน" หรือการถดถอยหลายเฟสที่ใช้nls()ในอาร์ นี่คือบางส่วนข้อมูลปลอมผมได้ทำ สูตรที่ฉันต้องการใช้เพื่อให้พอดีกับข้อมูลคือ: y=β0+β1x+β2max(0,x−δ)y=β0+β1x+β2max(0,x−δ)y = \beta_0 + \beta_1x + \beta_2\max(0,x-\delta) สิ่งนี้ควรจะทำคือพอดีกับข้อมูลได้ถึงจุดหนึ่งที่มีการตัดบางอย่างและความลาดชัน ( β0β0\beta_0และβ1β1\beta_1 ) แล้วหลังจากที่ค่า x บางอย่าง ( δδ\delta ) เพิ่มความลาดชันโดย\β2β2\beta_2นั่นคือสิ่งที่สูงสุดทั้งหมดเป็นเรื่องเกี่ยวกับ ก่อนจุดδδ\deltaมันจะเท่ากับ 0 และβ2β2\beta_2จะถูกทำให้เป็นศูนย์ ดังนั้นนี่คือหน้าที่ของฉันในการทำสิ่งนี้: changePoint &lt;- function(x, b0, slope1, slope2, delta){ b0 + (x*slope1) + (max(0, x-delta) * slope2) } และฉันพยายามทำให้พอดีกับแบบนี้ nls(y ~ changePoint(x, b0, slope1, slope2, …

1
การทดสอบสมมติฐานตามลำดับในวิทยาศาสตร์ขั้นพื้นฐาน
ฉันเป็นเภสัชกรและจากประสบการณ์ของฉันเอกสารเกือบทั้งหมดในการวิจัยทางชีวการแพทย์ขั้นพื้นฐานใช้การทดสอบ t ของนักเรียน (เพื่อสนับสนุนการอนุมานหรือเพื่อให้สอดคล้องกับความคาดหวัง ... ) สองสามปีที่ผ่านมาฉันสังเกตเห็นว่าการทดสอบ t ของนักเรียนไม่ใช่การทดสอบที่มีประสิทธิภาพที่สุดที่อาจใช้: การทดสอบตามลำดับให้พลังงานที่มากขึ้นสำหรับขนาดตัวอย่างใด ๆ หรือขนาดตัวอย่างที่เล็กกว่าโดยเฉลี่ยสำหรับพลังงานที่เท่ากัน ขั้นตอนต่อเนื่องของความซับซ้อนที่แตกต่างกันนั้นใช้ในการวิจัยทางคลินิก แต่ฉันไม่เคยทำเห็นวิธีที่ใช้ในงานวิจัยทางชีวการแพทย์ขั้นพื้นฐาน ฉันทราบว่าพวกเขาขาดเรียนจากหนังสือสถิติระดับเบื้องต้นที่ล้วนเป็นสิ่งที่นักวิทยาศาสตร์พื้นฐานส่วนใหญ่น่าจะเห็น คำถามของฉันคือสามเท่า: ด้วยข้อได้เปรียบด้านประสิทธิภาพอย่างมากของการทดสอบตามลำดับเหตุใดจึงไม่ใช้กันอย่างแพร่หลายมากขึ้น มีข้อเสียเปรียบที่เกี่ยวข้องกับการใช้วิธีการตามลำดับซึ่งหมายความว่าการใช้งานโดยผู้ที่ไม่ใช่นักสถิติจะต้องหมดกำลังใจหรือไม่? นักเรียนสถิติสอนเกี่ยวกับขั้นตอนการทดสอบตามลำดับหรือไม่

2
เหตุใดยอดสูงสุดของสะพานบราวเนียนจึงมีการกระจาย Kolmogorov – Smirnov?
การกระจาย Kolmogorov-Smirnov เป็นที่รู้จักจากการทดสอบ Kolmogorov-Smirnov อย่างไรก็ตามมันยังเป็นการกระจายของยอดสูงสุดของสะพานบราวเนียน เนื่องจากสิ่งนี้ไม่ชัดเจน (สำหรับฉัน) ฉันจึงขอให้คุณอธิบายอย่างง่าย ๆ เกี่ยวกับความบังเอิญนี้ ยินดีต้อนรับการอ้างอิงยัง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.