สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ทฤษฎีขีด จำกัด กลางกับกฎหมายจำนวนมาก
ทฤษฎีบทขีด จำกัด กลางระบุว่าค่าเฉลี่ยของตัวแปร iid เมื่อไปไม่มีที่สิ้นสุดจะแจกแจงแบบปกติNNN สิ่งนี้ทำให้เกิดคำถามสองข้อ: เราสามารถอนุมานกฎของคนจำนวนมากได้หรือไม่? หากกฎหมายจำนวนมากกล่าวว่าค่าเฉลี่ยของกลุ่มตัวอย่างของค่าตัวแปรสุ่มที่เท่ากับที่แท้จริงหมายถึงเป็นไปที่อินฟินิตี้แล้วมันดูเหมือนว่าแข็งแกร่งยิ่งขึ้นที่จะบอกว่า (ขณะที่เซ็นทรัล จำกัด กล่าวว่า) ว่าค่าที่จะกลายเป็นโดยที่คือส่วนเบี่ยงเบนมาตรฐาน มันยุติธรรมแล้วหรือที่จะบอกว่าขีด จำกัด กลางแสดงถึงกฎหมายจำนวนมาก?μμ\muNNNN(μ,σ)N(μ,σ)\mathcal N(\mu, \sigma)σσ\sigma ทฤษฎีขีด จำกัด กลางใช้กับชุดค่าผสมเชิงเส้นของตัวแปรหรือไม่?

4
การประมาณจุดพักในตัวแบบเชิงเส้นแท่ง / เศษชิ้นส่วนที่มีเอฟเฟกต์แบบสุ่มใน R [รวมรหัสและเอาท์พุท]
ใครช่วยบอกฉันหน่อยได้ไหมว่าจะให้ R ประมาณจุดแตกหักในแบบจำลองเชิงเส้นแบบต่อเนื่อง (เป็นพารามิเตอร์คงที่หรือแบบสุ่ม) เมื่อฉันต้องประมาณผลกระทบแบบสุ่มอื่น ๆ ด้วยหรือไม่ ฉันได้รวมตัวอย่างของเล่นด้านล่างที่เหมาะกับไม้ฮอกกี้ / การถดถอยแบบแท่งหักด้วยความแปรปรวนแบบสุ่มและความแปรปรวนแบบสุ่มตัดแกน y สำหรับจุดพักที่ 4 ฉันต้องการประเมินจุดพักแทนการระบุ มันอาจเป็นผลแบบสุ่ม (ดีกว่า) หรือผลคงที่ library(lme4) str(sleepstudy) #Basis functions bp = 4 b1 <- function(x, bp) ifelse(x < bp, bp - x, 0) b2 <- function(x, bp) ifelse(x < bp, 0, x - bp) #Mixed effects model with …

8
วิธีการถดถอยเชิงเส้นทีละน้อยพร้อมปมที่ไม่รู้จักหลายวิธี
มีแพ็คเกจใดบ้างที่ต้องทำการถดถอยเชิงเส้นแบบทีละชิ้น ขอบคุณ เมื่อฉันใช้แพคเกจ Strucchange ฉันตรวจไม่พบจุดเปลี่ยนแปลง ฉันไม่รู้ว่ามันตรวจจับจุดเปลี่ยนได้อย่างไร จากแปลงฉันเห็นว่ามีหลายจุดที่ฉันต้องการมันช่วยให้ฉันเลือกพวกมันออกมาได้ ใครช่วยยกตัวอย่างที่นี่ได้ไหม

1
ANOVA คำนวณอย่างไรสำหรับการออกแบบการวัดซ้ำ: aov () vs lm () ใน R
ชื่อกล่าวมันทั้งหมดและฉันสับสน ต่อไปนี้ใช้มาตรการ aov () ซ้ำในอาร์และเรียกใช้สิ่งที่ฉันคิดว่าเป็นการเรียก lm () เทียบเท่า แต่พวกเขากลับค่าความผิดพลาดที่แตกต่างกัน (แม้ว่าจำนวนสแควร์สจะเท่ากัน) เห็นได้ชัดว่าค่าตกค้างและค่าติดตั้งจาก aov () เป็นค่าที่ใช้ในแบบจำลองเนื่องจากผลรวมของกำลังสองของพวกเขารวมกันในแต่ละรูปแบบ / ผลรวมที่เหลือของกำลังสองที่รายงานโดยสรุป (my.aov) ดังนั้นโมเดลเชิงเส้นจริงที่ใช้กับการออกแบบการวัดซ้ำคืออะไร set.seed(1) # make data frame, # 5 participants, with 2 experimental factors, each with 2 levels # factor1 is A, B # factor2 is 1, 2 DF <- data.frame(participant=factor(1:5), A.1=rnorm(5, 50, 20), …

4
จะเริ่มอ่านเกี่ยวกับ data mining ได้อย่างไร?
ฉันเป็นสามเณรที่จะเริ่มอ่านเกี่ยวกับการขุดข้อมูล ฉันมีความรู้พื้นฐานเกี่ยวกับ AI และสถิติ เนื่องจากหลายคนกล่าวว่าการเรียนรู้ของเครื่องจักรก็มีบทบาทสำคัญในการขุดข้อมูลด้วยเช่นกันจำเป็นต้องอ่านเกี่ยวกับการเรียนรู้ของเครื่องก่อนที่ฉันจะสามารถทำการขุดข้อมูลได้หรือไม่?

4
k-หมายถึงการใช้งานกับเมทริกซ์ระยะทางที่กำหนดเองในอินพุต
ทุกคนสามารถชี้ให้ฉันเห็นการใช้งาน k- หมายถึง (มันจะดีกว่าถ้าใน MATLAB) ที่สามารถใช้เมทริกซ์ระยะทางในการป้อนข้อมูล? การใช้งานมาตรฐาน MATLAB ต้องใช้เมทริกซ์การสังเกตในอินพุตและไม่สามารถเปลี่ยนการวัดความคล้ายคลึงกันได้

3
จะคำนวณความน่าจะเป็นที่เกี่ยวข้องกับคะแนน Z ขนาดใหญ่อย่างไร้เหตุผลได้อย่างไร
แพคเกจซอฟต์แวร์สำหรับการตรวจจับแรงจูงใจเครือข่ายสามารถให้คะแนน Z สูงมาก (สูงสุดที่ฉันเคยเห็นคือ 600,000+ แต่คะแนน Z มากกว่า 100 นั้นเป็นเรื่องธรรมดา) ฉันวางแผนที่จะแสดงว่าคะแนน Z เหล่านี้เป็นของปลอม คะแนน Z ขนาดใหญ่สอดคล้องกับความน่าจะเป็นที่ต่ำมาก ค่าของความน่าจะเป็นที่เกี่ยวข้องจะได้รับเช่นหน้าแจกวิกิพีเดียตามปกติ (และอาจเป็นตำราสถิติทุกเล่ม) สำหรับคะแนน Z ถึง 6 ดังนั้น ... คำถาม : เราคำนวณฟังก์ชันข้อผิดพลาดได้อย่างไรสำหรับ n มากถึง 1,000,000 พูด?1−erf(n/2–√)1−erf(n/2)1-\mathrm{erf}(n/\sqrt{2}) ฉันโดยเฉพาะอย่างยิ่งหลังจากแพคเกจที่ใช้งานแล้วสำหรับนี้ (ถ้าเป็นไปได้) สิ่งที่ดีที่สุดที่ฉันเคยพบคือ WolframAlpha ซึ่งสามารถคำนวณได้สำหรับ n = 150 ( ที่นี่ )

1
ทำไมความสัมพันธ์จึงยากนักในสถิติที่ไม่มีพารามิเตอร์
ข้อความที่ไม่ใช่พารามิเตอร์ของฉัน, สถิติ Nonparametric เชิงปฏิบัติของฉันมักจะให้สูตรที่สะอาดสำหรับการคาดหวังความแปรปรวนสถิติการทดสอบและสิ่งที่คล้ายกัน แต่รวมถึงข้อแม้ที่ใช้งานได้เฉพาะถ้าเราไม่สนใจความสัมพันธ์ เมื่อทำการคำนวณสถิติ Mann-Whitney U ขอแนะนำให้คุณโยนคู่ที่ผูกเมื่อเปรียบเทียบซึ่งใหญ่กว่า ฉันได้รับความสัมพันธ์นั้นไม่ได้บอกอะไรเราจริงๆเกี่ยวกับประชากรที่ใหญ่กว่า (ถ้านั่นคือสิ่งที่เราสนใจ) เนื่องจากไม่มีกลุ่มใดที่ใหญ่กว่ากลุ่มอื่น ๆ แต่ดูเหมือนว่ามันจะไม่สำคัญสำหรับการพัฒนาการแจกแจงแบบเชิงกำกับ ทำไมจึงเป็นเช่นนี้ความไม่แน่นอนในการจัดการความสัมพันธ์ในขั้นตอนที่ไม่ใช่พารามิเตอร์บางอย่าง? มีวิธีการดึงข้อมูลที่เป็นประโยชน์ใด ๆ จากความสัมพันธ์มากกว่าเพียงแค่ทิ้งพวกเขาไปหรือไม่? แก้ไข: ในส่วนที่เกี่ยวกับความเห็นของ @ whuber ฉันได้ตรวจสอบแหล่งที่มาของฉันอีกครั้งและบางขั้นตอนใช้ค่าเฉลี่ยของอันดับแทนที่จะลดค่าที่ผูกไว้อย่างสมบูรณ์ ในขณะนี้ดูเหมือนจะมีเหตุผลมากขึ้นในการอ้างอิงถึงการเก็บรักษาข้อมูล แต่สำหรับฉันแล้วมันก็ยังขาดความแม่นยำเช่นกัน อย่างไรก็ตามจิตวิญญาณของคำถามยังคงอยู่

4
การคำนวณ AUPR ใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน8 เดือนที่ผ่านมา มันง่ายที่จะหาแพคเกจการคำนวณพื้นที่ภายใต้ ROC แต่มีแพคเกจที่คำนวณพื้นที่ภายใต้เส้นโค้งการเรียกคืนความแม่นยำหรือไม่?

2
ใครบางคนสามารถแยกแสงกับเอฟเฟกต์แบบเชิงเส้นตรงและแบบไม่เชิงเส้นได้
ฉันกำลังจะดำน้ำในการเรียนรู้ R และโครงการการเรียนรู้ของฉันจะนำมาซึ่งการประยุกต์ใช้การถดถอยแบบผสมหรือแบบสุ่มกับชุดข้อมูลเพื่อพัฒนาสมการพยากรณ์ ฉันแบ่งปันความกังวลของนักเขียนในโพสต์นี้ วิธีการเลือกไลบรารี nlme หรือ lme4 R สำหรับโมเดลเอฟเฟกต์ผสม? ในการสงสัยว่า NLME หรือ LME4 เป็นแพ็คเกจที่ดีกว่าที่จะทำความคุ้นเคยกับ คำถามพื้นฐานเพิ่มเติมคืออะไรคือความแตกต่างระหว่างการสร้างโมเดลเอฟเฟกต์แบบเชิงเส้นและไม่เชิงเส้น สำหรับพื้นหลังฉันใช้การสร้างแบบจำลอง ME ในการวิจัย MS ของฉัน (ใน MATLAB ไม่ใช่ R) ดังนั้นฉันจึงคุ้นเคยกับวิธีปฏิบัติกับตัวแปรสุ่มและแบบคงที่ แต่ฉันไม่แน่ใจว่างานที่ฉันทำนั้นถือว่าเป็นเชิงเส้นหรือไม่เชิงเส้นฉัน มันเป็นเพียงรูปแบบการทำงานของสมการที่ใช้หรืออย่างอื่น?

3
การประมาณขนาดประชากรจากความถี่ของรายการซ้ำและตัวอย่างที่ไม่ซ้ำกัน
มีบริการบนเว็บที่ฉันสามารถขอข้อมูลเกี่ยวกับรายการแบบสุ่ม สำหรับทุกคำขอแต่ละรายการมีโอกาสเท่ากับการส่งคืน ฉันสามารถขอรายการและบันทึกจำนวนรายการซ้ำและไม่ซ้ำกันได้ ฉันจะใช้ข้อมูลนี้เพื่อประมาณจำนวนรายการทั้งหมดได้อย่างไร

1
เมทริกซ์การกระจายทั้งหมด (ภายในคลาส + ระหว่างคลาส)
ฉันเล่นซอกับวิธี PCA และ LDA และฉันติดอยู่ที่จุดหนึ่งฉันรู้สึกว่ามันง่ายมากจนฉันมองไม่เห็น เมทริกการกระจายแบบกระจายภายในคลาส ( ) และระหว่างคลาส ( ) ถูกกำหนดเป็น:S BSWSWS_WSBSBS_B SW=∑i=1C∑t=1N(xit−μi)(xit−μi)TSW=∑i=1C∑t=1N(xti−μi)(xti−μi)T S_W = \sum_{i=1}^C\sum_{t=1}^N(x_t^i - \mu_i)(x_t^i - \mu_i)^T SB=∑i=1CN(μi−μ)(μi−μ)TSB=∑i=1CN(μi−μ)(μi−μ)T S_B = \sum_{i=1}^CN(\mu_i-\mu)(\mu_i-\mu)^T เมทริกซ์การกระจายทั้งหมดถูกกำหนดเป็น:STSTS_T ST= ∑i = 1คΣt = 1ยังไม่มีข้อความ( xผมเสื้อ- μ ) ( xผมเสื้อ- μ )T= SW+ SBST=∑i=1C∑t=1N(xti−μ)(xti−μ)T=SW+SB S_T = \sum_{i=1}^C\sum_{t=1}^N(x_t^i - \mu)(x_t^i - \mu)^T = S_W …


3
ความแตกต่างระหว่างการใช้ aov () และ lme () ในการวิเคราะห์ชุดข้อมูลระยะยาวคืออะไร?
ใครสามารถบอกฉันถึงความแตกต่างระหว่างการใช้aov()และlme()การวิเคราะห์ข้อมูลระยะยาวและวิธีการตีความผลลัพธ์จากทั้งสองวิธีได้หรือไม่ ด้านล่างผมวิเคราะห์ชุดข้อมูลเดียวกันโดยใช้aov()และlme()และได้ผลที่แตกต่างกัน 2 ด้วยaov()ฉันได้รับผลอย่างมีนัยสำคัญในเวลาโดยการโต้ตอบการรักษา แต่เหมาะสมกับรูปแบบการผสมเชิงเส้นเวลาโดยการโต้ตอบการรักษาไม่สำคัญ > UOP.kg.aov <- aov(UOP.kg~time*treat+Error(id), raw3.42) > summary(UOP.kg.aov) Error: id Df Sum Sq Mean Sq F value Pr(>F) treat 1 0.142 0.1421 0.0377 0.8471 Residuals 39 147.129 3.7725 Error: Within Df Sum Sq Mean Sq F value Pr(>F) time 1 194.087 194.087 534.3542 < 2e-16 *** …

2
ตัวแบบสำหรับการประมาณความหนาแน่นของประชากร
ฐานข้อมูลของ (ประชากรพื้นที่รูปร่าง) สามารถใช้ในการทำแผนที่ความหนาแน่นของประชากรโดยกำหนดค่าคงที่ของประชากร / พื้นที่ให้กับแต่ละรูปร่าง อย่างไรก็ตามประชากรมักไม่กระจายอย่างสม่ำเสมอภายในรูปหลายเหลี่ยม การทำแผนที่ Dasymetricเป็นกระบวนการของการปรับการประเมินความหนาแน่นเหล่านี้โดยใช้ข้อมูลเสริม มันเป็นปัญหาที่สำคัญในสังคมศาสตร์ตามที่รีวิวล่าสุดระบุ สมมติว่าเรามีแผนที่เสริมของที่ดินปกคลุม (หรือปัจจัยอื่นใดที่ไม่ต่อเนื่อง) ในกรณีที่ง่ายที่สุดเราสามารถใช้พื้นที่ที่ไม่สามารถอยู่อาศัยได้อย่างเห็นได้ชัดเช่นแหล่งน้ำเพื่อแยกแยะว่าประชากรไม่ได้อยู่ที่ใดและกำหนดประชากรทั้งหมดให้กับพื้นที่ที่เหลือ โดยทั่วไปแต่ละหน่วยสำรวจสำมะโนประชากรของจะแกะสลักเป็นkส่วนมีพื้นที่ผิวx J ฉัน , ฉัน= 1 , 2 , ... , k ชุดข้อมูลของเราจะถูกเพิ่มเข้าไปในรายการของ tuplesJjjkkkxJ ฉันxjix_{ji}i = 1 , 2 , … , ki=1,2,…,ki = 1, 2, \ldots, k ( yJ, xj 1, xj 2, … , xj k)(yj,xj1,xj2,…,xjk)(y_{j}, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.