สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ตารางฉุกเฉิน: การทดสอบจะทำอย่างไรและเมื่อไหร่?
ฉันต้องการที่จะเห็นส่วนขยายของการอภิปรายของการอภิปรายทดสอบไคส์สแควร์และฟิชเชอร์ที่แน่นอนขึ้นโดยขยายขอบเขตออกไปเล็กน้อย มีการทดสอบมากมายสำหรับการโต้ตอบในตารางฉุกเฉินเพียงพอที่จะทำให้หัวของฉันหมุน ฉันหวังว่าจะได้รับคำอธิบายเกี่ยวกับการทดสอบที่ฉันควรใช้และเมื่อใดและแน่นอนว่าคำอธิบายว่าทำไมการทดสอบหนึ่งควรจะดีกว่าอีกการทดสอบหนึ่ง ปัญหาปัจจุบันของฉันคือกรณีคลาสสิกแต่คำตอบเกี่ยวกับมิติที่สูงกว่ายินดีต้อนรับเช่นเดียวกับเคล็ดลับสำหรับการดำเนินการแก้ปัญหาต่าง ๆ ใน R อย่างน้อยในกรณีที่ไม่ชัดเจนว่าจะดำเนินการอย่างไรn × mn×ม.n \times m ด้านล่างนี้เป็นรายการการทดสอบทั้งหมดที่ฉันรู้ ฉันหวังว่าด้วยการเปิดเผยข้อผิดพลาดของฉันพวกเขาสามารถแก้ไขได้ χ2χ2\chi^2 2 เครื่องแสตนด์บายเก่า มีสามตัวเลือกที่สำคัญที่นี่: การแก้ไขที่สร้างขึ้นใน R สำหรับตาราง 2x2: "ครึ่งหนึ่งถูกลบออกจากทั้งหมดความแตกต่าง" ฉันควรทำสิ่งนี้ตลอดเวลาหรือไม่?| O-E||O-E||O-E| การทดสอบ " "ไม่แน่ใจว่าจะทำอย่างไรใน Rยังไม่มีข้อความ- 1ยังไม่มีข้อความ-1N-1χ2χ2\chi^2 การจำลอง Monte Carlo สิ่งนี้ดีที่สุดเสมอหรือ ทำไม R ไม่ให้ df กับฉันเมื่อฉันทำสิ่งนี้? การทดสอบที่แน่นอนฟิชเชอร์ โดยทั่วไปแล้วเมื่อเซลล์ใดคาดว่าจะ <4 แต่เห็นได้ชัดว่ามีข้อโต้แย้งบางอย่างสำหรับคำแนะนำนี้ สมมติฐาน (มักเป็นเท็จ) ว่าระยะขอบได้รับการแก้ไขแล้วเป็นปัญหาที่ใหญ่ที่สุดในการทดสอบนี้หรือไม่? การทดสอบที่แน่นอนของ Barnard การทดสอบอื่นที่แน่นอนยกเว้นฉันไม่เคยได้ยินมาก่อน การถดถอยปัวซอง …

2
ฉันจะตีความการถดถอยของฉันด้วยตัวแปรที่แตกต่างแรกได้อย่างไร
ฉันมีสองชุดเวลา: พร็อกซีสำหรับพรีเมี่ยมความเสี่ยงด้านตลาด (ERP; สายสีแดง) อัตราปลอดความเสี่ยงโดยพันธบัตรรัฐบาล (เส้นสีน้ำเงิน) ฉันต้องการทดสอบว่าอัตราที่ปราศจากความเสี่ยงสามารถอธิบาย ERP ได้หรือไม่ ด้วยเหตุนี้ฉันจึงปฏิบัติตามคำแนะนำของ Tsay (2010, รุ่นที่ 3, หน้า 96): ซีรี่ส์เวลาทางการเงิน: จัดวางโมเดลการถดถอยเชิงเส้นและตรวจสอบความสัมพันธ์แบบอนุกรมของส่วนที่เหลือ หากซีรี่ย์ที่เหลือเป็นหน่วยที่ไม่ใช่ความแปรปรวนของรูทยูนิตให้รับความแตกต่างแรกของตัวแปรที่ขึ้นอยู่กับและอธิบาย ทำขั้นตอนแรกฉันได้รับผลลัพธ์ต่อไปนี้: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.77019 0.25103 26.97 <2e-16 *** Risk_Free_Rate -0.65320 0.04123 -15.84 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

5
มาตรการความคล้ายคลึงกันระหว่างเส้นโค้ง?
ฉันต้องการคำนวณการวัดความคล้ายคลึงกันระหว่างชุดคะแนนที่สั่งสองชุด --- ชุดที่อยู่ภายใต้ผู้ใช้เปรียบเทียบกับชุดที่อยู่ภายใต้ครู : ประเด็นคือเส้นโค้งในพื้นที่ 3 มิติ แต่ฉันคิดว่าปัญหาจะง่ายขึ้นถ้าฉันพล็อตมันเป็น 2 มิติเหมือนในภาพ หากคะแนนทับซ้อนกันความคล้ายคลึงควรเป็น 100%

2
ลดความซับซ้อนของผลรวมของการรวมกันด้วย n เดียวกันค่าที่เป็นไปได้ทั้งหมดของ k
มีวิธีทำให้สมการนี้ง่ายขึ้นหรือไม่? (81)+(82)+(83)+(84)+(85)+(86)+(87)+(88)(81)+(82)+(83)+(84)+(85)+(86)+(87)+(88)\dbinom{8}{1} + \dbinom{8}{2} + \dbinom{8}{3} + \dbinom{8}{4} + \dbinom{8}{5} + \dbinom{8}{6} + \dbinom{8}{7} + \dbinom{8}{8} หรือมากกว่าโดยทั่วไป ∑k=1n(nk)∑k=1n(nk)\sum_{k=1}^{n}\dbinom{n}{k}

2
วิธีทำโมเดลเชิงเส้นทั่วไปที่มีตัวแปรตามหลายตัวใน R?
ฉันมีตัวแปรตามหกตัว (นับข้อมูล) และตัวแปรอิสระหลายตัวฉันเห็นว่าใน MMR สคริปต์จะเป็นดังนี้: my.model <- lm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn) แต่เนื่องจากข้อมูลของฉันมีการนับฉันต้องการใช้โมเดลเชิงเส้นแบบทั่วไปและฉันลองทำสิ่งนี้: my.model <- glm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn, family="poisson") และปรากฏข้อความข้อผิดพลาดนี้: Error in glm.fit(x = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, …

3
การเปรียบเทียบผลลัพธ์ความแม่นยำของลักษณนามสองตัวสำหรับนัยสำคัญทางสถิติกับการทดสอบ t
ฉันต้องการเปรียบเทียบความแม่นยำของตัวแยกประเภทสองตัวสำหรับนัยสำคัญทางสถิติ ตัวแยกประเภททั้งสองทำงานในชุดข้อมูลเดียวกัน นำไปสู่การนี้ผมที่จะเชื่อว่าฉันควรจะใช้ตัวอย่างหนึ่ง t-test จากสิ่งที่ฉันได้รับการอ่าน ตัวอย่างเช่น: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 นี่เป็นการทดสอบที่ถูกต้องที่จะใช้หรือไม่? ถ้าเป็นเช่นนั้นฉันจะคำนวณได้อย่างไรว่าความแตกต่างของความแม่นยำระหว่างลักษณนามมีความสำคัญ หรือฉันควรใช้การทดสอบอื่น?

1
พารามิเตอร์อินพุตสำหรับการใช้การจัดสรร Dirichlet แฝง
เมื่อใช้การสร้างหัวข้อ (Latent Dirichlet Allocation) จำนวนหัวข้อคือพารามิเตอร์อินพุตที่ผู้ใช้ต้องระบุ ฉันคิดว่าเราควรจะมีชุดหัวข้อผู้สมัครที่กระบวนการ Dirichlet มีตัวอย่าง ความเข้าใจของฉันถูกต้องหรือไม่ ในทางปฏิบัติจะตั้งค่าหัวข้อผู้สมัครประเภทนี้ได้อย่างไร

4
คำศัพท์เกี่ยวกับข้อผิดพลาดของโมเดลค่าเฉลี่ยเคลื่อนที่
นี่เป็นคำถามพื้นฐานสำหรับรุ่น Box-Jenkins MA ตามที่ผมเข้าใจแบบจำลอง MA เป็นพื้นถดถอยเชิงเส้นของอนุกรมเวลาค่าที่YYYกับก่อนหน้านี้เงื่อนไขข้อผิดพลาดet,...,et−net,...,et−ne_t,..., e_{t-n} n นั่นคือการสังเกตYYYจะถดถอยครั้งแรกกับค่าก่อนหน้านี้Yt−1,...,Yt−nYt−1,...,Yt−nY_{t-1}, ..., Y_{t-n}แล้วหนึ่งหรือมากกว่าY−Y^Y−Y^Y - \hat{Y}ค่าจะถูกใช้เป็นเงื่อนไขข้อผิดพลาดสำหรับรุ่นซาชูเซตส์ แต่ข้อผิดพลาดถูกคำนวณในรูปแบบ ARIMA (0, 0, 2) อย่างไร หากใช้โมเดล MA โดยไม่มีชิ้นส่วนตอบรับอัตโนมัติและไม่มีค่าโดยประมาณฉันจะมีคำผิดได้อย่างไร

5
วิธีที่รวดเร็วในการค้นหา metaparameters ที่ดีที่สุดของ SVM (เร็วกว่าการค้นหาแบบกริด)
ฉันใช้โมเดล SVM เพื่อทำการพยากรณ์ระยะสั้นของมลพิษทางอากาศ ในการฝึกอบรมโมเดลใหม่ฉันต้องการค้นหาพารามิเตอร์ที่เหมาะสมสำหรับโมเดล SVM (ฉันหมายถึง C, แกมม่าและอื่น ๆ ) เอกสาร Libsvm (และหนังสืออื่น ๆ อีกมากมายที่ฉันได้อ่าน) แนะนำให้ใช้การค้นหากริดเพื่อค้นหาพารามิเตอร์เหล่านี้ - ดังนั้นโดยทั่วไปฉันจะฝึกแบบจำลองสำหรับการรวมกันของพารามิเตอร์เหล่านี้จากชุดที่กำหนดและเลือกแบบจำลองที่ดีที่สุด มีวิธีใดที่ดีกว่าในการหา metaparameters ที่ดีที่สุด (หรือใกล้เคียงที่สุด)? สำหรับฉันแล้วมันเป็นเรื่องของเวลาในการคำนวณ - การค้นหากริดหนึ่งครั้งของปัญหานี้ใช้เวลาประมาณสองชั่วโมง (หลังจากที่ฉันทำการปรับให้เหมาะสมแล้ว) ข้อดีของการค้นหากริด: มันสามารถทำให้ขนานได้ง่าย - ถ้าคุณมี 20 CPU มันจะทำงานเร็วขึ้น 20 เท่าการขนานวิธีอื่นยากกว่า คุณตรวจสอบพื้นที่ส่วนใหญ่ของ metaparameter ดังนั้นหากมีทางออกที่ดีคุณจะพบว่า

4
ยืนยันการกระจายตัวของสารตกค้างในการถดถอยเชิงเส้น
สมมติว่าเราใช้การถดถอยเชิงเส้นอย่างง่ายบันทึกเศษเหลือ^ u iและวาดฮิสโตแกรมของการกระจายตัวของเศษซาก หากเราได้สิ่งที่ดูเหมือนการแจกแจงที่คุ้นเคยเราสามารถสันนิษฐานได้ว่าข้อผิดพลาดของเรามีการกระจายตัวนี้หรือไม่? สมมติว่าถ้าเราพบว่าเศษเหลือคล้ายการแจกแจงแบบปกติมันสมเหตุสมผลหรือไม่ที่จะถือว่าความเป็นบรรทัดฐานของคำผิดพลาดในประชากร? ฉันคิดว่ามันสมเหตุสมผล แต่จะเป็นธรรมได้อย่างไรy=β0+β1x+uY=β0+β1x+ยูy=\beta_0+\beta_1x+uui^ยูผม^\hat{u_i}

1
ช่วงความเชื่อมั่นที่ใช้ Bootstrap
ในขณะที่ศึกษาช่วงความเชื่อมั่นตาม bootstrap ฉันเคยอ่านข้อความต่อไปนี้: หากการกระจายบูทสแตรปเอียงไปทางขวาช่วงความมั่นใจตามบู๊ตสแตรปจะรวมการแก้ไขเพื่อย้ายจุดสิ้นสุดแม้อยู่ไกลไปทางขวา สิ่งนี้อาจดูขัดกับความเป็นจริง แต่เป็นการกระทำที่ถูกต้อง ฉันพยายามที่จะเข้าใจตรรกะที่อยู่ภายใต้ข้อความข้างต้น

3
ค่าสูงสุดของสัมประสิทธิ์การแปรผันสำหรับชุดข้อมูลที่มีขอบเขต
ในการอภิปรายทำตามคำถามล่าสุดเกี่ยวกับว่าส่วนเบี่ยงเบนมาตรฐานสามารถสูงกว่าค่าเฉลี่ยได้หรือไม่คำถามหนึ่งถูกยกให้สั้น ๆ แต่ไม่เคยตอบอย่างสมบูรณ์ ดังนั้นฉันถามมันที่นี่ พิจารณาชุดของnnnตัวเลขไม่ติดลบ xixix_iที่0≤xi≤c0≤xi≤c0 \leq x_i \leq cสำหรับ1≤i≤n1≤i≤n1 \leq i \leq n n ไม่จำเป็นต้องให้xixix_iแตกต่างนั่นคือเซตอาจเป็นหลายเซ็ต ค่าเฉลี่ยและความแปรปรวนของชุดถูกกำหนดเป็น x¯=1n∑i=1nxi, σ2x=1n∑i=1n(xi−x¯)2=(1n∑i=1nx2i)−x¯2x¯=1n∑i=1nxi, σx2=1n∑i=1n(xi−x¯)2=(1n∑i=1nxi2)−x¯2\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2 และค่าเบี่ยงเบนมาตรฐานคือσxσx\sigma_xx โปรดทราบว่าชุดของตัวเลขไม่ใช่ตัวอย่างจากประชากรและเราไม่ได้ประมาณค่าเฉลี่ยประชากรหรือความแปรปรวนของประชากร คำถามคือ: ค่าสูงสุดของσ xคืออะไรσxx¯σxx¯\dfrac{\sigma_x}{\bar{x}}สัมประสิทธิ์ของการเปลี่ยนแปลงมากกว่าตัวเลือกทั้งหมดของxixix_i's ในช่วง[0,c][0,c][0,c]? ค่าสูงสุดที่ฉันสามารถหาได้สำหรับσxx¯σxx¯\frac{\sigma_x}{\bar{x}}คือn−1−−−−−√n−1\sqrt{n-1} ซึ่งทำได้เมื่อn−1n−1n-1ของxixix_iมีค่า000และส่วนที่เหลือ (นอก)xixix_i มีค่าccc, ให้ แต่นี่ไม่ได้ขึ้นอยู่กับcเลยและฉันสงสัยว่าถ้าค่าที่มากขึ้นอาจขึ้นอยู่กับทั้งnและcสามารถทำได้x¯=cn, 1n∑x2i=c2n⇒σx=c2n−c2n2−−−−−−−√=cnn−1−−−−−√.x¯=cn, 1n∑xi2=c2n⇒σx=c2n−c2n2=cnn−1.\bar{x} = …

1
วิธีแสดงว่าตัวประมาณมีความสอดคล้องกันอย่างไร
มันเพียงพอที่จะแสดงให้เห็นว่า MSE = 0 เป็นn→∞n→∞n\rightarrow\infty ? ฉันยังอ่านบางสิ่งเกี่ยวกับ plim ในบันทึกของฉันด้วย ฉันจะค้นหา plim และใช้เพื่อแสดงว่าตัวประมาณมีความสอดคล้องกันได้อย่างไร

3
สัมประสิทธิ์ตามเวลาใน R - จะทำอย่างไร?
อัปเดต : ขออภัยสำหรับการอัปเดตอื่น แต่ฉันพบวิธีแก้ปัญหาที่เป็นไปได้ด้วยพหุนามเศษส่วนและแพ็คเกจเสี่ยงการแข่งขันที่ฉันต้องการความช่วยเหลือ ปัญหา ฉันไม่สามารถหาวิธีง่าย ๆ ในการวิเคราะห์ค่าสัมประสิทธิ์เวลาได้ใน R ฉันต้องการให้สามารถใช้สัมประสิทธิ์ตัวแปรของฉันและทำมันเป็นค่าสัมประสิทธิ์ขึ้นอยู่กับเวลา (ไม่ใช่ตัวแปร) แล้วพล็อตการเปลี่ยนแปลงกับเวลา: βม. Y_ v a r i a b l e= β0+ β1∗ t + β2∗ t2. . .βม.Y_โวลต์aRผมaขล.อี=β0+β1* * * *เสื้อ+β2* * * *เสื้อ2...\beta_{my\_variable}=\beta_0+\beta_1*t+\beta_2*t^2... การแก้ปัญหาที่เป็นไปได้ 1) การแยกชุดข้อมูล ฉันได้ดูตัวอย่างนี้ (Se ส่วนที่ 2 ของเซสชันแล็บ) แต่การสร้างชุดข้อมูลแยกต่างหากดูเหมือนซับซ้อนซับซ้อนคำนวณค่าใช้จ่ายและไม่ง่ายมาก ... 2) Reduced Rank models …

5
ค่าเฉลี่ยตัวแปรสุ่มแบบตัวแปรไม่แปรจะเท่ากับจำนวนอินทิกรัลของฟังก์ชันควอไทล์เสมอหรือไม่?
ฉันเพิ่งสังเกตเห็นว่าการรวมฟังก์ชั่นควอไทล์ของตัวแปรสุ่ม (ตัวแปรผกผัน cdf) แบบ univariate จาก p = 0 ถึง p = 1 ทำให้เกิดค่าเฉลี่ยของตัวแปร ฉันไม่เคยได้ยินความสัมพันธ์นี้มาก่อนดังนั้นฉันจึงสงสัยว่า: เป็นเช่นนี้เสมอหรือไม่ ถ้าเป็นเช่นนั้นความสัมพันธ์นี้เป็นที่รู้จักกันอย่างกว้างขวาง? นี่คือตัวอย่างในไพ ธ อน: from math import sqrt from scipy.integrate import quad from scipy.special import erfinv def normalPdf(x, mu, sigma): return 1.0 / sqrt(2.0 * pi * sigma**2.0) * exp(-(x - mu)**2.0 / (2.0 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.