สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
การทำนายในการถดถอยแบบค็อกซ์
ฉันกำลังทำการถดถอยหลายตัวแปร Cox ฉันมีตัวแปรอิสระที่สำคัญและค่าเบต้า รูปแบบเหมาะสมกับข้อมูลของฉันได้เป็นอย่างดี ตอนนี้ฉันต้องการใช้แบบจำลองของฉันและทำนายความอยู่รอดของการสังเกตใหม่ ฉันไม่ชัดเจนว่าจะทำอย่างไรกับโมเดล Cox ในการถดถอยเชิงเส้นหรือแบบลอจิสติกมันจะง่ายเพียงแค่ใส่ค่าของการสังเกตใหม่ลงในการถดถอยและทวีคูณพวกมันด้วยเบตาดังนั้นผมจึงมีการทำนายผล ฉันจะตัดสินอันตรายพื้นฐานของฉันได้อย่างไร ฉันต้องการมันนอกเหนือจากการคำนวณการทำนาย สิ่งนี้ทำในรูปแบบ Cox ได้อย่างไร?

2
การระบุตัวแบบคืออะไร
ฉันรู้ว่าด้วยตัวแบบที่ไม่สามารถระบุตัวตนได้ข้อมูลสามารถกล่าวได้ว่าถูกสร้างขึ้นโดยการกำหนดค่าพารามิเตอร์แบบจำลองที่แตกต่างกันหลายอย่าง ฉันรู้ว่าบางครั้งเป็นไปได้ที่จะ จำกัด พารามิเตอร์เพื่อให้สามารถระบุตัวตนได้ดังตัวอย่างใน Cassella & Berger 2nd ed, หัวข้อ 11.2 จากรูปแบบเฉพาะฉันจะประเมินได้อย่างไรว่าสามารถระบุตัวตนได้หรือไม่

9
ความสัมพันธ์ระหว่าง
ความสัมพันธ์ระหว่างและในโครงเรื่องต่อไปนี้คืออะไร? ในมุมมองของฉันมีความสัมพันธ์เชิงเส้นเชิงลบ แต่เนื่องจากเรามีค่าผิดจำนวนมากความสัมพันธ์จึงอ่อนมาก ฉันถูกไหม? ฉันต้องการเรียนรู้วิธีที่เราสามารถอธิบายแผนการกระจายXYYYXXX

7
มีเบราว์เซอร์ / ตัวแสดงที่ดีในการดูชุดข้อมูล R (ไฟล์. rda) หรือไม่
ฉันต้องการเรียกดูไฟล์. rda (ชุดข้อมูล R) ฉันรู้เกี่ยวกับView(datasetname)คำสั่ง R.app เริ่มต้นที่มาสำหรับ Mac ไม่มีเบราว์เซอร์ที่ดีมากสำหรับข้อมูล (เปิดหน้าต่างใน X11) ฉันชอบเบราว์เซอร์ข้อมูล RStudio ที่เปิดด้วยViewคำสั่ง อย่างไรก็ตามมันจะแสดงเพียง 1,000 แถวและละเว้นส่วนที่เหลือ ( อัพเดท: ตอนนี้โปรแกรมดู RStudio จะแสดงแถวทั้งหมด ) มีเบราว์เซอร์ที่ดีที่จะแสดงแถวทั้งหมดในชุดข้อมูลและคุณชอบ / ใช้
38 r 

4
สถิติการสั่งซื้อโดยประมาณสำหรับตัวแปรสุ่มปกติ
มีสูตรที่รู้จักกันดีสำหรับสถิติการสั่งซื้อของการแจกแจงแบบสุ่มบางอย่างหรือไม่? โดยเฉพาะอย่างยิ่งสถิติลำดับแรกและสุดท้ายของตัวแปรสุ่มปกติ แต่คำตอบทั่วไปก็น่าจะได้รับการชื่นชมเช่นกัน แก้ไข:เพื่อชี้แจงฉันกำลังมองหาสูตรการประมาณที่สามารถประเมินมากขึ้นหรือน้อยลงอย่างชัดเจนไม่ใช่นิพจน์รวมที่แน่นอน ตัวอย่างเช่นฉันได้เห็นการประมาณสองค่าต่อไปนี้สำหรับสถิติลำดับแรก (เช่นค่าต่ำสุด) ของ rv ปกติ: e1:n≥μ−n−12n−1√σe1:n≥μ−n−12n−1σe_{1:n} \geq \mu - \frac{n-1}{\sqrt{2n-1}}\sigma และ e1:n≈μ+Φ−1(1n+1)σe1:n≈μ+Φ−1(1n+1)σe_{1:n} \approx \mu + \Phi^{-1} \left( \frac{1}{n+1} \right)\sigma ครั้งแรกของเหล่าสำหรับn=200n=200n=200ให้ประมาณe1:200≥μ−10σe1:200≥μ−10σe_{1:200} \geq \mu - 10\sigmaซึ่งดูเหมือนว่าลำพองผูกไว้หลวม ประการที่สองให้e1:200≈μ−2.58σe1:200≈μ−2.58σe_{1:200} \approx \mu - 2.58\sigmaขณะที่รวดเร็ว Monte Carlo ให้e1:200≈μ−2.75σe1:200≈μ−2.75σe_{1:200} \approx \mu - 2.75\sigmaดังนั้นมันจึงไม่ได้เป็นประมาณไม่ดี แต่ไม่ดีอย่างใดอย่างหนึ่งและที่สำคัญผมไม่ได้มีสัญชาติญาณใด ๆ เกี่ยวกับ มันมาจากไหน ความช่วยเหลือใด ๆ

8
มันถูกต้องหรือไม่ที่จะรวมการวัดพื้นฐานเป็นตัวแปรควบคุมเมื่อทดสอบผลกระทบของตัวแปรอิสระต่อคะแนนการเปลี่ยนแปลง?
ฉันพยายามเรียกใช้การถดถอย OLS: DV: การเปลี่ยนแปลงของน้ำหนักในช่วงหนึ่งปี (น้ำหนักเริ่มต้น - น้ำหนักสุดท้าย) IV: ไม่ว่าคุณจะออกกำลังกายหรือไม่ก็ตาม อย่างไรก็ตามดูเหมือนว่าคนที่มีน้ำหนักมากจะลดน้ำหนักได้มากขึ้นต่อการออกกำลังกายมากกว่าคนที่ผอมลง ดังนั้นฉันต้องการรวมตัวแปรควบคุม: CV: น้ำหนักเริ่มต้นเริ่มต้น อย่างไรก็ตามตอนนี้น้ำหนักเริ่มต้นจะใช้ทั้งสองในการคำนวณตัวแปรตามและเป็นตัวแปรควบคุม ไม่เป็นไร สิ่งนี้ละเมิดสมมติฐานของ OLS หรือไม่

6
การเชื่อมต่อระหว่างภูมิภาคที่น่าเชื่อถือกับการทดสอบสมมติฐานแบบเบย์คืออะไร?
ในสถิติที่ใช้บ่อยมีการเชื่อมต่ออย่างใกล้ชิดระหว่างช่วงความมั่นใจและการทดสอบ ใช้การอนุมานเกี่ยวกับในการแจกแจงเป็นตัวอย่างช่วงเวลาความเชื่อมั่น มีค่าทั้งหมดของที่ไม่ได้ปฏิเสธโดย -test ที่ระดับนัยสำคัญ\N ( μ , σ 2 ) 1 - α ˉ x ± เสื้อα / 2 ( n - 1 ) ⋅ s / √μμ\muไม่มี( μ , σ2)ยังไม่มีข้อความ(μ,σ2)\rm N(\mu,\sigma^2)1 - α1-α1-\alpha μtαx¯± tα / 2( n - 1 ) ⋅ s / n--√x¯±เสื้อα/2(n-1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n}μμ\muเสื้อเสื้อtαα\alpha ช่วงความเชื่อมั่นบ่อยครั้งอยู่ในการทดสอบแบบคว่ำนี้ …

5
อนุกรมเวลา 'การจัดกลุ่ม' ใน R
ฉันมีชุดข้อมูลอนุกรมเวลา แต่ละซีรี่ส์ครอบคลุมช่วงเวลาเดียวกันแม้ว่าวันที่ที่เกิดขึ้นจริงในแต่ละช่วงเวลาอาจไม่ตรงกับ กล่าวคือถ้าหากต้องอ่านอนุกรมเวลาในเมทริกซ์ 2D มันจะมีลักษณะดังนี้: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A 59 40 61.82 5/1/01 05 99 42 23.68 ... 31/12/01 100 59 42 N/A etc ฉันต้องการเขียนสคริปต์ R ที่จะแยกอนุกรมเวลา {T1, T2, ... TN} …

9
ฉันจะจำลองผลรวมของตัวแปรสุ่มของเบอร์นูลลี่อย่างมีประสิทธิภาพได้อย่างไร
ฉันกำลังสร้างแบบจำลองตัวแปรสุ่ม ( ) ซึ่งเป็นผลรวมของตัวแปรสุ่ม Bernoulli อิสระบางตัว ( ) บาง ~ 15-40k แต่ละคนมีโอกาสประสบความสำเร็จที่แตกต่างกัน ( ) อย่างเป็นทางการที่และ\ Pr (x_i = 0) = 1 p_iYYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i ฉันสนใจที่จะตอบคำถามอย่างรวดเร็วเช่นPr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k) (โดยที่ได้รับkkk ) ขณะนี้ฉันใช้การจำลองแบบสุ่มเพื่อตอบคำถามดังกล่าว ผมสุ่มวาดแต่ละXiXiX_iตามมันpipip_iแล้วรวมทั้งหมดXiXiX_iค่าที่จะได้รับY'Y′Y′Y'ฉันทำซ้ำขั้นตอนนี้ไม่กี่พันครั้งและกลับส่วนครั้งที่Pr(Y′≤k)Pr(Y′≤k)\Pr(Y'\leq k)k) เห็นได้ชัดว่านี่ไม่ถูกต้องทั้งหมด (แม้ว่าความแม่นยำจะเพิ่มขึ้นอย่างมากเมื่อจำนวนการจำลองเพิ่มขึ้น) นอกจากนี้ดูเหมือนว่าฉันมีข้อมูลเพียงพอเกี่ยวกับการแจกจ่ายเพื่อหลีกเลี่ยงการจำลองการใช้งาน คุณคิดวิธีที่สมเหตุสมผลในการรับความน่าจะเป็นPr(Y≤k)Pr(Y≤k)\Pr(Y\leq k)หรือไม่? PS ฉันใช้ Perl &amp; R แก้ไข ฉันคิดว่าอาจจำเป็นต้องมีคำอธิบายเพิ่มเติม ฉันจะอธิบายการตั้งค่าของปัญหาของฉันในไม่ช้า รับเป็นจีโนมวงกลมที่มีเส้นรอบวงcและชุดของnช่วงแมปกับมัน ยกตัวอย่างเช่นและc=3*10^9 ranges={[100,200],[50,1000],[3*10^9-1,1000],...}หมายเหตุช่วงทั้งหมดถูกปิด (รวมปลายทั้งสอง) โปรดทราบว่าเราจัดการเฉพาะจำนวนเต็ม (หน่วยทั้งหมด) ฉันกำลังมองหาภูมิภาคบนวงกลมที่มีการซ่อนเร้นโดยnช่วงที่กำหนด ดังนั้นเพื่อทดสอบว่าช่วงความยาวxที่กำหนดบนวงกลมนั้นมีการปกปิดหรือไม่ฉันทดสอบสมมติฐานที่nช่วงนั้นมีการแมปแบบสุ่ม …

8
วิธีสร้างเมทริกซ์สหสัมพันธ์แบบกึ่งบวกแบบกึ่งมีประสิทธิภาพได้อย่างมีประสิทธิภาพได้อย่างไร
ฉันต้องการที่จะสร้างเมทริกซ์สหสัมพันธ์เชิงบวก - semidefinite (PSD) ได้อย่างมีประสิทธิภาพ วิธีการของฉันช้าลงอย่างมากเมื่อฉันเพิ่มขนาดของเมทริกซ์ที่จะสร้าง คุณช่วยแนะนำวิธีแก้ปัญหาที่มีประสิทธิภาพได้ไหม? หากคุณตระหนักถึงตัวอย่างใด ๆ ใน Matlab ฉันจะขอบคุณมาก เมื่อสร้างเมทริกซ์ความสัมพันธ์ PSD คุณจะเลือกพารามิเตอร์เพื่ออธิบายเมทริกซ์ที่จะสร้างได้อย่างไร ค่าเฉลี่ยสหสัมพันธ์ส่วนเบี่ยงเบนมาตรฐานของสหสัมพันธ์ค่าลักษณะเฉพาะ

3
ความแตกต่างระหว่างป่าสุ่มและต้นไม้ที่สุ่มมาก
ฉันเข้าใจว่าป่าสุ่มและต้นไม้ที่สุ่มมากที่สุดนั้นแตกต่างกันในแง่ที่ว่าต้นไม้ในป่าสุ่มนั้นแตกต่างกันไปในขณะที่พวกมันสุ่มในกรณีของต้นไม้ที่สุ่มมาก ๆ (เพื่อความแม่นยำมากขึ้น ท่ามกลางการแยกแบบสุ่มในตัวแปรที่เลือกสำหรับต้นไม้ปัจจุบัน) แต่ฉันไม่เข้าใจถึงผลกระทบของการแบ่งแยกที่แตกต่างกันนี้ในสถานการณ์ต่างๆ พวกเขาเปรียบเทียบในแง่ของอคติ / ความแปรปรวนได้อย่างไร พวกเขาจะเปรียบเทียบต่อหน้าตัวแปรที่ไม่เกี่ยวข้องได้อย่างไร? พวกเขาจะเปรียบเทียบในที่ที่มีตัวแปรที่สัมพันธ์กันอย่างไร?

2
ImageNet: อัตราข้อผิดพลาด top-1 และ top-5 คืออะไร?
ในเอกสารการจัดประเภท ImageNet อัตราความผิดพลาดอันดับ 1 และ top-5 เป็นหน่วยที่สำคัญสำหรับการวัดความสำเร็จของการแก้ปัญหาบางอย่าง แต่อัตราข้อผิดพลาดเหล่านั้นคืออะไร ในการจัดประเภท ImageNet ด้วย Deep Convolutional Networks โดย Krizhevsky et al. ทุกโซลูชันที่ใช้ CNN เดียว (หน้า 7) ไม่มีอัตราข้อผิดพลาด 5 อันดับแรกในขณะที่โซลูชันที่มี 5 และ 7 CNN มี (และอัตราข้อผิดพลาดสำหรับ 7 CNN นั้นดีกว่า 5 CNNs) นี่หมายความว่าอัตราความผิดพลาดอันดับ 1 เป็นอัตราข้อผิดพลาดเดียวที่ดีที่สุดสำหรับ CNN เดียวหรือไม่ อัตราข้อผิดพลาด 5 อันดับแรกเป็นเพียงอัตราความผิดพลาดสะสมของ CNN ห้าแห่งหรือไม่

3
PCA จะทำงานกับชนิดข้อมูลบูลีน (ไบนารี) หรือไม่
ฉันต้องการลดมิติของระบบการสั่งซื้อที่สูงขึ้นและจับความแปรปรวนส่วนใหญ่ในฟิลด์ 2 มิติหรือ 1 มิติ ฉันเข้าใจว่าสามารถทำได้ผ่านการวิเคราะห์องค์ประกอบหลักและฉันใช้ PCA ในหลาย ๆ สถานการณ์ อย่างไรก็ตามฉันไม่เคยใช้กับชนิดข้อมูลบูลีนและฉันสงสัยว่ามันมีความหมายที่จะทำ PCA กับชุดนี้หรือไม่ ตัวอย่างเช่นสมมติว่าฉันมีตัวชี้วัดเชิงคุณภาพหรือเชิงพรรณนาและฉันกำหนด "1" หากการวัดนั้นใช้ได้สำหรับมิตินั้นและ "0" หากไม่ใช่ (ข้อมูลไบนารี) ตัวอย่างเช่นสมมติว่าคุณกำลังพยายามเปรียบเทียบคนแคระทั้งเจ็ดในสโนว์ไวท์ เรามี: Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy และ Happy และคุณต้องการจัดเรียงตามคุณสมบัติและทำตามที่: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜DocDopeyBashfulGrumpySneezySleepyHappyLactose Intolerant1011011A Honor Roll0001101Athletic1011100Wealthy1011000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA Honor RollAthleticWealthyDoc1011Dopey0000Bashful1011Grumpy1111Sneezy0110Sleepy1000Happy1100)\begin{pmatrix} & Lactose\ Intolerant & A \ Honor\ Roll & Athletic & Wealthy \\ …

3
การประมาณ saddlepoint ทำงานอย่างไร
วิธีไม่ทำงานประมาณ saddlepoint? ปัญหาแบบไหนที่ดีสำหรับ (อย่าลังเลที่จะใช้ตัวอย่างหรือตัวอย่างเฉพาะตามภาพประกอบ) มีข้อบกพร่องความยากลำบากสิ่งต่าง ๆ ที่ต้องระวังหรือกับดักสำหรับคนไม่ระมัดระวังหรือไม่?

3
แนวทางในการเลือกพารามิเตอร์ในการเรียนรู้ลึก
ฉันกำลังมองหากระดาษที่สามารถช่วยในการให้แนวทางเกี่ยวกับวิธีการเลือกไฮเปอร์พารามิเตอร์ของสถาปัตยกรรมลึกเช่นตัวเข้ารหัสอัตโนมัติแบบเรียงซ้อนหรือเครือข่ายที่เชื่ออย่างลึกซึ้ง มีพารามิเตอร์หลายตัวและฉันสับสนมากเกี่ยวกับวิธีเลือกพวกเขา การใช้การตรวจสอบข้ามไม่ได้เป็นตัวเลือกเนื่องจากการฝึกอบรมใช้เวลานานมาก!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.