สถิติและข้อมูลขนาดใหญ่

1

ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันต้องการใช้ R เพื่อพล็อตอะไรแบบนี้: ดูเหมือนว่าจะเป็นไปได้ แต่มีความซับซ้อนสูงในการติดตามพิกัดความกว้างความสูง ฯลฯ โดยสังหรณ์ใจมันจะเป็นการดีที่สุดที่จะปฏิบัติต่อแต่ละเซลล์เป็นพล็อตใหม่และแปลงพิกัดสำหรับแต่ละเซลล์ มีวิธีทำเช่นนี้ใน R หรือไม่? ขอบคุณ!

18 r data-visualization tables

3

แหล่งข้อมูลสำหรับผู้ใช้ R ที่ต้องเรียนรู้ SAS

ฉันใช้อาร์ทุกวัน ฉันคิดว่าในแง่ของ data.frames, ตระกูล Apply () ของฟังก์ชัน, การเขียนโปรแกรมเชิงวัตถุ, vectorization, และ ggplot2 geoms / aesthetics ฉันเพิ่งเริ่มทำงานให้กับองค์กรที่ใช้ SAS เป็นหลัก ฉันรู้ว่ามีหนังสือเกี่ยวกับการเรียนรู้ R สำหรับผู้ใช้ SASแต่แหล่งข้อมูลที่ดีสำหรับผู้ใช้ R ที่ไม่เคยใช้ SAS คืออะไร

18 r sas

2

แนวทางการประกันคุณภาพและการควบคุมคุณภาพ (QA / QC) สำหรับฐานข้อมูล

พื้นหลัง ฉันกำลังดูแลการป้อนข้อมูลจากวรรณกรรมหลักลงในฐานข้อมูล กระบวนการป้อนข้อมูลนั้นเกิดข้อผิดพลาดได้ง่ายโดยเฉพาะอย่างยิ่งเนื่องจากผู้ใช้ต้องตีความการออกแบบการทดลองดึงข้อมูลจากกราฟิกและตารางและแปลงผลลัพธ์เป็นหน่วยมาตรฐาน ข้อมูลจะถูกป้อนเข้าสู่ฐานข้อมูล MySQL ผ่านเว็บอินเตอร์เฟส จุดข้อมูลมากกว่า 10k จากตัวแปร> 20 ชนิด> 100 สปีชีส์และ> 500 การอ้างอิงได้ถูกรวมไว้แล้ว ฉันต้องการเรียกใช้การตรวจสอบคุณภาพของข้อมูลตัวแปรไม่เพียง แต่รวมถึงข้อมูลที่มีอยู่ในตารางการค้นหาเช่นสปีชีส์ที่เกี่ยวข้องกับแต่ละจุดข้อมูลสถานที่ตั้งของการศึกษา ฯลฯ การป้อนข้อมูลยังดำเนินอยู่ดังนั้น QA / QC จะต้องทำงานเป็นระยะ ๆ ข้อมูลยังไม่ได้เผยแพร่สู่สาธารณะ แต่เราวางแผนที่จะเผยแพร่ในอีกไม่กี่เดือนข้างหน้า ปัจจุบัน QA / QC ของฉันมีสามขั้นตอน: ผู้ใช้ที่สองตรวจสอบแต่ละจุดข้อมูล ตรวจสอบฮิสโตแกรมที่มองเห็นด้วยตาแต่ละตัวแปรสำหรับค่าผิดปกติ ผู้ใช้รายงานข้อมูลที่น่าสงสัยหลังจากได้รับผลลัพธ์ปลอม คำถาม มีแนวทางที่ฉันสามารถใช้สำหรับการพัฒนากระบวนการ QA / QC ที่มีประสิทธิภาพสำหรับฐานข้อมูลนี้หรือไม่? ขั้นตอนแรกใช้เวลานานที่สุด มีสิ่งใดบ้างที่ฉันสามารถทำได้เพื่อให้มีประสิทธิภาพมากขึ้น

18 dataset meta-analysis quality-control database

4

คุณสมบัติค่าเฉลี่ยและค่ามัธยฐาน

ใครช่วยอธิบายให้ฉันชัดเจนถึงตรรกะทางคณิตศาสตร์ที่จะเชื่อมโยงสองประโยค (a) และ (b) เข้าด้วยกันได้ไหม? ให้เรามีชุดของค่า (การกระจายบางอย่าง) ตอนนี้ a) ค่ามัธยฐานไม่ได้ขึ้นอยู่กับค่าทุกค่า [ขึ้นอยู่กับค่ากลางหนึ่งหรือสองค่า]; b) ค่ามัธยฐานเป็นสถานที่ของผลรวมเบี่ยงเบนน้อยที่สุดจากนั้น และในทำนองเดียวกันและในทางตรงกันข้าม a) (เลขคณิต) ค่าเฉลี่ยขึ้นอยู่กับค่าทุกค่า b) Mean คือทีของการรวมผลบวกกำลังสองส่วนเบี่ยงเบนน้อยที่สุดจากนั้น เข้าใจของฉันมันใช้งานง่ายจนถึงขณะนี้

18 mean median robust sensitivity-analysis

5

ปริมาณนี้เกี่ยวข้องกับความเป็นอิสระมีชื่อหรือไม่?

เห็นได้ชัดว่าเหตุการณ์ A และ B มีความเป็นอิสระ IFF Pr = Pr Pr (B)มานิยามปริมาณที่เกี่ยวข้องกัน( A ) ( B )(A∩B)(A∩B)(A\cap B)(A)(A)(A)(B)(B)(B) Q≡Pr(A∩B)Pr(A)Pr(B)Q≡Pr(A∩B)Pr(A)Pr(B)Q\equiv\frac{\mathrm{Pr}(A\cap B)}{\mathrm{Pr}(A)\mathrm{Pr}(B)} ดังนั้น A และ B จึงเป็นอิสระ iff Q = 1 (สมมติว่าตัวส่วนนั้นไม่ใช่ศูนย์) Q มีชื่อจริงหรือไม่? ฉันรู้สึกเหมือนมันหมายถึงแนวคิดพื้นฐานบางอย่างที่กำลังหลบหนีฉันในตอนนี้และฉันจะรู้สึกค่อนข้างโง่ที่ได้ถามคำถามนี้

18 probability terminology independence

3

ข้อผิดพลาดของแบบผสมเชิงเส้น

ข้อผิดพลาดหลักของการใช้โมเดลเอฟเฟกต์แบบผสมคืออะไร อะไรคือสิ่งสำคัญที่สุดในการทดสอบ / ระวังในการประเมินความเหมาะสมของแบบจำลองของคุณ เมื่อเปรียบเทียบแบบจำลองของชุดข้อมูลเดียวกันสิ่งที่สำคัญที่สุดที่ควรมองหาคืออะไร

18 mixed-model model-comparison

3

ประเมินช่วงเวลาที่แน่นอนของการแจกแจงแบบปกติ

ฉันรู้ว่าสูตรที่ง่ายต่อการจัดการสำหรับ CDF ของการแจกแจงแบบปกติค่อนข้างขาดหายไปเนื่องจากฟังก์ชันข้อผิดพลาดที่ซับซ้อนอยู่ในนั้น แต่ผมสงสัยว่ามี AA สูตรที่ดีสำหรับยังไม่มีข้อความ( c-≤ x < c+| μ, σ2)ยังไม่มีข้อความ(ค-≤x<ค+|μ,σ2)N(c_{-} \leq x < c_{+}| \mu, \sigma^2) ) หรือการประมาณ "ทันสมัย" สำหรับปัญหานี้อาจเป็น

18 normal-distribution approximation

2

บันทึกด้วยตัวแปรอิสระลำดับ

ในแบบจำลอง logit มีวิธีที่ชาญฉลาดในการกำหนดผลของตัวแปรลำดับอิสระมากกว่าการใช้ตัวแปรจำลองสำหรับแต่ละระดับหรือไม่

18 logistic logit ordinal-data

4

ฉันสามารถลบตัวแปรทำนายหนึ่งในสองตัวที่มีความสัมพันธ์เชิงเส้นสูงได้หรือไม่?

ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันฉันมีตัวแปรหลายตัวที่มีความสัมพันธ์สูง ( และρ = 0.989สำหรับตัวแปร 2 คู่ที่อยู่ในแบบจำลองของฉัน)ρ=0.978ρ=0.978\rho = 0.978ρ=0.989ρ=0.989\rho = 0.989 เหตุผลบางส่วนของตัวแปรที่มีความสัมพันธ์อย่างมากเป็นเพราะหนึ่งในตัวแปรที่ใช้ในการคำนวณตัวแปรอื่น ตัวอย่าง: และ E = V ∗ DB=V/3000B=V/3000B = V / 3000E=V∗DE=V∗DE = V * D และ Eมี ρ = 0.989BBBEEEρ=0.989ρ=0.989\rho = 0.989 เป็นไปได้ไหมที่ฉันจะ "ทิ้ง" หนึ่งในตัวแปร

18 regression correlation modeling

10

กลยุทธ์สำหรับการแก้ไขไฟล์ค่าที่คั่นด้วยเครื่องหมายจุลภาค (CSV)

เมื่อฉันทำงานกับโครงการวิเคราะห์ข้อมูลฉันมักจะเก็บข้อมูลไว้ในไฟล์ข้อมูลด้วยเครื่องหมายจุลภาคหรือคั่นด้วยแท็บ (CSV, TSV) ในขณะที่ข้อมูลมักอยู่ในระบบการจัดการฐานข้อมูลเฉพาะ สำหรับแอปพลิเคชันของฉันมากมายนี่จะเป็นการทำสิ่งที่เกินความจำเป็น ฉันสามารถแก้ไขไฟล์ CSV และ TSV ใน Excel (หรือโปรแกรมสเปรดชีตอื่นน่าจะเป็น) สิ่งนี้มีประโยชน์: สเปรดชีตทำให้ง่ายต่อการป้อนข้อมูล นอกจากนี้ยังมีปัญหาหลายประการ: การทำงานกับไฟล์ CSV และ TSV นำไปสู่ข้อความเตือนที่หลากหลายเกี่ยวกับคุณลักษณะที่สูญหายและวิธีการบันทึกเฉพาะแผ่นงานที่ใช้งานและอื่น ๆ ดังนั้นจึงเป็นเรื่องน่ารำคาญหากคุณต้องการเปิดไฟล์และทำการเปลี่ยนแปลงเล็กน้อย เป็นการแปลงที่ "ฉลาดพอสมควร" หลายอย่าง ตัวอย่างเช่นหากคุณป้อน 12/3 จะคิดว่าคุณต้องการป้อนวันที่ UPDATE:ฉันควรจะกล่าวว่าตัวอย่างวันที่เป็นเพียงหนึ่งในหลายตัวอย่าง ปัญหาส่วนใหญ่ดูเหมือนจะเกี่ยวข้องกับการแปลงที่ไม่เหมาะสม โดยเฉพาะอย่างยิ่งฟิลด์ข้อความที่มีลักษณะเหมือนตัวเลขหรือวันที่ทำให้เกิดปัญหา หรือฉันสามารถทำงานโดยตรงกับไฟล์ข้อความในเท็กซ์เอดิเตอร์มาตรฐาน สิ่งนี้ทำให้มั่นใจได้ว่าสิ่งที่ฉันป้อนคือสิ่งที่บันทึกไว้ อย่างไรก็ตามเป็นวิธีที่ไม่สะดวกในการป้อนข้อมูล (คอลัมน์ไม่เรียงกันเป็นเรื่องยากที่จะป้อนข้อมูลลงในเซลล์หลาย ๆ เซลล์ ฯลฯ ) คำถาม กลยุทธ์ที่ดีในการทำงานกับไฟล์ข้อมูล CSV หรือ TSV คืออะไร เช่นกลยุทธ์ใดที่ทำให้การป้อนและจัดการข้อมูลเป็นเรื่องง่ายในขณะเดียวกันก็มั่นใจได้ว่าสิ่งที่คุณป้อนนั้นตีความได้อย่างถูกต้องจริงหรือไม่

18 project-management

4

การลบเส้นขอบในแปลง R เพื่อให้ได้แกนของ Tufte

ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ พิจารณากราฟต่อไปนี้: x <- 1:100 y1 <- rnorm(100) y2 <- rnorm(100)+100 par(mar=c(5,5,5,5)) plot(x,y1,pch=0,type="b",col="red",yaxt="n",ylim=c(-8,2),ylab="") axis(side=2, at=c(-2,0,2)) mtext("red line", side = 2, line=2.5, at=0) par(new=T) plot(x,y2,pch=1,type="b",col="blue",yaxt="n",ylim=c(98,108), ylab="") axis(side=4, at=c(98,100,102), labels=c("98%","100%","102%")) mtext("blue line", side=4, line=2.5, at=100) ฉันจะลบเส้นขอบที่สร้างขึ้นโดยอัตโนมัติและเก็บรักษาเส้นแกนไว้เพื่อให้ได้สไตล์ของ Tufte ได้อย่างไร

18 r data-visualization

10

ชุดข้อมูลเครือข่ายสังคม

ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันกำลังมองหาชุดข้อมูลเครือข่ายสังคมออนไลน์ (twitter, friendfeed, facebook, lastfm และอื่น ๆ ) สำหรับการจัดประเภทงานโดยเฉพาะอย่างยิ่งในรูปแบบ arff การค้นหาของฉันผ่าน UCI และ Google ยังไม่ประสบความสำเร็จ ... คำแนะนำใด ๆ

18 classification dataset

2

วิธีการมองเห็นเมทริกซ์ฉุกเฉิน 3D

ฉันมีข้อมูลเช่นนี้: > table(A,B,C) , , C = FALSE B A FALSE TRUE FALSE 177 42 TRUE 6 8 , , C = TRUE B A FALSE TRUE FALSE 5 31 TRUE 4 10 ฉันจะพล็อตเรื่องนี้ในกราฟเดียวได้โดยไม่กำหนดลำดับชั้นใด ๆ

18 data-visualization contingency-tables

5

เอกสารสำคัญเกี่ยวกับการย่อยสลายเมทริกซ์

ฉันเพิ่งอ่านหนังสือของ Skillicorn เกี่ยวกับการย่อยสลายเมทริกซ์และผิดหวังเล็กน้อยเนื่องจากเป็นเป้าหมายสำหรับผู้ชมระดับปริญญาตรี ฉันต้องการรวบรวม (สำหรับตัวฉันเองและคนอื่น ๆ ) โดยสังเขปสั้น ๆ เกี่ยวกับเอกสารสำคัญ (การสำรวจ แต่ยังรวมถึงเอกสารที่ก้าวหน้า) เกี่ยวกับการย่อยสลายเมทริกซ์ สิ่งที่ฉันมีอยู่ในใจเป็นหลักคือบางสิ่งบางอย่างใน SVD / PCA (และตัวแปรที่แข็งแกร่ง / กระจัดกระจาย) และ NNMF เนื่องจากมีการใช้งานมากที่สุด คุณมีคำแนะนำ / ข้อเสนอแนะหรือไม่? ฉันถือของฉันไม่อคติคำตอบ ฉันขอให้ จำกัด คำตอบให้กับกระดาษ 2-3 ข้อ PS: ผมหมายถึงทั้งสอง decompositions เป็นที่ใช้มากที่สุดในการวิเคราะห์ข้อมูล แน่นอนว่า QR, Cholesky, LU และ polar มีความสำคัญมากในการวิเคราะห์เชิงตัวเลข นั่นไม่ใช่จุดเน้นของคำถามของฉัน

18 matrix-decomposition svd numerics

5

ใช้ lmer สำหรับการทำนาย

สวัสดีฉันมีสองปัญหาที่ฟังเหมือนผู้สมัครทั่วไปสำหรับรุ่นหลายระดับ / ผสมซึ่งฉันไม่เคยใช้ ง่ายขึ้นและสิ่งที่ฉันหวังว่าจะลองเป็นการแนะนำมีดังนี้: ข้อมูลดูเหมือนหลายแถวของแบบฟอร์ม x y innergroup outergroup โดยที่ x คือ covariate ที่เป็นตัวเลขซึ่งฉันต้องการถดถอย y (ตัวแปรตัวเลขอื่น), y แต่ละตัวเป็นของกลุ่มอินเนอร์กรุปและกลุ่มอินเทอร์เนชันแต่ละกลุ่มจะซ้อนกันในกลุ่มนอก (เช่นทั้งหมดในกลุ่มที่อยู่ในกลุ่มเดียวกัน) . น่าเสียดายที่ Innergroup มีหลายระดับ (หลายพันคน) และแต่ละระดับมีการสังเกตการณ์ค่อนข้างน้อยดังนั้นฉันคิดว่ารูปแบบนี้อาจเหมาะสม คำถามของฉันคือ ฉันจะเขียนสูตรหลายระดับได้อย่างไร เมื่อlmer เข้ากับโมเดลแล้วจะมีวิธีการทำนายอย่างไร ฉันมีตัวอย่างของเล่นที่เรียบง่ายขึ้น แต่ไม่พบฟังก์ชันทำนาย () คนส่วนใหญ่ดูเหมือนจะสนใจในการอนุมานมากกว่าการทำนายด้วยเทคนิคแบบนี้ ฉันมีหลายล้านแถวดังนั้นการคำนวณอาจเป็นปัญหา แต่ฉันสามารถลดได้ตามความเหมาะสม ฉันไม่ต้องการทำสิ่งที่สองในบางครั้ง แต่ฉันก็อาจเริ่มคิดเกี่ยวกับมันและเล่นกับมัน ผมมีข้อมูลที่คล้ายกันเหมือน แต่ก่อน แต่ไม่มี x, y และในขณะนี้คือตัวแปรทวินามของแบบฟอร์มNK) y ยังมีการทับซ้อนจำนวนมากแม้ในกลุ่มผู้ใช้ ส่วนใหญ่ของไม่เกิน 2 หรือ 3 (หรือน้อยกว่า) …

18 r mixed-model maximum-likelihood generalized-linear-model