สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
พล็อตประกายไฟใน R
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันต้องการใช้ R เพื่อพล็อตอะไรแบบนี้: ดูเหมือนว่าจะเป็นไปได้ แต่มีความซับซ้อนสูงในการติดตามพิกัดความกว้างความสูง ฯลฯ โดยสังหรณ์ใจมันจะเป็นการดีที่สุดที่จะปฏิบัติต่อแต่ละเซลล์เป็นพล็อตใหม่และแปลงพิกัดสำหรับแต่ละเซลล์ มีวิธีทำเช่นนี้ใน R หรือไม่? ขอบคุณ!

3
แหล่งข้อมูลสำหรับผู้ใช้ R ที่ต้องเรียนรู้ SAS
ฉันใช้อาร์ทุกวัน ฉันคิดว่าในแง่ของ data.frames, ตระกูล Apply () ของฟังก์ชัน, การเขียนโปรแกรมเชิงวัตถุ, vectorization, และ ggplot2 geoms / aesthetics ฉันเพิ่งเริ่มทำงานให้กับองค์กรที่ใช้ SAS เป็นหลัก ฉันรู้ว่ามีหนังสือเกี่ยวกับการเรียนรู้ R สำหรับผู้ใช้ SASแต่แหล่งข้อมูลที่ดีสำหรับผู้ใช้ R ที่ไม่เคยใช้ SAS คืออะไร
18 r  sas 

2
แนวทางการประกันคุณภาพและการควบคุมคุณภาพ (QA / QC) สำหรับฐานข้อมูล
พื้นหลัง ฉันกำลังดูแลการป้อนข้อมูลจากวรรณกรรมหลักลงในฐานข้อมูล กระบวนการป้อนข้อมูลนั้นเกิดข้อผิดพลาดได้ง่ายโดยเฉพาะอย่างยิ่งเนื่องจากผู้ใช้ต้องตีความการออกแบบการทดลองดึงข้อมูลจากกราฟิกและตารางและแปลงผลลัพธ์เป็นหน่วยมาตรฐาน ข้อมูลจะถูกป้อนเข้าสู่ฐานข้อมูล MySQL ผ่านเว็บอินเตอร์เฟส จุดข้อมูลมากกว่า 10k จากตัวแปร> 20 ชนิด> 100 สปีชีส์และ> 500 การอ้างอิงได้ถูกรวมไว้แล้ว ฉันต้องการเรียกใช้การตรวจสอบคุณภาพของข้อมูลตัวแปรไม่เพียง แต่รวมถึงข้อมูลที่มีอยู่ในตารางการค้นหาเช่นสปีชีส์ที่เกี่ยวข้องกับแต่ละจุดข้อมูลสถานที่ตั้งของการศึกษา ฯลฯ การป้อนข้อมูลยังดำเนินอยู่ดังนั้น QA / QC จะต้องทำงานเป็นระยะ ๆ ข้อมูลยังไม่ได้เผยแพร่สู่สาธารณะ แต่เราวางแผนที่จะเผยแพร่ในอีกไม่กี่เดือนข้างหน้า ปัจจุบัน QA / QC ของฉันมีสามขั้นตอน: ผู้ใช้ที่สองตรวจสอบแต่ละจุดข้อมูล ตรวจสอบฮิสโตแกรมที่มองเห็นด้วยตาแต่ละตัวแปรสำหรับค่าผิดปกติ ผู้ใช้รายงานข้อมูลที่น่าสงสัยหลังจากได้รับผลลัพธ์ปลอม คำถาม มีแนวทางที่ฉันสามารถใช้สำหรับการพัฒนากระบวนการ QA / QC ที่มีประสิทธิภาพสำหรับฐานข้อมูลนี้หรือไม่? ขั้นตอนแรกใช้เวลานานที่สุด มีสิ่งใดบ้างที่ฉันสามารถทำได้เพื่อให้มีประสิทธิภาพมากขึ้น

4
คุณสมบัติค่าเฉลี่ยและค่ามัธยฐาน
ใครช่วยอธิบายให้ฉันชัดเจนถึงตรรกะทางคณิตศาสตร์ที่จะเชื่อมโยงสองประโยค (a) และ (b) เข้าด้วยกันได้ไหม? ให้เรามีชุดของค่า (การกระจายบางอย่าง) ตอนนี้ a) ค่ามัธยฐานไม่ได้ขึ้นอยู่กับค่าทุกค่า [ขึ้นอยู่กับค่ากลางหนึ่งหรือสองค่า]; b) ค่ามัธยฐานเป็นสถานที่ของผลรวมเบี่ยงเบนน้อยที่สุดจากนั้น และในทำนองเดียวกันและในทางตรงกันข้าม a) (เลขคณิต) ค่าเฉลี่ยขึ้นอยู่กับค่าทุกค่า b) Mean คือทีของการรวมผลบวกกำลังสองส่วนเบี่ยงเบนน้อยที่สุดจากนั้น เข้าใจของฉันมันใช้งานง่ายจนถึงขณะนี้

5
ปริมาณนี้เกี่ยวข้องกับความเป็นอิสระมีชื่อหรือไม่?
เห็นได้ชัดว่าเหตุการณ์ A และ B มีความเป็นอิสระ IFF Pr = Pr Pr (B)มานิยามปริมาณที่เกี่ยวข้องกัน( A ) ( B )(A∩B)(A∩B)(A\cap B)(A)(A)(A)(B)(B)(B) Q≡Pr(A∩B)Pr(A)Pr(B)Q≡Pr(A∩B)Pr(A)Pr(B)Q\equiv\frac{\mathrm{Pr}(A\cap B)}{\mathrm{Pr}(A)\mathrm{Pr}(B)} ดังนั้น A และ B จึงเป็นอิสระ iff Q = 1 (สมมติว่าตัวส่วนนั้นไม่ใช่ศูนย์) Q มีชื่อจริงหรือไม่? ฉันรู้สึกเหมือนมันหมายถึงแนวคิดพื้นฐานบางอย่างที่กำลังหลบหนีฉันในตอนนี้และฉันจะรู้สึกค่อนข้างโง่ที่ได้ถามคำถามนี้

3
ข้อผิดพลาดของแบบผสมเชิงเส้น
ข้อผิดพลาดหลักของการใช้โมเดลเอฟเฟกต์แบบผสมคืออะไร อะไรคือสิ่งสำคัญที่สุดในการทดสอบ / ระวังในการประเมินความเหมาะสมของแบบจำลองของคุณ เมื่อเปรียบเทียบแบบจำลองของชุดข้อมูลเดียวกันสิ่งที่สำคัญที่สุดที่ควรมองหาคืออะไร

3
ประเมินช่วงเวลาที่แน่นอนของการแจกแจงแบบปกติ
ฉันรู้ว่าสูตรที่ง่ายต่อการจัดการสำหรับ CDF ของการแจกแจงแบบปกติค่อนข้างขาดหายไปเนื่องจากฟังก์ชันข้อผิดพลาดที่ซับซ้อนอยู่ในนั้น แต่ผมสงสัยว่ามี AA สูตรที่ดีสำหรับยังไม่มีข้อความ( c-≤ x &lt; c+| μ, σ2)ยังไม่มีข้อความ(ค-≤x&lt;ค+|μ,σ2)N(c_{-} \leq x < c_{+}| \mu, \sigma^2) ) หรือการประมาณ "ทันสมัย" สำหรับปัญหานี้อาจเป็น


4
ฉันสามารถลบตัวแปรทำนายหนึ่งในสองตัวที่มีความสัมพันธ์เชิงเส้นสูงได้หรือไม่?
ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันฉันมีตัวแปรหลายตัวที่มีความสัมพันธ์สูง ( และρ = 0.989สำหรับตัวแปร 2 คู่ที่อยู่ในแบบจำลองของฉัน)ρ=0.978ρ=0.978\rho = 0.978ρ=0.989ρ=0.989\rho = 0.989 เหตุผลบางส่วนของตัวแปรที่มีความสัมพันธ์อย่างมากเป็นเพราะหนึ่งในตัวแปรที่ใช้ในการคำนวณตัวแปรอื่น ตัวอย่าง: และ E = V ∗ DB=V/3000B=V/3000B = V / 3000E=V∗DE=V∗DE = V * D และ Eมี ρ = 0.989BBBEEEρ=0.989ρ=0.989\rho = 0.989 เป็นไปได้ไหมที่ฉันจะ "ทิ้ง" หนึ่งในตัวแปร

10
กลยุทธ์สำหรับการแก้ไขไฟล์ค่าที่คั่นด้วยเครื่องหมายจุลภาค (CSV)
เมื่อฉันทำงานกับโครงการวิเคราะห์ข้อมูลฉันมักจะเก็บข้อมูลไว้ในไฟล์ข้อมูลด้วยเครื่องหมายจุลภาคหรือคั่นด้วยแท็บ (CSV, TSV) ในขณะที่ข้อมูลมักอยู่ในระบบการจัดการฐานข้อมูลเฉพาะ สำหรับแอปพลิเคชันของฉันมากมายนี่จะเป็นการทำสิ่งที่เกินความจำเป็น ฉันสามารถแก้ไขไฟล์ CSV และ TSV ใน Excel (หรือโปรแกรมสเปรดชีตอื่นน่าจะเป็น) สิ่งนี้มีประโยชน์: สเปรดชีตทำให้ง่ายต่อการป้อนข้อมูล นอกจากนี้ยังมีปัญหาหลายประการ: การทำงานกับไฟล์ CSV และ TSV นำไปสู่ข้อความเตือนที่หลากหลายเกี่ยวกับคุณลักษณะที่สูญหายและวิธีการบันทึกเฉพาะแผ่นงานที่ใช้งานและอื่น ๆ ดังนั้นจึงเป็นเรื่องน่ารำคาญหากคุณต้องการเปิดไฟล์และทำการเปลี่ยนแปลงเล็กน้อย เป็นการแปลงที่ "ฉลาดพอสมควร" หลายอย่าง ตัวอย่างเช่นหากคุณป้อน 12/3 จะคิดว่าคุณต้องการป้อนวันที่ UPDATE:ฉันควรจะกล่าวว่าตัวอย่างวันที่เป็นเพียงหนึ่งในหลายตัวอย่าง ปัญหาส่วนใหญ่ดูเหมือนจะเกี่ยวข้องกับการแปลงที่ไม่เหมาะสม โดยเฉพาะอย่างยิ่งฟิลด์ข้อความที่มีลักษณะเหมือนตัวเลขหรือวันที่ทำให้เกิดปัญหา หรือฉันสามารถทำงานโดยตรงกับไฟล์ข้อความในเท็กซ์เอดิเตอร์มาตรฐาน สิ่งนี้ทำให้มั่นใจได้ว่าสิ่งที่ฉันป้อนคือสิ่งที่บันทึกไว้ อย่างไรก็ตามเป็นวิธีที่ไม่สะดวกในการป้อนข้อมูล (คอลัมน์ไม่เรียงกันเป็นเรื่องยากที่จะป้อนข้อมูลลงในเซลล์หลาย ๆ เซลล์ ฯลฯ ) คำถาม กลยุทธ์ที่ดีในการทำงานกับไฟล์ข้อมูล CSV หรือ TSV คืออะไร เช่นกลยุทธ์ใดที่ทำให้การป้อนและจัดการข้อมูลเป็นเรื่องง่ายในขณะเดียวกันก็มั่นใจได้ว่าสิ่งที่คุณป้อนนั้นตีความได้อย่างถูกต้องจริงหรือไม่

4
การลบเส้นขอบในแปลง R เพื่อให้ได้แกนของ Tufte
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ พิจารณากราฟต่อไปนี้: x &lt;- 1:100 y1 &lt;- rnorm(100) y2 &lt;- rnorm(100)+100 par(mar=c(5,5,5,5)) plot(x,y1,pch=0,type="b",col="red",yaxt="n",ylim=c(-8,2),ylab="") axis(side=2, at=c(-2,0,2)) mtext("red line", side = 2, line=2.5, at=0) par(new=T) plot(x,y2,pch=1,type="b",col="blue",yaxt="n",ylim=c(98,108), ylab="") axis(side=4, at=c(98,100,102), labels=c("98%","100%","102%")) mtext("blue line", side=4, line=2.5, at=100) ฉันจะลบเส้นขอบที่สร้างขึ้นโดยอัตโนมัติและเก็บรักษาเส้นแกนไว้เพื่อให้ได้สไตล์ของ Tufte ได้อย่างไร

10
ชุดข้อมูลเครือข่ายสังคม
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันกำลังมองหาชุดข้อมูลเครือข่ายสังคมออนไลน์ (twitter, friendfeed, facebook, lastfm และอื่น ๆ ) สำหรับการจัดประเภทงานโดยเฉพาะอย่างยิ่งในรูปแบบ arff การค้นหาของฉันผ่าน UCI และ Google ยังไม่ประสบความสำเร็จ ... คำแนะนำใด ๆ


5
เอกสารสำคัญเกี่ยวกับการย่อยสลายเมทริกซ์
ฉันเพิ่งอ่านหนังสือของ Skillicorn เกี่ยวกับการย่อยสลายเมทริกซ์และผิดหวังเล็กน้อยเนื่องจากเป็นเป้าหมายสำหรับผู้ชมระดับปริญญาตรี ฉันต้องการรวบรวม (สำหรับตัวฉันเองและคนอื่น ๆ ) โดยสังเขปสั้น ๆ เกี่ยวกับเอกสารสำคัญ (การสำรวจ แต่ยังรวมถึงเอกสารที่ก้าวหน้า) เกี่ยวกับการย่อยสลายเมทริกซ์ สิ่งที่ฉันมีอยู่ในใจเป็นหลักคือบางสิ่งบางอย่างใน SVD / PCA (และตัวแปรที่แข็งแกร่ง / กระจัดกระจาย) และ NNMF เนื่องจากมีการใช้งานมากที่สุด คุณมีคำแนะนำ / ข้อเสนอแนะหรือไม่? ฉันถือของฉันไม่อคติคำตอบ ฉันขอให้ จำกัด คำตอบให้กับกระดาษ 2-3 ข้อ PS: ผมหมายถึงทั้งสอง decompositions เป็นที่ใช้มากที่สุดในการวิเคราะห์ข้อมูล แน่นอนว่า QR, Cholesky, LU และ polar มีความสำคัญมากในการวิเคราะห์เชิงตัวเลข นั่นไม่ใช่จุดเน้นของคำถามของฉัน

5
ใช้ lmer สำหรับการทำนาย
สวัสดีฉันมีสองปัญหาที่ฟังเหมือนผู้สมัครทั่วไปสำหรับรุ่นหลายระดับ / ผสมซึ่งฉันไม่เคยใช้ ง่ายขึ้นและสิ่งที่ฉันหวังว่าจะลองเป็นการแนะนำมีดังนี้: ข้อมูลดูเหมือนหลายแถวของแบบฟอร์ม x y innergroup outergroup โดยที่ x คือ covariate ที่เป็นตัวเลขซึ่งฉันต้องการถดถอย y (ตัวแปรตัวเลขอื่น), y แต่ละตัวเป็นของกลุ่มอินเนอร์กรุปและกลุ่มอินเทอร์เนชันแต่ละกลุ่มจะซ้อนกันในกลุ่มนอก (เช่นทั้งหมดในกลุ่มที่อยู่ในกลุ่มเดียวกัน) . น่าเสียดายที่ Innergroup มีหลายระดับ (หลายพันคน) และแต่ละระดับมีการสังเกตการณ์ค่อนข้างน้อยดังนั้นฉันคิดว่ารูปแบบนี้อาจเหมาะสม คำถามของฉันคือ ฉันจะเขียนสูตรหลายระดับได้อย่างไร เมื่อlmer เข้ากับโมเดลแล้วจะมีวิธีการทำนายอย่างไร ฉันมีตัวอย่างของเล่นที่เรียบง่ายขึ้น แต่ไม่พบฟังก์ชันทำนาย () คนส่วนใหญ่ดูเหมือนจะสนใจในการอนุมานมากกว่าการทำนายด้วยเทคนิคแบบนี้ ฉันมีหลายล้านแถวดังนั้นการคำนวณอาจเป็นปัญหา แต่ฉันสามารถลดได้ตามความเหมาะสม ฉันไม่ต้องการทำสิ่งที่สองในบางครั้ง แต่ฉันก็อาจเริ่มคิดเกี่ยวกับมันและเล่นกับมัน ผมมีข้อมูลที่คล้ายกันเหมือน แต่ก่อน แต่ไม่มี x, y และในขณะนี้คือตัวแปรทวินามของแบบฟอร์มNK) y ยังมีการทับซ้อนจำนวนมากแม้ในกลุ่มผู้ใช้ ส่วนใหญ่ของไม่เกิน 2 หรือ 3 (หรือน้อยกว่า) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.