สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
วิธีที่ดีในการแสดงข้อมูลจำนวนมากแบบกราฟิก
ฉันกำลังทำงานในโครงการที่มีตัวแปร 14 ตัวและการสังเกตการณ์ 345,000 ครั้งสำหรับข้อมูลที่อยู่อาศัย (สิ่งต่าง ๆ เช่นปีที่สร้างขึ้นวิดีโอสแควร์ราคาขายเขตที่อยู่อาศัย ฯลฯ ) ฉันกังวลกับการพยายามค้นหาเทคนิคกราฟิกที่ดีและไลบรารี R ที่มีเทคนิคการพล็อตที่ดี ฉันได้เห็นสิ่งที่เป็น ggplot และขัดแตะจะทำงานได้ดีและฉันกำลังคิดที่จะทำไวโอลินสำหรับตัวแปรเชิงตัวเลขของฉัน แพคเกจอื่นใดที่ผู้คนจะแนะนำให้แสดงตัวแปรตัวเลขหรือตัวประกอบจำนวนมากในรูปแบบที่ชัดเจนขัดเงาและที่สำคัญที่สุดคือรวบรัด?

4
มองหาการรักษาเบื้องต้นที่ดีของการวิเคราะห์เมตา
เพื่อนร่วมงาน (ที่ไม่ใช่นักสถิติ) กำลังเผชิญหน้ากับการวิเคราะห์เมตาในเอกสารที่เขาวิจารณ์วารสารทางการแพทย์และกำลังมองหาวิธีการรักษาระดับเบื้องต้นที่ดีเพื่อที่เขาจะได้ให้ความรู้กับตัวเอง คำแนะนำใด ๆ ที่ชื่นชอบ? หนังสือเอกสารบทความการสำรวจที่ไม่ใช่ทางเทคนิคล้วน แต่เป็นเรื่องปกติ (ใช่เขาคุ้นเคยกับรายการ Wikipedia และสิ่งอื่น ๆ ที่เข้าถึงได้ง่ายจากการค้นหาของ Google เช่นบทความเล็ก ๆ ที่ดีของ Jerry Dallal )

10
การสำรวจเครื่องมือซอฟต์แวร์ขุดข้อมูล
แม้ว่าฉันจะได้รับการฝึกฝนให้เป็นวิศวกร แต่ฉันก็พบว่าฉันสนใจการทำดาต้ามากขึ้น ตอนนี้ฉันกำลังพยายามตรวจสอบข้อมูลเพิ่มเติม โดยเฉพาะอย่างยิ่งฉันต้องการที่จะเข้าใจเครื่องมือซอฟต์แวร์ประเภทต่าง ๆ ที่มีอยู่และเครื่องมือใดที่มีความโดดเด่นในแต่ละหมวดหมู่และทำไม (โปรดทราบว่าฉันไม่ได้พูดถึงเครื่องมือที่ "ดีที่สุด" แต่สิ่งที่น่าสังเกตก็คือว่าเราเริ่มทำสงครามกับเปลวไฟ) โดยเฉพาะอย่างยิ่งจดบันทึกเครื่องมือที่เป็นโอเพ่นซอร์สและให้ใช้งานได้อย่างอิสระ - แม้ว่าจะไม่ใช้สิ่งนี้ ฉันสนใจโอเพ่นซอร์สและฟรีเท่านั้น

5
การประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่องในการศึกษาทางคลินิกตัวอย่างขนาดเล็ก
คุณคิดอย่างไรเกี่ยวกับการใช้เทคนิคการเรียนรู้ของเครื่องเช่นป่าสุ่มหรือการลงโทษที่ถูกลงโทษ (ด้วยการลงโทษ L1 หรือ L2 หรือการรวมกัน) ในการศึกษาทางคลินิกตัวอย่างขนาดเล็กเมื่อมีวัตถุประสงค์เพื่อแยกตัวทำนายที่น่าสนใจในบริบทการจำแนกประเภท ไม่ใช่คำถามเกี่ยวกับการเลือกแบบจำลองและฉันไม่ถามเกี่ยวกับวิธีการหาค่าประมาณที่เหมาะสมที่สุดของเอฟเฟกต์ / ความสำคัญของตัวแปร ฉันไม่ได้วางแผนที่จะทำการอนุมานที่แข็งแกร่ง แต่ใช้การสร้างแบบจำลองหลายตัวแปรดังนั้นหลีกเลี่ยงการทดสอบตัวทำนายแต่ละตัวต่อผลลัพธ์ที่น่าสนใจในแต่ละครั้งและคำนึงถึงความสัมพันธ์ของพวกเขาด้วย ฉันแค่สงสัยว่าวิธีการดังกล่าวถูกนำไปใช้แล้วในกรณีที่รุนแรงนี้โดยเฉพาะพูด 20-30 วิชาที่มีข้อมูลเกี่ยวกับ 10-15 หมวดหมู่หรือตัวแปรต่อเนื่อง มันไม่ได้ตรงกรณีและฉันคิดว่านี่คือปัญหาที่เกี่ยวข้องกับจำนวนของชั้นเรียนที่เราพยายามที่จะอธิบาย (ซึ่งมักจะไม่สมดุลกัน) และ (มาก) n ขนาดเล็ก ฉันตระหนักถึงวรรณกรรมจำนวนมากในหัวข้อนี้ในบริบทของชีวสารสนเทศศาสตร์ แต่ฉันไม่พบการอ้างอิงใด ๆ ที่เกี่ยวข้องกับการศึกษาทางชีวการแพทย์ที่มีฟีโนไทป์ที่วัดทางจิตวิทยา (เช่นตลอดแบบสอบถามทางประสาทวิทยา)n≪pn≪pn\ll p คำแนะนำหรือพอยน์เตอร์ไปยังเอกสารที่เกี่ยวข้อง? ปรับปรุง ฉันเปิดให้โซลูชั่นอื่น ๆ สำหรับการวิเคราะห์ข้อมูลประเภทนี้เช่นอัลกอริทึม C4.5 หรืออนุพันธ์วิธีการกฎการเชื่อมโยงและเทคนิคการขุดข้อมูลสำหรับการจำแนกประเภทแบบมีผู้ควบคุมหรือกึ่งมีผู้ดูแล

5
การหดตัวของเจมส์ - สไตน์ 'อยู่ในป่า'?
ฉันถูกจับโดยความคิดเรื่องการหดตัวของเจมส์ - สไตน์ (นั่นคือฟังก์ชั่นแบบไม่เชิงเส้นของการสังเกตเพียงครั้งเดียวของเวกเตอร์ที่มีบรรทัดฐานอิสระอาจเป็นตัวประมาณที่ดีกว่าของวิธีการของตัวแปรสุ่ม ) อย่างไรก็ตามฉันไม่เคยเห็นมันในงานที่นำไปใช้ เห็นได้ชัดว่าฉันอ่านไม่ดีพอ มีตัวอย่างคลาสสิกที่เจมส์ - สไตน์ปรับปรุงการประมาณค่าในการตั้งค่าที่ใช้หรือไม่? ถ้าไม่การหดตัวแบบนี้เป็นเพียงความอยากรู้ทางปัญญาหรือไม่?

9
หนังสือเล่มใดที่ให้ภาพรวมของสถิติการคำนวณตามที่ใช้กับวิทยาศาสตร์คอมพิวเตอร์
ในฐานะวิศวกรซอฟต์แวร์ฉันสนใจในหัวข้อต่าง ๆ เช่นอัลกอริธึมเชิงสถิติการขุดข้อมูลการเรียนรู้เครื่องเครือข่ายแบบเบย์อัลกอริธึมการจำแนกเครือข่ายนิวรัลเครือข่ายมาร์คอฟวิธีการของมอนติคาร์โลและการสร้างตัวเลขสุ่ม โดยส่วนตัวฉันไม่ได้มีความสุขที่ได้ทำงานด้วยเทคนิคเหล่านี้ แต่ฉันต้องทำงานกับซอฟต์แวร์ที่อยู่ภายใต้ประทุนใช้พวกเขาและต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับพวกเขาในระดับสูง ฉันกำลังมองหาหนังสือที่ครอบคลุมความกว้างมาก - ไม่จำเป็นต้องเจาะลึก ฉันคิดว่าฉันสามารถเรียนรู้มากมายเกี่ยวกับการพัฒนาซอฟต์แวร์หากฉันสามารถเข้าใจรากฐานทางคณิตศาสตร์ที่อยู่เบื้องหลังอัลกอริทึมและเทคนิคที่ใช้ ชุมชนการวิเคราะห์เชิงสถิติสามารถแนะนำหนังสือที่ฉันสามารถใช้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการใช้องค์ประกอบทางสถิติต่าง ๆ ในซอฟต์แวร์ได้หรือไม่


10
ตัวจําแนกคลาส 2 ระดับที่ดีที่สุดสำหรับการใช้งานของคุณคืออะไร? [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา กฎ: หนึ่งลักษณนามต่อคำตอบ ลงคะแนนถ้าคุณเห็นด้วย downvote / ลบรายการที่ซ้ำ ใส่ใบสมัครของคุณในความคิดเห็น

2
มีวิธีมาตรฐานในการจัดการกับปัญหาการสลับฉลากในการประมาณค่า MCMC ของตัวแบบผสมหรือไม่?
การสลับเลเบล (เช่นการกระจายด้านหลังเป็นค่าคงที่สำหรับการสลับเลเบลคอมโพเนนต์) เป็นปัญหาที่มีปัญหาเมื่อใช้ MCMC เพื่อประมาณตัวแบบผสม มีวิธีการมาตรฐาน (ตามที่ยอมรับกันอย่างแพร่หลาย) ในการจัดการกับปัญหานี้หรือไม่? หากไม่มีวิธีการมาตรฐานวิธีการคืออะไรข้อดีข้อเสียของวิธีการชั้นนำในการแก้ปัญหาการเปลี่ยนฉลาก?
15 bayesian  mcmc  mixture 

3
คุณจะตัดสินใจขนาดตัวอย่างอย่างไรเมื่อทำการสำรวจประชากรขนาดใหญ่
ขณะนี้ออสเตรเลียกำลังมีการเลือกตั้งและสื่อมวลชนรายงานผลการสำรวจความคิดเห็นทางการเมืองใหม่ทุกวัน ในประเทศที่มีประชากร 22 ล้านคนจะต้องมีการสุ่มตัวอย่างเปอร์เซ็นต์ใดเพื่อให้ได้ผลลัพธ์ที่ถูกต้องทางสถิติ เป็นไปได้หรือไม่ที่การใช้ตัวอย่างที่มีขนาดใหญ่เกินไปอาจส่งผลต่อผลลัพธ์หรือความถูกต้องทางสถิติเพิ่มขึ้นแบบ monotonically ด้วยขนาดตัวอย่าง

8
กราฟิกทางเลือกในการ "จับแถบ" แปลง
ในส่วนของการวิจัยของฉันวิธีที่นิยมในการแสดงข้อมูลคือการใช้แผนภูมิแท่งร่วมกับ "handle-bars" ตัวอย่างเช่น, "มือจับบาร์" สลับกันระหว่างข้อผิดพลาดมาตรฐานและส่วนเบี่ยงเบนมาตรฐานขึ้นอยู่กับผู้แต่ง โดยทั่วไปขนาดตัวอย่างสำหรับแต่ละ "บาร์" นั้นค่อนข้างเล็ก - ประมาณหก แผนการเหล่านี้ดูเหมือนจะได้รับความนิยมเป็นพิเศษในสาขาวิทยาศาสตร์ชีวภาพ - ดูตัวอย่างเอกสารสองสามฉบับแรกของBMC Biology, vol 3สำหรับตัวอย่าง ดังนั้นคุณจะนำเสนอข้อมูลนี้อย่างไร ทำไมฉันไม่ชอบแปลงเหล่านี้ ส่วนตัวฉันไม่ชอบแปลงเหล่านี้ เมื่อขนาดตัวอย่างเล็กทำไมไม่เพียงแสดงจุดข้อมูลแต่ละจุด มันคือ sd หรือ se ที่กำลังถูกแสดง? ไม่มีใครตกลงที่จะใช้ ทำไมต้องใช้บาร์เลย ข้อมูลไม่ได้ (ปกติ) ไปจาก 0 แต่ผ่านครั้งแรกที่กราฟแสดงให้เห็นว่ามันไม่ กราฟไม่ได้ให้ข้อมูลเกี่ยวกับช่วงหรือขนาดตัวอย่างของข้อมูล สคริปต์ R นี่คือรหัส R ที่ฉันใช้ในการสร้างพล็อต ด้วยวิธีนี้คุณสามารถ (ถ้าคุณต้องการ) ใช้ข้อมูลเดียวกัน #Generate the data set.seed(1) names = c("A1", "A2", "A3", …

5
สามารถใช้การถดถอยหลายครั้งเพื่อคาดการณ์ส่วนประกอบหลัก (PC) จากพีซีอื่น ๆ ได้หรือไม่?
ไม่นานมานี้ผู้ใช้ในรายชื่อผู้รับจดหมาย R-help ถามเกี่ยวกับความสมบูรณ์ของการใช้คะแนน PCA ในการถดถอย ผู้ใช้พยายามใช้คะแนน PC เพื่ออธิบายการเปลี่ยนแปลงในพีซีเครื่องอื่น (ดูการสนทนาแบบเต็มได้ที่นี่ ) คำตอบคือไม่ไม่เสียงเพราะพีซีตั้งฉากกัน บางคนสามารถอธิบายรายละเอียดเพิ่มเติมได้เล็กน้อยว่าทำไมถึงเป็นเช่นนั้น?
15 regression  pca 

5
เหตุใดโรงเรียนในสหรัฐอเมริกาและสหราชอาณาจักรจึงสอนวิธีต่างๆในการคำนวณส่วนเบี่ยงเบนมาตรฐาน
ตามที่ฉันเข้าใจโรงเรียนในสหราชอาณาจักรสอนว่าการเบี่ยงเบนมาตรฐานนั้นใช้โดย: ในขณะที่โรงเรียนของเราสอน: (ในระดับพื้นฐานอยู่แล้ว) สิ่งนี้ทำให้นักเรียนของฉันมีปัญหาหลายอย่างในอดีตเมื่อพวกเขาค้นหาบนอินเทอร์เน็ต แต่พบคำอธิบายที่ผิด ทำไมถึงแตกต่าง ด้วยชุดข้อมูลอย่างง่ายบอกว่ามีค่า 10 ระดับข้อผิดพลาดระดับใดที่จะเกิดขึ้นหากใช้วิธีการที่ไม่ถูกต้อง (เช่นในการสอบ)?

4
ทำไมเราต้องใช้เครื่องมือประมาณเพื่อให้สอดคล้องกัน
ฉันคิดว่าฉันเข้าใจคำจำกัดความทางคณิตศาสตร์ของตัวประมาณที่สอดคล้องกันแล้ว ช่วยแก้ให้ด้วยนะถ้าฉันผิด: WnWnW_nเป็นตัวประมาณค่าที่สอดคล้องกันสำหรับθθ\thetaถ้า∀ϵ>0∀ϵ>0\forall \epsilon>0 limn→∞P(|Wn−θ|>ϵ)=0,∀θ∈Θlimn→∞P(|Wn−θ|>ϵ)=0,∀θ∈Θ\lim_{n\to\infty} P(|W_n - \theta|> \epsilon) = 0, \quad \forall\theta \in \Theta ที่ไหนคือพื้นที่พาราเมตริก แต่ฉันต้องการเข้าใจความต้องการของผู้ประมาณค่าให้สอดคล้องกัน เหตุใดเครื่องมือประมาณการที่ไม่สอดคล้องจึงไม่ดี คุณช่วยยกตัวอย่างให้ฉันได้ไหมΘΘ\Theta ฉันยอมรับการจำลองใน R หรือหลาม

5
เหตุใดข้อสันนิษฐานเรื่อง Normality ในการถดถอยเชิงเส้น
คำถามของฉันง่ายมาก: ทำไมเราถึงเลือกตามปกติเนื่องจากการแจกแจงที่ข้อผิดพลาดตามมาในข้อสันนิษฐานของการถดถอยเชิงเส้น? ทำไมเราไม่เลือกคนอื่นเหมือนเครื่องแบบเสื้อหรืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.