สถิติและข้อมูลขนาดใหญ่

5

วิธีที่ดีในการแสดงข้อมูลจำนวนมากแบบกราฟิก

ฉันกำลังทำงานในโครงการที่มีตัวแปร 14 ตัวและการสังเกตการณ์ 345,000 ครั้งสำหรับข้อมูลที่อยู่อาศัย (สิ่งต่าง ๆ เช่นปีที่สร้างขึ้นวิดีโอสแควร์ราคาขายเขตที่อยู่อาศัย ฯลฯ ) ฉันกังวลกับการพยายามค้นหาเทคนิคกราฟิกที่ดีและไลบรารี R ที่มีเทคนิคการพล็อตที่ดี ฉันได้เห็นสิ่งที่เป็น ggplot และขัดแตะจะทำงานได้ดีและฉันกำลังคิดที่จะทำไวโอลินสำหรับตัวแปรเชิงตัวเลขของฉัน แพคเกจอื่นใดที่ผู้คนจะแนะนำให้แสดงตัวแปรตัวเลขหรือตัวประกอบจำนวนมากในรูปแบบที่ชัดเจนขัดเงาและที่สำคัญที่สุดคือรวบรัด?

15 r data-visualization large-data eda

4

มองหาการรักษาเบื้องต้นที่ดีของการวิเคราะห์เมตา

เพื่อนร่วมงาน (ที่ไม่ใช่นักสถิติ) กำลังเผชิญหน้ากับการวิเคราะห์เมตาในเอกสารที่เขาวิจารณ์วารสารทางการแพทย์และกำลังมองหาวิธีการรักษาระดับเบื้องต้นที่ดีเพื่อที่เขาจะได้ให้ความรู้กับตัวเอง คำแนะนำใด ๆ ที่ชื่นชอบ? หนังสือเอกสารบทความการสำรวจที่ไม่ใช่ทางเทคนิคล้วน แต่เป็นเรื่องปกติ (ใช่เขาคุ้นเคยกับรายการ Wikipedia และสิ่งอื่น ๆ ที่เข้าถึงได้ง่ายจากการค้นหาของ Google เช่นบทความเล็ก ๆ ที่ดีของ Jerry Dallal )

15 modeling meta-analysis

10

การสำรวจเครื่องมือซอฟต์แวร์ขุดข้อมูล

แม้ว่าฉันจะได้รับการฝึกฝนให้เป็นวิศวกร แต่ฉันก็พบว่าฉันสนใจการทำดาต้ามากขึ้น ตอนนี้ฉันกำลังพยายามตรวจสอบข้อมูลเพิ่มเติม โดยเฉพาะอย่างยิ่งฉันต้องการที่จะเข้าใจเครื่องมือซอฟต์แวร์ประเภทต่าง ๆ ที่มีอยู่และเครื่องมือใดที่มีความโดดเด่นในแต่ละหมวดหมู่และทำไม (โปรดทราบว่าฉันไม่ได้พูดถึงเครื่องมือที่ "ดีที่สุด" แต่สิ่งที่น่าสังเกตก็คือว่าเราเริ่มทำสงครามกับเปลวไฟ) โดยเฉพาะอย่างยิ่งจดบันทึกเครื่องมือที่เป็นโอเพ่นซอร์สและให้ใช้งานได้อย่างอิสระ - แม้ว่าจะไม่ใช้สิ่งนี้ ฉันสนใจโอเพ่นซอร์สและฟรีเท่านั้น

15 data-mining

5

การประยุกต์ใช้เทคนิคการเรียนรู้ของเครื่องในการศึกษาทางคลินิกตัวอย่างขนาดเล็ก

คุณคิดอย่างไรเกี่ยวกับการใช้เทคนิคการเรียนรู้ของเครื่องเช่นป่าสุ่มหรือการลงโทษที่ถูกลงโทษ (ด้วยการลงโทษ L1 หรือ L2 หรือการรวมกัน) ในการศึกษาทางคลินิกตัวอย่างขนาดเล็กเมื่อมีวัตถุประสงค์เพื่อแยกตัวทำนายที่น่าสนใจในบริบทการจำแนกประเภท ไม่ใช่คำถามเกี่ยวกับการเลือกแบบจำลองและฉันไม่ถามเกี่ยวกับวิธีการหาค่าประมาณที่เหมาะสมที่สุดของเอฟเฟกต์ / ความสำคัญของตัวแปร ฉันไม่ได้วางแผนที่จะทำการอนุมานที่แข็งแกร่ง แต่ใช้การสร้างแบบจำลองหลายตัวแปรดังนั้นหลีกเลี่ยงการทดสอบตัวทำนายแต่ละตัวต่อผลลัพธ์ที่น่าสนใจในแต่ละครั้งและคำนึงถึงความสัมพันธ์ของพวกเขาด้วย ฉันแค่สงสัยว่าวิธีการดังกล่าวถูกนำไปใช้แล้วในกรณีที่รุนแรงนี้โดยเฉพาะพูด 20-30 วิชาที่มีข้อมูลเกี่ยวกับ 10-15 หมวดหมู่หรือตัวแปรต่อเนื่อง มันไม่ได้ตรงกรณีและฉันคิดว่านี่คือปัญหาที่เกี่ยวข้องกับจำนวนของชั้นเรียนที่เราพยายามที่จะอธิบาย (ซึ่งมักจะไม่สมดุลกัน) และ (มาก) n ขนาดเล็ก ฉันตระหนักถึงวรรณกรรมจำนวนมากในหัวข้อนี้ในบริบทของชีวสารสนเทศศาสตร์ แต่ฉันไม่พบการอ้างอิงใด ๆ ที่เกี่ยวข้องกับการศึกษาทางชีวการแพทย์ที่มีฟีโนไทป์ที่วัดทางจิตวิทยา (เช่นตลอดแบบสอบถามทางประสาทวิทยา)n≪pn≪pn\ll p คำแนะนำหรือพอยน์เตอร์ไปยังเอกสารที่เกี่ยวข้อง? ปรับปรุง ฉันเปิดให้โซลูชั่นอื่น ๆ สำหรับการวิเคราะห์ข้อมูลประเภทนี้เช่นอัลกอริทึม C4.5 หรืออนุพันธ์วิธีการกฎการเชื่อมโยงและเทคนิคการขุดข้อมูลสำหรับการจำแนกประเภทแบบมีผู้ควบคุมหรือกึ่งมีผู้ดูแล

15 machine-learning feature-selection

5

การหดตัวของเจมส์ - สไตน์ 'อยู่ในป่า'?

ฉันถูกจับโดยความคิดเรื่องการหดตัวของเจมส์ - สไตน์ (นั่นคือฟังก์ชั่นแบบไม่เชิงเส้นของการสังเกตเพียงครั้งเดียวของเวกเตอร์ที่มีบรรทัดฐานอิสระอาจเป็นตัวประมาณที่ดีกว่าของวิธีการของตัวแปรสุ่ม ) อย่างไรก็ตามฉันไม่เคยเห็นมันในงานที่นำไปใช้ เห็นได้ชัดว่าฉันอ่านไม่ดีพอ มีตัวอย่างคลาสสิกที่เจมส์ - สไตน์ปรับปรุงการประมาณค่าในการตั้งค่าที่ใช้หรือไม่? ถ้าไม่การหดตัวแบบนี้เป็นเพียงความอยากรู้ทางปัญญาหรือไม่?

15 estimation error shrinkage application steins-phenomenon

9

หนังสือเล่มใดที่ให้ภาพรวมของสถิติการคำนวณตามที่ใช้กับวิทยาศาสตร์คอมพิวเตอร์

ในฐานะวิศวกรซอฟต์แวร์ฉันสนใจในหัวข้อต่าง ๆ เช่นอัลกอริธึมเชิงสถิติการขุดข้อมูลการเรียนรู้เครื่องเครือข่ายแบบเบย์อัลกอริธึมการจำแนกเครือข่ายนิวรัลเครือข่ายมาร์คอฟวิธีการของมอนติคาร์โลและการสร้างตัวเลขสุ่ม โดยส่วนตัวฉันไม่ได้มีความสุขที่ได้ทำงานด้วยเทคนิคเหล่านี้ แต่ฉันต้องทำงานกับซอฟต์แวร์ที่อยู่ภายใต้ประทุนใช้พวกเขาและต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับพวกเขาในระดับสูง ฉันกำลังมองหาหนังสือที่ครอบคลุมความกว้างมาก - ไม่จำเป็นต้องเจาะลึก ฉันคิดว่าฉันสามารถเรียนรู้มากมายเกี่ยวกับการพัฒนาซอฟต์แวร์หากฉันสามารถเข้าใจรากฐานทางคณิตศาสตร์ที่อยู่เบื้องหลังอัลกอริทึมและเทคนิคที่ใช้ ชุมชนการวิเคราะห์เชิงสถิติสามารถแนะนำหนังสือที่ฉันสามารถใช้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการใช้องค์ประกอบทางสถิติต่าง ๆ ในซอฟต์แวร์ได้หรือไม่

15 references computational-statistics computing

2

อะไรคือความแตกต่างที่สำคัญระหว่างความสัมพันธ์และข้อมูลร่วมกัน?

คำถามของฉันโดยเฉพาะใช้กับการสร้างเครือข่ายใหม่

15 correlation mutual-information

10

ตัวจําแนกคลาส 2 ระดับที่ดีที่สุดสำหรับการใช้งานของคุณคืออะไร? [ปิด]

ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา กฎ: หนึ่งลักษณนามต่อคำตอบ ลงคะแนนถ้าคุณเห็นด้วย downvote / ลบรายการที่ซ้ำ ใส่ใบสมัครของคุณในความคิดเห็น

15 machine-learning classification application

2

มีวิธีมาตรฐานในการจัดการกับปัญหาการสลับฉลากในการประมาณค่า MCMC ของตัวแบบผสมหรือไม่?

การสลับเลเบล (เช่นการกระจายด้านหลังเป็นค่าคงที่สำหรับการสลับเลเบลคอมโพเนนต์) เป็นปัญหาที่มีปัญหาเมื่อใช้ MCMC เพื่อประมาณตัวแบบผสม มีวิธีการมาตรฐาน (ตามที่ยอมรับกันอย่างแพร่หลาย) ในการจัดการกับปัญหานี้หรือไม่? หากไม่มีวิธีการมาตรฐานวิธีการคืออะไรข้อดีข้อเสียของวิธีการชั้นนำในการแก้ปัญหาการเปลี่ยนฉลาก?

15 bayesian mcmc mixture

3

คุณจะตัดสินใจขนาดตัวอย่างอย่างไรเมื่อทำการสำรวจประชากรขนาดใหญ่

ขณะนี้ออสเตรเลียกำลังมีการเลือกตั้งและสื่อมวลชนรายงานผลการสำรวจความคิดเห็นทางการเมืองใหม่ทุกวัน ในประเทศที่มีประชากร 22 ล้านคนจะต้องมีการสุ่มตัวอย่างเปอร์เซ็นต์ใดเพื่อให้ได้ผลลัพธ์ที่ถูกต้องทางสถิติ เป็นไปได้หรือไม่ที่การใช้ตัวอย่างที่มีขนาดใหญ่เกินไปอาจส่งผลต่อผลลัพธ์หรือความถูกต้องทางสถิติเพิ่มขึ้นแบบ monotonically ด้วยขนาดตัวอย่าง

15 sample-size polling

8

กราฟิกทางเลือกในการ "จับแถบ" แปลง

ในส่วนของการวิจัยของฉันวิธีที่นิยมในการแสดงข้อมูลคือการใช้แผนภูมิแท่งร่วมกับ "handle-bars" ตัวอย่างเช่น, "มือจับบาร์" สลับกันระหว่างข้อผิดพลาดมาตรฐานและส่วนเบี่ยงเบนมาตรฐานขึ้นอยู่กับผู้แต่ง โดยทั่วไปขนาดตัวอย่างสำหรับแต่ละ "บาร์" นั้นค่อนข้างเล็ก - ประมาณหก แผนการเหล่านี้ดูเหมือนจะได้รับความนิยมเป็นพิเศษในสาขาวิทยาศาสตร์ชีวภาพ - ดูตัวอย่างเอกสารสองสามฉบับแรกของBMC Biology, vol 3สำหรับตัวอย่าง ดังนั้นคุณจะนำเสนอข้อมูลนี้อย่างไร ทำไมฉันไม่ชอบแปลงเหล่านี้ ส่วนตัวฉันไม่ชอบแปลงเหล่านี้ เมื่อขนาดตัวอย่างเล็กทำไมไม่เพียงแสดงจุดข้อมูลแต่ละจุด มันคือ sd หรือ se ที่กำลังถูกแสดง? ไม่มีใครตกลงที่จะใช้ ทำไมต้องใช้บาร์เลย ข้อมูลไม่ได้ (ปกติ) ไปจาก 0 แต่ผ่านครั้งแรกที่กราฟแสดงให้เห็นว่ามันไม่ กราฟไม่ได้ให้ข้อมูลเกี่ยวกับช่วงหรือขนาดตัวอย่างของข้อมูล สคริปต์ R นี่คือรหัส R ที่ฉันใช้ในการสร้างพล็อต ด้วยวิธีนี้คุณสามารถ (ถ้าคุณต้องการ) ใช้ข้อมูลเดียวกัน #Generate the data set.seed(1) names = c("A1", "A2", "A3", …

15 data-visualization

5

สามารถใช้การถดถอยหลายครั้งเพื่อคาดการณ์ส่วนประกอบหลัก (PC) จากพีซีอื่น ๆ ได้หรือไม่?

ไม่นานมานี้ผู้ใช้ในรายชื่อผู้รับจดหมาย R-help ถามเกี่ยวกับความสมบูรณ์ของการใช้คะแนน PCA ในการถดถอย ผู้ใช้พยายามใช้คะแนน PC เพื่ออธิบายการเปลี่ยนแปลงในพีซีเครื่องอื่น (ดูการสนทนาแบบเต็มได้ที่นี่ ) คำตอบคือไม่ไม่เสียงเพราะพีซีตั้งฉากกัน บางคนสามารถอธิบายรายละเอียดเพิ่มเติมได้เล็กน้อยว่าทำไมถึงเป็นเช่นนั้น?

15 regression pca

5

เหตุใดโรงเรียนในสหรัฐอเมริกาและสหราชอาณาจักรจึงสอนวิธีต่างๆในการคำนวณส่วนเบี่ยงเบนมาตรฐาน

ตามที่ฉันเข้าใจโรงเรียนในสหราชอาณาจักรสอนว่าการเบี่ยงเบนมาตรฐานนั้นใช้โดย: ในขณะที่โรงเรียนของเราสอน: (ในระดับพื้นฐานอยู่แล้ว) สิ่งนี้ทำให้นักเรียนของฉันมีปัญหาหลายอย่างในอดีตเมื่อพวกเขาค้นหาบนอินเทอร์เน็ต แต่พบคำอธิบายที่ผิด ทำไมถึงแตกต่าง ด้วยชุดข้อมูลอย่างง่ายบอกว่ามีค่า 10 ระดับข้อผิดพลาดระดับใดที่จะเกิดขึ้นหากใช้วิธีการที่ไม่ถูกต้อง (เช่นในการสอบ)?

15 standard-deviation error teaching unbiased-estimator

4

ทำไมเราต้องใช้เครื่องมือประมาณเพื่อให้สอดคล้องกัน

ฉันคิดว่าฉันเข้าใจคำจำกัดความทางคณิตศาสตร์ของตัวประมาณที่สอดคล้องกันแล้ว ช่วยแก้ให้ด้วยนะถ้าฉันผิด: WnWnW_nเป็นตัวประมาณค่าที่สอดคล้องกันสำหรับθθ\thetaถ้า∀ϵ>0∀ϵ>0\forall \epsilon>0 limn→∞P(|Wn−θ|>ϵ)=0,∀θ∈Θlimn→∞P(|Wn−θ|>ϵ)=0,∀θ∈Θ\lim_{n\to\infty} P(|W_n - \theta|> \epsilon) = 0, \quad \forall\theta \in \Theta ที่ไหนคือพื้นที่พาราเมตริก แต่ฉันต้องการเข้าใจความต้องการของผู้ประมาณค่าให้สอดคล้องกัน เหตุใดเครื่องมือประมาณการที่ไม่สอดคล้องจึงไม่ดี คุณช่วยยกตัวอย่างให้ฉันได้ไหมΘΘ\Theta ฉันยอมรับการจำลองใน R หรือหลาม

15 estimation consistency

5

เหตุใดข้อสันนิษฐานเรื่อง Normality ในการถดถอยเชิงเส้น

คำถามของฉันง่ายมาก: ทำไมเราถึงเลือกตามปกติเนื่องจากการแจกแจงที่ข้อผิดพลาดตามมาในข้อสันนิษฐานของการถดถอยเชิงเส้น? ทำไมเราไม่เลือกคนอื่นเหมือนเครื่องแบบเสื้อหรืออะไร?

15 regression mathematical-statistics normal-distribution error linear