สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

7
ค่ามัธยฐานนั้นดีกว่าค่าเฉลี่ยหรือไม่
ฉันเพิ่งอ่านคำแนะนำที่คุณควรใช้ค่ามัธยฐานไม่ได้หมายถึงการกำจัดค่าผิดปกติ ตัวอย่าง: บทความต่อไปนี้ http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ มี 16 ความคิดเห็นในขณะนี้: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.750 5.000 4.062 5.000 5.000 เพราะพวกเขาใช้Meanบทความได้ 4 ดาว แต่ถ้าพวกเขาใช้Medianมันก็จะได้ 5 ดาว ค่ามัธยฐานไม่ใช่การตัดสินที่ 'ยุติธรรม' …
17 mean  median  average 

4
กำลังคำนวณขนาดตัวอย่างที่ต้องการความแม่นยำของการประมาณค่าความแปรปรวน?
พื้นหลัง ฉันมีตัวแปรที่มีการแจกแจงที่ไม่รู้จัก ฉันมีตัวอย่าง 500 ตัวอย่าง แต่ฉันต้องการแสดงความแม่นยำที่ฉันสามารถคำนวณความแปรปรวนได้เช่นเพื่อยืนยันว่าขนาดตัวอย่าง 500 เพียงพอ ฉันสนใจยังอยู่ในรู้ขนาดของกลุ่มตัวอย่างขั้นต่ำที่จะต้องประเมินความแปรปรวนที่มีความแม่นยำของ\%X%X%X\% คำถาม ฉันจะคำนวณได้อย่างไร ความแม่นยำของการประมาณค่าความแปรปรวนของฉันมีขนาดตัวอย่างเป็นหรือไม่ ของ ?n=500n=500n=500n=Nn=Nn=N ฉันจะคำนวณจำนวนตัวอย่างขั้นต่ำที่จำเป็นในการประมาณค่าความแปรปรวนด้วยความแม่นยำอย่างไรXXX ตัวอย่าง รูปที่ 1 การประมาณความหนาแน่นของพารามิเตอร์อ้างอิงจาก 500 ตัวอย่าง รูปที่ 2นี่คือพล็อตของขนาดตัวอย่างบนแกน x เทียบกับค่าประมาณความแปรปรวนบนแกน y ที่ฉันคำนวณโดยใช้ชุดย่อยจากตัวอย่าง 500 ความคิดคือการประมาณจะมาบรรจบกับความแปรปรวนจริงเมื่อ n เพิ่มขึ้น . อย่างไรก็ตามการประมาณการไม่ถูกต้องเนื่องจากตัวอย่างที่ใช้ในการประมาณความแปรปรวนสำหรับไม่ได้เป็นอิสระจากกันหรือตัวอย่างที่ใช้ในการคำนวณความแปรปรวนที่n ∈ [ 20 , 40 , 80 ]n∈[10,125,250,500]n∈[10,125,250,500]n \in [10,125,250,500]n∈[20,40,80]n∈[20,40,80]n\in [20,40,80]

8
การวัดคุณภาพแบบคลัสเตอร์
ฉันมีอัลกอริทึมการจัดกลุ่ม (ไม่ใช่ k-mean) พร้อมพารามิเตอร์อินพุต (จำนวนคลัสเตอร์) หลังจากดำเนินการจัดกลุ่มแล้วฉันต้องการรับการวัดเชิงคุณภาพของการจัดกลุ่มนี้ อัลกอริทึมการจัดกลุ่มมีคุณสมบัติที่สำคัญอย่างหนึ่ง สำหรับถ้าฉันป้อนจุดข้อมูลโดยไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างพวกเขาไปยังอัลกอริทึมนี้ดังนั้นฉันจะได้รับหนึ่งคลัสเตอร์ที่มีจุดข้อมูลและหนึ่งคลัสเตอร์ที่มีจุดข้อมูล เห็นได้ชัดว่านี่ไม่ใช่สิ่งที่ฉันต้องการ ดังนั้นฉันต้องการคำนวณการวัดคุณภาพนี้เพื่อประเมินความสมเหตุสมผลของการจัดกลุ่มนี้ นึกคิดฉันจะสามารถที่จะเปรียบเทียบมาตรการนี้ที่แตกต่างกันkดังนั้นฉันจะเรียกใช้การจัดกลุ่มในช่วงของkkkk=2k=2k=2NNNN−1N−1N-1111kkkkkkและเลือกรายการที่มีคุณภาพดีที่สุด ฉันจะคำนวณการวัดคุณภาพดังกล่าวได้อย่างไร UPDATE: นี่คือตัวอย่างเมื่อเป็นการจัดกลุ่มที่ไม่ดี สมมุติว่ามี 3 จุดบนระนาบที่สร้างสามเหลี่ยมด้านเท่า การแบ่งจุดเหล่านี้ออกเป็น 2 กลุ่มนั้นแย่กว่าการแบ่งออกเป็น 1 หรือ 3 กลุ่ม(N−1,1)(N−1,1)(N-1, 1)
17 clustering 

2
การวิเคราะห์แบบเบส์แบบไม่มีพารามิเตอร์ใน R
ฉันกำลังมองหาบทช่วยสอนที่ดีเกี่ยวกับการจัดกลุ่มข้อมูลในการRใช้กระบวนการดีริชเลต์แบบลำดับชั้น (HDP) (หนึ่งในวิธีการแบบเบส์แบบ nonparametric ล่าสุดและเป็นที่นิยม) มีDPpackage(IMHO, ครอบคลุมมากที่สุดของทั้งหมดที่มีอยู่) ในRการวิเคราะห์แบบเบส์แบบไม่มีพารามิเตอร์ แต่ฉันไม่สามารถเข้าใจตัวอย่างที่มีให้ในR Newsหรือในคู่มืออ้างอิงแพ็คเกจได้ดีพอที่จะใช้รหัส HDP ความช่วยเหลือหรือตัวชี้ใด ๆ ที่ชื่นชม การใช้งาน C ++ ของ HDP สำหรับการสร้างแบบจำลองหัวข้อมีอยู่ที่นี่ (โปรดดูที่ด้านล่างสำหรับรหัส C ++)

2
เหตุใดจึงต้องใช้มาตราส่วนของแพลต
เพื่อการปรับระดับความเชื่อมั่นความน่าจะเป็นในการเรียนรู้ภายใต้การดูแล (พูดกับแผนที่ความเชื่อมั่นจากนัก SVM หรือต้นไม้ตัดสินใจโดยใช้ข้อมูล oversampled) วิธีหนึ่งคือการใช้แพลตขูดหินปูน (เช่นได้รับการสอบเทียบความน่าจะเป็นจากการส่งเสริม ) โดยทั่วไปจะใช้การถดถอยโลจิสติกเพื่อทำแผนที่ถึง[ 0 ; 1 ] ตัวแปรตามคือป้ายจริงและตัวทำนายคือความมั่นใจจากแบบจำลองที่ไม่ผ่านการปรับเทียบ สิ่งที่ฉันไม่เข้าใจคือการใช้ตัวแปรเป้าหมายอื่นที่ไม่ใช่ 1 หรือ 0 วิธีการนี้เรียกร้องให้สร้าง "label" ใหม่:[ - ∞ ; ∞ ][-∞;∞][-\infty;\infty][ 0 ; 1 ][0;1][0;1] เพื่อหลีกเลี่ยงการ overfitting ไปยังชุดรถไฟ sigmoid จะใช้โมเดลตัวอย่างนอก หากมีตัวอย่างบวกและN -ตัวอย่างเชิงลบในชุดรถไฟสำหรับตัวอย่างการฝึกอบรมแต่ละการสอบเทียบแพลตใช้ค่าเป้าหมายy +และy - (แทน 1 และ 0 ตามลำดับ) โดยที่ y + = N + …

5
รูปแบบข้อความธรรมดาที่ง่ายเชื่อถือได้เปิดและทำงานร่วมกันได้สำหรับการจัดเก็บข้อมูล
ในคำถามก่อนหน้านี้ผมถามเกี่ยวกับเครื่องมือสำหรับการแก้ไขไฟล์ CSV Gavin เชื่อมโยงกับความคิดเห็นเกี่ยวกับวิธีใช้ R โดยDuncan Murdoch แนะนำว่ารูปแบบการแลกเปลี่ยนข้อมูลเป็นวิธีที่เชื่อถือได้มากขึ้นในการจัดเก็บข้อมูลกว่า CSV สำหรับบางแอปพลิเคชันระบบการจัดการฐานข้อมูลเฉพาะเป็นสิ่งที่จำเป็น อย่างไรก็ตามสำหรับการวิเคราะห์ข้อมูลขนาดเล็กมีโครงการบางอย่างที่มีน้ำหนักเบากว่าดูจะเหมาะสมกว่า พิจารณาเกณฑ์ต่อไปนี้สำหรับการประเมินรูปแบบไฟล์: reliabile : ข้อมูลที่ป้อนควรเป็นจริงกับสิ่งที่ป้อน ข้อมูลควรเปิดอย่างสม่ำเสมอในซอฟต์แวร์ที่ต่างกัน ง่าย : มันคงจะดีถ้ารูปแบบไฟล์นั้นเข้าใจง่ายและอ่านง่ายด้วยตัวแก้ไขข้อความอย่างง่าย ควรเขียนโปรแกรมอย่างง่ายเพื่ออ่านและเขียนรูปแบบ เปิด : รูปแบบควรจะเปิด ทำงานร่วมกัน : รูปแบบไฟล์ควรได้รับการสนับสนุนจากหลาย ๆ ระบบ ฉันค้นหาแท็บและรูปแบบค่าที่คั่นด้วยเครื่องหมายจุลภาคล้มเหลวในเกณฑ์ความน่าเชื่อถือ แม้ว่าฉันคิดว่าฉันสามารถตำหนิการนำเข้าและส่งออกโปรแกรมมากกว่ารูปแบบไฟล์ ฉันมักจะพบว่าตัวเองต้องปรับตัวเลือกเล็กน้อย read.tableเพื่อป้องกันตัวละครแปลก ๆ จากการโหลดเฟรมข้อมูล คำถาม รูปแบบไฟล์ใดที่ตรงกับความต้องการเหล่านี้มากที่สุด รูปแบบการแลกเปลี่ยนข้อมูลเป็นทางเลือกที่ดีกว่าหรือไม่ หรือมันมีปัญหาของตัวเอง? มีรูปแบบอื่นที่เหมาะสมกว่าหรือไม่ ฉันประเมิน TSV และ CSV อย่างไม่เป็นธรรมหรือไม่? มีเคล็ดลับง่ายๆสำหรับการทำงานกับไฟล์ดังกล่าวที่ทำให้รูปแบบไฟล์มีความน่าเชื่อถือมากขึ้นหรือไม่?

6
R: คำนวณความสัมพันธ์โดยกลุ่ม
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ใน R ฉันมีกรอบข้อมูลประกอบไปด้วยฉลากระดับC (ปัจจัย) และสองวัดM1และM2 ฉันจะคำนวณความสัมพันธ์ระหว่างM1และM2ในแต่ละชั้นเรียนได้อย่างไร โดยหลักการแล้วฉันจะได้กรอบข้อมูลกลับมาหนึ่งแถวสำหรับแต่ละชั้นเรียนและสองคอลัมน์นั่นคือป้ายชื่อชั้นCและสหสัมพันธ์
17 r  correlation 

3
คุณสามารถพูดได้ว่าสถิติและความน่าจะเป็นเป็นเหมือนการชักนำและการหักเงิน?
ฉันได้อ่านหัวข้อนี้และดูเหมือนว่าฉันสามารถกล่าวได้ว่า: สถิติ = การเหนี่ยวนำ? ความน่าจะเป็น = การหักเงิน? แต่ฉันสงสัยว่าอาจมีรายละเอียดเพิ่มเติมเกี่ยวกับการเปรียบเทียบที่ขาดหายไปหรือไม่ ตัวอย่างเช่นสถิติเท่ากับการเหนี่ยวนำหรือเป็นกรณีเฉพาะของมันหรือไม่ ดูเหมือนว่าความน่าจะเป็นกรณีย่อยของการหัก (เนื่องจากเป็นกรณีย่อยของการคิดทางคณิตศาสตร์) ฉันรู้ว่านี่เป็นคำถามที่จู้จี้จุกจิก แต่ในแง่นี้เป็นเหตุผลที่ฉันถามมัน - เพราะฉันต้องการให้แน่ใจว่าเปรียบเทียบข้อตกลงเหล่านี้ได้อย่างแม่นยำ

9
สถิติและชีวสถิติแตกต่างกันอย่างไร
มันเกิดขึ้นกับฉันว่าในขณะที่ฉันได้รวบรวมแนวคิดบางอย่างในช่วงหลายปีที่ผ่านมาเกี่ยวกับความแตกต่างระหว่างสถิติและชีวสถิติฉันไม่เคยได้ยินคำอธิบายที่เป็นทางการ อะไรคือความแตกต่างระหว่างทั้งสองสาขา (ปัจจุบัน)? และทำไมความแตกต่างนี้เริ่มต้นตั้งแต่แรก? แก้ไข: ฉันไม่ได้เฉพาะเจาะจงเพียงพอในคำถามเดิมของฉัน ฉันเข้าใจว่าชีวสถิติเป็นแอปพลิเคชั่นและการพัฒนาของสถิติในสาขาชีวการแพทย์ แต่อะไรคือตัวอย่างที่เฉพาะเจาะจงของความแตกต่าง? ตัวอย่างเช่นอะไรคือความแตกต่างของการศึกษาระดับบัณฑิตศึกษาในสองสาขา อะไรคือจุดประสงค์ของการมีแผนกวิชาการที่แตกต่างกันสำหรับสองสาขาวิชา (ความแตกต่างที่ฉันเห็นในสาขาอื่น)

1
ANOVA ผสมเอฟเฟกต์แบบไม่สมดุลสำหรับการวัดซ้ำ
ฉันมีข้อมูลจากผู้ป่วยที่รักษาด้วยวิธีการรักษา 2 แบบในระหว่างการผ่าตัด ฉันต้องวิเคราะห์ผลของมันต่ออัตราการเต้นของหัวใจ การวัดอัตราการเต้นของหัวใจจะดำเนินการทุก 15 นาที เนื่องจากความยาวของการผ่าตัดอาจแตกต่างกันสำหรับผู้ป่วยแต่ละรายผู้ป่วยแต่ละรายสามารถวัดอัตราการเต้นของหัวใจได้ระหว่าง 7 และ 10 ดังนั้นควรใช้การออกแบบที่ไม่สมดุล ฉันทำการวิเคราะห์โดยใช้ R และใช้แพ็คเกจ ez เพื่อวัด ANOVA เอฟเฟกต์แบบผสมซ้ำหลายครั้ง แต่ฉันไม่ทราบวิธีการวิเคราะห์ข้อมูลที่ไม่สมดุล ใครช่วยได้บ้าง ข้อเสนอแนะเกี่ยวกับวิธีการวิเคราะห์ข้อมูลที่ได้รับการต้อนรับ อัปเดต: ตามที่แนะนำฉันทำการติดตั้งข้อมูลโดยใช้lmerฟังก์ชั่นและพบว่ารุ่นที่ดีที่สุดคือ: heart.rate~ time + treatment + (1|id) + (0+time|id) + (0+treatment|time) ด้วยผลลัพธ์ต่อไปนี้: Random effects: Groups Name Variance Std.Dev. Corr id time 0.00037139 0.019271 id (Intercept) 9.77814104 3.127002 …

2
หากความกว้างของเคอร์เนลตัวแปรมักจะดีสำหรับการถดถอยของเคอร์เนลทำไมพวกเขาถึงไม่ดีสำหรับการประมาณความหนาแน่นของเคอร์เนล?
คำถามนี้เป็นคำถามได้รับแจ้งจากที่อื่น ๆ การอภิปราย เมล็ดแปรผันมักใช้ในการถดถอยแบบท้องถิ่น ตัวอย่างเช่นเหลืองถูกนำมาใช้กันอย่างแพร่หลายและทำงานได้ดีเช่นเดียวกับการถดถอยนุ่มนวลและขึ้นอยู่กับเคอร์เนลของความกว้างของตัวแปรที่ปรับให้เหมาะกับข้อมูล sparsity ในทางตรงกันข้ามเมล็ดแปรผันมักจะคิดว่านำไปสู่การประมาณค่าที่ไม่ดีในการประมาณความหนาแน่นของเคอร์เนล (ดูTerrell and Scott, 1992 ) มีเหตุผลที่เข้าใจง่ายว่าทำไมพวกเขาจะทำงานได้ดีสำหรับการถดถอย แต่ไม่ใช่สำหรับการประเมินความหนาแน่น?

4
การรวมช่วงความเชื่อมั่น / การประมาณค่าสองจุดเข้าด้วยกัน
สมมติว่าหนึ่งมีสองตัวอย่างอิสระจากประชากรเดียวกันและวิธีการที่แตกต่างกันถูกนำมาใช้ในสองตัวอย่างเพื่อให้ได้มาซึ่งการประเมินจุดและช่วงความเชื่อมั่น ในกรณีเล็ก ๆ น้อย ๆ คนที่มีเหตุผลจะรวมกลุ่มสองตัวอย่างและใช้วิธีการหนึ่งเพื่อทำการวิเคราะห์ แต่ลองสมมติว่าช่วงเวลาที่วิธีการที่แตกต่างกันต้องใช้เนื่องจากข้อ จำกัด ของตัวอย่างหนึ่งตัวอย่างเช่นข้อมูลที่หายไป การวิเคราะห์ทั้งสองแยกนี้จะสร้างการประมาณการที่เป็นอิสระและเท่าเทียมกันสำหรับแอตทริบิวต์ของประชากรที่น่าสนใจ ฉันคิดว่าควรจะมีวิธีที่จะรวมการประมาณสองอย่างนี้เข้าด้วยกันอย่างถูกต้องทั้งในแง่ของการประมาณค่าพอยต์และช่วงความเชื่อมั่น คำถามของฉันคือสิ่งที่ควรเป็นวิธีที่ดีที่สุดที่จะทำ? ฉันสามารถจินตนาการค่าเฉลี่ยถ่วงน้ำหนักของการจัดเรียงบางอย่างตามข้อมูล / ขนาดตัวอย่างในแต่ละตัวอย่าง แต่สิ่งที่เกี่ยวกับช่วงความเชื่อมั่นหรือไม่

3
ในบรรดา Matlab และ Python ภาษาใดดีสำหรับการวิเคราะห์ทางสถิติ
ในบรรดา Matlab และ Python ภาษาใดดีสำหรับการวิเคราะห์ข้อมูลสถิติทั่วไป อะไรคือข้อดีข้อเสียนอกเหนือจากการเข้าถึงสำหรับแต่ละ?
17 matlab  python 

4
t-test ที่แข็งแกร่งสำหรับค่าเฉลี่ย
ฉันกำลังพยายามทดสอบ nullเทียบกับทางเลือกทางเลือกสำหรับตัวแปรสุ่มซึ่งมีระดับความเบ้เล็กน้อยถึงปานกลางและความผิดปกติของตัวแปรสุ่ม ตามคำแนะนำของวิลคอกซ์ใน 'การแนะนำเบื้องต้นเกี่ยวกับการประมาณค่าที่ทนทานและการทดสอบสมมติฐาน' ฉันได้ดูการทดสอบตามค่าเฉลี่ยที่ถูกตัดค่ามัธยฐานและค่าประมาณ M ของสถานที่ตั้ง (ขั้นตอนเดียว "วิลค็อกซ์") การทดสอบที่มีประสิทธิภาพเหล่านี้มีประสิทธิภาพเหนือกว่ามาตรฐาน t-test ในแง่ของพลังเมื่อทดสอบกับการกระจายที่ไม่เบ้E[X]=0E[X]=0E[X] = 0E[X]>0E[X]>0E[X] > 0XXX อย่างไรก็ตามเมื่อทำการทดสอบด้วยการแจกแจงแบบเบ้การทดสอบด้านเดียวเหล่านี้มีความเสรีมากเกินไปหรือมากเกินไปที่จะอนุรักษ์ภายใต้สมมติฐานว่างขึ้นอยู่กับว่าการแจกแจงนั้นเอียงไปทางซ้ายหรือขวาเอียงตามลำดับ ตัวอย่างเช่นเมื่อมีการสังเกต 1,000 ครั้งการทดสอบตามค่ามัธยฐานจะปฏิเสธจริง ~ 40% ของเวลาที่ระดับ 5% เล็กน้อย เหตุผลนี้ชัดเจนสำหรับการแจกแจงแบบเบ้ค่ามัธยฐานและค่าเฉลี่ยต่างกัน อย่างไรก็ตามในใบสมัครของฉันฉันต้องทดสอบค่าเฉลี่ยไม่ใช่ค่ามัธยฐานไม่ใช่ค่าเฉลี่ยที่ถูกตัดทอน t-test เวอร์ชันที่แข็งแกร่งกว่านี้จริง ๆ แล้วทำการทดสอบหาค่าเฉลี่ยหรือไม่ โดยหลักการแล้วกระบวนการนี้จะทำงานได้ดีในกรณีที่ไม่มีการเอียงและมีความรุนแรงสูงเช่นกัน การทดสอบ 'ขั้นตอนเดียว' เกือบจะดีพอโดยที่พารามิเตอร์ 'bend' ตั้งค่าค่อนข้างสูง แต่มีประสิทธิภาพน้อยกว่าการทดสอบค่าเฉลี่ยที่ถูกตัดเมื่อไม่มีความลาดเอียงและมีปัญหาบางอย่างในการรักษาระดับการปฏิเสธภายใต้ความเบ้ . พื้นหลัง:เหตุผลที่ฉันสนใจค่าเฉลี่ยและไม่ใช่ค่ามัธยฐานคือการทดสอบจะถูกใช้ในการสมัครทางการเงิน ตัวอย่างเช่นหากคุณต้องการทดสอบว่าพอร์ตโฟลิโอมีผลตอบแทนที่คาดหวังในเชิงบวกหรือไม่ค่าเฉลี่ยนั้นเหมาะสมจริง ๆ เพราะถ้าคุณลงทุนในพอร์ตโฟลิโอคุณจะได้รับผลตอบแทนทั้งหมด (ซึ่งเป็นค่าเฉลี่ยคูณด้วยจำนวนตัวอย่าง) แทนซ้ำกันของค่ามัธยฐาน นั่นคือผมสนใจเกี่ยวกับผลรวมของดึงจาก RV XnnnnnnXXX

3
การวิเคราะห์ปัจจัยของแบบสอบถามประกอบด้วยรายการลิเคอร์ต
ฉันใช้วิเคราะห์รายการจากมุมมองของไซโครเมท แต่ตอนนี้ฉันพยายามวิเคราะห์คำถามประเภทอื่น ๆ เกี่ยวกับแรงจูงใจและหัวข้ออื่น ๆ คำถามเหล่านี้อยู่บนสเกลของ Likert ความคิดเริ่มต้นของฉันคือการใช้การวิเคราะห์ปัจจัยเพราะคำถามถูกตั้งสมมติฐานเพื่อสะท้อนมิติพื้นฐานบางอย่าง แต่การวิเคราะห์ปัจจัยเหมาะสมหรือไม่ จำเป็นหรือไม่ที่จะต้องตรวจสอบคำถามแต่ละข้อเกี่ยวกับมิติข้อมูล มีปัญหากับการวิเคราะห์ปัจจัยที่มีผลต่อรายการ likert หรือไม่? มีบทความและวิธีการที่ดีเกี่ยวกับวิธีการวิเคราะห์ปัจจัยที่มีต่อ Likert และรายการหมวดหมู่อื่น ๆ หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.