สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
ทฤษฎีการวัดเบื้องต้น
ฉันสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับเทคนิคแบบไม่มีพารามิเตอร์ Bayesian (และที่เกี่ยวข้อง) พื้นหลังของฉันอยู่ในวิทยาการคอมพิวเตอร์และถึงแม้ว่าฉันไม่เคยเรียนวิชาทฤษฎีการวัดหรือทฤษฎีความน่าจะเป็นมาก่อน แต่ฉันมีการฝึกอบรมอย่างเป็นทางการจำนวน จำกัด ในความน่าจะเป็นและสถิติ ทุกคนสามารถแนะนำการแนะนำแนวคิดที่อ่านได้เหล่านี้เพื่อเริ่มต้นกับฉันได้ไหม

4
การแจกแจงก่อนหน้าอย่างไม่ทราบข้อมูลสำหรับพารามิเตอร์มาตราส่วน
ฉันใช้การแจกแจงแบบปกติของล็อกเป็นการแจกแจงก่อนหน้าสำหรับพารามิเตอร์สเกล (สำหรับการแจกแจงแบบปกติ, การแจกแจงแบบอื่น ๆ ) เมื่อฉันมีความคิดคร่าวๆเกี่ยวกับสิ่งที่สเกลควรจะเป็น แต่ต้องการทำผิดด้าน มากเกี่ยวกับมัน ฉันใช้เพราะการใช้นั้นทำให้ฉันเข้าใจได้ง่าย แต่ฉันไม่ได้เห็นคนอื่นใช้ มีอันตรายซ่อนอยู่หรือไม่?

2
จะวัด / โต้แย้งข้อดีของเทรนด์ที่สอดคล้องกับกฎหมายพลังงานได้อย่างไร?
ฉันมีข้อมูลบางส่วนที่ฉันพยายามปรับให้เข้ากับเทรนด์ไลน์ ฉันเชื่อว่าข้อมูลเป็นไปตามกฎหมายพลังงานและได้วางแผนข้อมูลบนแกนล็อก - ล็อกเพื่อหาเส้นตรง สิ่งนี้ส่งผลให้เป็นเส้นตรง (เกือบ) และใน Excel ฉันได้เพิ่มเส้นแนวโน้มสำหรับกฎหมายพลังงาน เมื่อเป็นสถิติใหม่คำถามของฉันคืออะไรตอนนี้วิธีที่ดีที่สุดสำหรับฉันที่จะไปจาก "ดีสายดูเหมือนว่าเหมาะดี" กับ "คุณสมบัติตัวเลขพิสูจน์ให้เห็นว่ากราฟนี้ถูกติดตั้งโดยกฎหมายพลังงาน"? xxx ใน Excel ฉันสามารถรับค่า r-squared แม้ว่าจะได้รับความรู้เกี่ยวกับสถิติที่ จำกัด แต่ฉันก็ไม่รู้ด้วยซ้ำว่าสิ่งนี้เหมาะสมหรือไม่ภายใต้สถานการณ์เฉพาะของฉัน ฉันได้รวมภาพด้านล่างแสดงพล็อตของข้อมูลที่ฉันทำงานด้วยใน Excel ฉันมีประสบการณ์เล็กน้อยเกี่ยวกับ R ดังนั้นหากการวิเคราะห์ของฉันถูก จำกัด ด้วยเครื่องมือของฉันฉันเปิดให้คำแนะนำเกี่ยวกับวิธีการปรับปรุงโดยใช้ R

2
การวัดความคล้ายคลึงกันของเอกสาร
ในการจัดกลุ่มเอกสาร (ข้อความ) คุณต้องมีวิธีการวัดความคล้ายคลึงกันระหว่างคู่ของเอกสาร สองทางเลือกคือ: เปรียบเทียบเอกสารเป็นคำเวกเตอร์โดยใช้Cosine Similarity - และ TF / IDF เป็นน้ำหนักสำหรับคำศัพท์ เปรียบเทียบการแจกแจงความน่าจะเป็นของเอกสารแต่ละฉบับโดยใช้ f-divergence เช่นKullback-Leibler divergence มีเหตุผลที่เข้าใจง่ายหรือไม่ที่จะต้องการวิธีหนึ่งกับอีกวิธีหนึ่ง (สมมติว่าขนาดเอกสารเฉลี่ย 100 คำ)?

5
การประเมินความสำคัญของความแตกต่างในการแจกแจง
ฉันมีข้อมูลสองกลุ่ม แต่ละตัวมีการกระจายตัวแปรหลายตัวแตกต่างกัน ฉันพยายามที่จะพิจารณาว่าการแจกแจงของสองกลุ่มนี้แตกต่างกันอย่างมีนัยสำคัญทางสถิติหรือไม่ ฉันมีข้อมูลทั้งในรูปแบบ raw และ binned ในง่ายต่อการจัดการกับหมวดหมู่แยกที่มีการนับความถี่ในแต่ละ ฉันควรใช้การทดสอบ / ขั้นตอน / วิธีการใดเพื่อตรวจสอบว่าทั้งสองกลุ่มมีความแตกต่างอย่างมีนัยสำคัญหรือไม่และฉันจะทำเช่นนั้นใน SAS หรือ R (หรือ Orange) ได้อย่างไร

3
สัมประสิทธิ์การตัดสินใจ (
ฉันต้องการเข้าใจความคิดของอย่างเต็มที่อธิบายถึงจำนวนของการเปลี่ยนแปลงระหว่างตัวแปร คำอธิบายทุกเว็บเป็นบิตกลและป้าน ฉันต้องการที่จะ "รับ" แนวคิดไม่ใช่แค่ใช้ตัวเลขโดยอัตโนมัติR2R2r^2 เช่นชั่วโมงที่เรียนเทียบกับคะแนนทดสอบ RRr = .8 R2R2r^2 = .64 ดังนั้นสิ่งนี้หมายความว่าอย่างไร 64% ของคะแนนความแปรปรวนสามารถอธิบายเป็นชั่วโมงได้หรือไม่ เราจะรู้ได้อย่างไรว่าเพียงแค่ยกกำลังสอง?

5
ฉันจะทำให้เครือข่ายประสาทของฉันดีขึ้นในการทำนายคลื่นไซน์ได้อย่างไร
ดูที่นี่: คุณสามารถดูได้ว่าข้อมูลการฝึกอบรมสิ้นสุดลงที่ใด การฝึกอบรมข้อมูลไปจากที่จะ1- 1-1-1111 ฉันใช้ Keras และเครือข่ายหนาแน่น 1-100-100-2 ด้วยการเปิดใช้งาน tanh ฉันคำนวณผลลัพธ์จากสองค่าคือ p และ q เป็น p / q ด้วยวิธีนี้ฉันสามารถบรรลุขนาดใดก็ได้โดยใช้ค่าน้อยกว่า 1 ค่า โปรดทราบว่าฉันยังเป็นผู้เริ่มต้นในสาขานี้ดังนั้นไปง่าย ๆ กับฉัน

1
การสร้างตัวแปรสุ่มที่มีความสัมพันธ์แบบทวินาม
ฉันสงสัยว่ามันอาจจะเป็นไปได้ที่จะสร้างตัวแปรทวินามแบบสหสัมพันธ์โดยใช้วิธีการแปลงเชิงเส้นหรือไม่? ด้านล่างฉันลองทำอะไรง่ายๆใน R แล้วมันสร้างความสัมพันธ์กันบ้าง แต่ฉันสงสัยว่ามีวิธีการทำเช่นนี้หรือไม่ X1 = rbinom(1e4, 6, .5) ; X2 = rbinom(1e4, 6, .5) ; X3 = rbinom(1e4, 6, .5) ; a = .5 Y1 = X1 + (a*X2) ; Y2 = X2 + (a*X3) ## Y1 and Y2 are supposed to be correlated cor(Y1, Y2)

3
วิธีการตีความรูตหมายความว่าข้อผิดพลาดกำลังสอง (RMSE) กับค่าเบี่ยงเบนมาตรฐาน?
สมมติว่าฉันมีแบบจำลองที่ให้ค่าที่คาดการณ์กับฉัน ฉันคำนวณ RMSE ของค่าเหล่านั้น แล้วค่าเบี่ยงเบนมาตรฐานของค่าจริง มันสมเหตุสมผลไหมที่จะเปรียบเทียบค่าทั้งสอง (ความแปรปรวน)? สิ่งที่ฉันคิดคือถ้า RMSE และส่วนเบี่ยงเบนมาตรฐานเหมือนกัน / เหมือนกันข้อผิดพลาด / ความแปรปรวนของโมเดลของฉันจะเหมือนกับสิ่งที่เกิดขึ้นจริง แต่ถ้ามันไม่สมเหตุสมผลที่จะเปรียบเทียบค่าเหล่านั้นดังนั้นข้อสรุปนี้อาจผิด หากความคิดของฉันเป็นจริงแสดงว่าแบบจำลองนั้นดีเท่าที่ควรเพราะมันไม่สามารถบอกได้ว่าอะไรทำให้เกิดความแปรปรวน? ฉันคิดว่าส่วนสุดท้ายอาจผิดหรืออย่างน้อยต้องการข้อมูลเพิ่มเติมเพื่อตอบ

4
เอนโทรปีของภาพ
ข้อมูล / ฟิสิกส์ - ทฤษฎีที่ถูกต้องที่สุดในการคำนวณเอนโทรปีของภาพคืออะไร? ตอนนี้ฉันไม่สนใจประสิทธิภาพการคำนวณฉันต้องการให้มันถูกต้องตามหลักเหตุผลเท่าที่จะทำได้ ให้เริ่มต้นด้วยภาพระดับสีเทา วิธีการหนึ่งที่ใช้งานง่ายคือการพิจารณาภาพเป็นถุงพิกเซลและคำนวณ ที่คือจำนวนของระดับสีเทาและเป็นความน่าจะเป็นที่เกี่ยวข้องกับระดับสีเทาkK p k kH= - ∑kพีkl o g2( หน้าk)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) KKKพีkpkp_kkkk มีสองปัญหาเกี่ยวกับคำนิยามนี้: มันใช้งานได้กับวงดนตรีหนึ่งวง (เช่นระดับสีเทา) แต่จะขยายวงกว้างอย่างไรในวิธีที่ถูกต้องทางสถิติไปยังวงดนตรีหลายวง? ตัวอย่างเช่นสำหรับ 2 แบนด์ควรมีหนึ่งฐานตั้งอยู่บนและทำให้ PMF ใช้หรือไม่ หากมีวงดนตรีหลายวง( >> 2) ดังนั้นซึ่งดูเหมือนว่าผิดP ( X 1 = x 1 , X 2 = x 2 ) …

3
เราจำเป็นต้องมีชุดทดสอบเมื่อใช้การตรวจสอบความถูกต้องข้ามของ k-fold หรือไม่?
ฉันได้อ่านเกี่ยวกับการตรวจสอบ k-fold และฉันต้องการตรวจสอบให้แน่ใจว่าฉันเข้าใจวิธีการทำงาน ฉันรู้ว่าสำหรับวิธีการค้างไว้ข้อมูลจะถูกแบ่งออกเป็นสามชุดและชุดทดสอบนั้นจะถูกใช้ที่ส่วนท้ายสุดเพื่อประเมินประสิทธิภาพของรุ่นเท่านั้นในขณะที่ชุดการตรวจสอบใช้สำหรับการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ ฯลฯ ในวิธีการ k-fold เรายังคงจัดชุดการทดสอบสำหรับส่วนท้ายและใช้เฉพาะข้อมูลที่เหลือสำหรับการฝึกอบรมและการปรับจูนพารามิเตอร์เช่นเราแบ่งข้อมูลที่เหลือเป็น k เท่าแล้วใช้ความแม่นยำเฉลี่ยหลังจากการฝึกอบรม ด้วยการพับแต่ละครั้ง (หรือตัวชี้วัดประสิทธิภาพใดก็ตามที่เราเลือกเพื่อปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์) หรือเราไม่ได้ใช้ชุดทดสอบแยกเลยและแยกชุดข้อมูลทั้งหมดเป็น k เท่า (ถ้าเป็นกรณีนี้ฉันคิดว่าเราแค่พิจารณาความถูกต้องเฉลี่ยบน k เท่าเพื่อความถูกต้องสุดท้ายของเรา)?

2
วิธีการสรุปช่วงเวลาที่น่าเชื่อถือสำหรับผู้ชมทางการแพทย์
ด้วยสแตนและส่วนหน้าแพคเกจrstanarmหรือฉันสามารถวิเคราะห์ข้อมูลทางคชกรรมที่สุดเท่าที่ฉันเคยทำมาก่อนกับการผสมรูปแบบเช่นbrms lmeในขณะที่ฉันมีหนังสือและบทความส่วนใหญ่โดย Kruschke-Gelman-Wagenmakers- ฯลฯ บนโต๊ะของฉันสิ่งเหล่านี้ไม่ได้บอกวิธีสรุปผลลัพธ์สำหรับผู้ชมทางการแพทย์ที่ขาดความโกรธแค้นของ Skyesa จาก Bayesian และ Charybdis ของผู้ตรวจสอบทางการแพทย์ ( "เราต้องการความสำคัญไม่ใช่สิ่งที่กระจาย") ตัวอย่าง: ความถี่กระเพาะอาหาร (1 / นาที) วัดเป็นสามกลุ่ม; การควบคุมสุขภาพเป็นข้อมูลอ้างอิง มีการวัดหลายอย่างสำหรับผู้เข้าร่วมแต่ละคนดังนั้นฉันมักใช้แบบผสมต่อไปนี้lme: summary(lme(freq_min~ group, random = ~1|study_id, data = mo)) ผลลัพธ์ที่แก้ไขเล็กน้อย: Fixed effects: freq_min ~ group Value Std.Error DF t-value p-value (Intercept) 2.712 0.0804 70 33.7 0.0000 groupno_symptoms 0.353 0.1180 27 …

2
วิธีการแปลงผกผันทำงานอย่างไร
วิธีการผกผันทำงานอย่างไร สมมติว่าฉันมีตัวอย่างสุ่มมีความหนาแน่นมากกว่าและดังนั้นจึงมี CDFใน(0,1)แล้วตามด้วยวิธีการผกผันที่ฉันได้รับการกระจายของเป็นF_X X1,X2,...,XnX1,X2,...,XnX_1,X_2,...,X_nf(x;θ)=1θx(1−θ)θf(x;θ)=1θx(1−θ)θf(x;\theta)={1\over \theta} x^{(1-\theta)\over \theta} 0&lt;x&lt;10&lt;x&lt;10<x<1FX(x)=x1/θFX(x)=x1/θF_X(x)=x^{1/\theta}(0,1)(0,1)(0,1)XXXF−1X(u)=uθFX−1(u)=uθF_X^{-1}(u)=u^\theta ดังนั้นมีการกระจายของ ? นี่เป็นวิธีการกลับด้านหรือไม่uθuθu^\thetaXXX u&lt;-runif(n) x&lt;-u^(theta)

5
วิธีการทางสถิติเพื่อตรวจสอบว่าข้อมูลหายไปโดยการสุ่ม
ฉันมีชุดคุณสมบัติเวกเตอร์ขนาดใหญ่ซึ่งฉันจะใช้เพื่อโจมตีปัญหาการจำแนกเลขฐานสอง (โดยใช้ scikit learn ใน Python) ก่อนที่ฉันจะเริ่มคิดเกี่ยวกับการใส่ร้ายฉันมีความสนใจในการพยายามตรวจสอบจากส่วนที่เหลือของข้อมูลว่าข้อมูลที่ขาดหายไปคือ 'ขาดโดยสุ่ม' หรือขาดหายไปโดยไม่สุ่ม อะไรคือวิธีที่สมเหตุสมผลในการเข้าถึงคำถามนี้ กลายเป็นคำถามที่ดีกว่าคือการถามว่าข้อมูล 'สุ่มโดยสมบูรณ์' หายไปหรือไม่ วิธีที่เหมาะสมที่จะทำคืออะไร?

2
ทำไมตัวแปรสุ่ม“ ลบทวินาม” จึงเรียกว่า
ฉันไม่เข้าใจว่าทำไมตัวแปรสุ่ม "ลบทวินาม" จึงมีชื่อนั้น สิ่งที่เป็นลบเกี่ยวกับมัน? ทวินามเกี่ยวกับมันคืออะไร? อะไรคือลบ - ทวินามเกี่ยวกับมัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.