สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
Generative vs discriminative models (ในบริบทของ Bayesian)
อะไรคือความแตกต่างระหว่างแบบจำลองเชิงกำเนิดและแบบเลือกปฏิบัติ (แบบเลือกปฏิบัติ) (ในบริบทของการเรียนรู้และการอนุมานแบบเบย์)? และอะไรคือสิ่งที่เกี่ยวข้องกับการทำนายทฤษฎีการตัดสินใจหรือการเรียนรู้ที่ไม่มีผู้ดูแล

5
ฉันสามารถเชื่อถือผลลัพธ์ ANOVA สำหรับ DV แบบกระจายที่ไม่ใช่แบบปกติได้หรือไม่
ฉันวิเคราะห์การทดสอบด้วยการวัดซ้ำ ANOVA ANOVA คือ 3x2x2x2x3 ที่มี 2 ระหว่างปัจจัยเรื่องและ 3 ภายใน (N = 189) อัตราความผิดพลาดเป็นตัวแปรตาม การกระจายตัวของอัตราความผิดพลาดมีความเบี่ยงเบน 3.64 และความหนาเป็น 15.75 ความเบ้และความโด่งเป็นผลมาจาก 90% ของอัตราความผิดพลาดหมายถึงการเป็น 0 การอ่านหัวข้อก่อนหน้านี้บางส่วนเกี่ยวกับการทดสอบภาวะปกติที่นี่ทำให้ฉันสับสนเล็กน้อย ฉันคิดว่าถ้าคุณมีข้อมูลที่ไม่กระจายตามปกติมันเป็นประโยชน์สูงสุดของคุณในการแปลงถ้าเป็นไปได้ แต่ดูเหมือนว่าผู้คนจำนวนมากคิดว่าการวิเคราะห์ข้อมูลที่ไม่ปกติด้วย ANOVA หรือ T-test เป็นที่ยอมรับ ฉันสามารถไว้วางใจผลลัพธ์ของ ANOVA ได้หรือไม่? (FYI ในอนาคตฉันตั้งใจจะวิเคราะห์ข้อมูลประเภทนี้ใน R ด้วยตัวแบบผสมที่มีการแจกแจงแบบทวินาม)

3
การประมาณค่าเมทริกซ์ความแปรปรวนร่วมแบบไม่เอนเอียงสำหรับข้อมูลการตรวจสอบแบบทวีคูณ
การวิเคราะห์ทางเคมีของตัวอย่างด้านสิ่งแวดล้อมมักจะถูกตรวจสอบด้านล่างที่ข้อ จำกัด การรายงาน หลังสามารถเปลี่ยนแปลงได้ตามสัดส่วนของค่าตัวแปรอื่น ๆ ตัวอย่างเช่นตัวอย่างที่มีความเข้มข้นสูงของสารประกอบหนึ่งอาจต้องทำให้เจือจางเพื่อการวิเคราะห์ส่งผลให้เกิดสัดส่วนเงินเฟ้อของการ จำกัด การเซ็นเซอร์สำหรับสารประกอบอื่น ๆ ทั้งหมดที่วิเคราะห์ในเวลาเดียวกันในตัวอย่างนั้น อีกตัวอย่างหนึ่งบางครั้งการปรากฏตัวของสารประกอบสามารถเปลี่ยนการตอบสนองของการทดสอบกับสารประกอบอื่น ๆ ("การแทรกแซงเมทริกซ์"); เมื่อตรวจพบโดยห้องปฏิบัติการมันจะขยายขีด จำกัด การรายงานตามที่กำหนด ฉันกำลังมองหาวิธีที่ใช้งานได้จริงเพื่อประเมินเมทริกซ์ความแปรปรวนร่วม -Vovance ทั้งหมดสำหรับชุดข้อมูลดังกล่าวโดยเฉพาะอย่างยิ่งเมื่อสารประกอบจำนวนมากประสบการเซ็นเซอร์มากกว่า 50% ซึ่งมักเป็นกรณี แบบจำลองการแจกแจงแบบดั้งเดิมคือลอการิทึมของความเข้มข้น (จริง) มีการกระจายแบบหลายช่วงและสิ่งนี้ดูเหมือนจะเหมาะสมในทางปฏิบัติดังนั้นวิธีแก้ปัญหาสำหรับสถานการณ์นี้จะเป็นประโยชน์ (โดย "ใช้งานจริง" ฉันหมายถึงวิธีการที่สามารถเข้ารหัสได้อย่างน่าเชื่อถือในสภาพแวดล้อมซอฟต์แวร์ที่มีอยู่อย่างน้อยหนึ่งอย่างเช่น R, Python, SAS และอื่น ๆ ในวิธีที่ดำเนินการอย่างรวดเร็วพอที่จะรองรับการคำนวณซ้ำซ้ำเช่นเกิดขึ้นในหลาย ๆ และสิ่งใดที่มีเสถียรภาพพอสมควร [ซึ่งเป็นเหตุผลที่ฉันลังเลที่จะสำรวจการใช้งานข้อผิดพลาดแม้ว่าวิธีการแบบเบย์โดยทั่วไปยินดีต้อนรับ] ขอบคุณล่วงหน้าสำหรับความคิดของคุณในเรื่องนี้

2
กระบวนการมาร์คอฟประมาณขึ้นอยู่กับสถานะก่อนหน้า
ฉันแค่อยากให้ใครบางคนยืนยันความเข้าใจของฉันหรือถ้าฉันขาดอะไรบางอย่าง คำจำกัดความของกระบวนการมาร์คอฟบอกว่าขั้นตอนต่อไปขึ้นอยู่กับสถานะปัจจุบันเท่านั้นและไม่มีรัฐในอดีต สมมุติว่าเรามีพื้นที่รัฐของ a, b, c, d และเราไปจาก a-> b-> c-> d นั่นหมายความว่าการเปลี่ยนเป็น d สามารถขึ้นอยู่กับความจริงที่ว่าเราอยู่ใน c เท่านั้น อย่างไรก็ตามมันเป็นความจริงหรือไม่ที่คุณสามารถทำให้แบบจำลองมีความซับซ้อนมากขึ้นและชนิดของ "ข้อ จำกัด " นี้? กล่าวอีกนัยหนึ่งถ้าพื้นที่รัฐของคุณเป็น aa, ab, ac, โฆษณา, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd ซึ่งหมายความว่าพื้นที่สถานะใหม่ของคุณกลายเป็น สถานะก่อนหน้ารวมกับสถานะปัจจุบันดังนั้นการเปลี่ยนแปลงข้างต้นจะเป็น * a-> ab-> bc-> cd และดังนั้นการเปลี่ยนเป็น cd (เทียบเท่าในรุ่นก่อนหน้านี้เป็น d) …

1
การแก้ไขการทดสอบสมมติฐานหลายครั้งด้วย Benjamini-Hochberg, p-values ​​หรือ q-values
ได้รับรายชื่อของ P-ค่าที่เกิดจากการทดสอบอิสระเรียงจากน้อยไปมากเพื่อที่หนึ่งสามารถใช้ขั้นตอน Benjamini-Hochbergสำหรับการแก้ไขการทดสอบหลาย สำหรับแต่ละค่า p ขั้นตอน Benjamini-Hochberg ช่วยให้คุณสามารถคำนวณอัตราการค้นพบที่ผิด (FDR) สำหรับแต่ละค่า p นั่นคือในแต่ละตำแหน่ง "ในรายการเรียงลำดับของค่า p มันจะบอกคุณว่าสัดส่วนของสิ่งเหล่านั้นมีแนวโน้มที่จะเป็นการปฏิเสธที่ผิดพลาดของสมมติฐานว่าง คำถามของฉันคือค่า FDR เหล่านี้จะเรียกว่า " ค่า q " หรือ " แก้ไขค่า p " หรือเป็นอย่างอื่นหรือไม่ แก้ไขปี 2010-07-12:ฉันต้องการอธิบายขั้นตอนการแก้ไขที่เรากำลังใช้อย่างสมบูรณ์ยิ่งขึ้น อันดับแรกเราจัดเรียงผลการทดสอบตามลำดับที่เพิ่มขึ้นโดยใช้ค่า p ดั้งเดิมที่ไม่ได้รับการแก้ไข จากนั้นเราวนซ้ำในรายการโดยคำนวณสิ่งที่ฉันได้ตีความว่าเป็น "FDR ที่คาดไว้ถ้าเราปฏิเสธสมมติฐานว่างสำหรับสิ่งนี้และการทดสอบทั้งหมดก่อนหน้านี้ในรายการ" โดยใช้การแก้ไข BH ด้วยอัลฟาเท่ากับค่าที่สังเกต p-value ที่ไม่ได้แก้ไขสำหรับการวนซ้ำตามลำดับ จากนั้นเราจึงรับสิ่งที่เราเรียกว่า "q-value" ซึ่งเป็นค่าสูงสุดของค่าที่ถูกแก้ไขก่อนหน้านี้ (FDR ที่การวนซ้ำ i - 1) หรือค่าปัจจุบัน …

6
ความแตกต่างของกลุ่มในรายการ Likert ห้าจุด
ทำตามจากคำถามนี้ : ลองจินตนาการว่าคุณต้องการทดสอบความแตกต่างของแนวโน้มกลางระหว่างสองกลุ่ม (เช่นผู้ชายและผู้หญิง) ในรายการ Likert 5 จุด (เช่นความพึงพอใจกับชีวิต: ไม่พอใจต่อความพึงพอใจ) ฉันคิดว่าการทดสอบแบบ t จะมีความแม่นยำเพียงพอสำหรับวัตถุประสงค์ส่วนใหญ่ แต่การทดสอบ bootstrap ของความแตกต่างระหว่างกลุ่มหมายความว่ามักจะให้การประมาณช่วงความมั่นใจที่แม่นยำยิ่งขึ้น คุณจะใช้การทดสอบทางสถิติแบบใด

9
ฉันจะทราบได้อย่างไรว่าการกระจายแบบใดที่แสดงข้อมูลนี้เกี่ยวกับเวลาตอบสนองการ ping
ฉันสุ่มตัวอย่างกระบวนการโลกแห่งความเป็นจริง, เวลา ping เครือข่าย "round-trip-time" วัดเป็นมิลลิวินาที ผลลัพธ์ถูกพล็อตในฮิสโตแกรม: Ping ครั้งมีค่าต่ำสุด แต่หางบนยาว ฉันต้องการทราบว่าการกระจายเชิงสถิติคืออะไรและจะประเมินค่าพารามิเตอร์ได้อย่างไร แม้ว่าการกระจายไม่ใช่การกระจายทั่วไปฉันยังสามารถแสดงสิ่งที่ฉันพยายามที่จะบรรลุ การแจกแจงปกติใช้ฟังก์ชัน: ด้วยพารามิเตอร์ทั้งสอง μ (หมายถึง) σ 2 (ความแปรปรวน) การประมาณค่าพารามิเตอร์ สูตรสำหรับการประมาณค่าพารามิเตอร์ทั้งสองคือ: ใช้สูตรเหล่านี้กับข้อมูลที่ฉันมีใน Excel ฉันจะได้รับ: μ = 10.9558 (หมายถึง) σ 2 = 67.4578 (ความแปรปรวน) ด้วยพารามิเตอร์เหล่านี้ฉันสามารถพล็อตการกระจาย " ปกติ " ด้านบนข้อมูลตัวอย่างของฉัน: เห็นได้ชัดว่าไม่ใช่การแจกแจงแบบปกติ การแจกแจงแบบปกติมีหางบนและล่างไม่ จำกัด และมีความสมมาตร การกระจายนี้ไม่สมมาตร ฉันจะใช้หลักการอะไร ฉันจะใช้ผังงานใดเพื่อกำหนดการกระจายแบบนี้ว่าเป็นอย่างไร ระบุว่าการแจกแจงไม่มีหางลบและหางยาวเป็นบวก: การกระจายแบบใดที่ตรงกับ? มีการอ้างอิงที่ตรงกับการแจกแจงของการสังเกตที่คุณทำหรือไม่? และการตัดการไล่ล่าสูตรสำหรับการแจกแจงนี้คืออะไรและสูตรการประมาณค่าพารามิเตอร์คืออะไร? ฉันต้องการรับการกระจายเพื่อให้ได้ค่า …

1
การทดสอบทางสถิติทั่วไปเป็นแบบจำลองเชิงเส้น
(อัปเดต: ฉันพุ่งลึกเข้าไปในสิ่งนี้และโพสต์ผลลัพธ์ที่นี่ ) รายการทดสอบทางสถิติที่ตั้งชื่อนั้นมีขนาดใหญ่มาก การทดสอบทั่วไปจำนวนมากอาศัยการอนุมานจากโมเดลเชิงเส้นอย่างง่ายเช่นหนึ่งตัวอย่าง t-test คือy = β + εซึ่งทดสอบกับแบบจำลองโมฆะy = μ + εนั่นคือβ = μโดยที่μเป็นโมฆะบางอย่าง ค่า - โดยทั่วไปแล้วμ = 0 ฉันคิดว่านี่เป็นคำแนะนำเพื่อวัตถุประสงค์ในการสอนมากกว่าการเรียนรู้แบบท่องจำที่มีชื่อเมื่อใช้และสมมติฐานของพวกเขาราวกับว่าพวกเขาไม่มีอะไรเกี่ยวข้องกัน วิธีการส่งเสริมนั้นไม่ส่งเสริมความเข้าใจ อย่างไรก็ตามฉันไม่สามารถหาแหล่งรวบรวมที่ดีได้ ฉันสนใจในการเปรียบเทียบระหว่างโมเดลพื้นฐานมากกว่าวิธีการอนุมานจากพวกเขา แม้ว่าเท่าที่ฉันเห็นการทดสอบอัตราส่วนความน่าจะเป็นในตัวแบบเชิงเส้นทั้งหมดนี้ให้ผลลัพธ์แบบเดียวกับการอนุมานแบบ "คลาสสิค" ต่อไปนี้เป็นสิ่งที่ฉันได้เรียนรู้มาโดยไม่คำนึงถึงข้อผิดพลาดและสมมติว่าสมมติฐานว่างทั้งหมดไม่มีผล:ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim \mathcal N(0, \sigma^2) หนึ่งตัวอย่าง t-test: 0y=β0H0:β0=0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 t-test ตัวอย่างแบบจับคู่: y2−y1=β0H0:β0=0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: …

3
ระยะเวลาข้อผิดพลาดการถดถอยจะสัมพันธ์กับตัวแปรอธิบายได้อย่างไร
ประโยคแรกของหน้าวิกินี้อ้างว่า "ในเศรษฐมิติปัญหาเอ็นเอ็นจีนิตี้เกิดขึ้นเมื่อตัวแปรอธิบายมีความสัมพันธ์กับคำผิดพลาด1 " คำถามของฉันคือสิ่งนี้จะเกิดขึ้นได้อย่างไร? การถดถอยแบบเบต้าไม่ได้ถูกเลือกเช่นนี้เพราะข้อผิดพลาดคือมุมฉากกับพื้นที่คอลัมน์ของเมทริกซ์การออกแบบหรือไม่
22 regression 

9
วิธีการตรวจสอบความเชื่อมั่นของการทำนายเครือข่ายประสาท?
เพื่อแสดงคำถามของฉันสมมติว่าฉันมีชุดฝึกอบรมที่อินพุตมีระดับเสียงรบกวน แต่เอาต์พุตไม่ได้ตัวอย่างเช่น; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] เอาท์พุทที่นี่คือการไล่ระดับสีของอาเรย์ใส่ถ้ามันไม่มีเสียง (ไม่ไล่โทนสีที่เกิดขึ้นจริง) หลังจากฝึกอบรมเครือข่ายผลลัพธ์ควรมีลักษณะเช่นนี้สำหรับอินพุตที่กำหนด # Expected Output [1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03] [2.03, 4.11, 3.89, 3.51] …

2
คุณสมบัติพยากรณ์ของตัวประมาณคืออะไร?
อะไรคือสิ่งที่oracle คุณสมบัติของประมาณการ? เป้าหมายการสร้างแบบจำลองใดที่เกี่ยวข้องกับคุณสมบัติของพยากรณ์ (ทำนาย, อธิบาย, ... )? ทั้งคำอธิบายเชิงทฤษฎีที่เข้มงวดและโดยเฉพาะอย่างยิ่ง

3
การจำแนกประเภท / การประเมินผลสำหรับข้อมูลที่มีความไม่สมดุลสูง
ฉันจัดการกับปัญหาการตรวจจับการฉ้อโกง (เหมือนการให้คะแนนเครดิต) ดังนั้นจึงมีความสัมพันธ์ที่ไม่สมดุลระหว่างการสังเกตการณ์ที่เป็นการฉ้อโกงและไม่หลอกลวง http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlให้ภาพรวมที่ดีของตัวชี้วัดการจำแนกประเภทที่แตกต่างกัน Precision and Recallหรือkappaทั้งคู่ดูเหมือนจะเป็นทางเลือกที่ดี: วิธีหนึ่งที่จะพิสูจน์ผลลัพธ์ของตัวแยกประเภทดังกล่าวคือการเปรียบเทียบพวกเขากับตัวแยกประเภทพื้นฐานและแสดงให้เห็นว่าพวกเขาดีกว่าการทำนายโอกาสแบบสุ่ม เท่าที่ผมเข้าใจkappaอาจเป็นทางเลือกที่ดีกว่าเล็กน้อยที่นี่เป็นโอกาสสุ่มถูกนำเข้าบัญชี จากคัปปาของโคเฮนในภาษาอังกฤษธรรมดาฉันเข้าใจว่าkappaเกี่ยวข้องกับแนวคิดของการได้รับข้อมูล: [... ] ความแม่นยำที่สังเกตได้ 80% นั้นน่าประทับใจน้อยกว่ามากด้วยความแม่นยำที่คาดหวัง 75% เทียบกับความแม่นยำที่คาดหวัง 50% [... ] ดังนั้นคำถามของฉันจะเป็น: ถูกต้องหรือไม่ที่จะถือว่าkappaเป็นตัวชี้วัดการจำแนกประเภทที่เหมาะสมกว่าสำหรับปัญหานี้ เพียงใช้kappaป้องกันผลกระทบเชิงลบของความไม่สมดุลในอัลกอริทึมการจำแนกประเภทหรือไม่? การเรียนรู้แบบสุ่มตัวอย่างหรือการเรียนรู้แบบใช้ต้นทุนเป็นเรื่องที่จำเป็นหรือไม่(ดูที่http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )

3
การฝึกอบรมก่อนเครือข่ายประสาทคืออะไร?
คำถามที่บอกมันทั้งหมด "การฝึกอบรมเครือข่ายประสาท" มีความหมายอย่างไร ใครสามารถอธิบายเป็นภาษาอังกฤษง่าย ๆ บริสุทธิ์ ฉันไม่สามารถค้นหาแหล่งข้อมูลที่เกี่ยวข้องได้ มันจะดีมากถ้ามีคนชี้ให้ฉันดู

2
อัลกอริทึมการเรียนรู้ของเครื่องทั้งหมดแยกข้อมูลเป็นเส้นตรงหรือไม่?
ฉันเป็นคนที่กระตือรือร้นในการเขียนโปรแกรมและการเรียนรู้ของเครื่อง เพียงไม่กี่เดือนหลังฉันเริ่มเรียนรู้เกี่ยวกับการเขียนโปรแกรมการเรียนรู้ของเครื่อง เช่นเดียวกับหลาย ๆ คนที่ไม่มีพื้นฐานด้านวิทยาศาสตร์เชิงปริมาณฉันก็เริ่มเรียนรู้เกี่ยวกับ ML ด้วยการแก้ไขอัลกอริธึมและชุดข้อมูลในแพ็คเกจ ML ที่ใช้กันอย่างแพร่หลาย (caret R) ไม่นานมานี้ฉันอ่านบล็อกที่ผู้เขียนพูดถึงเกี่ยวกับการใช้การถดถอยเชิงเส้นใน ML ถ้าฉันจำได้ถูกต้องเขาพูดถึงว่าการเรียนรู้ของเครื่องจักรทั้งหมดในตอนท้ายใช้ "การถดถอยเชิงเส้น" บางชนิด (ไม่แน่ใจว่าเขาใช้คำที่แน่นอนนี้) แม้สำหรับปัญหาเชิงเส้นหรือไม่ใช่เชิงเส้น ครั้งนั้นฉันไม่เข้าใจว่าเขาหมายถึงอะไร ความเข้าใจในการใช้การเรียนรู้ของเครื่องสำหรับข้อมูลที่ไม่ใช่เชิงเส้นคือการใช้อัลกอริทึมที่ไม่ใช่เชิงเส้นเพื่อแยกข้อมูล นี่คือความคิดของฉัน สมมุติว่าจัดประเภทข้อมูลเชิงเส้นเราใช้สมการเชิงเส้นและสำหรับข้อมูลที่ไม่ใช่เชิงเส้นเราใช้สมการที่ไม่ใช่เชิงเส้นพูดy = s i n ( x )Y= m x + cY=ม.x+คy=mx+cY= s i n ( x )Y=sผมn(x)y=sin(x) ภาพนี้นำมาจาก sikit Learn website ของ support vector machine ใน SVM เราใช้เมล็ดที่แตกต่างกันเพื่อวัตถุประสงค์ …

6
ความน่าจะเป็น - ทำไมต้องทวีคูณ
ฉันกำลังศึกษาเกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุดและฉันอ่านว่าฟังก์ชันความน่าจะเป็นคือผลลัพธ์ของความน่าจะเป็นของแต่ละตัวแปร ทำไมถึงเป็นผลิตภัณฑ์ ทำไมไม่รวม ฉันพยายามค้นหาบน Google แล้ว แต่ไม่พบคำตอบที่มีความหมาย https://en.wikipedia.org/wiki/Maximum_likelihood

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.