สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

6
วิธีการทดสอบโดยใช้ R เพื่อดูว่าข้อมูลเป็นไปตามการแจกแจงแบบปกติหรือไม่
ฉันมีชุดข้อมูลที่มีโครงสร้างต่อไปนี้: a word | number of occurrence of a word in a document | a document id ฉันจะทำการทดสอบสำหรับการแจกแจงแบบปกติใน R ได้อย่างไร? อาจเป็นคำถามง่าย ๆ แต่ฉันเป็นมือใหม่ R

8
คำจำกัดความที่เข้มงวดของค่าผิดปกติ?
ผู้คนมักพูดคุยเกี่ยวกับการจัดการกับค่าผิดปกติในสถิติ สิ่งที่รบกวนจิตใจฉันเกี่ยวกับเรื่องนี้คือเท่าที่ฉันสามารถบอกได้นิยามของค่าผิดปกตินั้นเป็นไปโดยสิ้นเชิง ตัวอย่างเช่นหากการแจกแจงที่แท้จริงของตัวแปรสุ่มบางตัวนั้นมีความหนามากหรือ bimodal การสร้างภาพมาตรฐานหรือสถิติสรุปใด ๆ สำหรับการตรวจจับค่าผิดปกติจะลบส่วนต่าง ๆ ของการแจกแจงที่คุณต้องการสุ่มตัวอย่างออกอย่างไม่ถูกต้อง อะไรคือคำจำกัดความที่เข้มงวดของค่าผิดปกติถ้ามีอยู่และค่าผิดปกติสามารถจัดการได้อย่างไร

5
เหตุใดการเปรียบเทียบหลายรายการจึงมีปัญหา
ฉันพบว่ามันยากที่จะเข้าใจว่าอะไรคือปัญหาของการเปรียบเทียบหลาย ๆอย่าง ด้วยการเปรียบเทียบง่าย ๆ ว่ากันว่าคนที่จะทำการตัดสินใจหลายอย่างจะทำผิดพลาดมากมาย ดังนั้นการระมัดระวังอย่างระมัดระวังจึงถูกนำมาใช้เช่นการแก้ไข Bonferroni เพื่อที่จะสร้างความน่าจะเป็นที่บุคคลนี้จะทำผิดพลาดใด ๆ น้อยที่สุดเท่าที่จะทำได้ แต่ทำไมเราใส่ใจว่าบุคคลนั้นทำผิดพลาดใด ๆ ในทุกการตัดสินใจของเขา / เธอหรือไม่แทนที่จะเป็นเปอร์เซ็นต์ของการตัดสินใจที่ผิด ให้ฉันพยายามอธิบายสิ่งที่ทำให้ฉันสับสนด้วยการเปรียบเทียบอื่น สมมติว่ามีผู้พิพากษาสองคนคนหนึ่งอายุ 60 ปีและอีกคนอายุ 20 ปี จากนั้นการแก้ไข Bonferroni จะบอกผู้ที่มีอายุ 20 ปีว่าจะอนุรักษ์นิยมที่สุดเท่าที่จะเป็นไปได้ในการตัดสินใจประหารชีวิตเพราะเขาจะทำงานต่อไปอีกหลายปีในฐานะผู้พิพากษาจะทำการตัดสินใจอีกหลายครั้งดังนั้นเขาจึงต้องระมัดระวัง แต่คนที่อายุ 60 ปีอาจจะเกษียณเร็ว ๆ นี้จะทำการตัดสินใจน้อยลงดังนั้นเขาจึงประมาทมากขึ้นเมื่อเทียบกับอีกคนหนึ่ง แต่ที่จริงแล้วผู้พิพากษาทั้งสองควรระมัดระวังหรืออนุรักษ์อย่างเท่าเทียมกันโดยไม่คำนึงถึงจำนวนการตัดสินใจทั้งหมดที่พวกเขาจะทำ ฉันคิดว่าสิ่งนี้คล้ายคลึงกันมากหรือน้อยแปลว่าปัญหาจริงที่มีการใช้การแก้ไข Bonferroni ซึ่งฉันพบว่าใช้ง่าย

4
แบบจำลองทางสถิติโกงแผ่น
ฉันสงสัยว่ามีรูปแบบทางสถิติ "cheat sheet (s)" ที่แสดงข้อมูลใด ๆ หรือมากกว่า: เมื่อใช้โมเดล เมื่อไม่ใช้โมเดล อินพุตที่จำเป็นและอินพุตเพิ่มเติม ผลลัพธ์ที่คาดหวัง โมเดลได้รับการทดสอบในด้านต่างๆ (นโยบาย, ชีวภาพ, วิศวกรรม, การผลิต ฯลฯ ) หรือไม่ เป็นที่ยอมรับในทางปฏิบัติหรือการวิจัย? รูปแบบที่คาดหวัง / ความแม่นยำ / ความแม่นยำ คำเตือน ความยืดหยุ่น รูปแบบที่เลิกใช้หลีกเลี่ยงหรือไม่ใช้ ฯลฯ ฉันเคยเห็นลำดับชั้นมาก่อนในเว็บไซต์ต่าง ๆ และแบบจำลองแบบง่าย ๆ ชีตชีตในตำราต่างๆ อย่างไรก็ตามมันจะดีถ้ามีรุ่นที่ใหญ่กว่าซึ่งรวมโมเดลหลากหลายประเภทตามการวิเคราะห์และทฤษฎีประเภทต่าง ๆ

6
เหตุใดจึงไม่มีการตรวจสอบความสัมพันธ์หลายระดับในสถิติสมัยใหม่ / การเรียนรู้ของเครื่อง
ในสถิติแบบดั้งเดิมในขณะที่สร้างแบบจำลองเราจะตรวจสอบความหลากหลายทางพินิจพิเคราะห์โดยใช้วิธีการเช่นประมาณการค่าความแปรปรวนของเงินเฟ้อ (VIF) แต่ในการเรียนรู้ของเครื่อง เลย ทำไมเราทำเช่นนั้น?

4
มีการทดสอบเพื่อตรวจสอบว่าการทับซ้อน GLM มีความสำคัญหรือไม่?
ฉันกำลังสร้าง Poisson GLMs ในอาร์ในการตรวจสอบ overdispersion summary(model.name)ฉันกำลังมองหาที่อัตราส่วนของการเบี่ยงเบนที่เหลือเพื่อองศาอิสระให้บริการโดย มีค่า cutoff หรือการทดสอบสำหรับอัตราส่วนนี้ที่จะพิจารณาว่า "สำคัญหรือไม่" ฉันรู้ว่าถ้ามัน> 1 ข้อมูลจะถูกใช้งานเกินขนาด แต่ถ้าฉันมีอัตราส่วนค่อนข้างใกล้กับ 1 [เช่นอัตราส่วนหนึ่งเท่ากับ 1.7 (ส่วนเบี่ยงเบนเหลือ = 25.48, df = 15) และอีก 1.3 (rd = 324, df = 253)] ฉันยังควรเปลี่ยนไปใช้ quasipoisson / binomial เชิงลบหรือไม่ ฉันพบที่นี่การทดสอบนี้เพื่อความสำคัญ: 1-pchisq (ส่วนเบี่ยงเบนเบี่ยงเบน, df) แต่ฉันเห็นเพียงครั้งเดียวซึ่งทำให้ฉันกังวล ฉันอ่านด้วย (ฉันไม่สามารถหาแหล่งที่มาได้) ว่าอัตราส่วน <1.5 มีความปลอดภัยโดยทั่วไป ความเห็น?


6
ฉันจะหลีกเลี่ยงการซ้อนฉลากในพล็อต R ได้อย่างไร [ปิด]
ฉันพยายามติดป้ายกระจายภาพง่าย ๆ ใน R. นี่คือสิ่งที่ฉันใช้: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) ผลที่ได้คือปานกลางตามที่คุณเห็น (คลิกเพื่อดูภาพขยาย): ผมพยายามที่จะชดเชยการนี้โดยใช้textxyฟังก์ชั่น แต่ก็ไม่ดีขึ้น การทำให้ภาพใหญ่ขึ้นไม่สามารถใช้กับกลุ่มที่หนาแน่น มีฟังก์ชั่นหรือวิธีง่าย ๆ ในการชดเชยสิ่งนี้และปล่อยให้ R plot label ที่ไม่ทับซ้อนกันหรือไม่? นี่เป็นส่วนย่อยของข้อมูลที่ฉันมี: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

4
ฟังก์ชันการเปิดใช้งานใดสำหรับเลเยอร์เอาท์พุท
ในขณะที่ทางเลือกของฟังก์ชั่นการเปิดใช้งานสำหรับเลเยอร์ที่ซ่อนอยู่นั้นค่อนข้างชัดเจน (ส่วนใหญ่เป็น sigmoid หรือ tanh) ฉันสงสัยว่าจะเลือกฟังก์ชั่นเปิดใช้งานสำหรับเลเยอร์เอาท์พุทได้อย่างไร ตัวเลือกทั่วไปคือฟังก์ชันเชิงเส้นฟังก์ชัน sigmoid และฟังก์ชัน softmax อย่างไรก็ตามเมื่อใดฉันจึงควรใช้อันไหน

3
การทดสอบความเท่าเทียมกันของสัมประสิทธิ์จากการถดถอยสองแบบที่แตกต่างกัน
นี่ดูเหมือนจะเป็นปัญหาพื้นฐาน แต่ฉันเพิ่งรู้ว่าจริง ๆ แล้วฉันไม่รู้วิธีทดสอบความเท่าเทียมของสัมประสิทธิ์จากการถดถอยสองแบบที่แตกต่างกัน มีใครบ้างไหมที่ให้แสงนี้? อีกอย่างเป็นทางการเช่นสมมติว่าฉันวิ่งต่อไปนี้สองถดถอย: และ ที่หมายถึงเมทริกซ์การออกแบบของการถดถอยและเวกเตอร์ของสัมประสิทธิ์ในการถดถอย . โปรดทราบว่าและอาจแตกต่างกันมากที่มีขนาดแตกต่างกัน ฯลฯ ฉันสนใจในตัวอย่างหรือไม่{21}ปี2 = X 2 β 2 + ε 2 X ฉันฉันβ ฉันฉันX 1 X 2 β 11 ≠ β 21Y1= X1β1+ ϵ1y1=X1β1+ϵ1 y_1 = X_1\beta_1 + \epsilon_1 Y2= X2β2+ ϵ2y2=X2β2+ϵ2 y_2 = X_2\beta_2 + \epsilon_2 XผมXiX_iผมiiβผมβi\beta_iผมiiX1X1X_1X2X2X_2β^11≠β^21β^11≠β^21\hat\beta_{11} \neq \hat\beta_{21} หากสิ่งเหล่านี้มาจากการถดถอยแบบเดียวกันนี่จะไม่สำคัญ …

5
จำเป็นหรือไม่ที่จะต้องทำการขยายข้อมูลก่อนทำการจัดกลุ่ม?
ฉันพบบทช่วยสอนนี้ซึ่งแนะนำว่าคุณควรเรียกใช้ฟังก์ชันมาตราส่วนบนฟีเจอร์ก่อนการจัดกลุ่ม (ฉันเชื่อว่ามันแปลงข้อมูลเป็นคะแนน z) ฉันสงสัยว่าจำเป็นหรือไม่ ฉันถามเป็นส่วนใหญ่เพราะมีจุดศอกที่ดีเมื่อฉันไม่ได้ปรับขนาดข้อมูล แต่มันจะหายไปเมื่อมันถูกลดขนาด :)

5
ความแตกต่างระหว่างอัลกอริทึมไปข้างหน้าถอยหลังและ Viterbi คืออะไร
ฉันต้องการทราบว่าความแตกต่างระหว่างอัลกอริทึมไปข้างหน้าถอยหลังและอัลกอริทึม Viterbiสำหรับการอนุมานในโมเดล Markov ที่ซ่อนอยู่ (HMM) คืออะไร

4
เหตุใดการเปลี่ยนแปลงบันทึกธรรมชาติจึงเปลี่ยนแปลงเปอร์เซ็นต์ เกี่ยวกับบันทึกที่ทำเช่นนี้คืออะไร?
ใครสามารถอธิบายได้ว่าคุณสมบัติของบันทึกสร้างขึ้นได้อย่างไรเพื่อให้คุณสามารถบันทึกการถดถอยเชิงเส้นโดยที่ค่าสัมประสิทธิ์ถูกตีความเป็นการเปลี่ยนแปลงเปอร์เซ็นต์

7
การอ้างอิงเครือข่ายนิวรัล (ตำรา, หลักสูตรออนไลน์) สำหรับผู้เริ่มต้น
ฉันต้องการเรียนรู้โครงข่ายประสาท ฉันเป็นนักภาษาศาสตร์คอมพิวเตอร์ ฉันรู้วิธีการเรียนรู้ด้วยเครื่องเชิงสถิติและสามารถเขียนโค้ดใน Python ได้ ฉันกำลังมองหาที่จะเริ่มต้นด้วยแนวคิดของมันและรู้ว่าหนึ่งหรือสองรูปแบบที่นิยมซึ่งอาจเป็นประโยชน์จากมุมมองของภาษาศาสตร์เชิงคำนวณ ฉันเรียกดูเว็บเพื่อการอ้างอิงและพบหนังสือและเอกสารสองสามฉบับ Ripley, Brian D. (1996) การจดจำรูปแบบและ Neural Networks, Cambridge บิชอปซม. (2538) เครือข่ายประสาทรับรู้รูปแบบออกซ์ฟอร์ด: สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด เชื่อมโยงบางอย่างเช่นวิทยานิพนธ์ฉบับนี้ , เหล่านี้บันทึกหลักสูตร (มหาวิทยาลัยโตรอนโตจิตวิทยากรม) เหล่านี้บันทึกหลักสูตร (มหาวิทยาลัยวิสคอนซินวิทยาการคอมพิวเตอร์) และสไลด์โชว์ (การวิจัย Facebook) โดยทั่วไปแล้วหลักสูตร Coursera นั้นดีถ้ามีใครรู้อะไรที่เกี่ยวข้องกับพวกเขา ฉันชอบวัสดุที่มีภาษาที่ชัดเจนและเป็นตัวอย่างที่กว้างขวาง

13
การเรียนรู้ของเครื่องสามารถถอดรหัสแฮช SHA256 ได้หรือไม่
ฉันมีแฮช SHA256 64 ตัว ฉันหวังว่าจะฝึกแบบจำลองที่สามารถทำนายได้ว่าข้อความธรรมดาที่ใช้สร้างแฮชเริ่มต้นด้วย 1 หรือไม่ ไม่ว่าจะเป็น "เป็นไปได้" อัลกอริทึมแบบใดที่จะเป็นแนวทางที่ดีที่สุด ความคิดเริ่มต้นของฉัน: สร้างตัวอย่างแฮชขนาดใหญ่ที่เริ่มต้นด้วย 1 และตัวอย่างแฮชขนาดใหญ่ที่ไม่ได้ขึ้นต้นด้วย 1 ตั้งค่าอักขระแฮช 64 ตัวแต่ละตัวเป็นพารามิเตอร์สำหรับโมเดลการถดถอยโลจิสติกที่ไม่ได้รับการดูแลบางประเภท ฝึกโมเดลโดยบอกเมื่อถูก / ผิด หวังว่าจะสามารถสร้างแบบจำลองที่สามารถทำนายได้ว่าข้อความธรรมดาเริ่มต้นด้วย 1 หรือไม่ที่มีความแม่นยำสูงพอ (และด้วยคัปปาที่ดี)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.