สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
การทำให้เป็นปกติในภาษาอังกฤษธรรมดาคืออะไร
แตกต่างจากบทความอื่น ๆ ฉันพบรายการวิกิพีเดียสำหรับเรื่องนี้อ่านไม่ได้สำหรับคนที่ไม่ใช่คณิตศาสตร์ (เช่นฉัน) ฉันเข้าใจแนวคิดพื้นฐานที่ว่าคุณชอบโมเดลที่มีกฎน้อยกว่า สิ่งที่ฉันไม่ได้รับคือคุณจะได้รับจากชุดของกฎไปยัง 'คะแนนการทำให้เป็นมาตรฐาน' ซึ่งคุณสามารถใช้เพื่อเรียงลำดับโมเดลจากน้อยไปหามากที่สุด คุณสามารถอธิบายวิธีการทำให้เป็นมาตรฐานได้ง่ายหรือไม่? ฉันสนใจในบริบทของการวิเคราะห์ระบบการซื้อขายทางสถิติ มันจะดีมากถ้าคุณสามารถอธิบายได้ว่า / ฉันจะใช้การทำให้เป็นมาตรฐานเพื่อวิเคราะห์แบบจำลองการทำนายสองแบบต่อไปนี้ได้อย่างไร: รุ่น 1 - ราคาสูงขึ้นเมื่อ: exp_moving_avg (ราคา, ช่วงเวลา = 50)> exp_moving_avg (ราคา, ช่วงเวลา = 200) รุ่น 2 - ราคาสูงขึ้นเมื่อ: ราคา [n] <ราคา [n-1] 10 ครั้งติดต่อกัน exp_moving_avg (ราคา, ระยะเวลา = 200) เพิ่มขึ้น แต่ฉันสนใจที่จะรับรู้ถึงวิธีการทำให้เป็นปกติมากขึ้น ดังนั้นหากคุณรู้จักโมเดลที่ดีกว่าสำหรับการอธิบายโปรดทำเช่นนั้น

6
เหตุใดจึงใช้การไล่ระดับสีแบบลาดชันสำหรับการถดถอยเชิงเส้นเมื่อมีวิธีการแก้ปัญหาคณิตศาสตร์แบบปิด
ฉันกำลังเรียนหลักสูตร Machine Learning ออนไลน์และเรียนรู้เกี่ยวกับ Gradient Descent สำหรับการคำนวณค่าที่ดีที่สุดในสมมติฐาน h(x) = B0 + B1X ทำไมเราต้องใช้ Gradient Descent หากเราสามารถหาค่าได้ง่ายด้วยสูตรด้านล่าง นี่ดูตรงไปตรงมาและง่ายเกินไป แต่ GD ต้องการการวนซ้ำหลายครั้งเพื่อรับค่า B1 = Correlation * (Std. Dev. of y/ Std. Dev. of x) B0 = Mean(Y) – B1 * Mean(X) หมายเหตุ:ถ่ายในhttps://www.dezyre.com/data-science-in-r-programming-tutorial/linear-regression-tutorial ฉันตรวจสอบคำถามด้านล่างและสำหรับฉันมันก็ไม่ชัดเจนที่จะเข้าใจ ทำไมต้องใช้การไล่ระดับสี เหตุใดการเพิ่มประสิทธิภาพจึงถูกแก้ไขด้วยการไล่ระดับสีแทนที่จะใช้โซลูชันการวิเคราะห์ คำตอบข้างต้นเปรียบเทียบ GD กับการใช้อนุพันธ์

4
วารสารจิตวิทยาห้ามค่า p และช่วงความเชื่อมั่น; ควรหยุดใช้พวกเขาจริง ๆ หรือ?
25 กุมภาพันธ์ 2015 วารสารจิตวิทยาพื้นฐานและประยุกต์ใช้สังคม ออกบทบรรณาธิการห้าม -values และช่วงความเชื่อมั่นจากเอกสารทั้งหมดในอนาคตppp โดยเฉพาะพวกเขากล่าวว่า (การจัดรูปแบบและเน้นเป็นของฉัน): [... ] ก่อนที่จะตีพิมพ์ผู้เขียนจะต้องลบร่องรอยทั้งหมดของ NHSTP [ขั้นตอนการทดสอบนัยสำคัญสมมติฐานที่ว่างเปล่า] ( -values, t -values, F- Values, แถลงการณ์เกี่ยวกับความแตกต่างของ 'นัยสำคัญ' หรือขาด และอื่น ๆ )ppptttFFF คล้ายกับวิธีที่ NHSTP ไม่สามารถให้ความน่าจะเป็นของสมมติฐานว่างซึ่งเป็นสิ่งจำเป็นในการสร้างกรณีที่แข็งแกร่งสำหรับการปฏิเสธช่วงเวลาความเชื่อมั่นไม่ได้ให้กรณีที่แข็งแกร่งสำหรับการสรุปว่าพารามิเตอร์ประชากรที่น่าสนใจน่าจะอยู่ภายในระยะเวลาที่กำหนด ระยะห่าง ดังนั้นช่วงความเชื่อมั่นจึงถูกแบนจาก BASP [... ] ด้วยความเคารพต่อวิธีการแบบเบส์เราขอสงวนสิทธิ์ในการตัดสินเป็นกรณี ๆ ไปและขั้นตอนแบบเบย์นั้นไม่จำเป็นหรือถูกแบนจาก BASP [... ] จำเป็นต้องมีกระบวนการทางสถิติเชิงอนุมานหรือไม่? - ไม่ [... ] อย่างไรก็ตาม BASP จะต้องมีสถิติเชิงพรรณนาที่รัดกุมรวมถึงขนาดผลกระทบ pppppp ppp …

6
ไม่มีความสัมพันธ์กันไม่ได้หมายความว่าไม่มีเวรกรรม?
ฉันรู้ว่าความสัมพันธ์ไม่ได้บ่งบอกถึงความเป็นเหตุเป็นผล แต่การขาดความสัมพันธ์นั้นหมายถึงการขาดความเป็นเหตุเป็นผล?

3
“ โอกาสสูงสุดที่ จำกัด ” คืออะไรและควรใช้เมื่อใด
ฉันได้อ่านบทคัดย่อของบทความนี้แล้วว่า: "ขั้นตอนความน่าจะเป็นสูงสุด (ML) ของ Hartley aud Rao นั้นได้รับการแก้ไขโดยการปรับการเปลี่ยนแปลงจาก Patterson และ Thompson ซึ่งการแบ่งความเป็นไปได้นั้นทำให้ปกติเป็นสองส่วนโดยไม่มีผลกระทบคงที่ ตัวประมาณ (REML) " ฉันยังอ่านนามธรรมของบทความนี้ที่ REML: "คำนึงถึงการสูญเสียในองศาอิสระที่เกิดจากการประเมินผลกระทบคงที่" น่าเศร้าที่ฉันไม่มีสิทธิ์เข้าถึงเนื้อหาทั้งหมดของเอกสารเหล่านั้น (และอาจไม่เข้าใจถ้าฉันทำ) อะไรคือข้อดีของ REML กับ ML? ภายใต้สถานการณ์ใดบ้างที่อาจมีความต้องการ REML มากกว่า ML (หรือในทางกลับกัน) เมื่อติดตั้งแบบจำลองเอฟเฟกต์ผสม โปรดให้คำอธิบายที่เหมาะสมสำหรับคนที่มีพื้นฐานคณิตศาสตร์ในระดับมัธยม (หรือสูงกว่า)!

2
วิธีการสุ่มตัวอย่าง / การจำลองใหม่: monte carlo, bootstrapping, jackknifing, cross-validation, การทดสอบแบบสุ่มและการทดสอบการเปลี่ยนรูป
ฉันพยายามเข้าใจความแตกต่างระหว่างวิธีการสุ่มใหม่ (การจำลองมอนติคาร์โล, การบูตแบบพาราเมตริก, การบู๊ตแบบไม่มีพารามิเตอร์, การทดสอบแบบสุ่ม, การตรวจสอบข้าม, การทดสอบแบบสุ่มและการเปลี่ยนรูป) และการนำไปใช้ในบริบทของฉันเอง ว่าฉันมีสถานการณ์ดังต่อไปนี้ - ฉันต้องการดำเนินการ ANOVA ด้วยตัวแปรY ( Yvar) และX variable ( Xvar) Xvarเป็นหมวดหมู่ ฉันสนใจในสิ่งต่อไปนี้: (1) ความสำคัญของ p-values ​​- อัตราการค้นพบที่ผิด (2) ขนาดผลของXvarระดับ Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) คุณช่วยให้ฉันอธิบายความแตกต่างของการสุ่มตัวอย่างด้วยตัวอย่างงานที่ชัดเจนว่าวิธีการสุ่มตัวอย่างใหม่นี้ทำงานอย่างไร การแก้ไข: นี่คือความพยายามของฉัน: Bootstrap …

11
มีงานทำเหมืองข้อมูลโดยไม่มีปริญญาเอก
ฉันสนใจการขุดข้อมูลและการเรียนรู้เครื่องจักรเป็นระยะเวลานานส่วนหนึ่งเป็นเพราะฉันเรียนวิชาเอกที่โรงเรียน แต่ก็เป็นเพราะฉันตื่นเต้นมากที่พยายามแก้ปัญหาที่ต้องใช้ความคิดมากกว่าการเขียนโปรแกรม ความรู้และวิธีการแก้ปัญหาซึ่งสามารถมีได้หลายรูปแบบ ฉันไม่มีภูมิหลังของนักวิจัย / นักวิทยาศาสตร์ฉันมาจากพื้นหลังวิทยาการคอมพิวเตอร์โดยเน้นการวิเคราะห์ข้อมูลฉันมีปริญญาโทไม่ใช่ปริญญาเอก ขณะนี้ฉันมีตำแหน่งที่เกี่ยวข้องกับการวิเคราะห์ข้อมูลแม้ว่าจะไม่ได้เป็นจุดสนใจหลักของสิ่งที่ฉันทำ แต่อย่างน้อยฉันก็มีการเปิดเผยที่ดี ในขณะที่ฉันกำลังสัมภาษณ์เมื่อไม่นานมานี้เพื่อหางานกับ บริษัท หลายแห่งและได้พูดคุยกับนายหน้าสองสามคนฉันพบรูปแบบทั่วไปที่ผู้คนคิดว่าคุณต้องมีปริญญาเอกในการเรียนรู้ของเครื่องจักรแม้ว่าฉันจะเป็น generalizing เล็กน้อยมากเกินไป (บาง บริษัท ไม่ได้มองหาโดยเฉพาะอย่างยิ่งสำหรับปริญญาเอก) ในขณะที่ฉันคิดว่ามันเป็นเรื่องดีที่จะมีปริญญาเอกในพื้นที่ที่ผมไม่คิดว่านี้เป็นอย่างที่จำเป็น ฉันมีความรู้ที่ดีพอสมควรเกี่ยวกับอัลกอริทึมการเรียนรู้ของเครื่องส่วนใหญ่ในโลกแห่งความจริงได้ใช้พวกเขาเอง (ไม่ว่าจะที่โรงเรียนหรือในโครงการส่วนตัว) และรู้สึกมั่นใจเมื่อเข้าใกล้ปัญหาที่เกี่ยวข้องกับการเรียนรู้ด้วยเครื่องจักร . และฉันมีเพื่อนที่มีประวัติคล้าย ๆ กันซึ่งดูเหมือนจะมีความรู้เกี่ยวกับเรื่องนี้เช่นกัน แต่ก็รู้สึกว่าโดยทั่วไปแล้ว บริษัท ค่อนข้างขี้อายที่จ้างงาน data-mining ถ้าคุณไม่ใช่ปริญญาเอก ฉันต้องการรับคำติชมบางอย่างคุณคิดว่าปริญญาเอกมีความจำเป็นอย่างยิ่งหรือไม่ที่จะต้องมีงานที่เน้นเรื่องนี้มาก? (ฉันลังเลเล็กน้อยก่อนโพสต์คำถามนี้ที่นี่ แต่เนื่องจากดูเหมือนว่าจะเป็นหัวข้อที่ยอมรับได้ใน metaฉันจึงตัดสินใจโพสต์คำถามนี้ซึ่งฉันคิดอยู่พักหนึ่ง)

6
แบบจำลองเพื่อทำนายจำนวนการดู Youtube ของสไตล์กังนัม
มิวสิกวิดีโอของ PSY "Gangnam style"ได้รับความนิยมหลังจากนั้นไม่เกิน 2 เดือนผู้ชมประมาณ 540 ล้านคน ฉันได้เรียนรู้สิ่งนี้จากเด็กอายุสิบสามของฉันที่งานเลี้ยงอาหารค่ำเมื่อสัปดาห์ที่แล้วและในไม่ช้าการอภิปรายก็ดำเนินไปในทิศทางที่เป็นไปได้ถ้ามันเป็นไปได้ที่จะทำนายว่ามีผู้ชมกี่คนใน 10-12 วันและเมื่อไหร่ จะส่งผู้ชม 800 ล้านคนหรือผู้ชม 1 พันล้านคน นี่คือภาพจากจำนวนผู้ชมนับตั้งแต่มีการโพสต์: นี่คือรูปภาพจากจำนวนผู้ชมของ No1 "Justin Biever-Baby" และ No2 "Eminem - รักในแบบที่คุณโกหก" มิวสิควิดีโอที่ทั้งคู่อยู่กันมานานกว่านี้มาก ความพยายามครั้งแรกของฉันที่จะให้เหตุผลเกี่ยวกับตัวแบบคือมันควรจะเป็น S-curve แต่ดูเหมือนจะไม่เหมาะกับเพลง No1 และ No2 และยังไม่พอดีที่จะไม่มีการ จำกัด จำนวนการดูวิดีโอเพลง สามารถมีได้เพียงการเติบโตที่ช้าลง ดังนั้นคำถามของฉันคือฉันควรใช้รูปแบบใดในการทำนายจำนวนผู้ชมมิวสิควิดีโอ
73 modeling  web 

15
GUI ที่ดีสำหรับ R เหมาะสำหรับผู้เริ่มต้นที่ต้องการเรียนรู้การเขียนโปรแกรมใน R หรือไม่?
มี GUI สำหรับ R ที่ช่วยให้ผู้เริ่มต้นเริ่มเรียนรู้และเขียนโปรแกรมในภาษานั้นได้ง่ายขึ้นหรือไม่?
73 r 

2
“ เคอร์เนล” ในภาษาอังกฤษธรรมดาคืออะไร
มีประเพณีที่แตกต่างกันหลายประการ: การประมาณความหนาแน่นของเคอร์เนล เคล็ดลับเคอร์เนล เคอร์เนลทำให้เรียบ โปรดอธิบายความหมายของ "เคอร์เนล" ในภาษาอังกฤษด้วยคำพูดของคุณ

6
การเลือกวิธีการจัดกลุ่ม
เมื่อใช้การวิเคราะห์กลุ่มบนชุดข้อมูลเพื่อจัดกลุ่มกรณีที่คล้ายกันเราจำเป็นต้องเลือกวิธีการจัดกลุ่มจำนวนมากและการวัดระยะทาง บางครั้งตัวเลือกหนึ่งอาจมีผลต่อตัวเลือกอื่น ๆ แต่มีวิธีการที่เป็นไปได้หลายวิธีผสมกัน ใครบ้างมีคำแนะนำเกี่ยวกับวิธีการเลือกระหว่างอัลกอริทึมการจัดกลุ่ม / วิธีการและการวัดระยะทางที่หลากหลาย ? สิ่งนี้เกี่ยวข้องกับธรรมชาติของตัวแปร (เช่นหมวดหมู่หรือตัวเลข) และปัญหาการจัดกลุ่มอย่างไร มีเทคนิคที่ดีที่สุดหรือไม่?

9
Outliers ควรได้รับการจัดการอย่างไรในการวิเคราะห์การถดถอยเชิงเส้น
บ่อยครั้งที่นักวิเคราะห์ทางสถิติถูกส่งชุดข้อมูลชุดและขอให้พอดีกับรูปแบบการใช้เทคนิคเช่นการถดถอยเชิงเส้น บ่อยครั้งที่ชุดข้อมูลนั้นมีข้อความปฏิเสธความรับผิดชอบคล้ายกับ "ใช่แล้วเราทำสิ่งที่ผิดพลาดในการรวบรวมจุดข้อมูลเหล่านี้ - ทำในสิ่งที่คุณทำได้" สถานการณ์นี้นำไปสู่การถดถอยที่เหมาะสมซึ่งได้รับผลกระทบอย่างมากจากการมีค่าผิดปกติที่อาจเป็นข้อมูลที่ผิดพลาด รับดังต่อไปนี้: มันเป็นอันตรายจากทั้งมุมมองทางวิทยาศาสตร์และศีลธรรมในการโยนข้อมูลโดยไม่มีเหตุผลอื่นนอกจาก "ทำให้ดูไม่ดี" ในชีวิตจริงคนที่รวบรวมข้อมูลนั้นมักจะไม่สามารถตอบคำถามเช่น "เมื่อสร้างชุดข้อมูลนี้ซึ่งเป็นประเด็นข้อใดที่คุณสับสน การทดสอบทางสถิติหรือกฎของหัวแม่มือสามารถใช้เป็นพื้นฐานสำหรับการยกเว้นค่าผิดปกติในการวิเคราะห์การถดถอยเชิงเส้น? มีข้อควรพิจารณาเป็นพิเศษสำหรับการถดถอยหลายชั้นหรือไม่?

6
มีเหตุผลที่ดีที่จะใช้ PCA แทน EFA หรือไม่ PCA สามารถใช้ทดแทนการวิเคราะห์ปัจจัยได้หรือไม่?
ในบางสาขามีการใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) อย่างเป็นระบบโดยไม่มีเหตุผลและ PCA และ EFA (การวิเคราะห์ปัจจัยเชิงสำรวจ) ถือเป็นคำพ้องความหมาย ดังนั้นเมื่อเร็ว ๆ นี้ฉันใช้ PCA เพื่อวิเคราะห์ผลการศึกษาการตรวจสอบความถูกต้องของสเกล (21 รายการใน 7 คะแนน Likert ซึ่งสันนิษฐานว่าประกอบด้วยองค์ประกอบ 3 รายการจาก 7 รายการ) และผู้ตรวจสอบถามฉันว่าทำไมฉันถึงเลือก PCA แทน EFA ฉันอ่านเกี่ยวกับความแตกต่างระหว่างเทคนิคทั้งสองและดูเหมือนว่า EFA ได้รับการสนับสนุนจาก PCA ในคำตอบส่วนใหญ่ของคุณที่นี่ คุณมีเหตุผลที่ดีว่าทำไม PCA ถึงเป็นตัวเลือกที่ดีกว่า ประโยชน์อะไรบ้างที่จะได้รับและทำไมจึงเป็นตัวเลือกที่ฉลาดในกรณีของฉัน

4
ทำไมเครือข่ายประสาทเทียมถึงลึกขึ้น แต่ไม่กว้างขึ้น
ในช่วงไม่กี่ปีที่ผ่านมาเครือข่ายประสาทเทียม (หรือเครือข่ายประสาทลึกทั่วไป) ได้กลายเป็นเครือข่ายที่ล้ำลึกและล้ำลึกโดยเครือข่ายที่ล้ำสมัยเริ่มจาก 7 ชั้น ( AlexNet ) ถึง 1,000 ชั้น ( มุ้งที่เหลือ)ในพื้นที่ 4 ปี. เหตุผลที่อยู่เบื้องหลังการเพิ่มประสิทธิภาพจากเครือข่ายที่ลึกกว่าคือสามารถเรียนรู้การทำงานที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากขึ้น เมื่อได้รับข้อมูลการฝึกอบรมที่เพียงพอสิ่งนี้จะช่วยให้เครือข่ายสามารถแยกแยะความแตกต่างระหว่างคลาสต่างๆ อย่างไรก็ตามแนวโน้มดูเหมือนจะไม่ได้ตามด้วยจำนวนพารามิเตอร์ในแต่ละชั้น ตัวอย่างเช่นจำนวนของคุณลักษณะแผนที่ในเลเยอร์ convolutional หรือจำนวนโหนดในเลเยอร์ที่เชื่อมต่ออย่างเต็มที่ยังคงอยู่ในระดับเดียวกันและยังคงมีขนาดค่อนข้างเล็กแม้จะมีจำนวนเลเยอร์เพิ่มขึ้นอย่างมาก จากสัญชาตญาณของฉันดูเหมือนว่าการเพิ่มจำนวนพารามิเตอร์ต่อชั้นจะทำให้แหล่งข้อมูลที่สมบูรณ์ยิ่งขึ้นสำหรับการเรียนรู้ฟังก์ชั่นที่ไม่ใช่เชิงเส้น แต่ความคิดนี้ดูเหมือนจะถูกมองข้ามโดยเพิ่มเพียงเลเยอร์เพิ่มขึ้นแต่ละอันมีพารามิเตอร์จำนวนน้อย ดังนั้นในขณะที่เครือข่ายได้กลายเป็น "ลึก" พวกเขาไม่ได้กลายเป็น "กว้าง" ทำไมนี้

4
เมื่อใดที่จะใช้เฟรมเวิร์ก Fisher และ Neyman-Pearson
ฉันอ่านมากเมื่อเร็ว ๆ นี้เกี่ยวกับความแตกต่างระหว่างวิธีการทดสอบสมมติฐานของฟิชเชอร์กับโรงเรียนแห่งความคิดของเนย์แมน - เพียร์สัน คำถามของฉันคือไม่สนใจการคัดค้านทางปรัชญาสักครู่; เมื่อใดที่เราควรใช้วิธีการของชาวประมงในการสร้างแบบจำลองทางสถิติและเมื่อใดควรใช้วิธีการของเนย์แมน - เพียร์สันในระดับนัยสำคัญและอื่น ๆ ? มีวิธีปฏิบัติหรือไม่ในการตัดสินใจเลือกมุมมองที่จะรับรองในปัญหาการปฏิบัติที่ได้รับ?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.