สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

11
การประมาณความน่าจะเป็นสูงสุด (MLE) ในแง่คนธรรมดา
ใครสามารถอธิบายให้ฉันอย่างละเอียดเกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุด (MLE) ในแง่ของคนธรรมดา ฉันต้องการทราบแนวคิดพื้นฐานก่อนที่จะเข้ามาทางคณิตศาสตร์หรือสมการ

3
เป็นไปได้ไหมที่จะมีตัวแปรสุ่มแบบเกาส์ซึ่งเป็นการกระจายข้อต่อไม่ใช่เกาส์เซียน
ใครบางคนถามคำถามนี้กับฉันในการสัมภาษณ์งานและฉันตอบว่าการกระจายข้อต่อเป็นแบบเกาส์น ฉันคิดว่าฉันสามารถเขียนเกาส์ไบรอาริเอตด้วยวิธีและความแปรปรวนและความแปรปรวนร่วมได้ ฉันสงสัยว่าอาจมีกรณีที่น่าจะเป็นร่วมกันของ Gaussians สองไม่ Gaussian?

11
อธิบาย“ คำสาปของมิติ” กับเด็ก
ฉันได้ยินหลายครั้งเกี่ยวกับคำสาปของมิติ แต่อย่างใดฉันก็ยังไม่สามารถเข้าใจความคิดมันมีหมอก ทุกคนสามารถอธิบายสิ่งนี้ด้วยวิธีที่ง่ายที่สุดอย่างที่คุณจะอธิบายให้เด็กฟังเพื่อที่ฉัน (และคนอื่น ๆ จะสับสนเหมือนฉัน) สามารถเข้าใจสิ่งนี้ได้ดี แก้ไข: ตอนนี้สมมติว่าเด็ก ๆ ได้ยินเกี่ยวกับการรวมกลุ่ม (ตัวอย่างเช่นพวกเขารู้วิธีจัดกลุ่มของเล่นของพวกเขา :)) การเพิ่มขนาดมิติจะทำให้งานของกลุ่มของเล่นของพวกเขายากขึ้นได้อย่างไร ตัวอย่างเช่นพวกเขาเคยพิจารณาเฉพาะรูปร่างของของเล่นและสีของของเล่น (ของเล่นสีเดียว) แต่ตอนนี้ต้องพิจารณาขนาดและน้ำหนักของของเล่นด้วย ทำไมเด็กจึงหาของเล่นที่คล้ายกันได้ยากกว่า แก้ไข 2 เพื่อการอภิปรายฉันต้องอธิบายให้ชัดเจนโดย - "ทำไมมันยากกว่าสำหรับเด็กที่จะหาของเล่นที่คล้ายกัน" - ฉันยังหมายถึงว่าทำไมความคิดของระยะทางที่หายไปในพื้นที่มิติสูง?

5
ทำไม ANOVA จึงถูกสอน / ใช้ราวกับว่ามันเป็นวิธีการวิจัยที่แตกต่างเมื่อเทียบกับการถดถอยเชิงเส้น?
ANOVA เทียบเท่ากับการถดถอยเชิงเส้นด้วยการใช้ตัวแปรจำลองที่เหมาะสม ข้อสรุปยังคงเหมือนเดิมไม่ว่าคุณจะใช้ ANOVA หรือการถดถอยเชิงเส้น ในแง่ของความเท่าเทียมมีเหตุผลใดที่ใช้ ANOVA แทนการถดถอยเชิงเส้น? หมายเหตุ: ฉันสนใจฟังเหตุผลทางเทคนิคเป็นพิเศษสำหรับการใช้ ANOVA แทนการถดถอยเชิงเส้น แก้ไข นี่คือตัวอย่างหนึ่งที่ใช้การวิเคราะห์ความแปรปรวนแบบทางเดียว สมมติว่าคุณต้องการทราบว่าความสูงเฉลี่ยของชายและหญิงเหมือนกันหรือไม่ เพื่อทดสอบสมมติฐานของคุณคุณจะต้องรวบรวมข้อมูลจากตัวอย่างแบบสุ่มของชายและหญิง (พูด 30 ข้อ) และทำการวิเคราะห์ความแปรปรวนร่วม (เช่นผลรวมของกำลังสองสำหรับเพศและข้อผิดพลาด) เพื่อตัดสินว่ามีผลกระทบหรือไม่ คุณสามารถใช้การถดถอยเชิงเส้นเพื่อทดสอบสิ่งต่อไปนี้: กำหนด: หากผู้ตอบเป็นเพศชายและ0 เป็นอย่างอื่น ความสูง= สกัดกั้น+ β ∗ เพศ+ ข้อผิดพลาด โดยที่: ข้อผิดพลาด∼ N ( 0 , σ 2 )Gender=1Gender=1\text{Gender} = 1000Height=Intercept+β∗Gender+errorHeight=Intercept+β∗Gender+error \text{Height} = \text{Intercept} + \beta * \text{Gender} …
91 regression  anova 

11
การถดถอยเชิงเส้นควรเรียกว่า“ การเรียนรู้ของเครื่อง” เมื่อใด
ในการสัมมนาที่ผ่านมาบทคัดย่อของผู้พูดอ้างว่าพวกเขาใช้การเรียนรู้ของเครื่อง ในระหว่างการพูดคุยสิ่งเดียวที่เกี่ยวข้องกับการเรียนรู้ของเครื่องคือพวกเขาทำการถดถอยเชิงเส้นในข้อมูลของพวกเขา หลังจากการคำนวณค่าสัมประสิทธิ์ที่เหมาะสมที่สุดในพื้นที่พารามิเตอร์ 5D พวกเขาเปรียบเทียบค่าสัมประสิทธิ์เหล่านี้ในระบบหนึ่งกับค่าสัมประสิทธิ์ที่เหมาะสมที่สุดของระบบอื่น ๆ เมื่อใดที่การเรียนรู้ของเครื่องถดถอยเชิงเส้นตรงข้ามกับการหาเส้นที่เหมาะสมที่สุด (บทคัดย่อของผู้วิจัยทำให้เข้าใจผิดหรือไม่) ด้วยการเรียนรู้ด้วยความสนใจทั้งหมดได้รับการรวบรวมเมื่อเร็ว ๆ นี้ดูเหมือนว่าสิ่งสำคัญที่จะทำให้ความแตกต่างดังกล่าว คำถามของฉันเป็นแบบนี้ยกเว้นคำถามนั้นถามถึงคำจำกัดความของ "การถดถอยเชิงเส้น" ในขณะที่ฉันถามเมื่อการถดถอยเชิงเส้น (ซึ่งมีแอปพลิเคชันจำนวนมาก) อาจถูกเรียกว่า "การเรียนรู้ด้วยเครื่อง" อย่างเหมาะสม ชี้แจง ฉันไม่ได้ถามเมื่อการถดถอยเชิงเส้นเหมือนกับการเรียนรู้ของเครื่อง ตามที่บางคนได้ชี้ให้เห็นอัลกอริทึมเดียวไม่ได้เป็นสาขาของการศึกษา ฉันถามว่าถูกต้องหรือไม่ที่จะบอกว่าสิ่งหนึ่งกำลังทำการเรียนรู้ของเครื่องเมื่ออัลกอริทึมที่ใช้อยู่นั้นเป็นเพียงการถดถอยเชิงเส้น เรื่องตลกทั้งหมด (ดูความคิดเห็น) หนึ่งในเหตุผลที่ฉันถามเรื่องนี้ก็เพราะมันผิดจรรยาบรรณที่จะบอกว่าหนึ่งคือการเรียนรู้ของเครื่องเพื่อเพิ่มดาวสีทองสองสามชื่อของคุณถ้าพวกเขาไม่ได้เรียนรู้ด้วยเครื่องจริงๆ (นักวิทยาศาสตร์หลายคนคำนวณชนิดของสายที่ดีที่สุดเหมาะสำหรับการทำงานของพวกเขาบางส่วน แต่นี้ไม่ได้หมายความว่าพวกเขากำลังทำกลไกการเรียนรู้.) บนมืออื่น ๆ ที่มีอย่างชัดเจนสถานการณ์เมื่อการถดถอยเชิงเส้นจะถูกนำมาใช้เป็นส่วนหนึ่งของการเรียนรู้เครื่อง ฉันกำลังมองหาผู้เชี่ยวชาญเพื่อช่วยจำแนกสถานการณ์เหล่านี้ ;-)

6
หากฉันมีโอกาส 58% ในการชนะหนึ่งแต้มโอกาสที่ฉันจะชนะเกมปิงปองถึง 21 ชนะด้วย 2 คืออะไร
ฉันมีการเดิมพันกับเพื่อนร่วมงานที่ออกจากเกมปิงปอง 50 เกม (ก่อนชนะ 21 คะแนนชนะ 2 คะแนน) ฉันจะชนะ 50 คะแนนจนถึงตอนนี้เราเล่น 15 เกมแล้วโดยเฉลี่ยฉันชนะ 58% ของ คะแนนรวมทั้งฉันชนะทุกเกมจนถึงตอนนี้ ดังนั้นเราจึงสงสัยว่าถ้าฉันมีโอกาส 58% ที่จะได้รับคะแนนและเขามีโอกาส 42% ที่จะได้รับคะแนนสิ่งที่เป็นโอกาสร้อยละที่ฉันจะชนะเกม มีสูตรที่เราสามารถเสียบโอกาส% ต่างกันได้หรือไม่? เราได้สำรวจและถามนักวิทยาศาสตร์ด้านข้อมูลที่ บริษัท ของเรา แต่ไม่พบคำตอบที่ตรง แก้ไข:ว้าวฉันปลิวไปด้วยการตอบสนองอย่างถี่ถ้วน ขอบคุณมาก ๆ เลย !!! ในกรณีที่ผู้คนอยากรู้อยากเห็นฉันได้รับการปรับปรุงวิธีการเดิมพันของฉัน: ตอนนี้ฉันชนะแล้ว 18 จาก 50 เกมดังนั้นฉันต้องชนะอีก 32 เกม ฉันได้รับคะแนน 58.7% จากคะแนนทั้งหมดและฝ่ายตรงข้ามของฉันได้รับคะแนน 41.3% ค่าเบี่ยงเบนมาตรฐานสำหรับคู่ต่อสู้ของฉันคือ 3.52 คะแนนเฉลี่ยของเขาคือ 14.83 และคะแนนเฉลี่ยของเขาคือ 15.50 …

4
PCA และสัดส่วนของความแปรปรวนอธิบาย
โดยทั่วไปสิ่งที่มีความหมายโดยบอกว่าเศษส่วนของความแปรปรวนในการวิเคราะห์เช่น PCA อธิบายโดยองค์ประกอบหลักแรก ใครสามารถอธิบายสิ่งนี้อย่างสังหรณ์ใจ แต่ยังให้คำจำกัดความทางคณิตศาสตร์ที่แม่นยำของสิ่งที่ "แปรปรวนอธิบาย" หมายถึงในแง่ของการวิเคราะห์องค์ประกอบหลัก (PCA)?xxx สำหรับการถดถอยเชิงเส้นอย่างง่าย r-squared ของเส้นพอดีที่ดีที่สุดจะถูกอธิบายเสมอตามสัดส่วนของความแปรปรวนที่อธิบาย แต่ฉันไม่แน่ใจว่าจะต้องทำอะไร สัดส่วนความแปรปรวนตรงนี้เป็นเพียงการขยายส่วนเบี่ยงเบนของคะแนนจากเส้นที่พอดีที่สุดหรือไม่?

11
ชุดสีที่“ ดีที่สุด” เพื่อใช้สำหรับชุดที่มีความแตกต่างในแปลงที่มีคุณภาพการตีพิมพ์
มีการศึกษาอะไรบ้างเกี่ยวกับชุดสีที่ดีที่สุดที่จะใช้สำหรับการแสดงหลาย ๆ ชุดบนเนื้อเรื่องเดียวกันหรือไม่? ฉันเพิ่งใช้ค่าเริ่มต้นในmatplotlibและพวกเขาดูเด็ก ๆ เล็กน้อยเนื่องจากพวกเขาทั้งหมดสีสดใสหลัก

7
จะจัดการโครงการวิเคราะห์ทางสถิติได้อย่างมีประสิทธิภาพได้อย่างไร
เรามักจะได้ยินเกี่ยวกับการจัดการโครงการและรูปแบบการออกแบบในวิทยาการคอมพิวเตอร์ แต่ไม่ค่อยบ่อยนักในการวิเคราะห์ทางสถิติ อย่างไรก็ตามดูเหมือนว่าขั้นตอนเด็ดขาดในการออกแบบโครงการสถิติที่มีประสิทธิภาพและทนทานคือการจัดระเบียบสิ่งต่าง ๆ ฉันมักจะสนับสนุนการใช้ R และองค์กรที่สอดคล้องกันของไฟล์ในโฟลเดอร์ที่แยกต่างหาก (ไฟล์ข้อมูลดิบ, ไฟล์ข้อมูลที่ถูกแปลง, สคริปต์ R, ตัวเลข, บันทึก, ฯลฯ ) เหตุผลหลักสำหรับวิธีนี้คือการวิเคราะห์ของคุณในภายหลังอาจทำได้ง่ายขึ้น (เมื่อคุณลืมว่าคุณได้สร้างพล็อตที่กำหนดขึ้นมาอย่างไร) อะไรคือแนวทางปฏิบัติที่ดีที่สุดสำหรับการจัดการโครงการเชิงสถิติหรือคำแนะนำที่คุณต้องการให้จากประสบการณ์ของคุณเอง? แน่นอนว่าสิ่งนี้ใช้ได้กับซอฟต์แวร์ทางสถิติใด ๆ ( หนึ่งคำตอบต่อโพสต์โปรด )

1
การตีความพล็อต. lm ()
ฉันมีคำถามเกี่ยวกับการตีความกราฟที่สร้างขึ้นโดยพล็อต (lm) ในอาร์ฉันสงสัยว่าพวกคุณจะบอกวิธีการตีความสเกลตำแหน่งและพล็อตที่เหลือ? ความคิดเห็นใด ๆ ที่จะได้รับการชื่นชม สมมติว่ามีความรู้พื้นฐานเกี่ยวกับสถิติการถดถอยและเศรษฐมิติ

4
เหตุใดจึงทำให้ภาพเป็นปกติด้วยการลบภาพของชุดข้อมูลหมายความว่าแทนที่จะเป็นรูปภาพปัจจุบันหมายถึงการเรียนรู้อย่างลึกซึ้ง?
มีความแตกต่างบางอย่างเกี่ยวกับวิธีทำให้รูปภาพเป็นปกติ แต่ส่วนใหญ่ดูเหมือนจะใช้สองวิธีนี้: ลบค่าเฉลี่ยต่อแชนเนลที่คำนวณเหนือรูปภาพทั้งหมด (เช่น VGG_ILSVRC_16_layers ) ลบตามพิกเซล / ช่องคำนวณเหนือภาพทั้งหมด (เช่นCNN_S , ดูเครือข่ายอ้างอิงของ Caffe ด้วย ) วิธีธรรมชาติของฉันจะทำให้ภาพแต่ละภาพเป็นปกติ รูปภาพที่ถ่ายในเวลากลางวันจะทำให้เซลล์ประสาทยิงมากกว่าภาพในเวลากลางคืนและในขณะที่มันอาจแจ้งให้เราทราบถึงเวลาที่เรามักจะสนใจเกี่ยวกับคุณสมบัติที่น่าสนใจอื่น ๆ ในขอบ ฯลฯ Pierre Sermanetอ้างถึงใน 3.3.3 ว่าการฟื้นฟูความคมชัดในท้องถิ่นนั้นน่าจะเป็นแบบต่อภาพ แต่ฉันไม่ได้เจอสิ่งนี้ในตัวอย่าง / แบบฝึกหัดที่ฉันเคยเห็น ฉันเคยเห็นคำถาม Quora ที่น่าสนใจและโพสต์ของ Xiu-Shen Weiแต่พวกเขาดูเหมือนจะไม่สนับสนุนแนวทางทั้งสองข้างต้น ฉันพลาดอะไรไปแน่ ๆ ? นี่เป็นปัญหาการปรับสีให้เป็นมาตรฐานหรือมีกระดาษที่อธิบายว่าทำไมคนจำนวนมากถึงใช้วิธีนี้?

1
เอฟเฟ็กต์แบบซ้อน vs แบบซ้อน: พวกมันต่างกันอย่างไรและพวกมันระบุอย่างถูกต้องใน lme4 ได้อย่างไร?
นี่คือวิธีที่ฉันเข้าใจการซ้อนแบบสุ่มกับเอฟเฟกต์แบบข้าม: เอฟเฟกต์แบบสุ่มซ้อนกันเกิดขึ้นเมื่อปัจจัยระดับล่างลดลงจะปรากฏเฉพาะภายในระดับเฉพาะของปัจจัยระดับบน ตัวอย่างเช่นนักเรียนในชั้นเรียนที่จุดคงที่ในเวลา ในlme4ฉันคิดว่าเราเป็นตัวแทนผลสุ่มสำหรับข้อมูลที่ซ้อนกันในสองวิธีที่เทียบเท่า: (1|class/pupil) # or (1|class) + (1|class:pupil) ข้ามสุ่มผลหมายความว่าปัจจัยที่กำหนดปรากฏในมากกว่าหนึ่งระดับของปัจจัยระดับบน ตัวอย่างเช่นมีนักเรียนภายในชั้นเรียนที่ถูกวัดเป็นเวลาหลายปี ในlme4เราจะเขียน: (1|class) + (1|pupil) อย่างไรก็ตามเมื่อฉันดูชุดข้อมูลที่ซ้อนอยู่โดยเฉพาะฉันสังเกตว่าสูตรทั้งสองแบบให้ผลลัพธ์เหมือนกัน (โค้ดและผลลัพธ์ด้านล่าง) อย่างไรก็ตามฉันได้เห็นชุดข้อมูลอื่นที่ทั้งสองสูตรให้ผลลัพธ์ที่แตกต่างกัน แล้วเกิดอะไรขึ้นที่นี่? mydata <- read.csv("https://web.archive.org/web/20160624172041if_/http://www-personal.umich.edu/~bwest/classroom.csv") # (the data is no longer at `http://www-personal.umich.edu/~bwest/classroom.csv` # hence the link to web.archive.org) # Crossed version: Linear mixed model fit by REML ['lmerMod'] Formula: mathgain ~ …

4
พล็อตการวิเคราะห์สำหรับการนับถอยหลัง
แปลงวินิจฉัย (และการทดสอบอย่างเป็นทางการ) คุณพบว่าข้อมูลส่วนใหญ่สำหรับการถดถอยที่ผลเป็นตัวแปรนับ? ฉันสนใจเป็นพิเศษใน Poisson และแบบจำลอง Binomial เชิงลบเช่นเดียวกับ counterparts ที่สูงเกินจริงและกีดขวางของแต่ละ แหล่งที่มาส่วนใหญ่ที่ฉันได้พบเพียงแค่พล็อตส่วนที่เหลือเทียบกับค่าติดตั้งโดยไม่ต้องพูดคุยเกี่ยวกับสิ่งที่แปลงเหล่านี้ "ควร" ดูเหมือน ภูมิปัญญาและการอ้างอิงชื่นชมอย่างมาก เรื่องราวย้อนกลับไปในเหตุผลที่ผมถามนี้ถ้ามันมีความเกี่ยวข้องเป็นคำถามอื่น ๆ ของฉัน การอภิปรายที่เกี่ยวข้อง: การตีความแปลงการวินิจฉัยที่เหลือสำหรับรุ่น GLM? สมมติฐานของตัวแบบเชิงเส้นทั่วไป GLMs - การวินิจฉัยและครอบครัวใด

4
เมื่อใดจึงควรใช้แกมม่า GLM
การกระจายของแกมม่านั้นมีรูปร่างที่ค่อนข้างกว้างและด้วยการเชื่อมโยงระหว่างค่าเฉลี่ยและความแปรปรวนผ่านพารามิเตอร์ทั้งสองดูเหมือนว่าเหมาะสมที่จะจัดการกับ heteroskedasticity ในข้อมูลที่ไม่เป็นลบในวิธีที่ OLS ที่บันทึกการเปลี่ยนแปลงสามารถ ไม่ต้องดำเนินการโดยไม่ใช้ WLS หรือตัวประมาณ VCV ที่สอดคล้องกันของ heteroskedasticity ฉันจะใช้มันมากขึ้นสำหรับการสร้างแบบจำลองข้อมูลที่ไม่ใช่ลบเป็นประจำ แต่ฉันไม่รู้จักใครที่ใช้มันฉันไม่ได้เรียนรู้ในห้องเรียนที่เป็นทางการและวรรณกรรมที่ฉันอ่านไม่เคยใช้เลย เมื่อใดก็ตามที่ฉัน Google บางอย่างเช่น "การใช้แกมม่า GLM ในทางปฏิบัติ" ฉันจะได้รับคำแนะนำในการใช้เวลารอระหว่างเหตุการณ์ปัวซอง ตกลง. แต่ดูเหมือนว่าจะเข้มงวดและไม่สามารถใช้งานได้เท่านั้น อย่างไร้เดียงสาดูเหมือนว่าแกมม่า GLM เป็นวิธีที่ค่อนข้างเบาในการสร้างแบบจำลองข้อมูลที่ไม่ใช่เชิงลบเนื่องจากความยืดหยุ่นของแกมม่า แน่นอนคุณต้องตรวจสอบ QQ แปลงและแปลงที่เหลือเช่นรุ่นใด ๆ แต่มีข้อบกพร่องร้ายแรงที่ฉันหายไปหรือไม่ นอกเหนือจากการสื่อสารกับคนที่ "เพิ่งเรียกใช้ OLS" หรือไม่

14
อัลกอริทึมง่าย ๆ สำหรับการตรวจหาค่าผิดปกติทางออนไลน์ของอนุกรมเวลาทั่วไป
ฉันทำงานกับอนุกรมเวลาจำนวนมาก อนุกรมเวลาเหล่านี้โดยทั่วไปแล้วการวัดเครือข่ายมาทุก ๆ 10 นาทีและบางส่วนนั้นเป็นระยะ (เช่นแบนด์วิดท์) ในขณะที่บางส่วนไม่ได้เป็น (เช่นปริมาณการรับส่งข้อมูลเส้นทาง) ฉันต้องการอัลกอริทึมง่าย ๆ สำหรับการทำแบบออนไลน์ โดยทั่วไปฉันต้องการเก็บไว้ในหน่วยความจำ (หรือบนดิสก์) ข้อมูลประวัติทั้งหมดสำหรับแต่ละชุดเวลาและฉันต้องการตรวจสอบค่าผิดปกติใด ๆ ในสถานการณ์สด (ทุกครั้งที่มีการสุ่มตัวอย่างใหม่) วิธีที่ดีที่สุดในการบรรลุผลลัพธ์เหล่านี้คืออะไร? ฉันกำลังใช้ค่าเฉลี่ยเคลื่อนที่เพื่อลบเสียงรบกวน แต่แล้วจะทำอย่างไรต่อไป สิ่งที่เรียบง่ายเช่นค่าเบี่ยงเบนมาตรฐาน, บ้า, ... กับชุดข้อมูลทั้งหมดทำงานได้ไม่ดี (ฉันไม่สามารถคิดว่าอนุกรมเวลาคงที่) และฉันต้องการบางสิ่งที่ "แม่นยำ" ยิ่งกว่าเดิมกล่องดำแบบ: double outlier_detection (double * vector, double value); โดยที่ vector คืออาร์เรย์ของ double ที่มีข้อมูลประวัติและค่าส่งคืนคือคะแนนความผิดปกติสำหรับ "value" ตัวอย่างใหม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.