สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

6
วิดีโอสถิติ / ความน่าจะเป็นสำหรับผู้เริ่มต้น
มีการร้องขอสำหรับวิดีโอสถิติทางคณิตศาสตร์แล้ว แต่มันถูกถามอย่างชัดเจนจากผู้คนสำหรับ วิดีโอที่ให้การนำเสนอทางคณิตศาสตร์อย่างเข้มงวดของสถิติ เช่นวิดีโอที่อาจมาพร้อมกับหลักสูตรที่ใช้ตำราเรียนที่กล่าวถึงในการอภิปรายใน ... ดังนั้นในเวลาเดียวกันฉันก็สงสัยว่าคุณมีคำแนะนำอะไรสำหรับหลักสูตรสเตท / prob - 101 - วิดีโอ?
28 references 

8
วิธีแสดงตัวแปรที่ไม่ได้ จำกัด เป็นตัวเลขระหว่าง 0 ถึง 1
ฉันต้องการที่จะเป็นตัวแทนของตัวแปรเป็นตัวเลขระหว่าง 0 และ 1 ตัวแปรที่เป็นจำนวนเต็มไม่เป็นลบที่ไม่มีข้อผูกมัดโดยธรรมชาติ ฉันแมป 0 ถึง 0 แต่ฉันสามารถแมปอะไรกับ 1 หรือตัวเลขระหว่าง 0 ถึง 1 ได้บ้าง ฉันสามารถใช้ประวัติของตัวแปรนั้นเพื่อกำหนดขีด จำกัด นี่หมายความว่าฉันต้องย้ำสถิติเก่าถ้าการเพิ่มสูงสุด ฉันต้องทำสิ่งนี้หรือมีกลอุบายอื่น ๆ ที่ฉันควรรู้หรือไม่?


6
มีปัญหากับแผนภูมิวงกลม
ดูเหมือนว่าจะมีการอภิปรายเพิ่มขึ้นเกี่ยวกับแผนภูมิวงกลม ข้อโต้แย้งหลักที่ต่อต้านมันดูเหมือนจะเป็น: การรับรู้พื้นที่มีพลังงานน้อยกว่าความยาว แผนภูมิวงกลมมีอัตราส่วนข้อมูลต่อจุดต่อพิกเซลที่ต่ำมาก อย่างไรก็ตามฉันคิดว่าพวกเขาจะมีประโยชน์เมื่อแสดงสัดส่วน ฉันเห็นด้วยที่จะใช้ตารางในกรณีส่วนใหญ่ แต่เมื่อคุณเขียนรายงานธุรกิจและคุณเพิ่งรวมหลายร้อยตารางแล้วทำไมไม่มีแผนภูมิวงกลม ฉันอยากรู้ว่าชุมชนคิดอย่างไรกับหัวข้อนี้ การอ้างอิงเพิ่มเติมยินดีต้อนรับ ฉันมีลิงก์สองสามข้อ: http://www.juiceanalytics.com/writing/the-problem-with-pie-charts/ http://www.usf.uni-osnabrueck.de/~breiter/tools/piechart/warning.en.html เพื่อสรุปคำถามนี้ฉันตัดสินใจที่จะสร้างตัวอย่างของแผนภูมิวงกลมกับแผนภูมิวาฟเฟิล

6
ทางเลือกอื่นสำหรับแกนแตกคืออะไร
ผู้ใช้มักถูกล่อลวงให้ทำลายค่าแกนเพื่อนำเสนอข้อมูลของคำสั่งต่าง ๆ ของขนาดบนกราฟเดียวกัน (ดูที่นี่ ) แม้ว่าวิธีนี้อาจจะสะดวก แต่ก็ไม่ใช่วิธีการแสดงข้อมูลที่ต้องการเสมอไป (อาจทำให้เข้าใจผิดได้ดีที่สุด) วิธีอื่นในการแสดงข้อมูลที่แตกต่างกันในหลายลำดับความสำคัญคืออะไร ฉันสามารถคิดถึงวิธีการสองวิธีในการแปลงข้อมูลหรือใช้โครงข่ายขัดแตะ ตัวเลือกอื่น ๆ มีอะไรบ้าง

4
การปรับระยะ Kullback-Leibler?
มองไปที่ภาพนี้: ถ้าเราดึงตัวอย่างจากความหนาแน่นของสีแดงเราคาดว่าค่าบางค่าจะน้อยกว่า 0.25 ในขณะที่มันเป็นไปไม่ได้ที่จะสร้างตัวอย่างจากการกระจายตัวสีน้ำเงิน ด้วยเหตุนี้ระยะทาง Kullback-Leibler จากความหนาแน่นสีแดงถึงความหนาแน่นสีน้ำเงินจึงไม่มีที่สิ้นสุด อย่างไรก็ตามเส้นโค้งทั้งสองนั้นไม่ได้มีความแตกต่างในแง่ของ "ความเป็นธรรมชาติ" นี่คือคำถามของฉัน: มันมีการปรับระยะ Kullback - Leibler ที่จะอนุญาตให้มีระยะห่างแน่นอนระหว่างสองเส้นโค้งนี้หรือไม่?

26
แพ็คเกจ R ใดที่คุณพบว่ามีประโยชน์มากที่สุดในการทำงานประจำวันของคุณ
เธรดที่ซ้ำกัน: ฉันเพิ่งติดตั้ง R. เวอร์ชันล่าสุดฉันควรได้รับแพ็คเกจอะไร แพ็คเกจRคืออะไรที่คุณนึกไม่ออกว่าจะทำงานกับข้อมูลทุกวัน? กรุณาระบุเครื่องมือทั้งแบบทั่วไปและแบบเจาะจง ปรับปรุง: สำหรับ 24.10.10 ggplot2ดูเหมือนว่าจะเป็นผู้ชนะด้วย 7 คะแนน แพ็คเกจอื่น ๆ ที่กล่าวถึงมากกว่าหนึ่งคือ: plyr - 4 RODBC, RMySQL- 4 sqldf - 3 lattice - 2 zoo - 2 Hmisc/rms - 2 Rcurl - 2 XML - 2 ขอบคุณสำหรับคำตอบของคุณ!
28 r 

2
ทำไมค่าเฉลี่ยความคลาดเคลื่อนกำลังสองเป็นค่าเอนโทรปีระหว่างการกระจายเชิงประจักษ์กับแบบจำลองเกาส์เซียน?
ใน 5.5 การเรียนรู้เชิงลึก (โดย Ian Goodfellow, Yoshua Bengio และ Aaron Courville) กล่าวไว้ว่า การสูญเสียใด ๆ ที่ประกอบด้วยความน่าจะเป็นบันทึกเชิงลบคือการข้ามเอนโทรปีระหว่างการแจกแจงเชิงประจักษ์ที่กำหนดโดยชุดการฝึกอบรมและการแจกแจงความน่าจะเป็นที่กำหนดโดยแบบจำลอง ยกตัวอย่างเช่นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือการข้ามเอนโทรปีระหว่างการแจกแจงเชิงประจักษ์และแบบจำลองเกาส์เซียน ฉันไม่สามารถเข้าใจว่าทำไมพวกเขาถึงเทียบเท่าและผู้เขียนไม่ขยายในจุด

4
ทำไมต้องใช้ colormap viridis มากกว่า jet?
ตามที่ประกาศในhttps://www.youtube.com/watch?v=xAoljeRJ3lU Matplotlib จะเปลี่ยน colormap เริ่มต้นจาก jet เป็น viridis อย่างไรก็ตามฉันไม่เข้าใจมันค่อนข้างดี อาจเป็นเพราะฉันตาบอดสี? เจ็ตคอร์แมปแบบดั้งเดิมนั้นดูแข็งแรงมากฉันรู้สึกถึงความแตกต่าง: ในขณะที่ colormap viridis ใหม่ขาดความคมชัดนั้น: ใครช่วยอธิบายได้ง่ายขึ้นสำหรับฉัน ฉันต้องการพล็อตสำหรับกระดาษของฉัน และฉันต้องการเหตุผลที่ดีในการโน้มน้าวผู้บังคับบัญชาของฉัน (และตัวฉันเอง) ว่า viridis นั้นดีกว่า

6
ทำไมเราต้องมีการถดถอยหลายตัวแปร (ซึ่งต่างจากการถดถอยหลายตัวแปร)
ฉันเพียงแค่เรียกดูผ่านหนังสือที่ยอดเยี่ยมนี้: การประยุกต์ใช้การวิเคราะห์ทางสถิติหลายตัวแปรโดยจอห์นสันและ Wichern การประชดคือฉันยังคงไม่สามารถเข้าใจแรงจูงใจในการใช้แบบจำลองหลายตัวแปร (การถดถอย) แทนที่จะเป็นแบบจำลองแบบ univariate (การถดถอย) ที่แยกต่างหาก ฉันผ่าน stats.statexchange โพสต์ที่1และ2ที่อธิบาย (ก) ความแตกต่างระหว่างการถดถอยแบบหลายตัวแปรและหลายตัวแปรและ (b) การตีความผลการถดถอยหลายตัวแปร แต่ฉันไม่สามารถปรับแต่งการใช้แบบจำลองสถิติหลายตัวแปรจากข้อมูลทั้งหมดที่ฉัน ออนไลน์เกี่ยวกับพวกเขา คำถามของฉันคือ: ทำไมเราต้องมีการถดถอยหลายตัวแปร? อะไรคือข้อได้เปรียบของการพิจารณาผลลัพธ์พร้อมกันมากกว่าแต่ละรายการเพื่อที่จะทำการอนุมาน เมื่อใดจึงควรใช้แบบจำลองหลายตัวแปรและเมื่อใดจึงจะใช้แบบจำลองหลายตัวแปร (สำหรับหลายผลลัพธ์) ยกตัวอย่างที่ได้รับจากเว็บไซต์ของ UCLAด้วยผลลัพธ์สามประการ: สถานที่ควบคุม, แนวคิดของตัวเองและแรงจูงใจ ด้วยความเคารพต่อ 1 และ 2 เราสามารถเปรียบเทียบการวิเคราะห์เมื่อเราทำการถดถอยแบบหลายตัวแปรที่ไม่ซ้ำกันสามตัวเปรียบเทียบกับการถดถอยหลายตัวแปรแบบหลายตัวแปรได้หรือไม่ วิธีที่จะพิสูจน์ความชอบธรรมมากกว่ากันได้อย่างไร ฉันยังไม่ได้เจอกับเอกสารทางวิชาการมากมายที่ใช้ตัวแบบสถิติหลายตัวแปร นี่เป็นเพราะข้อสันนิษฐานของตัวแปรหลายตัวแปรความซับซ้อนของการปรับ / ตีความแบบจำลองหรือเหตุผลเฉพาะอื่น ๆ ?

1
เอกสารที่เขียนอย่างสวยงาม
จากหนังสือของ David Salsburg The Lady tasting tea : แม้ว่าผู้อ่านอาจไม่เชื่อก็ตาม แต่รูปแบบวรรณกรรมมีบทบาทสำคัญในการวิจัยทางคณิตศาสตร์ ผู้เขียนทางคณิตศาสตร์บางคนดูเหมือนจะไม่สามารถผลิตบทความที่เข้าใจง่าย คนอื่น ๆ ดูเหมือนจะมีความสุขที่ผิดปกติจากการสร้างสัญกรณ์สัญลักษณ์หลายบรรทัดดังนั้นเต็มไปด้วยรายละเอียดที่ความคิดทั่วไปหายไปใน Picayune แต่ผู้เขียนบางคนมีความสามารถในการแสดงความคิดที่ซับซ้อนด้วยพลังและความเรียบง่ายที่การพัฒนาดูเหมือนจะชัดเจนในการแสดงออกของพวกเขา เมื่อตรวจสอบสิ่งที่ได้เรียนรู้แล้วผู้อ่านจะตระหนักถึงพลังอันยิ่งใหญ่ของผลลัพธ์ ผู้เขียนคนนี้คือ Jerzy Neyman มันเป็นความสุขที่ได้อ่านเอกสารของเขา ความคิดมีวิวัฒนาการตามธรรมชาติ, โน้ตคือเรียบง่ายและข้อสรุปที่ดูเหมือนจะเป็นธรรมชาติที่คุณพบว่ามันยากที่จะเห็นว่าทำไมไม่มีใครผลิตผลลัพธ์เหล่านี้นานก่อนที่จะ อะไรคือตัวอย่างเฉพาะอื่น ๆ ของเอกสารที่เขียนเป็นอย่างดีเกี่ยวกับสถิติหรือการเรียนรู้ของเครื่อง แนวคิดคือมีรายการเอกสาร "นี่คือวิธีที่คุณควรเขียน" กรุณาพยายามที่จะให้: การอ้างอิงบรรณานุกรมแบบเต็มเช่น: Carl E. Rasmussen " แบบจำลองอนันต์ผสมแบบเกาส์ " ในความก้าวหน้าในระบบประมวลผลข้อมูลเกี่ยวกับประสาท 12 ฉบับที่ 5 12 (2000) ในกรณีที่มีลิงก์ให้ไปยังที่เก็บข้อมูลสาธารณะที่เข้าถึงได้ (เช่นhttp://arxiv.org/ ) บทวิจารณ์สั้น ๆ ที่ไม่เป็นทางการและเข้าใจได้ง่ายเกี่ยวกับกระดาษที่เกี่ยวกับอะไรและทำไมมันจึงเป็นตัวอย่างของกระดาษที่เขียนได้ดีที่สุด

5
ทำไมความแปรปรวนของการเดินสุ่มเพิ่มขึ้น?
การเดินแบบสุ่มที่กำหนดเป็นโดยที่เป็นเสียงสีขาว แสดงว่าตำแหน่งปัจจุบันคือผลรวมของตำแหน่งก่อนหน้า + คำที่ไม่ถูกคาดการณ์Yเสื้อ= Yt - 1+ eเสื้อYเสื้อ=Yเสื้อ-1+อีเสื้อY_{t} = Y_{t-1} + e_tอีเสื้ออีเสื้อe_t คุณสามารถพิสูจน์ได้ว่าฟังก์ชันค่าเฉลี่ยเนื่องจากμเสื้อ= 0μเสื้อ=0\mu_t = 0 E( Yเสื้อ) = E( e1+ e2+...+et)=E(e1)+E(e2)+...+E(et)=0+0+...+0E(Yเสื้อ)=E(อี1+อี2+...+อีเสื้อ)=E(อี1)+E(อี2)+...+E(อีเสื้อ)=0+0+...+0E(Y_{t}) = E(e_1+ e_2+ ... +e_t) = E(e_1) + E(e_2) +... +E(e_t) = 0 + 0 + ... + 0 แต่ทำไมความแปรปรวนเพิ่มขึ้นเป็นเส้นตรงตามเวลา? สิ่งนี้มีบางอย่างที่เกี่ยวกับการไม่สุ่ม "บริสุทธิ์" เนื่องจากตำแหน่งใหม่มีความสัมพันธ์กับตำแหน่งก่อนหน้าหรือไม่ แก้ไข: ตอนนี้ฉันมีความเข้าใจที่ดีขึ้นมากโดยการเห็นภาพตัวอย่างของการเดินสุ่มขนาดใหญ่และที่นี่เราสามารถสังเกตได้อย่างง่ายดายว่าความแปรปรวนโดยรวมเพิ่มขึ้นเมื่อเวลาผ่านไป และค่าเฉลี่ยก็ประมาณตามคาด บางทีนี่อาจเป็นเรื่องเล็กน้อยเนื่องจากในช่วงแรก ๆ …

6
ในแง่ของคนธรรมดาอะไรคือความแตกต่างระหว่างแบบจำลองและการแจกแจง?
คำตอบ (คำจำกัดความ) ที่กำหนดไว้ใน Wikipedia นั้นค่อนข้างเป็นความลับเล็กน้อยสำหรับผู้ที่ไม่คุ้นเคยกับคณิตศาสตร์ / สถิติที่สูงขึ้น ในแง่คณิตศาสตร์แบบจำลองทางสถิติมักจะคิดว่าเป็นคู่ ( ) โดยที่คือชุดของการสังเกตที่เป็นไปได้เช่นพื้นที่ตัวอย่างและคือชุดของการแจกแจงความน่าจะเป็น ในSS,PS,PS, \mathcal{P}SSSPP\mathcal{P}SSS ในความน่าจะเป็นและสถิติการกระจายความน่าจะเป็นจะกำหนดความน่าจะเป็นให้แต่ละชุดย่อยที่วัดได้ของผลลัพธ์ที่เป็นไปได้ของการทดลองแบบสุ่มการสำรวจหรือขั้นตอนของการอนุมานทางสถิติ พบตัวอย่างที่มีพื้นที่ตัวอย่างไม่ใช่ตัวเลขซึ่งการแจกแจงจะเป็นการแจกแจงเชิงหมวดหมู่ ฉันเป็นนักเรียนมัธยมปลายที่สนใจงานด้านนี้มากเป็นงานอดิเรกและกำลังดิ้นรนกับความแตกต่างระหว่างสิ่งที่เป็นstatistical modelและprobability distribution ความเข้าใจที่เป็นอยู่ในปัจจุบันและพื้นฐานมากของฉันคือ: ตัวแบบเชิงสถิติคือความพยายามทางคณิตศาสตร์เพื่อประมาณการกระจายตัวที่วัด การแจกแจงความน่าจะเป็นคำอธิบายที่วัดได้จากการทดสอบที่กำหนดความน่าจะเป็นให้กับผลลัพธ์ที่เป็นไปได้ของเหตุการณ์สุ่ม ความสับสนจะเพิ่มขึ้นอีกโดยแนวโน้มในวรรณคดีเพื่อดูคำว่า "การกระจาย" และ "แบบจำลอง" ใช้แทนกันได้ - หรืออย่างน้อยในสถานการณ์ที่คล้ายกันมาก (เช่นการแจกแจงทวินามเทียบกับแบบจำลองทวินาม) ใครบางคนสามารถยืนยัน / แก้ไขคำจำกัดความของฉันและอาจเสนอวิธีการที่เป็นทางการมากขึ้น

3
การตรวจสอบข้ามรวมถึงการฝึกอบรมการตรวจสอบและการทดสอบ ทำไมเราต้องการชุดย่อยสามชุด
ฉันมีคำถามเกี่ยวกับกระบวนการตรวจสอบข้าม ฉันอยู่ในช่วงของการเรียนรู้ของเครื่องใน Cursera หนึ่งในหัวข้อที่เกี่ยวกับการตรวจสอบข้าม ฉันพบว่ามันยากที่จะทำตามเล็กน้อย ฉันรู้ว่าทำไมเราต้องมี CV เพราะเราต้องการให้แบบจำลองของเราทำงานได้ดีในอนาคต (ไม่ทราบ) ข้อมูลและ CV ป้องกันไม่ให้เกินกำลัง อย่างไรก็ตามกระบวนการเองก็สับสน สิ่งที่ฉันเข้าใจคือฉันแบ่งข้อมูลออกเป็น 3 ชุดย่อย: การฝึกอบรมการตรวจสอบความถูกต้องและการทดสอบ Train and Validation คือการค้นหาความซับซ้อนที่เหมาะสมที่สุดของแบบจำลอง สิ่งที่ฉันไม่เข้าใจคือชุดย่อยที่สาม ฉันเข้าใจว่าฉันใช้คุณสมบัติหลายอย่างสำหรับแบบจำลองฝึกอบรมและตรวจสอบความถูกต้องบนชุดย่อยการตรวจสอบความถูกต้องและมองหาฟังก์ชั่นต้นทุนขั้นต่ำเมื่อฉันเปลี่ยนโครงสร้าง เมื่อฉันพบมันฉันจะทดสอบรูปแบบในชุดย่อยทดสอบ ถ้าฉันได้พบฟังก์ชั่นต้นทุนขั้นต่ำในส่วนย่อยการตรวจสอบแล้วทำไมฉันต้องทดสอบอีกครั้งในชุดย่อยทดสอบ ??? มีคนช่วยอธิบายเรื่องนี้ให้ฉันหน่อยได้ไหม? ขอขอบคุณ

8
ความอุดมสมบูรณ์ของค่า P ในกรณีที่ไม่มีสมมติฐาน
ฉันเข้าสู่ระบาดวิทยา ฉันไม่ใช่นักสถิติ แต่ฉันพยายามทำการวิเคราะห์ด้วยตัวเองถึงแม้ว่าฉันมักจะประสบปัญหา ฉันทำการวิเคราะห์ครั้งแรกเมื่อ 2 ปีก่อน ค่า P ถูกรวมไว้ทุกที่ในการวิเคราะห์ของฉัน (ฉันเพียงแค่ทำสิ่งที่นักวิจัยคนอื่นทำ) จากตารางเชิงพรรณนาถึงการวิเคราะห์การถดถอย นักสถิติที่ทำงานในอพาร์ทเมนต์ของฉันชักชวนให้ฉันข้ามค่า p ทั้งหมดยกเว้นว่าฉันมีสมมติฐานจริง ๆ ปัญหาคือว่าค่า p มีมากมายในสิ่งพิมพ์วิจัยทางการแพทย์ มันเป็นเรื่องธรรมดาที่จะรวมค่า p ในบรรทัดที่มากเกินไป ข้อมูลเชิงพรรณนาของวิธีการค่ามัธยฐานหรืออะไรก็ตามที่มักจะไปพร้อมกับค่า p (นักเรียนทดสอบ t, Chi-square ฯลฯ ) ฉันเพิ่งส่งรายงานไปยังวารสารและฉันปฏิเสธ (สุภาพ) เพื่อเพิ่มค่า p ลงในตารางอธิบาย "พื้นฐาน" ของฉัน กระดาษถูกปฏิเสธในที่สุด หากต้องการเป็นตัวอย่างให้ดูรูปด้านล่าง มันเป็นตารางอธิบายจากบทความที่ตีพิมพ์ล่าสุดในวารสารที่น่าเชื่อถือของอายุรศาสตร์: นักสถิติส่วนใหญ่ (ถ้าไม่เสมอ) มีส่วนร่วมในการตรวจสอบต้นฉบับเหล่านี้ คนธรรมดาอย่างฉันคาดหวังว่าจะไม่พบค่า p ใด ๆ ที่ไม่มีสมมติฐาน แต่พวกเขามีมากมาย แต่เหตุผลของเรื่องนี้ยังคงเข้าใจยากสำหรับฉัน ฉันพบว่ามันยากที่จะเชื่อว่ามันเป็นความเขลา ฉันรู้ว่านี่เป็นคำถามเชิงสถิติตามแนวเขต …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.