สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ความแตกต่างของ KL ระหว่าง Gaussians ที่ไม่เปลี่ยนแปลงสองตัว
ฉันจำเป็นต้องกำหนด KL-divergence ระหว่างสอง Gaussians ฉันกำลังเปรียบเทียบผลลัพธ์ของฉันกับสิ่งเหล่านี้แต่ฉันไม่สามารถทำซ้ำผลลัพธ์ของพวกเขาได้ ผลลัพธ์ของฉันผิดอย่างชัดเจนเนื่องจาก KL ไม่ใช่ 0 สำหรับ KL (p, p) ฉันสงสัยว่าฉันกำลังทำผิดพลาดและถามว่าใครสามารถตรวจสอบได้ ให้p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1)และq(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = N(\mu_2, \sigma_2) ) จาก PRML ของ Bishop ฉันรู้ว่า KL(p,q)=−∫p(x)logq(x)dx+∫p(x)logp(x)dxKL(p,q)=−∫p(x)log⁡q(x)dx+∫p(x)log⁡p(x)dxKL(p, q) = - \int p(x) \log q(x) dx + \int p(x) \log p(x) dx โดยที่การรวมเข้าด้วยกันจะทำในทุกบรรทัดจริงและ ∫p(x)logp(x)dx=−12(1+log2πσ21),∫p(x)log⁡p(x)dx=−12(1+log⁡2πσ12),\int p(x) \log p(x) dx = -\frac{1}{2} …

9
ความน่าจะเป็นของเหตุการณ์ในอนาคตเดียวในชีวิตจริง: หมายความว่าอย่างไรเมื่อพวกเขาพูดว่า“ ฮิลลารีมีโอกาสชนะ 75%”
เนื่องจากการเลือกตั้งเป็นเหตุการณ์ครั้งเดียวจึงไม่ใช่การทดลองที่สามารถทำซ้ำได้ ดังนั้นคำว่า "ฮิลลารีมีโอกาสชนะ 75%" ในทางเทคนิคหมายความว่าอะไร? ฉันกำลังมองหาความหมายที่ถูกต้องทางสถิติไม่ใช่สิ่งที่เข้าใจง่ายหรือเป็นแนวคิด ฉันเป็นแฟนสถิติมือสมัครเล่นที่พยายามตอบคำถามนี้ที่เกิดขึ้นในการสนทนา ฉันค่อนข้างมั่นใจว่ามีการตอบสนองตามวัตถุประสงค์ที่ดี แต่ฉันไม่สามารถทำได้ด้วยตัวเอง ...

7
The Book of Why โดย Judea Pearl: ทำไมเขาถึงทุบสถิติ
ฉันอ่านหนังสือทำไมจากแคว้นยูเดียเพิร์ลและมันจะได้รับภายใต้ผิวของฉัน1 โดยเฉพาะสำหรับฉันมันดูเหมือนว่าเขาจะทุบสถิติ "คลาสสิก" อย่างไร้เงื่อนไขโดยการใส่อาร์กิวเมนต์ของมนุษย์ฟางที่สถิติไม่เคยสามารถตรวจสอบความสัมพันธ์เชิงสาเหตุที่ไม่เคยสนใจความสัมพันธ์เชิงสาเหตุและสถิตินั้น "กลายเป็นแบบจำลอง - ลดข้อมูลองค์กร " สถิติกลายเป็นคำน่าเกลียดในหนังสือของเขา ตัวอย่างเช่น: นักสถิติสับสนอย่างมากเกี่ยวกับตัวแปรที่ควรและไม่ควรควบคุมดังนั้นการฝึกหัดเริ่มต้นคือการควบคุมทุกสิ่งที่เราสามารถวัดได้ [... ] มันเป็นวิธีที่สะดวกและง่ายในการติดตาม แต่มันทั้งสิ้นเปลืองและขี่ไปด้วยความผิดพลาด ความสำเร็จที่สำคัญของการปฏิวัติเชิงสาเหตุได้ทำให้ความสับสนนี้สิ้นสุดลง ในขณะเดียวกันนักสถิติก็ประเมินการควบคุมในแง่ที่ว่าพวกเขาไม่เต็มใจที่จะพูดคุยเกี่ยวกับความเป็นเหตุเป็นผล [... ] อย่างไรก็ตามแบบจำลองเชิงสาเหตุมีสถิติเช่นนี้ตลอดไป ฉันหมายถึงแบบจำลองการถดถอยสามารถนำมาใช้เป็นแบบจำลองเชิงสาเหตุได้เนื่องจากเราสมมติว่าตัวแปรหนึ่งเป็นสาเหตุและอีกอย่างคือผลกระทบ . อ้างอีก: ไม่น่าแปลกใจที่นักสถิติพบว่าปริศนานี้ [ปัญหา Monty Hall] ยากที่จะเข้าใจ พวกเขาเคยชินกับการที่ RA Fisher (1922) กล่าวว่า "การลดลงของข้อมูล" และไม่สนใจกระบวนการสร้างข้อมูล สิ่งนี้ทำให้ฉันนึกถึงคำตอบที่แอนดรูว์เจลแมนเขียนถึงการ์ตูน xkcd ที่มีชื่อเสียงใน Bayesians และผู้ที่พบบ่อย: "ถึงกระนั้นฉันคิดว่าการ์ตูนโดยรวมนั้นไม่ยุติธรรมในการเปรียบเทียบ Bayesian ที่สมเหตุสมผลกับสถิติ ." จำนวนการบิดเบือนความจริงของคำที่ฉันเห็นมันมีอยู่ในหนังสือจูเดียเพิร์ลทำให้ฉันสงสัยว่าการอนุมานเชิงสาเหตุ (ซึ่งฉันเห็นว่าเป็นวิธีที่มีประโยชน์และน่าสนใจในการจัดระเบียบและการทดสอบสมมติฐานทางวิทยาศาสตร์2 ) คำถาม:คุณคิดว่าจูเดียเพิร์ลเป็นสถิติที่บิดเบือนความจริงและถ้าใช่ทำไม? เพียงเพื่อให้การอนุมานเชิงสาเหตุมีขนาดใหญ่กว่าที่เป็นอยู่? คุณคิดว่าการอนุมานเชิงสาเหตุเป็นการปฏิวัติที่มี …
79 causality 

8
การคำนวณจำนวนที่เหมาะสมของถังขยะในฮิสโตแกรม
ฉันสนใจที่จะหาวิธีที่ดีที่สุดเท่าที่จะทำได้เพื่อหาจำนวนถังขยะที่ควรใช้ในฮิสโตแกรม ข้อมูลของฉันควรอยู่ในช่วงวัตถุสูงสุด 30 ถึง 350 และโดยเฉพาะอย่างยิ่งฉันพยายามที่จะใช้การกำหนดเกณฑ์ขั้นต่ำ (เช่นวิธีของ Otsu) โดยที่วัตถุ "ดี" ซึ่งฉันควรมีน้อยกว่าและควรแยกออกจาก " วัตถุที่ไม่ดีซึ่งควรมีความหนาแน่นมากกว่าในค่า ค่าที่เป็นรูปธรรมจะมีคะแนน 1-10 สำหรับแต่ละวัตถุ ฉันมี 5-10 วัตถุที่มีคะแนน 6-10 และ 20-25 วัตถุที่มีคะแนน 1-4 ฉันต้องการหารูปแบบฮิสโตแกรม binning ที่โดยทั่วไปแล้วอนุญาตให้บางสิ่งบางอย่างเช่นวิธีของ Otsu ในการ จำกัด วัตถุที่ให้คะแนนต่ำ อย่างไรก็ตามในการดำเนินการของ Otsu ที่ฉันเคยเห็นขนาดของช่องเก็บข้อมูลเท่ากับ 256 และบ่อยครั้งที่ฉันมีจุดข้อมูลน้อยกว่ามากที่ 256 ที่ฉันแนะนำว่า 256 ไม่ใช่หมายเลขถังขยะที่ดี ด้วยข้อมูลน้อยมากฉันควรใช้วิธีใดในการคำนวณจำนวนถังขยะที่จะใช้

5
อะไรคือความแตกต่างระหว่างการเรียนรู้นอกระบบกับการเรียนรู้นอกห้องเรียน?
เว็บไซต์ปัญญาประดิษฐ์กำหนดการเรียนรู้นอกห้องเรียนและนอกนโยบายดังนี้ "ผู้เรียนนอกนโยบายเรียนรู้คุณค่าของนโยบายที่ดีที่สุดโดยไม่ขึ้นกับการกระทำของตัวแทน Q-learning เป็นผู้เรียนนอกนโยบายผู้เรียนตามนโยบายจะได้เรียนรู้คุณค่าของนโยบายที่ดำเนินการโดยตัวแทนรวมถึงขั้นตอนการสำรวจ ." ฉันต้องการขอคำชี้แจงของคุณเกี่ยวกับเรื่องนี้เพราะพวกเขาดูเหมือนจะไม่สร้างความแตกต่างให้ฉัน คำจำกัดความทั้งสองดูเหมือนว่าเหมือนกัน สิ่งที่ฉันเข้าใจจริง ๆ คือการเรียนรู้โดยใช้แบบจำลองและแบบจำลองและฉันไม่รู้ว่าพวกเขามีส่วนเกี่ยวข้องกับสิ่งที่สงสัยหรือไม่ เป็นไปได้อย่างไรที่นโยบายที่ดีที่สุดจะได้รับการเรียนรู้อย่างอิสระจากการกระทำของตัวแทน นโยบายไม่ได้เรียนรู้เมื่อตัวแทนดำเนินการหรือไม่

6
จะทราบได้อย่างไรว่าข้อมูลถูก "รวมกลุ่ม" เพียงพอสำหรับอัลกอริธึมการจัดกลุ่มเพื่อให้ได้ผลลัพธ์ที่มีความหมายหรือไม่
คุณจะรู้ได้อย่างไรว่าข้อมูล (มิติสูง) ของคุณมีการจัดกลุ่มที่เพียงพอเพื่อให้ผลลัพธ์จาก kmeans หรืออัลกอริทึมการจัดกลุ่มอื่น ๆ มีความหมายจริงหรือไม่ สำหรับอัลกอริทึม k โดยเฉพาะอย่างยิ่งการลดลงของความแปรปรวนภายในคลัสเตอร์จะต้องลดลงเพียงใดเพื่อให้ผลการจัดกลุ่มที่แท้จริงมีความหมาย (และไม่ปลอม) การจัดกลุ่มควรชัดเจนเมื่อมีการลดขนาดของรูปแบบข้อมูลและผลลัพธ์จาก kmeans (หรือวิธีอื่น ๆ ) ไม่มีความหมายหากการจัดกลุ่มไม่สามารถมองเห็นได้?


5
วิธีคำนวณพื้นที่ใต้เส้นโค้ง (AUC) หรือสถิติ c ด้วยมือ
ฉันสนใจในการคำนวณพื้นที่ภายใต้เส้นโค้ง (AUC) หรือ c-statistic ด้วยมือสำหรับแบบจำลองการถดถอยแบบโลจิสติกไบนารี ตัวอย่างเช่นในชุดข้อมูลการตรวจสอบความถูกต้องฉันมีค่าจริงสำหรับตัวแปรตาม, การเก็บรักษา (1 = เก็บไว้; 0 = ไม่เก็บไว้), เช่นเดียวกับสถานะการเก็บรักษาที่คาดการณ์ไว้สำหรับการสังเกตแต่ละครั้งที่สร้างขึ้นโดยการวิเคราะห์การถดถอย สร้างโดยใช้ชุดการฝึกอบรม (ซึ่งจะอยู่ในช่วงตั้งแต่ 0 ถึง 1) ความคิดเริ่มต้นของฉันคือการระบุจำนวนของการจำแนกประเภทของโมเดลที่ถูกต้องและหารจำนวนการสังเกตที่ถูกต้องด้วยจำนวนการสังเกตทั้งหมดเพื่อคำนวณ c-statistic โดย "ถูกต้อง" หากสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 1 และสถานะการเก็บข้อมูลที่คาดการณ์คือ> 0.5 แสดงว่าเป็นการจำแนกประเภท "ถูกต้อง" นอกจากนี้หากสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 0 และสถานะการเก็บข้อมูลที่คาดการณ์ไว้คือ <0.5 แสดงว่าเป็นหมวดหมู่ "ถูกต้อง" ด้วย ฉันถือว่า "เน็คไท" จะเกิดขึ้นเมื่อค่าที่คาดการณ์ = 0.5 แต่ปรากฏการณ์นั้นไม่เกิดขึ้นในชุดข้อมูลการตรวจสอบความถูกต้องของฉัน ในทางตรงกันข้ามการจำแนกประเภท "ไม่ถูกต้อง" จะเป็นถ้าสถานะการเก็บรักษาที่แท้จริงของการสังเกต = 1 และสถานะการเก็บข้อมูลที่คาดการณ์ไว้คือ …

7
ประโยชน์ของการแยกตัวแปรทำนายอย่างต่อเนื่องคืออะไร?
ฉันสงสัยว่าสิ่งที่มีค่าในการใช้ตัวแปรทำนายอย่างต่อเนื่องและสลายมัน (เช่นเป็น quintiles) ก่อนที่จะใช้ในแบบจำลอง สำหรับฉันแล้วดูเหมือนว่าการเปลี่ยนแปลงตัวแปรทำให้เราสูญเสียข้อมูล นี่เป็นเพียงเพื่อให้เราสามารถจำลองเอฟเฟกต์ที่ไม่ใช่เชิงเส้นได้หรือไม่ ถ้าเราเก็บตัวแปรอย่างต่อเนื่องและมันไม่ได้เป็นความสัมพันธ์เชิงเส้นตรงที่เราจะต้องเกิดขึ้นกับเส้นโค้งบางชนิดเพื่อให้พอดีกับข้อมูลหรือไม่

6
การทำคลัสเตอร์บนเอาต์พุตของ t-SNE
ฉันมีแอปพลิเคชั่นที่จะสะดวกในการจัดกลุ่มชุดข้อมูลที่มีเสียงดังก่อนที่จะมองหาเอฟเฟกต์กลุ่มย่อยภายในกลุ่ม ครั้งแรกที่ฉันดู PCA แต่ต้องใช้ส่วนประกอบประมาณ 30 ชิ้นเพื่อรับความแปรปรวนได้ถึง 90% ดังนั้นการรวมกลุ่มกับพีซีเพียงไม่กี่เครื่องจะทำให้ข้อมูลจำนวนมากหมด จากนั้นฉันก็ลอง t-SNE (เป็นครั้งแรก) ซึ่งทำให้ฉันมีรูปร่างแปลก ๆ ในสองมิติที่คล้อยตามการจัดกลุ่มผ่าน k-mean ยิ่งไปกว่านั้นการรันฟอเรสต์แบบสุ่มบนข้อมูลด้วยการกำหนดคลัสเตอร์เนื่องจากผลลัพธ์แสดงว่ากลุ่มมีการตีความที่สมเหตุสมผลพอสมควรตามบริบทของปัญหาในแง่ของตัวแปรที่ประกอบขึ้นเป็นข้อมูลดิบ แต่ถ้าฉันจะรายงานเกี่ยวกับกลุ่มเหล่านี้ฉันจะอธิบายพวกเขาได้อย่างไร K-หมายถึงกลุ่มบนส่วนประกอบหลักเปิดเผยบุคคลที่อยู่ใกล้กันในแง่ของตัวแปรที่ได้รับซึ่งประกอบด้วย X% ของความแปรปรวนในชุดข้อมูล คำสั่งที่เทียบเท่าสามารถทำอะไรได้บ้างเกี่ยวกับกลุ่ม t-SNE บางทีสิ่งที่จะเป็นผลของ: t-SNE แสดงให้เห็นถึงความใกล้เคียงกันโดยประมาณในนานามิติมิติพื้นฐานดังนั้นกลุ่มที่มีมิติต่ำของพื้นที่มิติสูงจะเพิ่ม "โอกาส" ที่บุคคลที่อยู่ติดกันจะไม่อยู่ในกลุ่มเดียวกัน ทุกคนสามารถเสนอการแจ้งเตือนที่ดีกว่านั้นได้หรือไม่?

1
ความสัมพันธ์ระหว่างตัวแปร (IV) และตัวแปรต่อเนื่อง (DV)
ฉันมีตัวแปรเล็กน้อย (หัวข้อที่แตกต่างกันของการสนทนา, เขียนเป็น topic0 = 0 ฯลฯ ) และจำนวนของตัวแปรสเกล (DV) เช่นความยาวของการสนทนา ฉันจะหาค่าสหสัมพันธ์ระหว่างตัวแปรที่ระบุและสเกลได้อย่างไร

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
วิธีการสร้างพล็อตสวยของผลลัพธ์ของการวิเคราะห์กลุ่ม k-mean?
ฉันใช้ R เพื่อทำคลัสเตอร์ K-mean ฉันใช้ตัวแปร 14 ตัวในการรันค่า K เป็นวิธีที่ดีในการพล็อตผลลัพธ์ของ K-mean คืออะไร? มีการใช้งานที่มีอยู่หรือไม่ การมี 14 ตัวแปรทำให้การวางแผนผลลัพธ์ซับซ้อนหรือไม่? ฉันพบสิ่งที่เรียกว่า GGcluster ซึ่งดูดี แต่ก็ยังอยู่ในระหว่างการพัฒนา ฉันยังอ่านอะไรบางอย่างเกี่ยวกับการทำแผนที่แบบแซมมอน แต่ไม่เข้าใจดีนัก นี่จะเป็นตัวเลือกที่ดีหรือไม่?

3
เมื่อ R กำลังสองเป็นค่าลบ
ความเข้าใจของฉันคือว่าไม่สามารถลบได้เนื่องจากมันเป็นสแควร์ของ R อย่างไรก็ตามฉันใช้การถดถอยเชิงเส้นอย่างง่ายใน SPSS ด้วยตัวแปรอิสระเดี่ยวและตัวแปรตาม เอาท์พุท SPSS ของฉันให้ฉันเป็นค่าลบสำหรับ 2 ถ้าฉันจะคำนวณด้วยมือจาก R แล้วจะเป็นค่าบวก SPSS ทำอะไรเพื่อคำนวณสิ่งนี้ว่าเป็นลบR2R2R^2R 2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 รหัสที่ฉันใช้: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP ฉันได้รับค่าลบ ใครช่วยอธิบายสิ่งนี้ได้บ้าง?

7
T-test ไม่ปกติเมื่อ N> 50?
นานมาแล้วฉันได้เรียนรู้ว่าการแจกแจงแบบปกติจำเป็นต้องใช้การทดสอบตัวอย่างสองชุด วันนี้เพื่อนร่วมงานคนหนึ่งบอกฉันว่าเธอเรียนรู้ว่าสำหรับการแจกแจงปกติ N> 50 นั้นไม่จำเป็น มันเป็นเรื่องจริงเหรอ? ถ้าเป็นจริงก็เพราะทฤษฎีบทขีด จำกัด กลาง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.