สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ขยายความขัดแย้งวันเกิดให้มากกว่า 2 คน
ในวันเกิดแบบดั้งเดิม Paradox คำถามคือ "อะไรคือโอกาสที่คนสองคนขึ้นไปในกลุ่มnnnคนแบ่งปันวันเกิด" ฉันติดอยู่กับปัญหาซึ่งเป็นส่วนขยายของเรื่องนี้ แทนที่จะรู้ว่าความน่าจะเป็นที่คนสองคนใช้วันเกิดร่วมกันฉันต้องขยายคำถามเพื่อรู้ว่าความน่าจะเป็นที่คนหรือมากกว่านั้นแบ่งปันวันเกิดคืออะไร ด้วยคุณสามารถทำได้โดยการคำนวณความน่าจะเป็นที่ไม่มีคนสองคนแบ่งปันวันเกิดและลบมันออกจากแต่ฉันคิดว่าฉันไม่สามารถขยายตรรกะนี้เป็นจำนวนมากขึ้นได้xxxx=2x=2x=2111xxx หากต้องการเพิ่มความซับซ้อนนี้ฉันยังต้องการวิธีแก้ปัญหาซึ่งจะทำงานสำหรับจำนวนมากสำหรับ (ล้าน) และ (หลายพัน)nnnxxx

6
ทำไมไม่ใช้อนุพันธ์อันดับสามสำหรับการเพิ่มประสิทธิภาพเชิงตัวเลข?
หาก Hessians นั้นดีสำหรับการปรับให้เหมาะสม (ดูเช่นวิธีของ Newton ) ทำไมหยุดอยู่ที่นั่น ลองใช้อนุพันธ์อันดับสาม, สี่, ห้าและหกกันไหม? ทำไมไม่

5
การแยกความแตกต่างระหว่างสองกลุ่มในสถิติและการเรียนรู้ของเครื่อง: การทดสอบสมมติฐานเทียบกับการจำแนกและการทำคลัสเตอร์
สมมติว่าฉันมีกลุ่มข้อมูลสองกลุ่มระบุว่า A และ B (แต่ละกลุ่มประกอบด้วยตัวอย่าง 200 ตัวอย่างและคุณสมบัติ 1) และฉันต้องการทราบว่าพวกเขาแตกต่างกันหรือไม่ ฉันทำได้: a) ทำการทดสอบทางสถิติ (เช่น t-test) เพื่อดูว่ามีความแตกต่างทางสถิติหรือไม่ b) ใช้การเรียนรู้ของเครื่องควบคุม (เช่นการสนับสนุนตัวจําแนกเวกเตอร์หรือลักษณนามฟอเรสต์แบบสุ่ม) ฉันสามารถฝึกอบรมสิ่งนี้ในส่วนของข้อมูลของฉันและตรวจสอบในส่วนที่เหลือ หากอัลกอริทึมการเรียนรู้ของเครื่องจำแนกส่วนที่เหลืออย่างถูกต้องหลังจากนั้นฉันสามารถมั่นใจได้ว่าตัวอย่างจะแตกต่างกัน c) ใช้อัลกอริทึมที่ไม่มีผู้ดูแล (เช่น K-Means) และปล่อยให้มันแบ่งข้อมูลทั้งหมดออกเป็นสองตัวอย่าง ฉันสามารถตรวจสอบว่าตัวอย่างที่พบทั้งสองนี้เห็นด้วยกับฉลากของฉัน A และ B หรือไม่ คำถามของฉันคือ: วิธีที่แตกต่างกันสามวิธีนี้ทับซ้อนกัน / พิเศษอย่างไร b) และ c) มีประโยชน์สำหรับข้อโต้แย้งทางวิทยาศาสตร์หรือไม่? ฉันจะได้รับ“ นัยสำคัญ” สำหรับความแตกต่างระหว่างตัวอย่าง A และ B จากวิธีการ b) และ c) อย่างไร จะเกิดอะไรขึ้นถ้าข้อมูลมีคุณสมบัติหลายอย่างมากกว่า …

3
ถ้า X และ Y ไม่ได้มีความสัมพันธ์กัน X X 2 และ Y จะไม่เกี่ยวข้องกันหรือไม่
หากตัวแปรสุ่มสองตัวคือและที่ไม่เกี่ยวข้องกันเราจะรู้ได้อย่างไรว่าและไม่ได้เกี่ยวข้องกัน สมมติฐานของฉันคือใช่Y X 2 YXXXYYYX2X2X^2YYY X,YX,YX, Y uncorrelated หมายถึงหรือE[XY]=E[X]E[Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y]E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y] E[XY]=\int xy f_X(x)f_Y(y)dxdy=\int xf_X(x)dx\int yf_Y(y)dy=E[X]E[Y] นั่นหมายถึงสิ่งต่อไปนี้ด้วยหรือไม่ E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y]E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y] E[X^2Y]=\int x^2y f_X(x)f_Y(y)dxdy=\int x^2f_X(x)dx\int yf_Y(y)dy=E[X^2]E[Y]

4
ฉันควรสร้างคลาสให้สมดุลในชุดข้อมูลการฝึกอบรมเมื่อใด
ฉันมีหลักสูตรออนไลน์ที่ฉันได้เรียนรู้ว่าคลาสที่ไม่สมดุลในข้อมูลการฝึกอบรมอาจนำไปสู่ปัญหาได้เนื่องจากอัลกอริทึมการจัดหมวดหมู่เป็นไปตามกฎส่วนใหญ่เพราะจะให้ผลลัพธ์ที่ดีหากความไม่สมดุลมากเกินไป ในงานที่ได้รับมอบหมายต้องทำให้ข้อมูลมีความสมดุลโดยการขีดล่างกลุ่มเสียงส่วนใหญ่ อย่างไรก็ตามในบล็อกนี้มีคนอ้างว่าข้อมูลที่สมดุลนั้นแย่ยิ่งกว่าเดิม: https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ แล้วอันไหนล่ะ? ฉันควรรักษาสมดุลของข้อมูลหรือไม่? มันขึ้นอยู่กับอัลกอริธึมที่ใช้เพราะบางคนอาจสามารถปรับสัดส่วนของคลาสที่ไม่สมดุลได้หรือไม่? ถ้าเป็นเช่นนั้นข้อมูลใดที่เชื่อถือได้กับข้อมูลที่ไม่สมดุล

7
การวิเคราะห์อนุกรมเวลาคืออะไร
การวิเคราะห์อนุกรมเวลาคืออะไร? มีวิธีการทางสถิติอื่น ๆ อีกมากมายเช่นการถดถอยและการเรียนรู้เครื่องที่มีกรณีการใช้ที่ชัดเจน: การถดถอยสามารถให้ข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรสองตัวในขณะที่การเรียนรู้ของเครื่องดีเยี่ยมสำหรับการทำนาย แต่ในขณะเดียวกันฉันไม่เห็นว่าการวิเคราะห์อนุกรมเวลาเหมาะสำหรับอะไร แน่นอนว่าฉันสามารถใส่แบบจำลอง ARIMA และใช้มันเพื่อการคาดการณ์ได้ แต่สิ่งที่ดีคือเมื่อความมั่นใจในช่วงการคาดการณ์นั้นสูงขึ้นมาก มีเหตุผลที่ไม่มีใครสามารถทำนายตลาดหุ้นได้แม้จะเป็นอุตสาหกรรมที่ขับเคลื่อนด้วยข้อมูลมากที่สุดในประวัติศาสตร์โลก ฉันจะใช้มันเพื่อทำความเข้าใจกระบวนการของฉันต่อไปได้อย่างไร แน่นอนฉันสามารถพล็อต ACF และไป "aha! มีการพึ่งพาอาศัยกัน!" แต่แล้วอะไรนะ? ประเด็นคืออะไร? แน่นอนว่ามีการพึ่งพาอาศัยกันนั่นคือสาเหตุที่คุณทำการวิเคราะห์อนุกรมเวลาเพื่อเริ่มต้น คุณก็รู้แล้วว่ามีการพึ่งพาอาศัยกัน แต่คุณจะใช้มันเพื่ออะไร

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
การวิเคราะห์อภิมานของการศึกษาซึ่งทั้งหมดนั้น“ ไม่ได้มีนัยสำคัญทางสถิติ” นำไปสู่ข้อสรุปที่“ สำคัญ” หรือไม่?
การวิเคราะห์อภิมานรวมถึงการศึกษาจำนวนมากซึ่งทั้งหมดนี้รายงานค่า P มากกว่า 0.05 เป็นไปได้หรือไม่ที่การวิเคราะห์อภิมานโดยรวมรายงานค่า P น้อยกว่า 0.05 ภายใต้สถานการณ์ใด (ฉันค่อนข้างมั่นใจว่าคำตอบคือใช่ แต่ฉันต้องการอ้างอิงหรือคำอธิบาย)

3
วิธีการทางสถิติสำหรับข้อมูลที่ทราบเพียงค่าต่ำสุด / สูงสุด
มีสาขาของสถิติที่เกี่ยวข้องกับข้อมูลที่ไม่ทราบค่าที่แน่นอนแต่สำหรับแต่ละคนเรารู้ว่าค่าสูงสุดหรือต่ำสุดผูกกับค่าหรือไม่ ฉันสงสัยว่าปัญหาของฉันส่วนใหญ่มาจากความจริงที่ว่าฉันพยายามดิ้นรนเพื่อให้ชัดเจนในแง่สถิติ แต่หวังว่าตัวอย่างจะช่วยชี้แจง: สมมติว่ามีประชากรที่เชื่อมต่อกันสองคนคือและซึ่งในบางจุดสมาชิกของอาจ "เปลี่ยน" เป็นแต่กลับไม่ได้ ช่วงเวลาของการเปลี่ยนแปลงเป็นตัวแปร แต่ไม่ใช่แบบสุ่ม ตัวอย่างเช่นอาจเป็น "บุคคลที่ไม่มีลูกหลาน" และ "บุคคลที่มีลูกหลานอย่างน้อยหนึ่งคน" ฉันสนใจในอายุที่ความก้าวหน้านี้เกิดขึ้น แต่ฉันมีข้อมูลตัดขวางเท่านั้น สำหรับบุคคลใดก็ตามฉันสามารถค้นหาว่าพวกเขาเป็นสมาชิกของหรือหรือไม่ ฉันยังรู้อายุของบุคคลเหล่านี้ สำหรับแต่ละคนในประชากรB A B A B A B A BAAABBBAAABBBAAABBBAAABBBAAAฉันรู้ว่าอายุที่ผ่านการเปลี่ยนแปลงจะยิ่งใหญ่กว่าอายุปัจจุบันของพวกเขา ในทำนองเดียวกันสำหรับสมาชิกฉันรู้ว่าอายุการเปลี่ยนผ่านน้อยกว่าอายุปัจจุบันของพวกเขา แต่ฉันไม่รู้ค่าที่แน่นอนBBB ว่าฉันมีปัจจัยอื่นที่ฉันต้องการเปรียบเทียบกับอายุของการเปลี่ยนแปลง ตัวอย่างเช่นฉันต้องการทราบว่าชนิดย่อยของบุคคลหรือขนาดร่างกายมีผลต่ออายุของลูกหลานคนแรกหรือไม่ ฉันมีข้อมูลที่เป็นประโยชน์บางอย่างที่ควรแจ้งคำถามเหล่านั้น: โดยเฉลี่ยของบุคคลในบุคคลที่มีอายุมากกว่าจะได้รับการเปลี่ยนแปลงในภายหลัง แต่ข้อมูลไม่สมบูรณ์โดยเฉพาะอย่างยิ่งสำหรับคนอายุน้อยกว่า และในทางกลับกันสำหรับประชากรBBAAABBB มีวิธีการที่กำหนดขึ้นเพื่อจัดการกับข้อมูลประเภทนี้หรือไม่? ฉันไม่จำเป็นต้องใช้วิธีการอย่างเต็มรูปแบบในการวิเคราะห์เช่นนี้เพียงแค่ข้อความค้นหาหรือแหล่งข้อมูลที่มีประโยชน์เพื่อเริ่มฉันในที่ที่เหมาะสม! คำเตือน: ฉันทำสมมติฐานลดความซับซ้อนของการเปลี่ยนแปลงจากที่เพื่อเป็นทันที ฉันพร้อมที่จะสมมติว่าคนส่วนใหญ่จะก้าวหน้าไปที่จุดโดยสมมติว่าพวกเขามีชีวิตอยู่นานพอ และฉันรู้ว่าข้อมูลตามยาวจะมีประโยชน์มาก แต่สมมติว่าไม่มีในกรณีนี้B BAAABBBBBB ขอโทษถ้าสิ่งนี้ซ้ำซ้อนอย่างที่ฉันบอกไปส่วนหนึ่งของปัญหาของฉันคือฉันไม่รู้ว่าควรจะค้นหาอะไร ด้วยเหตุผลเดียวกันโปรดเพิ่มแท็กอื่น ๆ ตามความเหมาะสม ชุดตัวอย่าง: Ssp บ่งชี้ว่าหนึ่งในสองชนิดย่อยหรือYลูกหลานบ่งชี้ว่าไม่มีลูกหลาน ( ) …


4
วารสารวิทยาศาสตร์ให้การรับรองเส้นทางการ์เด้นออฟฟอร์คกิ้งหรือไม่?
แนวคิดของการวิเคราะห์ข้อมูลแบบปรับตัวคือคุณปรับเปลี่ยนแผนสำหรับการวิเคราะห์ข้อมูลในขณะที่คุณเรียนรู้เพิ่มเติมเกี่ยวกับมัน ในกรณีของการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) โดยทั่วไปเป็นความคิดที่ดี (คุณมักจะมองหารูปแบบที่ไม่คาดฝันในข้อมูล) แต่สำหรับการศึกษาเชิงยืนยันสิ่งนี้ได้รับการยอมรับอย่างกว้างขวางว่าเป็นวิธีการวิเคราะห์ที่มีข้อบกพร่องมาก ขั้นตอนมีการกำหนดไว้อย่างชัดเจนและวางแผนอย่างเหมาะสมในขั้นสูง) ดังที่ได้กล่าวไปแล้วการวิเคราะห์ข้อมูลที่ปรับตัวได้นั้นโดยทั่วไปแล้วมีนักวิจัยจำนวนเท่าใดที่ทำการวิเคราะห์จริง ๆ เช่นนี้หากใครสามารถทำได้ในลักษณะที่ถูกต้องทางสถิติมันจะปฏิวัติการปฏิบัติทางสถิติ บทความวิทยาศาสตร์ต่อไปนี้อ้างว่าได้พบวิธีในการทำเช่นนั้น (ฉันขอโทษสำหรับ paywall แต่ถ้าคุณอยู่ในมหาวิทยาลัยคุณน่าจะเข้าถึงได้): Dwork et al, 2015, holdout ที่นำมาใช้ใหม่ได้: รักษาความถูกต้องในการวิเคราะห์ข้อมูลแบบปรับตัว . โดยส่วนตัวฉันมักสงสัยเกี่ยวกับบทความสถิติที่ตีพิมพ์ในวิทยาศาสตร์และบทความนี้ก็ไม่ต่างกัน ในความเป็นจริงหลังจากอ่านบทความสองครั้งรวมถึงเนื้อหาเพิ่มเติมฉันไม่เข้าใจ (เลย) ทำไมผู้เขียนอ้างว่าวิธีการของพวกเขาป้องกันไม่ให้เกินความเหมาะสม ความเข้าใจของฉันคือพวกเขามีชุดข้อมูลแบบโฮลด์ซึ่งพวกเขาจะใช้ซ้ำ พวกเขาดูเหมือนจะเรียกร้องโดย "fuzzing" ผลลัพธ์ของการวิเคราะห์ยืนยันในชุดข้อมูลที่ไม่ยอมอ่อนข้อกว่ากระชับจะได้รับการป้องกัน (มันเป็นที่น่าสังเกตว่า fuzzing น่าจะเป็นเพียงการเพิ่มเสียงถ้าสถิติการคำนวณเกี่ยวกับข้อมูลการฝึกอบรมคือพอไกล จากสถิติที่คำนวณได้ในข้อมูลโฮลด์ ) เท่าที่ฉันสามารถบอกได้ว่าไม่มีเหตุผลจริงที่จะป้องกันไม่ให้มีความเหมาะสมมากเกินไป ฉันเข้าใจผิดในสิ่งที่ผู้เขียนเสนอหรือไม่? มีลักษณะพิเศษบางอย่างที่ฉันมองเห็นหรือไม่? หรือวิทยาศาสตร์ ได้รับรองการฝึกฝนทางสถิติที่เลวร้ายที่สุดจนถึงปัจจุบันหรือไม่?

4
ทฤษฎีกราฟในรูปแบบกราฟิกอยู่ที่ไหน
การแนะนำตัวแบบกราฟิกอธิบายว่า "... การแต่งงานระหว่างทฤษฎีกราฟและทฤษฎีความน่าจะเป็น" ฉันได้ทฤษฎีส่วนความน่าจะเป็น แต่ฉันมีปัญหาในการทำความเข้าใจว่าทฤษฎีกราฟตรงกับอะไรความเข้าใจเชิงลึกจากทฤษฎีกราฟได้ช่วยให้เราเข้าใจการกระจายความน่าจะเป็นและการตัดสินใจภายใต้ความไม่แน่นอนมากขึ้น ฉันกำลังมองหาตัวอย่างที่เป็นรูปธรรมนอกเหนือจากการใช้คำศัพท์ทางทฤษฎีกราฟที่ชัดเจนใน PGM เช่นการจำแนก PGM เป็น "ต้นไม้" หรือ "bipartite" หรือ "undirected" เป็นต้น

3
เหตุใดจึงมีการใช้โหนดอคติในเครือข่ายประสาท
เหตุใดจึงมีการใช้โหนดอคติในเครือข่ายประสาท คุณควรใช้เท่าไหร่ คุณควรใช้เลเยอร์ใด: เลเยอร์ที่ซ่อนอยู่ทั้งหมดและเลเยอร์เอาท์พุท

5
มีคำอธิบายว่าทำไมมีปรากฏการณ์ทางธรรมชาติมากมายที่ตามหลังการแจกแจงปกติ?
ฉันคิดว่านี่เป็นหัวข้อที่น่าสนใจและฉันไม่เข้าใจอย่างถ่องแท้ กฎแห่งฟิสิกส์ใดที่ทำให้เกิดปรากฏการณ์ทางธรรมชาติมากมายที่มีการแจกแจงแบบปกติ ดูเหมือนง่ายกว่าที่พวกเขาจะมีการแจกแจงแบบเดียวกัน มันยากสำหรับฉันที่จะเข้าใจสิ่งนี้และฉันรู้สึกว่าฉันขาดข้อมูลบางอย่าง ใครสามารถช่วยฉันด้วยคำอธิบายที่ดีหรือเชื่อมโยงฉันกับหนังสือ / วิดีโอ / บทความ?

3
ข้อมูลฟิชเชอร์เป็นข้อมูลประเภทใด?
สมมติว่าเรามีตัวแปรสุ่มtheta) ถ้าเป็นพารามิเตอร์จริงฟังก์ชันความน่าจะเป็นควรขยายให้ใหญ่สุดและอนุพันธ์เท่ากับศูนย์ นี่คือหลักการพื้นฐานที่อยู่เบื้องหลังตัวประมาณค่าความน่าจะเป็นสูงสุดX∼f(x|θ)X~ฉ(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 ตามที่ฉันเข้าใจแล้วข้อมูลฟิชเชอร์ถูกกำหนดให้เป็น I(θ)=E[(∂∂θf(X|θ))2]ผม(θ)=E[(∂∂θฉ(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] ดังนั้นหากเป็นพารามิเตอร์ที่จริง0 แต่ถ้ามันไม่ใช่พารามิเตอร์จริงเราจะมีข้อมูลฟิชเชอร์จำนวนมากขึ้นθ0θ0\theta_0I(θ)=0ผม(θ)=0I(\theta) = 0θ0θ0\theta_0 คำถามของฉัน ข้อมูล Fisher ทำการวัด "ข้อผิดพลาด" ของ MLE ที่กำหนดหรือไม่ กล่าวอีกนัยหนึ่งการมีอยู่ของข้อมูลฟิชเชอร์ในเชิงบวกไม่ได้หมายความว่า MLE ของฉันไม่เหมาะอย่างยิ่งหรือ คำจำกัดความของ "ข้อมูล" นี้แตกต่างจากที่ Shannon ใช้อย่างไร ทำไมเราถึงเรียกมันว่าข้อมูล?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.