คำถามติดแท็ก sampling

การสร้างตัวอย่างจากประชากรที่ระบุอย่างดีโดยใช้วิธีความน่าจะเป็นและ / หรือการสร้างตัวเลขสุ่มจากการแจกแจงที่ระบุ เนื่องจากแท็กนี้ไม่ชัดเจนโปรดพิจารณา [การสำรวจตัวอย่าง] สำหรับอดีตและ [monte-carlo] หรือ [จำลอง] สำหรับหลัง สำหรับคำถามเกี่ยวกับการสร้างตัวอย่างแบบสุ่มจากการแจกแจงที่รู้จักโปรดพิจารณาใช้แท็ก [การสร้างแบบสุ่ม]

5
การกระจายตัวตัวอย่างของกลุ่มตัวอย่างมีความหมายอย่างไรกับค่าเฉลี่ยประชากร
ฉันพยายามเรียนรู้สถิติเพราะฉันพบว่ามันแพร่หลายมากจนห้ามไม่ให้ฉันเรียนรู้บางสิ่งหากฉันไม่เข้าใจอย่างถูกต้อง ฉันมีปัญหาในการทำความเข้าใจแนวคิดเรื่องการกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่าง ฉันไม่เข้าใจวิธีที่หนังสือและเว็บไซต์อธิบาย ฉันคิดว่าฉันมีความเข้าใจ แต่ไม่แน่ใจว่าถูกต้องหรือไม่ ด้านล่างนี้เป็นความพยายามของฉันที่จะเข้าใจ เมื่อเราพูดถึงปรากฏการณ์บางอย่างที่เกิดจากการแจกแจงแบบปกติมันเป็นเรื่องปกติ (ไม่เสมอไป) เกี่ยวกับประชากร เราต้องการใช้สถิติเชิงอนุมานเพื่อทำนายบางสิ่งเกี่ยวกับประชากรบางคน แต่ไม่มีข้อมูลทั้งหมด เราใช้การสุ่มตัวอย่างและแต่ละตัวอย่างของขนาด n เท่ากันน่าจะเลือก เราเอาตัวอย่างจำนวนมากมาบอกว่า 100 แล้วการกระจายตัวของตัวอย่างเหล่านั้นจะเป็นปกติประมาณตามทฤษฎีลิมิตที่ศูนย์กลาง ค่าเฉลี่ยของค่าเฉลี่ยตัวอย่างจะประมาณค่าเฉลี่ยของประชากร ตอนนี้สิ่งที่ฉันไม่เข้าใจคือหลายครั้งที่คุณเห็น "ตัวอย่าง 100 คน ... " เราจะไม่ต้องการตัวอย่าง 10s หรือ 100s จาก 100 คนเพื่อประมาณค่าเฉลี่ยประชากรหรือไม่ หรือเป็นกรณีที่เราสามารถนำตัวอย่างเดียวที่มีขนาดใหญ่พอบอก 1,000 แล้วบอกว่าค่าเฉลี่ยจะประมาณค่าเฉลี่ยประชากรหรือไม่ หรือเราใช้ตัวอย่าง 1,000 คนจากนั้นสุ่ม 100 ตัวอย่าง 100 คนในแต่ละตัวอย่างจากเดิม 1,000 คนที่เราเอามาแล้วใช้เป็นการประมาณของเรา การใช้ตัวอย่างที่มีขนาดใหญ่พอที่จะประมาณค่าเฉลี่ย (เกือบ) ใช้ได้หรือไม่ ประชากรจำเป็นต้องเป็นปกติหรือเปล่าสำหรับการทำงานนี้?

2
เทคนิคใดบ้างสำหรับการสุ่มตัวอย่างสองตัวแปรสุ่มที่สัมพันธ์กัน?
เทคนิคใดบ้างสำหรับการสุ่มตัวอย่างตัวแปรสุ่มที่มีความสัมพันธ์สองตัว: ถ้าการแจกแจงความน่าจะเป็นของพวกเขาถูกแปร (เช่น log-normal) หากพวกเขามีการแจกแจงแบบไม่อิงพารามิเตอร์ ข้อมูลเป็นอนุกรมเวลาสองชุดที่เราสามารถคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ได้ เราต้องการจำลองข้อมูลเหล่านี้ในอนาคตโดยสมมติว่าความสัมพันธ์ทางประวัติศาสตร์และอนุกรมเวลา CDF นั้นคงที่ สำหรับกรณี (2) อะนาล็อก 1-D จะสร้าง CDF และตัวอย่างจากมัน ดังนั้นฉันเดาว่าฉันสามารถสร้าง CDF 2 มิติและทำสิ่งเดียวกัน อย่างไรก็ตามฉันสงสัยว่ามีวิธีที่จะเข้าใกล้โดยใช้ 1-D CDFs แต่ละรายการและเชื่อมโยงตัวเลือกอย่างใด ขอบคุณ!

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
ความแตกต่างระหว่างการทดสอบการสุ่มและการทดสอบการเปลี่ยนแปลง
ในวรรณคดีคำว่า Randomization and Permutation นั้นใช้แทนกันได้ ด้วยผู้เขียนหลายคนระบุว่าการทดสอบ "การเปลี่ยนแปลง (การสุ่ม) หรือ" ในทางกลับกัน อย่างดีที่สุดฉันเชื่อว่าความแตกต่างนั้นบอบบางและอยู่ในสมมติฐานของพวกเขาเกี่ยวกับข้อมูลและข้อสรุปที่อาจเกิดขึ้นซึ่งสามารถวาดได้ ฉันแค่ต้องตรวจสอบว่าความเข้าใจของฉันนั้นถูกต้องหรือว่ามีความแตกต่างที่ลึกซึ้งกว่าที่ฉันขาดหายไป การทดสอบการเปลี่ยนรูปสันนิษฐานว่าข้อมูลถูกสุ่มตัวอย่างจากการแจกแจงประชากรพื้นฐาน (แบบจำลองประชากร) ซึ่งหมายความว่าข้อสรุปที่ได้จากการทดสอบการเปลี่ยนรูปมักใช้กับข้อมูลอื่นจากประชากร [3] การทดสอบการสุ่ม (แบบจำลองการสุ่ม) "อนุญาตให้เราทิ้งสมมติฐานที่ไม่น่าเชื่อของการวิจัยทางจิตวิทยาทั่วไป --- การสุ่มตัวอย่างจากการแจกแจงที่ระบุ" [2] อย่างไรก็ตามนั่นหมายความว่าข้อสรุปที่ดึงมาใช้ได้เฉพาะกับตัวอย่างที่ใช้ในการทดสอบ [3] แน่นอนแม้ว่าความแตกต่างเป็นเพียงในแง่ของความหมายของประชากร หากเรากำหนดประชากรให้เป็น 'ผู้ป่วยทุกรายที่มีอาการป่วยและมีความเหมาะสมสำหรับการรักษา' การทดสอบการเปลี่ยนรูปนั้นมีผลต่อประชากร แต่เนื่องจากเราได้ จำกัด ประชากรให้เหมาะกับการรักษาจึงเป็นการทดสอบแบบสุ่ม การอ้างอิง: [1] การทดสอบการเปลี่ยนรูปของฟิลิปที่ดี: คู่มือปฏิบัติเพื่อทดสอบวิธีการทดสอบสมมติฐานอีกครั้ง [2] Eugene Edgington และ Patric Onghena การทดสอบการสุ่ม [3] Michael Ernst, วิธีการเรียงสับเปลี่ยน: พื้นฐานสำหรับการอนุมานที่แน่นอน

3
ฉันจะประเมินเหตุการณ์ที่ไม่ซ้ำนับจากการสุ่มตัวอย่างข้อมูลได้อย่างไร
สมมติว่าฉันมีค่าSSSซึ่งบางครั้งก็ทำซ้ำ ฉันต้องการประเมินจำนวนรวมของค่าที่ไม่ซ้ำกันในชุดใหญ่ หากฉันสุ่มตัวอย่างค่าและพิจารณาว่ามีค่าที่ไม่ซ้ำกันของฉันสามารถใช้สิ่งนี้เพื่อประเมินจำนวนค่าที่ไม่ซ้ำในชุดขนาดใหญ่ได้หรือไม่T uTTTTยูTยูT_u

2
ความแตกต่างระหว่างความแปรปรวนตัวอย่างและความแปรปรวนการสุ่มตัวอย่างคืออะไร
ความแตกต่างระหว่างความแปรปรวนตัวอย่างและความแปรปรวนการสุ่มตัวอย่างคืออะไร พวกเขาดูเหมือนกัน ไม่ใช่เหรอ

2
ฉันสามารถใช้ช่วงเวลาของการแจกแจงเพื่อเก็บตัวอย่างการกระจายได้หรือไม่
ฉันสังเกตเห็นในวิธีการเรียนรู้สถิติ / เครื่องการแจกแจงมักจะเป็นแบบเกาส์จากนั้นก็ใช้แบบเกาส์สำหรับการสุ่มตัวอย่าง พวกเขาเริ่มต้นโดยการคำนวณทั้งสองช่วงเวลาแรกของการจัดจำหน่ายและการใช้งานเหล่านั้นเพื่อประเมินμμ\muและ 2 จากนั้นพวกเขาสามารถสุ่มตัวอย่างจากเกาส์นนั้นได้σ2σ2\sigma^2 ดูเหมือนว่าสำหรับฉันในช่วงเวลาที่ฉันคำนวณมากขึ้นฉันควรจะประมาณตัวอย่างการกระจายตัวที่ดีกว่าที่ฉันต้องการ จะเกิดอะไรขึ้นถ้าฉันคำนวณ 3 ช่วงเวลา ... ฉันจะใช้สิ่งเหล่านั้นเพื่อสุ่มตัวอย่างจากการแจกแจงได้อย่างไร และนี่สามารถขยายไปสู่ช่วงเวลา N ได้หรือไม่?

2
การสุ่มตัวอย่างจากการแจกแจง von Mises-Fisher ใน Python?
ฉันกำลังมองหาวิธีง่ายๆในการสุ่มตัวอย่างจากการแจกแจงหลายตัวแปร von Mises-Fisherใน Python ฉันได้ดูในโมดูลสถิติใน scipyและโมดูล numpyแต่พบการกระจาย von Mises univariate เท่านั้น มีรหัสอะไรบ้าง? ฉันยังไม่พบ เห็นได้ชัดว่า Wood (1994) ได้ออกแบบอัลกอริทึมสำหรับการสุ่มตัวอย่างจากการกระจาย vMF ตามลิงค์นี้แต่ฉันไม่พบกระดาษ - แก้ไขเพื่อความแม่นยำฉันสนใจอัลกอริทึมที่หายากในวรรณกรรม (เอกสารส่วนใหญ่เน้นที่ ) บทความ seminal (Wood, 1994) ไม่สามารถพบได้ฟรีสำหรับความรู้ของฉันS2S2S^2

2
หนังสือแนะนำที่ดีที่สุดเกี่ยวกับการสุ่มตัวอย่าง Bootstrap ใหม่?
ฉันแค่อยากจะถามว่าหนังสือที่ดีที่สุดใน bootstrap นั้นในความคิดของคุณ โดยสิ่งนี้ฉันไม่ได้หมายถึงเฉพาะสิ่งที่นักเขียนเขียน คุณช่วยกรุณาระบุว่าหนังสือเล่มใดที่ดีที่สุดสำหรับคุณสำหรับ bootstrap ที่ครอบคลุมเกณฑ์ต่อไปนี้ พื้นฐานทางปรัชญา / ญาณวิทยาสำหรับเทคนิคที่แสดงโดเมนของการบังคับใช้จุดแข็งและจุดอ่อนสำคัญสำหรับการเลือกแบบจำลองหรือไม่ ชุดตัวอย่างง่ายๆที่แสดงการใช้งานการวางรากฐานทางปรัชญาโดยเฉพาะกับ Matlab?

1
วิธีการวาดตัวอย่างแบบสุ่มจากการกระจายโดยประมาณที่ไม่ใช่พารามิเตอร์
ฉันมีตัวอย่าง 100 คะแนนที่ต่อเนื่องและเป็นหนึ่งมิติ ฉันประเมินความหนาแน่นแบบไม่อิงพารามิเตอร์โดยใช้วิธีเคอร์เนล ฉันจะสุ่มตัวอย่างจากการแจกแจงโดยประมาณนี้ได้อย่างไร

2
การจัดการข้อผิดพลาดกับเส้นทาง GPS (กรอบทฤษฎี)
ฉันกำลังมองหากรอบทางทฤษฎีที่เหมาะสมหรือพิเศษเพื่อช่วยฉันจัดการกับการทำความเข้าใจวิธีจัดการกับข้อผิดพลาดที่ระบบ GPS มี - โดยเฉพาะเมื่อจัดการกับเส้นทาง โดยพื้นฐานฉันกำลังมองหาข้อกำหนดเกี่ยวกับข้อมูลและอัลกอริทึมใด ๆ ที่ใช้เพื่อให้สามารถสร้างความยาวของรอยทาง คำตอบนั้นต้องเชื่อถือได้ เพื่อนคนหนึ่งของฉันคือผู้กำกับการแข่งขันของการแข่งขันซึ่งถูกเรียกเก็บเงินเป็น 160 กม. แต่ Garmin เฝ้าดูทุกคนทำให้มันเหมือนกับ 190km + มันทำให้เกิดความโศกเศร้าบ้างที่เส้นชัยขอผมบอกคุณ! ดังนั้นเพื่อนของฉันกลับไปที่หลักสูตรพร้อมอุปกรณ์ GPS ต่างๆเพื่อทำการแมปใหม่และผลลัพธ์น่าสนใจ ใช้มือถือ Garmin Oregon 300 เธอมี 33.7km สำหรับขาข้างหนึ่ง สำหรับขาเดียวกันบนนาฬิกาข้อมือ Garmin Forerunner 310xt มันออกมาได้ 38.3km เมื่อฉันได้รับข้อมูลจากโอเรกอนมันชัดเจนว่ามันเป็นเพียงการบันทึกข้อมูลทุก ๆ 90 วินาทีหรือมากกว่านั้น ผู้เบิกทางทำทุกสองวินาที เมื่อฉันวางแผนข้อมูลจากโอเรกอนฉันจะเห็นว่ามันเกิดความสับสนด้วยการสลับกลับบางส่วนและวางเส้นตรงผ่านพวกเขาและเส้นโค้งก็ลดลงเล็กน้อย อย่างไรก็ตามฉันคิดว่าความแตกต่างของความถี่ในการบันทึกนั้นเป็นคำอธิบายที่มาก เช่นโดยการบันทึกทุก ๆ สองสามวินาทีผู้เบิกทางใกล้กับเส้นทางจริง อย่างไรก็ตามจะมีข้อผิดพลาดจำนวนหนึ่งเนื่องจากวิธีการทำงานของ GPS หากคะแนนที่บันทึกถูกกระจายไปทั่วเส้นทางจริงแบบสุ่ม (เนื่องจากข้อผิดพลาด) ระยะทางทั้งหมดจะใหญ่กว่าเส้นทางจริง (เส้นกระดิกไปด้านใดด้านหนึ่งของเส้นตรงยาวกว่าเส้นตรง) …
14 error  sampling 

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

3
ทำไม / ควร (?) การสุ่มตัวอย่างเชิงสถิติทำงานเพื่อการเมือง (เช่น Gallup)
โพลออกมี (พูดกัลล์อัพ) ตัวอย่างผู้คนจำนวนน้อยอย่างไร้เหตุผลเมื่อเทียบกับขนาดของประชากร (เช่นอาจเป็นพันคนจากหลายร้อยล้าน) ตอนนี้ให้ฉันสุ่มตัวอย่างประชากรเป็นวิธีสำหรับการประเมินสถิติของประชากรทำให้รู้สึกเมื่อคุณมีเหตุผลที่ดีที่จะเชื่อว่ากลุ่มตัวอย่างเป็นตัวแทนของประชากร (หรือในทำนองเดียวกันของตัวอย่างอื่น ๆ ) ตัวอย่างเช่นการสุ่มตัวอย่างทำให้เข้าใจได้ง่ายสำหรับการศึกษาทางการแพทย์เพราะเรารู้ว่านิรนัยที่มนุษย์ทุกคนมีจีโนมค่อนข้างคล้ายคลึงกันและปัจจัยนี้ทำให้ร่างกายของพวกเขามีพฤติกรรมคล้ายกัน โปรดทราบว่านี่ไม่ใช่การมีเพศสัมพันธ์แบบหลวม ๆ - จีโนมเป็นปัจจัยกำหนดที่แข็งแกร่งมาก อย่างไรก็ตามฉันไม่เข้าใจว่าอะไรคือเหตุผลที่ใช้ขนาดตัวอย่างต่ำสำหรับสิ่งต่างๆเช่นการสำรวจทางการเมือง ฉันสามารถซื้อได้ว่าอาจจะ 80-90% ของผู้คนในพื้นที่ใกล้เคียงที่ได้รับคะแนนเสียงคล้ายกันสำหรับประธานาธิบดี (เนื่องจากภูมิหลังทางสังคมและเศรษฐกิจ / การศึกษาที่คล้ายกัน) แต่สิ่งนี้ดูเหมือนว่าแทบจะไม่ได้พิสูจน์ตัวอย่างที่มีจำนวนต่ำ มีตัวอักษรไม่มีเหตุผลที่น่าสนใจ (อย่างน้อยให้ฉัน) ทำไมผู้มีสิทธิเลือกตั้ง 1,000 สุ่มควรประพฤติเช่น 200 ล้านผู้มีสิทธิเลือกตั้งอื่น ๆ สำหรับฉันคุณต้องการอย่างน้อยต้องชอบ (พูด) 100 ×จำนวนนั้น ทำไม? ฉันสามารถคิดถึงเหตุผลมากมายเช่น: มี ~ 22,000 อันมีเพียงแค่ในรัฐแคลิฟอร์เนีย ผู้คนเติบโตขึ้นอย่างแตกต่างกันในภูมิหลังทางเศรษฐกิจและการศึกษาของพวกเขาที่โพลขนาด 1,000 คนดูเหมือนจะหัวเราะเยาะ คุณจะสรุปบริเวณทั้งหมดโดยมี <1 คนโดยเฉลี่ยได้อย่างไร โดยทั่วไปผู้คนไม่สามารถเปลี่ยนแปลงการตอบสนองต่อยาของร่างกาย แต่พวกเขาสามารถเปลี่ยนความคิดเห็นเกี่ยวกับการเมืองเพียงแค่คิดถึงมัน วิธีที่ฉันเห็นมันไม่มีปัจจัยบังคับใดที่คล้ายกับ DNA ในการแพทย์เมื่อคุณต้องรับมือกับการเมือง …

3
ทำไมการบูตสแตรปมีประโยชน์หรือไม่
หากสิ่งที่คุณทำคือการสุ่มตัวอย่างใหม่จากการกระจายเชิงประจักษ์ทำไมไม่เพียงแค่ศึกษาการกระจายเชิงประจักษ์? ตัวอย่างเช่นแทนที่จะศึกษาความแปรปรวนโดยการสุ่มตัวอย่างซ้ำ ๆ ทำไมไม่เพียงแค่หาค่าความแปรปรวนจากการแจกแจงเชิงประจักษ์

3
คลัสเตอร์ข้อมูลขนาดใหญ่ใน R และการสุ่มตัวอย่างมีความเกี่ยวข้องหรือไม่
ฉันยังใหม่กับวิทยาศาสตร์ข้อมูลและมีปัญหาในการค้นหากลุ่มในชุดข้อมูลที่มี 200,000 แถวและ 50 คอลัมน์ใน R เนื่องจากข้อมูลมีทั้งตัวเลขและตัวแปรที่กำหนดวิธีการแบบ K-mean ซึ่งใช้การวัดระยะทางแบบยุคลิดจึงไม่เป็นทางเลือกที่เหมาะสม ดังนั้นฉันจึงหันไปหา PAM แอกเนสและ hclust ซึ่งยอมรับเมทริกซ์ระยะทางเป็นอินพุต วิธีเดซี่สามารถทำงานกับข้อมูลแบบผสม แต่เมทริกซ์ระยะทางนั้นใหญ่เกินไป: 200,000 เท่า 200,000 มีขนาดใหญ่กว่า 2 ^ 31-1 มาก (ขีด จำกัด ความยาวเวกเตอร์ก่อน R 3.0.0) R 3.0.0 ใหม่ที่เผยแพร่เมื่อวานนี้รองรับเวกเตอร์ยาวที่มีความยาวมากกว่า 2 ^ 31-1 แต่เมทริกซ์สองเท่าของ 200,000 โดย 200,000 ต้องใช้ RAM ต่อเนื่องที่มีขนาดใหญ่กว่า 16Gb ซึ่งเป็นไปไม่ได้ในเครื่องของฉัน ฉันอ่านเกี่ยวกับการคำนวณแบบขนานและแพ็คเกจหน่วยความจำขนาดใหญ่และไม่แน่ใจว่าพวกเขาจะช่วยได้อย่างไร: ถ้าฉันใช้เดซี่มันจะสร้างเมทริกซ์ขนาดใหญ่ที่ไม่สามารถใส่หน่วยความจำได้ ฉันยังอ่านเกี่ยวกับการโพสต์เกี่ยวกับการสุ่มตัวอย่าง: การสุ่มตัวอย่างมีความเกี่ยวข้องในช่วงเวลาของ 'ข้อมูลขนาดใหญ่' หรือไม่ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.