คำถามติดแท็ก cross-section

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 


2
เหตุใดการใช้ข้อมูลแบบตัดขวางเพื่อสรุป / ทำนายการเปลี่ยนแปลงตามยาวของสิ่งที่ไม่ดี
ฉันกำลังมองหากระดาษที่ฉันหวังว่าจะมีอยู่ แต่ไม่รู้ว่ามันจะเป็นอย่างไร มันอาจเป็นชุดของกรณีศึกษาและ / หรือข้อโต้แย้งจากทฤษฎีความน่าจะเป็นเกี่ยวกับสาเหตุที่ใช้ข้อมูลภาคตัดขวางในการอนุมาน / ทำนายการเปลี่ยนแปลงตามยาวอาจเป็นสิ่งที่ไม่ดี (เช่นนั้นไม่จำเป็น ฉันได้เห็นความผิดพลาดที่เกิดขึ้นในสองวิธีใหญ่ ๆ : การอนุมานนั้นเกิดขึ้นเพราะคนที่ร่ำรวยกว่าในอังกฤษเดินทางมากขึ้นจากนั้นเมื่อสังคมได้รับความนิยมมากขึ้นประชากรโดยรวมจะเดินทางมากขึ้น การอนุมานนั้นกลายเป็นเรื่องจริงเป็นระยะเวลานานกว่าทศวรรษ และรูปแบบที่คล้ายคลึงกันกับการใช้ไฟฟ้าในประเทศ: ข้อมูลแบบภาคตัดขวางหมายถึงการเพิ่มขึ้นอย่างมากของรายได้ซึ่งไม่ได้เกิดขึ้นตามกาลเวลา มีหลายสิ่งที่เกิดขึ้นรวมถึงผลกระทบของหมู่และข้อ จำกัด ด้านอุปทาน มันจะมีประโยชน์มากที่จะมีการอ้างอิงเดียวที่รวบรวมกรณีศึกษาเช่นนั้น และ / หรือใช้ทฤษฎีความน่าจะเป็นเพื่อแสดงให้เห็นว่าเหตุใดการใช้ข้อมูลภาคตัดขวางเพื่ออนุมาน / ทำนายการเปลี่ยนแปลงระยะยาวอาจทำให้เข้าใจผิดได้มาก มีกระดาษชนิดนี้อยู่หรือไม่ถ้าอย่างนั้นมันคืออะไร?

2
อนุญาตให้ใช้ค่าเฉลี่ยในชุดข้อมูลเพื่อปรับปรุงความสัมพันธ์ได้หรือไม่
ฉันมีชุดข้อมูลที่มีตัวแปรตามและตัวแปรอิสระ ทั้งคู่ไม่ใช่อนุกรมเวลา ฉันมี 120 ข้อสังเกต ค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ 0.43 หลังจากการคำนวณนี้ฉันได้เพิ่มคอลัมน์สำหรับตัวแปรทั้งสองโดยมีค่าเฉลี่ยสำหรับการสังเกตทุก 12 ครั้งทำให้เกิดคอลัมน์ใหม่ 2 คอลัมน์ที่มีการสังเกต 108 ครั้ง (คู่) ค่าสัมประสิทธิ์สหสัมพันธ์ของคอลัมน์เหล่านี้คือ 0.77 ดูเหมือนว่าฉันจะปรับปรุงความสัมพันธ์ในลักษณะนี้ อนุญาตให้ทำเช่นนี้หรือไม่ ฉันเพิ่มอำนาจการอธิบายของตัวแปรอิสระโดยใช้ค่าเฉลี่ยหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.