คำถามติดแท็ก weighted-data

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
การแก้ไขอคติในความแปรปรวนแบบถ่วงน้ำหนัก
สำหรับความแปรปรวนแบบไม่มีน้ำหนัก มีค่าความแปรปรวนตัวอย่างที่มีอคติถูกแก้ไขเมื่อค่าเฉลี่ยถูกประเมินจากข้อมูลเดียวกัน: Var(X):=1n∑i(xi−μ)2Var(X):=1n∑i(xi−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var(X):=1n−1∑i(xi−E[X])2Var(X):=1n−1∑i(xi−E[X])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 ฉันกำลังดูค่าเฉลี่ยและความแปรปรวนแบบถ่วงน้ำหนักและสงสัยว่าการแก้ไขความลำเอียงที่เหมาะสมสำหรับความแปรปรวนแบบถ่วงน้ำหนักคืออะไร การใช้: ค่าเฉลี่ย( X)) : = 1ΣผมωผมΣผมωผมxผมค่าเฉลี่ย(X)=1ΣผมωผมΣผมωผมxผม\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i "ไร้เดียงสา" ความแปรปรวนที่ไม่ได้แก้ไขที่ฉันใช้อยู่คือ: Var ( X) : = 1ΣผมωผมΣผมωผม( xผม- ค่าเฉลี่ย( X)) )2Var(X):=1∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 ดังนั้นฉันสงสัยว่าวิธีที่ถูกต้องในการแก้ไขอคติคืออะไร A) Var ( X) : = 1Σผมωผม- 1Σผมωผม( xผม−mean(X))2Var(X):=1∑iωi−1∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 หรือ B) Var …

2
การเพิ่มน้ำหนักให้กับการถดถอยโลจิสติกสำหรับข้อมูลที่ไม่สมดุล
ฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกด้วยข้อมูลที่ไม่สมดุล (9: 1) ฉันต้องการลองใช้ตัวเลือกตุ้มน้ำหนักในglmฟังก์ชันใน R แต่ฉันไม่แน่ใจ 100% ว่ามันทำอะไร c(0,0,0,0,0,0,0,0,0,1)ช่วยบอกตัวแปรเอาท์พุทของฉันคือ ตอนนี้ฉันต้องการเพิ่มน้ำหนัก "1" 10 เท่า weights=c(1,1,1,1,1,1,1,1,1,1,1,10)ดังนั้นผมจึงให้น้ำหนักการโต้แย้ง เมื่อฉันทำเช่นนั้นมันจะได้รับการพิจารณาในการคำนวณความเป็นไปได้สูงสุด ฉันถูกไหม? การจำแนกประเภทของ "1" นั้นแย่กว่านั้นเพียง 10 เท่าจากนั้นการจัดประเภทผิดพลาดเป็น "0"

2
การวิเคราะห์องค์ประกอบหลักถ่วงน้ำหนัก
หลังจากการค้นหาบางอย่างฉันพบข้อผิดพลาดเล็กน้อยเกี่ยวกับการรวมตัวกันของน้ำหนัก / การวัดในการวิเคราะห์องค์ประกอบหลัก สิ่งที่ฉันพบมักใช้วิธีวนซ้ำเพื่อรวมน้ำหนัก (เช่นที่นี่ ) คำถามของฉันคือเหตุใดจึงจำเป็นต้องใช้วิธีการนี้ ทำไมเราไม่สามารถใช้ eigenvector ของเมทริกซ์ความแปรปรวนร่วมแบบถ่วงน้ำหนักได้?

1
ความแปรปรวนแบบถ่วงน้ำหนักอีกครั้ง
ความแปรปรวนแบบถ่วงน้ำหนักที่ไม่เอนเอียงได้ถูกกล่าวถึงแล้วที่นี่และที่อื่น ๆแต่ก็ยังมีความสับสนอย่างน่าประหลาด มีปรากฏเป็นฉันทามติต่อการสูตรที่นำเสนอในลิงค์แรกเช่นเดียวกับในบทความวิกิพีเดีย ดูเหมือนว่าสูตรที่ใช้โดย R, Mathematica และ GSL (แต่ไม่ใช่ MATLAB) อย่างไรก็ตามบทความ Wikipedia ยังมีบรรทัดต่อไปนี้ซึ่งดูเหมือนว่ามีสติที่ดีสำหรับการดำเนินการแปรปรวนน้ำหนัก: ตัวอย่างเช่นหากค่า {2,2,4,5,5,5} ถูกดึงมาจากการแจกแจงแบบเดียวกันเราสามารถถือว่าชุดนี้เป็นตัวอย่างที่ไม่ได้ถ่วงน้ำหนักหรือเราสามารถถือว่าเป็นตัวอย่างที่มีน้ำหนัก {2,4 5} ด้วยน้ำหนักที่สอดคล้องกัน {2,1,3} และเราควรได้ผลลัพธ์เดียวกัน การคำนวณของฉันให้ค่า 2.1667 สำหรับความแปรปรวนของค่าดั้งเดิมและ 2.9545 สำหรับความแปรปรวนแบบถ่วงน้ำหนัก ฉันควรคาดหวังให้พวกเขาเหมือนกันหรือไม่? ทำไมหรือทำไมไม่?

1
สิ่งนั้นเป็นความสัมพันธ์ถ่วงน้ำหนัก?
ฉันมีข้อมูลที่น่าสนใจเกี่ยวกับศิลปินทางดนตรีที่ได้รับความนิยมมากที่สุดที่ถูกสตรีมแบ่งออกเป็นส่วน ๆ ตามที่ตั้งไว้ในเขตรัฐสภาประมาณ 200 แห่ง ฉันต้องการดูว่าเป็นไปได้หรือไม่ที่จะสำรวจความคิดเห็นของบุคคลตามความชอบทางดนตรีของเขาหรือเธอและพิจารณาว่าเขาหรือเธอ "ฟังเหมือนประชาธิปไตย" หรือ "ฟังเหมือนรีพับลิกัน" (โดยธรรมชาตินี่คือใจที่อ่อน แต่มีเอนโทรปีที่แท้จริงในข้อมูล!) ฉันมีข้อมูลเกี่ยวกับศิลปินประมาณ 100 คนบวกกับคะแนนโหวตเฉลี่ยสำหรับพรรครีพับลิกันและเดโมแครตในแต่ละเขตในรอบการเลือกตั้งสามรอบที่ผ่านมา ดังนั้นฉันจึงมีความสัมพันธ์กับศิลปินแต่ละคนเพื่อดูว่าศิลปินคนไหนที่ฟังอย่างไม่เป็นสัดส่วนมากที่สุดเพื่อเป็นฟังก์ชั่นการแบ่งปันการโหวตให้กับพรรคเดโมแครต ความสัมพันธ์เหล่านั้นเริ่มต้นที่ประมาณ -0.3 ถึง 0.3 สำหรับศิลปินที่กำหนดมีจำนวนมากตรงกลางที่มีพลังในการทำนายน้อยหรือไม่มีเลย ฉันมีสองคำถาม: อันดับแรกจำนวนสตรีมโดยรวมต่ออำเภอแตกต่างกันอย่างกว้างขวาง ตอนนี้ฉันมีความสัมพันธ์ร้อยละของสตรีมทั้งหมดต่อเขตที่เป็นของพูดบียอนเซ่กับเปอร์เซ็นต์ของคะแนนโหวตสำหรับพรรคเดโมแครต แต่สตรีมทั้งหมดในหนึ่งอำเภออาจเป็นล้านในขณะที่อีกสตรีนอยู่ในระดับต่ำ 100,000 ฉันจำเป็นต้องคำนึงถึงความสัมพันธ์กับสิ่งนี้หรือไม่? ประการที่สองฉันสงสัยว่าจะรวมความสัมพันธ์เหล่านี้เข้ากับการคาดเดาแบบรวมกับการเมืองของผู้ใช้ได้อย่างไร สมมติว่าฉันใช้ศิลปินทั้ง 20 คนที่มีค่าสหสัมพันธ์สูงสุด (บวกและลบ) สิบคนในแต่ละทิศทางและสำรวจผู้ใช้ว่าเขาหรือเธอชอบศิลปินแต่ละคนมากแค่ไหน ดังนั้นฉันจึงได้คะแนนโหวตขึ้นหรือลงของศิลปินแต่ละคนบวกกับความสัมพันธ์กับการเมืองสำหรับค่านิยมทั้ง 20 นี้ มีวิธีมาตรฐานในการรวมสหสัมพันธ์เหล่านี้เป็นค่าประมาณเดียวหรือไม่? (ฉันกำลังคิดบางอย่างเช่นแบบทดสอบภาษาถิ่นที่มีชื่อเสียงของ NYTimes ซึ่งรวมความน่าจะเป็นระดับภูมิภาคเข้ากับคำถาม 25 ข้อในแผนที่ความร้อน แต่ในกรณีนี้ฉันแค่ต้องการค่าเดียวกับรสนิยมทางดนตรีของพรรครีพับลิกันหรือพรรครีพับลิกัน ขอขอบคุณ!

1
นิยามน้ำหนักถ่วงน้ำหนักน้อยที่สุด: ฟังก์ชัน R lm เทียบกับ
ใครช่วยบอกฉันหน่อยได้ไหมว่าทำไมฉันถึงได้ผลลัพธ์ที่แตกต่างจากRน้ำหนักอย่างน้อยกำลังสองและวิธีแก้ปัญหาด้วยตนเองโดยการทำงานของเมทริกซ์ ? โดยเฉพาะฉันกำลังพยายามแก้ไขด้วยตนเองโดยที่คือเมทริกซ์แนวทแยงมุมที่มีน้ำหนักคือเมทริกซ์ข้อมูลคือการตอบสนอง เวกเตอร์ W A x = W bWAx=Wb\mathbf W \mathbf A\mathbf x=\mathbf W \mathbf bWW\mathbf WAA\mathbf Aขb\mathbf b ฉันพยายามเปรียบเทียบผลลัพธ์กับR lmฟังก์ชันโดยใช้weightsอาร์กิวเมนต์
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.