คำถามติดแท็ก modeling

แท็กนี้อธิบายกระบวนการสร้างแบบจำลองการเรียนรู้ทางสถิติหรือเครื่อง เพิ่มแท็กเฉพาะเสมอ

1
เส้นทางสัมประสิทธิ์ - การเปรียบเทียบของสันเขาบาศและการถดถอยสุทธิแบบยืดหยุ่น
ฉันต้องการเปรียบเทียบรุ่นที่เลือกกับสันหลัง, เชือกและยางยืด ภาพด้านล่างแสดงเส้นทางสัมประสิทธิ์โดยใช้ทั้ง 3 วิธี: สันเขา (รูป A, อัลฟา = 0), เชือก (รูป B; อัลฟา = 1) และตาข่ายยืดหยุ่น (รูป C; alpha = 0.5) วิธีการแก้ปัญหาที่ดีที่สุดขึ้นอยู่กับค่าแลมบ์ดาที่เลือกซึ่งเลือกจากการตรวจสอบข้าม เมื่อดูที่แปลงเหล่านี้ฉันคาดว่าตาข่ายยืดหยุ่น (รูปที่ C) จะแสดงผลการจัดกลุ่ม อย่างไรก็ตามมันไม่ชัดเจนในกรณีที่นำเสนอ เส้นทางสัมประสิทธิ์สำหรับ lasso และ elastic net นั้นคล้ายกันมาก อะไรคือสาเหตุของสิ่งนี้ มันเป็นเพียงความผิดพลาดในการเขียนโค้ดหรือไม่? ฉันใช้รหัสต่อไปนี้ใน R: library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge …

1
โมเดลสารเติมแต่งทั่วไป (GAMs), การโต้ตอบและ covariates
ฉันสำรวจเครื่องมือจำนวนหนึ่งเพื่อการคาดการณ์และพบว่าแบบจำลองการเติมทั่วไป (เกม) เพื่อให้มีศักยภาพมากที่สุดสำหรับจุดประสงค์นี้ เกมยอดเยี่ยม! พวกเขาอนุญาตให้ระบุแบบจำลองที่ซับซ้อนอย่างรัดกุม อย่างไรก็ตามความกระชับแบบเดียวกันนั้นทำให้ฉันสับสนโดยเฉพาะอย่างยิ่งในเรื่องที่ว่า GAMs เข้าใจถึงเงื่อนไขการมีปฏิสัมพันธ์และเพื่อนร่วมรัฐอย่างไร ลองพิจารณาชุดข้อมูลตัวอย่าง (โค้ดที่ทำซ้ำได้เมื่อสิ้นสุดการโพสต์) ซึ่งyเป็นฟังก์ชั่นแบบโมโนโทนิกที่รบกวนโดย gaussians สองคู่พร้อมเสียงรบกวน: ชุดข้อมูลมีตัวแปรตัวทำนายบางอย่าง: x: ดัชนีของข้อมูล (1-100) w: คุณลักษณะรองที่ทำเครื่องหมายส่วนต่างๆของyที่ซึ่งมีเกาส์เซียนอยู่ wมีค่า 1-20 โดยxอยู่ระหว่าง 11 ถึง 30 และ 51 ถึง 70 มิฉะนั้นwเท่ากับ 0 w2: w + 1เพื่อที่จะไม่มีค่า 0 mgcvแพ็คเกจของ R ทำให้ง่ายต่อการระบุจำนวนโมเดลที่เป็นไปได้สำหรับข้อมูลเหล่านี้: โมเดล 1 และ 2 นั้นใช้งานง่าย การคาดการณ์yเฉพาะจากค่าดัชนีในxที่ความเรียบเริ่มต้นสร้างสิ่งที่ถูกต้องราง แต่เรียบเกินไป การคาดการณ์yจากwผลลัพธ์ในรูปแบบของ "เฉลี่ย gaussian" ที่มีอยู่yและไม่มี …
12 r  modeling  gam  mgcv 

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
การสร้างแบบจำลองเมื่อตัวแปรตามมี "ตัด"
ขออภัยล่วงหน้าหากคำศัพท์ใด ๆ ที่ฉันใช้ไม่ถูกต้อง ฉันยินดีต้อนรับการแก้ไขใด ๆ หากสิ่งที่ฉันอธิบายว่าเป็น "การตัด" ใช้ชื่ออื่นให้แจ้งให้ฉันทราบและฉันสามารถอัปเดตคำถามได้ สถานการณ์ที่ฉันสนใจคือ: คุณมีตัวแปรอิสระและตัวแปรที่ขึ้นอยู่กับเดียว ฉันจะปล่อยให้มันคลุมเครือ แต่สมมติว่ามันค่อนข้างตรงไปตรงมาที่จะได้แบบจำลองการถดถอยที่ดีสำหรับตัวแปรเหล่านี้xx\bf{x}yyy แต่รูปแบบที่คุณกำลังเล็งที่จะสร้างเป็นตัวแปรอิสระและตัวแปรตามที่บางค่าคงที่ในช่วงของปี อย่างเท่าเทียมกันข้อมูลที่คุณมีการเข้าถึงไม่ได้รวมปีเท่านั้นWxx\bf{x}w=min(y,a)w=min(y,a)w = \min(y,a)aaayyyyyywww ตัวอย่างนี้เป็นตัวอย่างที่ค่อนข้างไม่สมจริงหากคุณพยายามทำตัวเป็นแบบอย่างว่าจะมีคนเก็บเงินบำนาญของพวกเขาเป็นเวลากี่ปี ในกรณีนี้xx\bf{x}อาจเป็นข้อมูลที่เกี่ยวข้องเช่นเพศน้ำหนักชั่วโมงการออกกำลังกายต่อสัปดาห์ ฯลฯ ตัวแปร 'พื้นฐาน' yyyจะเป็นอายุขัย อย่างไรก็ตามตัวแปรที่คุณสามารถเข้าถึงได้และพยายามทำนายในแบบจำลองของคุณคือw=min(0,y−r)w=min(0,y−r)w = \min(0, y-r)โดยที่ r คืออายุเกษียณ (สมมติว่ามันเรียบง่ายคงที่) มีวิธีที่ดีในการจัดการกับปัญหานี้ในการสร้างแบบจำลองการถดถอยหรือไม่?

1
เกณฑ์สำหรับการเลือกโมเดล“ ดีที่สุด” ในโมเดลมาร์คอฟที่ซ่อนอยู่
ฉันมีชุดข้อมูลอนุกรมเวลาที่ฉันพยายามจัดวางแบบซ่อนมาร์คอฟ (HMM) เพื่อประเมินจำนวนสถานะแฝงในข้อมูล รหัสหลอกของฉันสำหรับทำสิ่งนี้มีดังต่อไปนี้: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } ตอนนี้ในรูปแบบการถดถอยปกติ BIC มีแนวโน้มที่จะชอบรูปแบบที่น่าสังเวชมากที่สุด แต่ในกรณีของ HMM ฉันไม่แน่ใจว่ามันคือสิ่งที่ทำ มีใครบ้างที่ทราบว่าเกณฑ์ BIC ของ HMM ประเภทใดมีแนวโน้มเป็นจริง? ฉันยังสามารถได้รับ AIC และค่าความน่าจะเป็นเช่นกัน เนื่องจากฉันพยายามที่จะอนุมานจำนวนจริงของรัฐเป็นหนึ่งในเกณฑ์เหล่านี้ "ดีกว่า" เพื่ออื่น ๆ สำหรับวัตถุประสงค์นี้หรือไม่

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
แบบจำลองพารามิเตอร์ของความแปรปรวนของข้อมูลการนับ
ฉันกำลังมองหาแบบจำลองข้อมูลบางอย่าง แต่ฉันไม่แน่ใจว่าแบบจำลองชนิดใดที่ฉันสามารถใช้ได้ ฉันมีข้อมูลนับและฉันต้องการรูปแบบที่จะให้การประมาณค่าพารามิเตอร์ของทั้งค่าเฉลี่ยและความแปรปรวนของข้อมูล นั่นคือฉันมีปัจจัยการทำนายที่หลากหลายและฉันต้องการตรวจสอบว่ามีปัจจัยใดที่ส่งผลต่อความแปรปรวน (ไม่ใช่แค่ค่าเฉลี่ยของกลุ่ม) ฉันรู้ว่าการถดถอยของปัวซองจะไม่ทำงานเพราะความแปรปรวนเท่ากับค่าเฉลี่ย สมมติฐานนี้ไม่ถูกต้องในกรณีของฉันดังนั้นฉันรู้ว่ามีการกระจายเกินจริง อย่างไรก็ตามโมเดลทวินามลบเชิงลบจะสร้างพารามิเตอร์ overdispersion เดียวเท่านั้นไม่ใช่แบบจำลองฟังก์ชันของตัวทำนายในโมเดล รูปแบบใดที่สามารถทำได้ นอกจากนี้การอ้างอิงถึงหนังสือหรือกระดาษที่กล่าวถึงรูปแบบและ / หรือแพคเกจ R ซึ่งใช้รูปแบบจะได้รับการชื่นชม

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

1
เหมาะสมกับฟังก์ชันเลขชี้กำลังโดยใช้กำลังสองน้อยที่สุดเทียบกับโมเดลเชิงเส้นทั่วไปกับสี่เหลี่ยมจัตุรัสไม่เชิงเส้นน้อยที่สุด
ฉันมีชุดข้อมูลที่แสดงถึงการสลายตัวแบบเลขชี้กำลัง ฉันต้องการใส่ฟังก์ชั่นเลขชี้กำลังกับข้อมูลนี้ ฉันได้ลองบันทึกการเปลี่ยนตัวแปรการตอบสนองแล้วใช้กำลังสองน้อยที่สุดเพื่อให้พอดีกับเส้น ใช้โมเดลเชิงเส้นทั่วไปที่มีฟังก์ชั่นบันทึกการเชื่อมโยงและการกระจายแกมม่ารอบ ๆ ตัวแปรตอบสนอง; และใช้กำลังสองน้อยที่สุดแบบไม่เชิงเส้น ฉันได้รับคำตอบที่แตกต่างกันสำหรับสัมประสิทธิ์สองตัวของฉันในแต่ละวิธีแม้ว่ามันจะคล้ายกันทั้งหมด ที่ฉันมีความสับสนคือฉันไม่แน่ใจว่าวิธีใดดีที่สุดที่จะใช้และทำไม ใครบางคนช่วยเปรียบเทียบและเปรียบเทียบวิธีการเหล่านี้ได้ไหม ขอบคุณ.y=Beaxy=Beaxy = Be^{ax}

4
บันทึกโมเดลเชิงเส้น
ใครช่วยอธิบายหน่อยได้ไหมว่าทำไมเราถึงใช้โมเดลลิเนียร์ลิเนียร์ในแง่คนธรรมดา? ฉันมาจากภูมิหลังทางวิศวกรรมและนี่เป็นเรื่องยากสำหรับฉันสถิติที่เป็น ฉันจะขอบคุณสำหรับคำตอบ

1
เมื่อใดที่ฉันจะหยุดมองหานางแบบ?
ฉันกำลังมองหาแบบจำลองระหว่างการสะสมพลังงานและสภาพอากาศ ฉันมีราคา MWatt ที่ซื้อระหว่างประเทศในยุโรปและมีค่ามากมายในสภาพอากาศ (ไฟล์ Grib) แต่ละชั่วโมงในระยะเวลา 5 ปี (2554-2558) ราคา / วัน นี่คือต่อวันเป็นเวลาหนึ่งปี ฉันมีสิ่งนี้ต่อชั่วโมงใน 5 ปี ตัวอย่างของสภาพอากาศ 3Dscatterplot ในเคลวินเป็นเวลาหนึ่งชั่วโมง ฉันมี 1,000 ค่าต่อข้อมูลต่อชั่วโมงและ 200 ข้อมูลเช่น klevin, ลม, geopential ฯลฯ ฉันพยายามที่จะคาดการณ์ราคาเฉลี่ยต่อชั่วโมงของ Mwatt ข้อมูลของฉันบนอากาศมีความหนาแน่นสูงมากค่ามากกว่า 10,000 ค่า / ชั่วโมงและมีความสัมพันธ์สูง มันเป็นปัญหาของข้อมูลขนาดใหญ่ระยะสั้น ฉันได้ลองใช้วิธี Lasso, Ridge และ SVR ด้วยราคาเฉลี่ยของ MWatt ตามผลลัพธ์และข้อมูลสภาพอากาศของฉันเป็นรายได้ ฉันใช้ข้อมูลการฝึกอบรม 70% และทดสอบ 30% หากข้อมูลการทดสอบของฉันไม่ได้คาดการณ์ …

5
การวัดการถดถอยของค่าเฉลี่ยในการกดปุ่มในการวิ่งกลับบ้าน
ทุกคนที่ติดตามเบสบอลมีโอกาสได้ยินเกี่ยวกับการแสดง MVP นอกสมัยของ Jose Bautista ของโตรอนโต ในสี่ปีก่อนหน้านี้เขามีการวิ่งกลับบ้าน 15 ครั้งต่อฤดูกาล ปีที่แล้วเขาตี 54 ได้มีผู้เล่นมากกว่า 12 คนในประวัติศาสตร์เบสบอล ในปี 2010 เขาได้รับเงิน 2.4 ล้านและเขาขอให้ทีม 10.5 ล้านคนในปี 2011 พวกเขาเสนอเงิน 7.6 ล้าน หากเขาสามารถทำซ้ำได้ในปี 2554 เขาจะมีมูลค่าทั้งสองอย่างง่ายดาย แต่โอกาสของเขาคือการทำซ้ำ? เราจะคาดหวังได้ยากแค่ไหนที่เขาจะถดถอย เราคาดหวังว่าการแสดงของเขาจะเกิดขึ้นได้เท่าไหร่เพราะโอกาส? เราคาดหวังได้อย่างไรว่ายอดรวม 2010 ที่ปรับแล้วของเขาการถดถอยจะเป็นอย่างไร ฉันจะทำงานออกมาได้อย่างไร ฉันได้เล่นกับฐานข้อมูลเบสบอล Lahman และบีบเคียวรีที่ส่งคืนผลรวมการวิ่งกลับบ้านสำหรับผู้เล่นทั้งหมดในห้าฤดูกาลก่อนหน้านี้ซึ่งมีค้างคาวอย่างน้อย 50 ตัวต่อฤดูกาล ตารางมีลักษณะเช่นนี้ (สังเกตเห็น Jose Bautista ในแถวที่ 10) first last hr_2006 hr_2007 …
11 r  regression  modeling 

10
เหตุผลนอกเหนือจากการคาดการณ์ในการสร้างแบบจำลอง?
Joshua Epstein เขียนบทความเรื่อง "Why Model?" ดูได้ที่http://www.santafe.edu/media/workingpapers/08-09-040.pdfซึ่งมี 16 เหตุผล: อธิบาย (แตกต่างอย่างมากจากการทำนาย) คู่มือการรวบรวมข้อมูล ส่องสว่างพลศาสตร์หลัก แนะนำการเปรียบเทียบแบบไดนามิก ค้นพบคำถามใหม่ ส่งเสริมนิสัยทางวิทยาศาสตร์ของจิตใจ ผลลัพธ์ที่ถูกผูกไว้ (วงเล็บ) ไปยังช่วงที่เป็นไปได้ ส่องสว่างความไม่แน่นอนหลัก เสนอตัวเลือกของวิกฤตในเวลาใกล้เคียงจริง แสดงให้เห็นถึงการแลกเปลี่ยน / แนะนำประสิทธิภาพ ท้าทายความแข็งแกร่งของทฤษฎีที่แพร่หลายผ่านการก่อกวน เปิดเผยภูมิปัญญาที่ได้รับในขณะที่เข้ากันไม่ได้กับข้อมูลที่มี ฝึกอบรมผู้ปฏิบัติงาน ฝึกฝนบทสนทนานโยบาย ให้ความรู้แก่ประชาชนทั่วไป เปิดเผยความเรียบง่าย (ซับซ้อน) ให้ซับซ้อน (ง่าย) (เอพสไตน์อธิบายรายละเอียดเกี่ยวกับเหตุผลหลาย ๆ อย่างในเอกสารของเขา) ฉันต้องการถามชุมชน: มีเหตุผลเพิ่มเติมที่ Epstein ไม่แสดงหรือไม่ มีวิธีที่สง่างามกว่านี้ในการกำหนดแนวคิด (อาจจัดกลุ่มที่แตกต่างกัน) ด้วยเหตุผลเหล่านี้หรือไม่ เหตุผลใดของ Epstein มีข้อบกพร่องหรือไม่สมบูรณ์? เหตุผลเหล่านี้ชัดเจนขึ้นหรือไม่?
11 modeling 

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

7
หลีกเลี่ยงการเลือกปฏิบัติทางสังคมในการสร้างแบบจำลอง
ฉันมีคำถามที่ได้รับแรงบันดาลใจจากเรื่องอื้อฉาวการรับสมัครงานล่าสุดของ Amazon ที่พวกเขาถูกกล่าวหาว่าเลือกปฏิบัติต่อสตรีในกระบวนการสรรหา ข้อมูลเพิ่มเติมที่นี่ : ผู้เชี่ยวชาญด้านการเรียนรู้เครื่องจักรของ Amazon.com Inc เปิดเผยปัญหาใหญ่: เครื่องมือการสรรหาคนใหม่ของพวกเขาไม่ชอบผู้หญิง ทีมได้สร้างโปรแกรมคอมพิวเตอร์ตั้งแต่ปี 2014 เพื่อตรวจสอบประวัติย่อของผู้สมัครงานโดยมีจุดประสงค์ในการค้นหาผู้มีความสามารถสูงสุด ...... เครื่องมือการทดลองเชิงทดลองของ บริษัท ใช้ปัญญาประดิษฐ์เพื่อให้คะแนนผู้สมัครงานตั้งแต่หนึ่งถึงห้าดาว ... ... แต่ในปี 2558 บริษัท ตระหนักว่าระบบใหม่ไม่ใช่การให้คะแนนผู้สมัครสำหรับงานพัฒนาซอฟต์แวร์และการโพสต์ทางเทคนิคอื่น ๆ ในลักษณะที่เป็นกลางทางเพศ นั่นเป็นเพราะโมเดลคอมพิวเตอร์ของอเมซอนได้รับการฝึกฝนให้ใช้สัตว์แพทย์โดยการสังเกตรูปแบบการดำเนินการต่อที่ส่งมาถึง บริษัท ในช่วงระยะเวลา 10 ปี ส่วนใหญ่มาจากผู้ชายซึ่งเป็นภาพสะท้อนของการครอบงำชายในอุตสาหกรรมเทคโนโลยี (สำหรับกราฟิกเกี่ยวกับการแยกเพศในเทคโนโลยีดูที่นี่ ) ผลของระบบ Amazon สอนตัวเองว่าผู้สมัครชายเป็นที่ต้องการ มันดำเนินการลงโทษที่รวมคำว่า "ผู้หญิง" ไว้ใน "กัปตันชมรมหมากรุกของผู้หญิง" และมันได้ปรับลดบัณฑิตของวิทยาลัยสตรีทั้งสองแห่งตามที่คนคุ้นเคยกับเรื่องนี้ พวกเขาไม่ได้ระบุชื่อโรงเรียน Amazon แก้ไขโปรแกรมเพื่อให้เป็นกลางกับข้อกำหนดเฉพาะเหล่านี้ แต่นั่นไม่รับประกันว่าเครื่องจะไม่คิดวิธีการคัดแยกผู้สมัครที่สามารถพิสูจน์การเลือกปฏิบัติได้ ท้ายที่สุด บริษัท ซีแอตเทิลยกเลิกทีมเมื่อต้นปีที่แล้วเพราะผู้บริหารสูญเสียความหวังในโครงการ ...... การทดลองของ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.