คำถามติดแท็ก gini

2
ความสัมพันธ์ระหว่างคะแนน GINI และอัตราส่วนความน่าจะเป็นคืออะไร
ฉันกำลังศึกษาต้นไม้จำแนกและต้นไม้ถดถอยและหนึ่งในมาตรการสำหรับสถานที่แยกคือคะแนน GINI ตอนนี้ฉันถูกใช้เพื่อกำหนดตำแหน่งที่แยกที่ดีที่สุดเมื่อบันทึกอัตราส่วนความน่าจะเป็นของข้อมูลเดียวกันระหว่างการแจกแจงสองค่าเป็นศูนย์หมายความว่าโอกาสในการเป็นสมาชิกมีแนวโน้มเท่ากัน สัญชาตญาณของฉันบอกว่าต้องมีการเชื่อมต่อบางอย่างที่ GINI ต้องมีรากฐานที่ดีในทฤษฎีทางคณิตศาสตร์ของข้อมูล (Shannon) แต่ฉันไม่เข้าใจ GINI ดีพอที่จะได้รับความสัมพันธ์ของตัวเอง คำถาม: "หลักการแรก" ที่ได้มาจากคะแนนความไม่บริสุทธิ์ของ GINI เป็นตัวชี้วัดสำหรับการแยกคืออะไร? คะแนน GINI เกี่ยวข้องกับบันทึกของอัตราส่วนความน่าจะเป็นหรือปัจจัยพื้นฐานด้านข้อมูลทฤษฎีอื่น ๆ อย่างไร (Shannon Entropy, pdf , และเอนโทรปีของการข้ามเป็นส่วนหนึ่งของคะแนนเหล่านั้น) อ้างอิง: เกณฑ์การถ่วงน้ำหนักของ Gini เป็นอย่างไร คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (เพิ่ม) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity เอนโทรปีของแชนนอนอธิบายว่า: H( x ) = ΣผมP( xผม) บันทึกขP( xผม)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} …

1
ป่าสุ่มของ Breiman ใช้ข้อมูลที่ได้รับหรือดัชนี Gini หรือไม่
ฉันต้องการทราบว่าป่าสุ่มของ Breiman (ป่าสุ่มในแพคเกจ R สุ่มป่า) ใช้เป็นเกณฑ์แยก (เกณฑ์สำหรับการเลือกคุณลักษณะ) ได้รับข้อมูลหรือดัชนี Gini หรือไม่ ฉันพยายามค้นหามันในhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htmและในเอกสารสำหรับแพ็คเกจ randomForest ใน R แต่สิ่งเดียวที่ฉันพบคือดัชนี Gini สามารถใช้สำหรับ การคำนวณความสำคัญของตัวแปร

1
logloss vs gini / auc
ฉันได้ฝึกสองรุ่น (ตัวแยกประเภทไบนารีโดยใช้ h2o AutoML) และฉันต้องการเลือกหนึ่งตัวที่จะใช้ ฉันมีผลลัพธ์ต่อไปนี้: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 aucและloglossคอลัมน์ที่เป็นตัวชี้วัดการตรวจสอบข้าม (การตรวจสอบข้ามใช้เฉพาะข้อมูลการฝึกอบรม) พบ..._trainและ..._validตัวชี้วัดโดยการเรียกใช้การฝึกอบรมและการตรวจสอบความถูกต้องผ่านรูปแบบตามลำดับ ฉันต้องการใช้logloss_validหรือgini_validเพื่อเลือกรุ่นที่ดีที่สุด รุ่น 1 มี gini ที่ดีกว่า (เช่น AUC ที่ดีขึ้น) แต่รุ่นที่สองมี logloss ที่ดีกว่า คำถามของฉันคือแบบใดที่ฉันจะเลือกซึ่งฉันคิดว่าจะเป็นคำถามอะไรคือข้อดี / ข้อเสียของการใช้ gini (AUC) หรือ logloss เพื่อการตัดสินใจ

1
เหตุใดจึงใช้คะแนน Normalized Gini แทน AUC เพื่อประเมินผล
การแข่งขันของ Kaggle การแข่งขันการทำนายความปลอดภัยอย่างปลอดภัยของ Porto Seguroใช้คะแนน Normalized Gini เป็นตัวชี้วัดการประเมินผลและสิ่งนี้ทำให้ฉันสงสัยเกี่ยวกับเหตุผลของการเลือกนี้ อะไรคือข้อดีของการใช้คะแนน gini ปกติแทนการวัดทั่วไปมากที่สุดเช่น AUC สำหรับการประเมิน?

1
อะไรคือความแตกต่างระหว่างการตีความเส้นโค้ง GINI และ AUC
เราใช้ในการสร้างเส้นโค้ง GINI โดยใช้การยกที่สร้างขึ้นด้วยความช่วยเหลือของร้อยละของดีและไม่ดีสำหรับการสร้างดัชนีชี้วัด แต่สิ่งที่ฉันได้ศึกษาว่าเส้นโค้ง ROC นั้นถูกสร้างขึ้นโดยใช้เมทริกซ์ความสับสนที่มีความเฉพาะเจาะจง (1- จริงลบ) เป็นแกน x และความไว (บวกจริง) เป็นแกน Y ดังนั้นผลลัพธ์ของ GINI และ ROC จึงเหมือนกันกับข้อแตกต่างอย่างหนึ่งคือสิ่งหลังนั้นคำนึงถึงความสอดคล้องและค่าความไม่ลงรอยกัน (TP, FP, FN, TN)
13 roc  gini 

3
ความแตกต่างคือสถิติสรุป: ค่าสัมประสิทธิ์จินีและส่วนเบี่ยงเบนมาตรฐาน
มีสถิติสรุปหลายอย่าง เมื่อคุณต้องการที่จะอธิบายการแพร่กระจายของการกระจายที่คุณสามารถใช้สำหรับตัวอย่างส่วนเบี่ยงเบนมาตรฐานหรือสัมประสิทธิ์จีนี ฉันรู้ว่าค่าเบี่ยงเบนมาตรฐานขึ้นอยู่กับแนวโน้มกลางนั่นคือการเบี่ยงเบนจากค่าเฉลี่ยและค่าสัมประสิทธิ์ Gini เป็นการวัดทั่วไปของการกระจายตัว ผมยังไม่ทราบว่าค่าสัมประสิทธิ์ Gini มีลดลงและผูกไว้บน [0 1] และค่าเบี่ยงเบนมาตรฐานไม่ได้ คุณสมบัติเหล่านี้เป็นสิ่งที่ดีที่จะรู้ แต่ความเข้าใจส่วนเบี่ยงเบนมาตรฐานสามารถให้ Gini ไม่สามารถและหนีบในทางกลับกันได้? ถ้าฉันต้องเลือกที่จะใช้หนึ่งในสองสิ่งที่เป็นประโยชน์ของการใช้หนึ่งเมื่อเทียบกับคนอื่นเมื่อมันเป็นข้อมูลและลึกซึ้ง

4
กำลังพยายามคำนวณดัชนี Gini จากการกระจายชื่อเสียงของ StackOverflow หรือไม่
ฉันพยายามคำนวณดัชนี Gini ในการกระจายชื่อเสียง SO โดยใช้ SO Data Explorer สมการที่ฉันพยายามนำมาใช้คือ: โดยที่: = จำนวนผู้ใช้บนไซต์; = หมายเลขประจำตัวผู้ใช้ (1 - 1,225,000); = ชื่อเสียงของผู้ใช้ฉันniyiiG ( S) = 1n - 1( n + 1 - 2 ( ∑)ni = 1( n + 1 - i ) yผมΣni = 1Yผม) )G(S)=1n−1(n+1−2(∑i=1n(n+1−i)yi∑i=1nyi)) G(S)=\frac{1}{n-1}\left(n+1-2\left(\frac{\sum^n_{i=1}(n+1-i)y_i}{\sum^n_{i=1}y_i}\right)\right) nnnผมiiYผมyiy_iผมii นี่คือวิธีที่ฉันใช้มัน (คัดลอกมาจากที่นี่ ): DECLARE …
11 gini 

1
ค่าสัมประสิทธิ์จินีและขอบเขตข้อผิดพลาด
ฉันมีชุดข้อมูลเวลาที่มี N = 14 นับในแต่ละช่วงเวลาและฉันต้องการคำนวณค่าสัมประสิทธิ์ Gini และข้อผิดพลาดมาตรฐานสำหรับการประมาณนี้ในแต่ละช่วงเวลา เนื่องจากฉันมีเพียง N = 14 นับในแต่ละครั้งที่ฉันดำเนินการคำนวณความแปรปรวนของขนุนคือจากสม 7 ของ Tomson Ogwang 'วิธีการที่สะดวกในการคำนวณดัชนี Gini และ' ข้อผิดพลาดมาตรฐาน' ที่ไหนเป็นสัมประสิทธิ์จีนีของค่า N โดยไม่ต้ององค์ประกอบและเป็นค่าเฉลี่ยของk)var( G ) = n - 1n× ∑nk = 1( G ( n , k ) - G¯( n ) )2var⁡(G)=n-1n×Σk=1n(G(n,k)-G¯(n))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G ( n …

5
วิธีการวัดการกระจายตัวในข้อมูลความถี่ของคำ?
ฉันจะหาปริมาณการกระจายตัวในเวกเตอร์ที่มีการนับคำได้อย่างไร ฉันกำลังมองหาสถิติที่จะสูงสำหรับเอกสาร A เนื่องจากมีคำต่าง ๆ มากมายที่เกิดขึ้นไม่บ่อยนักและต่ำสำหรับเอกสาร B เพราะมันมีหนึ่งคำ (หรือคำไม่กี่คำ) ที่เกิดขึ้นบ่อยครั้ง โดยทั่วไปแล้วจะวัดการกระจายตัวหรือ "สเปรด" ในข้อมูลระบุได้อย่างไร มีวิธีมาตรฐานในการทำสิ่งนี้ในชุมชนการวิเคราะห์ข้อความหรือไม่?

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.