คำถามติดแท็ก matlab

ภาษาโปรแกรม / สภาพแวดล้อม ใช้แท็กนี้สำหรับคำถามในหัวข้อใด ๆ ที่ (a) เกี่ยวข้องกับ MATLAB ไม่ว่าจะเป็นส่วนที่สำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่เพียงเกี่ยวกับวิธีการใช้ MATLAB

4
กระบวนการแบบเกาส์: วิธีใช้ GPML สำหรับเอาท์พุทหลายมิติ
มีวิธีดำเนินการ Gaussian Process Regression ในเอาต์พุตหลายมิติ (อาจสัมพันธ์กัน) โดยใช้GPMLหรือไม่ ในสคริปต์ตัวอย่าง ฉันสามารถค้นหาตัวอย่าง 1D เท่านั้น คำถามที่คล้ายกันใน CV ที่โหม่งกรณีของการป้อนข้อมูลหลายมิติ ฉันอ่านหนังสือเพื่อดูว่าฉันสามารถหาอะไรได้บ้าง ในบทที่ 9ของหนังสือเล่มนี้ (มาตรา 9.1) พวกเขาได้กล่าวถึงกรณีของการส่งออกหลายรายการ พวกเขาได้กล่าวถึงสองสามวิธีในการจัดการกับสิ่งนี้การใช้เสียงที่มีความสัมพันธ์และทูโกคุริง (มีความสัมพันธ์กันมาก่อน) ฉันยังไม่รู้วิธีการรวมแนวคิดเหล่านี้เข้ากับกรอบงาน GPML นอกจากนี้ยังมีไลบรารี / กรอบ GP อื่น ๆ ที่รองรับเอาต์พุตหลายมิติหรือไม่

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
กำหนดการกระจายความน่าจะเป็นโดยอัตโนมัติเมื่อได้รับชุดข้อมูล
รับชุดข้อมูล: x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) .. ฉันต้องการตรวจสอบการแจกแจงความน่าจะเป็นที่เหมาะสมที่สุด (แกมม่า, เบตา, ปกติ, เลขชี้กำลัง, ปัวซอง, ไค - สแควร์, ฯลฯ ) ด้วยการประมาณค่าพารามิเตอร์ ฉันได้รับทราบถึงคำถามในลิงก์ต่อไปนี้ซึ่งมีวิธีแก้ไขปัญหาโดยใช้ R: /programming/2661402/given-a-set-of-random-numbers-drawn-from-a- Continuous-univariate-distribution-f ทางออกที่ดีที่สุดที่เสนอคือ: > library(MASS) > fitdistr(x, 't')$loglik #$ > fitdistr(x, 'normal')$loglik #$ > fitdistr(x, 'logistic')$loglik #$ > fitdistr(x, 'weibull')$loglik #$ > fitdistr(x, 'gamma')$loglik #$ > fitdistr(x, 'lognormal')$loglik #$ > fitdistr(x, …

1
วิธีสร้างเส้นโค้ง Precision-Recall เมื่อฉันมีเพียงค่าเดียวสำหรับ PR?
ฉันมีการกำหนด data mining ที่ฉันทำระบบดึงภาพตามเนื้อหา ฉันมี 20 ภาพจาก 5 สัตว์ ดังนั้นทั้งหมด 100 ภาพ ระบบของฉันคืนค่า 10 ภาพที่เกี่ยวข้องมากที่สุดไปยังภาพอินพุต ตอนนี้ฉันต้องประเมินประสิทธิภาพของระบบของฉันด้วยเส้นโค้ง Precision-Recall อย่างไรก็ตามฉันไม่เข้าใจแนวคิดของเส้นโค้ง Precision-Recall สมมติว่าระบบของฉันส่งคืนรูปภาพ 10 ภาพสำหรับภาพลิงกอริลลา แต่มี 4 ภาพเท่านั้นเป็นภาพลิงกอริลลา อีก 6 รูปที่ส่งคืนเป็นสัตว์อื่น ' ดังนั้น, ความแม่นยำคือ4/10 = 0.4(กลับมาที่เกี่ยวข้อง) / (คืนทั้งหมด) การเรียกคืนคือ4/20 = 0.2(คืนที่เกี่ยวข้อง) / (ที่เกี่ยวข้องทั้งหมด) ดังนั้นฉันจึงมีเพียงจุด<0.2,0.4>ไม่ใช่เส้นโค้ง ฉันจะมีเส้นโค้งอย่างไร (เช่นชุดของคะแนน) ฉันควรเปลี่ยนจำนวนภาพที่ส่งคืน (กรณีนี้กำหนดไว้ที่ 10 ในกรณีของฉัน) หรือไม่

2
จะทำการตรวจสอบความถูกต้องข้ามสำหรับ PCA เพื่อกำหนดจำนวนขององค์ประกอบหลักได้อย่างไร
ฉันกำลังพยายามเขียนฟังก์ชั่นของตัวเองสำหรับการวิเคราะห์องค์ประกอบหลัก PCA (แน่นอนมีหลายอย่างที่เขียนไปแล้ว แต่ฉันแค่สนใจที่จะใช้สิ่งต่าง ๆ ด้วยตัวเอง) ปัญหาหลักที่ฉันพบคือขั้นตอนการตรวจสอบข้ามและการคำนวณผลรวมของสี่เหลี่ยมที่คาดการณ์ไว้ (PRESS) มันไม่สำคัญว่าฉันจะใช้การตรวจสอบข้ามซึ่งเป็นคำถามส่วนใหญ่เกี่ยวกับทฤษฎีที่อยู่เบื้องหลัง แต่พิจารณาการตรวจสอบความถูกต้องแบบข้ามครั้งเดียว (LOOCV) จากทฤษฎีฉันพบว่าในการดำเนินการ LOOCV คุณต้อง: ลบวัตถุ ขนาดที่เหลือ ดำเนินการ PCA ด้วยองค์ประกอบจำนวนหนึ่ง ปรับขนาดวัตถุที่ถูกลบตามพารามิเตอร์ที่ได้รับใน (2) ทำนายวัตถุตามโมเดล PCA คำนวณ PRESS สำหรับวัตถุนี้ ปฏิบัติขั้นตอนวิธีเดียวกันกับวัตถุอื่นอีกครั้ง สรุปค่า PRESS ทั้งหมด กำไร เนื่องจากฉันใหม่มากในฟิลด์เพื่อให้แน่ใจว่าฉันถูกต้องฉันเปรียบเทียบผลลัพธ์กับผลลัพธ์จากซอฟต์แวร์บางตัวที่ฉันมี (เพื่อเขียนโค้ดบางตัวฉันทำตามคำแนะนำในซอฟต์แวร์) ฉันได้ผลลัพธ์เดียวกันทั้งหมดโดยคำนวณผลรวมที่เหลือของกำลังสองและแต่การคำนวณ PRESS เป็นปัญหาR2R2R^2 คุณช่วยบอกฉันหน่อยได้ไหมว่าสิ่งที่ฉันใช้ในขั้นตอนการตรวจสอบข้ามถูกต้องหรือไม่: case 'loocv' % # n - number of objects % # p - …

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

5
ภาษาการเขียนโปรแกรมใดที่คุณแนะนำให้สร้างต้นแบบปัญหาการเรียนรู้ของเครื่อง?
กำลังทำงานใน Octave แต่เนื่องจากความคืบหน้าของเอกสารไม่ดีช้ามาก ภาษาใดที่ง่ายต่อการเรียนรู้และใช้งานและมีเอกสารที่ดีในการแก้ปัญหาการเรียนรู้ของเครื่อง? ฉันกำลังมองหาต้นแบบบนชุดข้อมูลขนาดเล็ก (ตัวอย่างหลายพันตัวอย่าง) ดังนั้นความเร็วจึงไม่สำคัญ แก้ไข: ฉันกำลังพัฒนาเครื่องมือแนะนำ ดังนั้นฉันสนใจที่จะใช้ Regularized Linear Regression, Neural Nets, SVN หรือ Collaborative Filtering

2
ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรที่กำหนด (ที่ไม่เป็นคู่) และเป็นตัวเลข (ช่วงเวลา) หรือตัวแปรลำดับ
ฉันได้อ่านทุกหน้าในเว็บไซต์นี้แล้วพยายามหาคำตอบสำหรับปัญหาของฉันแล้ว แต่ดูเหมือนว่าไม่มีใครที่เหมาะสมกับฉัน ... ก่อนอื่นฉันจะอธิบายให้คุณทราบถึงข้อมูลที่ฉันใช้กับ ... สมมติว่าฉันมีเวกเตอร์อาร์เรย์ที่มีชื่อเมืองหลายแห่งหนึ่งแห่งสำหรับผู้ใช้ 300 คน ฉันยังมีเวกเตอร์อาร์เรย์อีกชุดหนึ่งที่มีคะแนนตอบสนองต่อการสำรวจของผู้ใช้แต่ละคนหรือค่าต่อเนื่องสำหรับผู้ใช้แต่ละคน ฉันต้องการที่จะทราบว่ามีค่าสัมประสิทธิ์สหสัมพันธ์ที่คำนวณความสัมพันธ์ระหว่างตัวแปรทั้งสองนี้ดังนั้นระหว่างตัวแปรที่ระบุและตัวแปรที่เป็นตัวเลข / ต่อเนื่องหรือลำดับ ฉันค้นหาบนอินเทอร์เน็ตและในบางหน้าพวกเขาแนะนำให้ใช้ค่าสัมประสิทธิ์ฉุกเฉินหรือ Cramer's V หรือ Lambda สัมประสิทธิ์หรือ Eta สำหรับแต่ละวัดนี้เพียงแค่บอกว่าพวกเขาสามารถนำไปใช้กับข้อมูลดังกล่าวซึ่งเรามีตัวแปรที่ระบุและช่วงเวลาหรือตัวแปรที่เป็นตัวเลข สิ่งคือการค้นหาและการค้นหาพยายามที่จะทำความเข้าใจกับทุกคนบางครั้งมีการเขียนหรือดูตัวอย่างที่พวกเขามีเหตุผลที่จะใช้พวกเขาหากคุณมีตัวแปรที่ระบุไว้แยกออกเป็นสองส่วนยกเว้น Cramer's V เวลาอื่นไม่ได้เขียนข้อกำหนดใด ๆ ประเภทของข้อมูล มีอีกหลายหน้าที่บอกว่าถูกต้องที่จะใช้การถดถอยแทนนั่นคือถูกต้อง แต่ฉันแค่อยากจะรู้ว่ามีสัมประสิทธิ์เช่น pearson / spearman สำหรับข้อมูลประเภทนี้หรือไม่ ฉันยังคิดว่ามันไม่ถูกต้องที่จะใช้ Spearman Correlation coeff เนื่องจากเมืองต่างๆไม่สามารถจัดเรียงได้ ฉันได้สร้างฟังก์ชันของ Cramer'sV และ Eta ด้วยตัวเอง (ฉันทำงานกับ Matlab) แต่สำหรับ Eta พวกเขาไม่ได้พูดถึง p-value ใด ๆ …

3
จะวิเคราะห์ปัจจัยอย่างไรเมื่อเมทริกซ์ความแปรปรวนร่วมไม่แน่นอนแน่นอน
ฉันมีชุดข้อมูลที่ประกอบด้วยการสังเกต 717 ครั้ง (แถว) ซึ่งอธิบายด้วย 33 ตัวแปร (คอลัมน์) ข้อมูลได้มาตรฐานโดย z- คะแนนตัวแปรทั้งหมด ไม่มีตัวแปรสองตัวที่ขึ้นต่อกันแบบเชิงเส้น ( ) ฉันได้ลบตัวแปรทั้งหมดที่มีความแปรปรวนต่ำมาก (น้อยกว่า0.1 ) รูปด้านล่างแสดงเมทริกซ์สหสัมพันธ์ที่สอดคล้องกัน (เป็นค่าสัมบูรณ์)r=1r=1r=10.10.10.1 เมื่อฉันพยายามเรียกใช้การวิเคราะห์ปัจจัยที่ใช้factoranใน Matlab ดังนี้ [Loadings1,specVar1,T,stats] = factoran(Z2,1); ฉันได้รับข้อผิดพลาดต่อไปนี้: The data X must have a covariance matrix that is positive definite. คุณช่วยบอกฉันทีว่าปัญหาอยู่ที่ไหน มันเป็นเพราะการพึ่งพาซึ่งกันและกันต่ำในหมู่ตัวแปรที่ใช้? นอกจากนี้ฉันจะทำอะไรได้บ้าง เมทริกซ์ความสัมพันธ์ของฉัน:

3
ช่วงความเชื่อมั่นสำหรับความถูกต้องของการจำแนกประเภทที่ผ่านการตรวจสอบความถูกต้อง
ฉันกำลังทำงานกับปัญหาการจัดหมวดหมู่ที่คำนวณความคล้ายคลึงกันระหว่างภาพเอ็กซเรย์อินพุตสองภาพ หากภาพเป็นของคนคนเดียวกัน (ป้ายกำกับของ 'ขวา') ระบบจะคำนวณตัวชี้วัดที่สูงกว่า ภาพอินพุตของคนสองคนที่แตกต่างกัน (ป้ายกำกับของ 'ผิด') จะส่งผลให้เมตริกต่ำลง ฉันใช้การตรวจสอบความถูกต้องข้าม 10 ชั้นแบบแบ่งชั้นเพื่อคำนวณความน่าจะเป็นการแยกประเภท ขนาดตัวอย่างปัจจุบันของฉันอยู่ที่ประมาณ 40 แมตช์ที่ถูกต้องและ 80 แมตช์ที่ไม่ถูกต้องที่แต่ละดาต้าพอยน์เป็นเมตริกที่คำนวณได้ ฉันได้รับความน่าจะเป็นการแยกประเภทที่ 0.00 แต่ฉันต้องการการวิเคราะห์ช่วงความเชื่อมั่น / ข้อผิดพลาดบางอย่างเกี่ยวกับเรื่องนี้ ฉันมองหาการใช้ช่วงความมั่นใจในสัดส่วนทวินาม (ซึ่งฉันจะใช้ผลลัพธ์ของการตรวจสอบข้ามว่าเป็นการติดฉลากที่ถูกต้องหรือการติดฉลากที่ไม่ถูกต้องสำหรับจำนวนความสำเร็จของฉัน) อย่างไรก็ตามหนึ่งในสมมติฐานที่อยู่เบื้องหลังการวิเคราะห์ทวินามคือความน่าจะเป็นที่เหมือนกันของความสำเร็จสำหรับการทดลองแต่ละครั้งและฉันไม่แน่ใจว่าวิธีการจำแนกประเภทของ 'ถูกต้อง' หรือ 'ผิด' ในการตรวจสอบไขว้นั้น ความน่าจะเป็นเหมือนกันของความสำเร็จ การวิเคราะห์อื่น ๆ ที่ฉันคิดได้คือทำซ้ำการตรวจสอบความถูกต้องข้าม X ครั้งและคำนวณค่าเฉลี่ย / ส่วนเบี่ยงเบนมาตรฐานของข้อผิดพลาดการจัดหมวดหมู่ แต่ฉันไม่แน่ใจว่าสิ่งนี้เหมาะสมหรือไม่เพราะฉันจะนำข้อมูลจาก ขนาดตัวอย่างค่อนข้างเล็กหลายครั้ง ความคิดใด ๆ ฉันใช้ MATLAB สำหรับการวิเคราะห์ทั้งหมดของฉันและฉันมีกล่องเครื่องมือสถิติ จะขอบคุณความช่วยเหลือใด ๆ และทั้งหมด!

8
การแสดงข้อมูลมิติสูง
ฉันมีตัวอย่างของสองคลาสซึ่งเป็นเวกเตอร์ในพื้นที่มิติสูงและฉันต้องการพล็อตพวกมันใน 2D หรือ 3D ฉันรู้เกี่ยวกับเทคนิคการลดขนาด แต่ฉันต้องการเครื่องมือที่ง่ายและใช้งานง่าย (ใน matlab, python หรือ. exe ที่สร้างไว้ล่วงหน้า) นอกจากนี้ฉันสงสัยว่าการเป็นตัวแทนใน 2D จะเป็น "ความหมาย" หรือไม่? (ตัวอย่างเช่นวิธีที่สองคลาสตัดกันหรือสามารถแยกได้)

4
ฉันจะดึงค่าแบบสุ่มจากการประมาณความหนาแน่นของเคอร์เนลได้อย่างไร
ฉันมีข้อสังเกตบางอย่างและฉันต้องการจำลองการสุ่มตัวอย่างตามข้อสังเกตเหล่านี้ ที่นี่ฉันพิจารณารูปแบบที่ไม่ใช่พารามิเตอร์โดยเฉพาะฉันใช้เคอร์เนลที่ราบเรียบเพื่อประเมิน CDF จากการสังเกตที่ จำกัด จากนั้นฉันวาดค่าที่สุ่มจาก CDF ที่ได้รับต่อไปนี้เป็นรหัสของฉัน (ความคิดคือการสุ่มสะสม ความน่าจะเป็นโดยใช้การแจกแจงแบบสม่ำเสมอและหาค่าผกผันของ CDF เทียบกับค่าความน่าจะเป็น) x = [randn(100, 1); rand(100, 1)+4; rand(100, 1)+8]; [f, xi] = ksdensity(x, 'Function', 'cdf', 'NUmPoints', 300); cdf = [xi', f']; nbsamp = 100; rndval = zeros(nbsamp, 1); for i = 1:nbsamp p = rand; [~, idx] = sort(abs(cdf(:, …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
การเลือกคุณสมบัติโดยใช้ข้อมูลร่วมกันใน Matlab
ฉันกำลังพยายามใช้ความคิดของข้อมูลร่วมกันกับการเลือกคุณสมบัติตามที่อธิบายไว้ในบันทึกการบรรยายเหล่านี้ (หน้า 5) แพลตฟอร์มของฉันคือ Matlab ปัญหาหนึ่งที่ฉันพบเมื่อคำนวณข้อมูลร่วมกันจากข้อมูลเชิงประจักษ์ก็คือจำนวนนั้นจะเอนเอียงเสมอไป ฉันพบไฟล์ประมาณ 3 ~ 4 ไฟล์เพื่อคำนวณ MI บน Matlab Central และพวกเขาทั้งหมดให้จำนวนมาก (เช่น> 0.4) เมื่อฉันป้อนในตัวแปรสุ่มแบบอิสระ ฉันไม่ใช่ผู้เชี่ยวชาญ แต่ปัญหาดูเหมือนว่าถ้าคุณใช้ความหนาแน่นแบบร่วมและส่วนเพิ่มในการคำนวณ MI ระบบจะนำความลำเอียงมาใช้เนื่องจาก MI มีความหมายในเชิงบวก ใครบ้างมีคำแนะนำการปฏิบัติเกี่ยวกับวิธีการประเมินข้อมูลร่วมกันอย่างถูกต้อง? คำถามที่เกี่ยวข้องคือในทางปฏิบัติผู้คนใช้ MI เพื่อเลือกคุณสมบัติอย่างไร ฉันไม่เห็นชัดเจนว่าจะเกิดขึ้นกับค่าเกณฑ์ได้อย่างไรเนื่องจาก MI อยู่ในทฤษฎีที่ไม่มีขอบเขต หรือผู้คนเพียงแค่จัดอันดับคุณสมบัติของ MI และใช้คุณสมบัติ k อันดับต้น ๆ

2
จะเปรียบเทียบเมทริกซ์สหสัมพันธ์สองตัวหรือมากกว่าได้อย่างไร
ฉันมีเมทริกซ์สหสัมพันธ์คำนวณกับชุด(m \ times n)ข้อมูล (สังเกต) โดยใช้ฟังก์ชั่นของPPP( n × n )(n×n)(n \times n)PPP( m × n )(ม.×n)(m \times n)corrcoef ฉันจะเปรียบเทียบและวิเคราะห์เมทริกซ์ความสัมพันธ์Pเหล่านี้PPPด้วยความเคารพซึ่งกันและกันได้อย่างไร การทดสอบวิธีการและ / หรือจุดตรวจคืออะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.