คำถามติดแท็ก similarities

การวัดความใกล้ชิดระหว่างการแจกแจงคลัสเตอร์ชุดข้อมูลหรือวัตถุอื่น ๆ

6
เปอร์เซ็นต์ของส่วนที่ทับซ้อนกันของการแจกแจงปกติสองค่า
ฉันสงสัยว่าได้รับการแจกแจงปกติสองค่าด้วยและσ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 ฉันจะคำนวณเปอร์เซ็นต์ของพื้นที่ที่ทับซ้อนกันของการแจกแจงสองแบบได้อย่างไร ฉันคิดว่าปัญหานี้มีชื่อเฉพาะคุณทราบชื่อเฉพาะที่อธิบายถึงปัญหานี้หรือไม่? คุณทราบหรือไม่ว่ามีการใช้งานสิ่งนี้ (เช่นรหัส Java)?

2
การจัดกลุ่มตามลำดับชั้นด้วยข้อมูลชนิดผสม - มีระยะทาง / ความคล้ายคลึงกันในการใช้งานอย่างไร
ในชุดข้อมูลของฉันเรามีทั้งตัวแปรต่อเนื่องและไม่ต่อเนื่องตามธรรมชาติ ฉันต้องการทราบว่าเราสามารถทำการจัดกลุ่มแบบลำดับชั้นโดยใช้ตัวแปรทั้งสองประเภทได้หรือไม่ และถ้าใช่มีการวัดระยะทางที่เหมาะสม?

1
การเปรียบเทียบการจัดกลุ่มลำดับชั้นแบบย่อที่ได้จากระยะทางและวิธีการต่าง ๆ
[ชื่อเริ่มต้น "การวัดความคล้ายคลึงกันสำหรับต้นไม้การจัดกลุ่มแบบลำดับชั้น" ถูกเปลี่ยนในภายหลังโดย @ttnphns เพื่อให้สะท้อนหัวข้อได้ดียิ่งขึ้น] ฉันกำลังทำการวิเคราะห์คลัสเตอร์แบบลำดับชั้นจำนวนหนึ่งเกี่ยวกับ dataframe ของบันทึกผู้ป่วย (เช่นคล้ายกับhttp://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) ฉันกำลังทดลองกับการวัดระยะทางที่แตกต่างกันน้ำหนักของพารามิเตอร์ที่แตกต่างกันและวิธีการลำดับชั้นที่แตกต่างกันเพื่อทำความเข้าใจผลกระทบที่มีต่อกลุ่ม / โครงสร้าง / มุมมองสุดท้ายของต้นไม้ (dendrogram) คำถามของฉันไม่ว่าจะมีการคำนวณมาตรฐาน / การวัดเพื่อคำนวณความแตกต่างระหว่างต้นไม้แบบลำดับชั้นที่แตกต่างกันและวิธีการใช้สิ่งนี้ใน R (เช่นเพื่อหาจำนวนที่ต้นไม้บางต้นเกือบเหมือนกันและแตกต่างกันอย่างมาก)

1
การแปลงเมทริกซ์ความคล้ายคลึงกันเป็นเมทริกซ์ระยะทาง (ยูคลิด)
ในอัลกอริธึม Random Forest, Breiman (ผู้เขียน) สร้างเมทริกซ์ความเหมือนกันดังนี้ ส่งตัวอย่างการเรียนรู้ทั้งหมดลงต้นไม้ในป่า ถ้าสองตัวอย่างลงดินในองค์ประกอบที่สอดคล้องกันของการเพิ่มขึ้นของใบไม้เดียวกันในเมทริกซ์ความเหมือนกันทีละ 1 ทำให้เมทริกซ์เป็นปกติด้วยจำนวนต้นไม้ เขาพูดว่า: ความผิดปกติระหว่างเคส n และ k ก่อให้เกิดเมทริกซ์ {prox (n, k)} จากคำจำกัดความมันง่ายที่จะแสดงว่าเมทริกซ์นี้เป็นสมมาตรบวกแน่นอนและล้อมรอบด้วย 1 โดยมีองค์ประกอบเส้นทแยงมุมเท่ากับ 1 มันตามมาว่าค่า 1-prox (n, k) เป็นระยะกำลังสองในยูคลิด พื้นที่ของมิติไม่เกินจำนวนกรณี แหล่ง ในการดำเนินการของเขาเขาใช้sqrt (1-prox)โดยที่proxเป็นเมทริกซ์ความคล้ายคลึงกันเพื่อแปลงเป็นเมทริกซ์ระยะทาง ฉันเดาว่ามันมีบางอย่างเกี่ยวกับ "ระยะทางตอร์เรสในอวกาศยูคลิด" - ยกมาจากข้างบน ใครบางคนสามารถส่องแสงเล็ก ๆ น้อย ๆ ว่าทำไมมันตามมาว่า 1-prox เป็นระยะทางกำลังสองในอวกาศยูคลิดและทำไมเขาใช้รากกำลังสองเพื่อรับเมทริกซ์ระยะทาง

2
ค่าสัมประสิทธิ์ความคล้ายคลึงกันสำหรับข้อมูลไบนารี: ทำไมต้องเลือก Jaccard เหนือ Russell และ Rao
จากสารานุกรมวิทยาศาสตร์สถิติฉันเข้าใจว่าได้รับ dichotomous (binary: 1 = ปัจจุบัน; 0 = ขาด) แอตทริบิวต์ (ตัวแปร) เราสามารถสร้างตารางฉุกเฉินสำหรับวัตถุสองชนิดที่ฉันและjของตัวอย่าง:พีพีp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables …

5
มีฟังก์ชั่น R ที่จะคำนวณเมทริกซ์ที่ไม่เหมือนกันของโคไซน์หรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันต้องการสร้างแผนที่ความร้อนที่มีการจัดกลุ่มแถวตามระยะทางโคไซน์ ฉันใช้ R และheatmap.2()ทำรูป ฉันเห็นได้ว่ามีdistพารามิเตอร์อยู่heatmap.2แต่ฉันไม่สามารถหาฟังก์ชั่นเพื่อสร้างเมทริกซ์ที่แตกต่างกันได้ distฟังก์ชั่นบิวอินไม่รองรับระยะทางโคไซน์ฉันยังพบแพ็คเกจที่เรียกว่าarulesพร้อมdissimilarity()ฟังก์ชัน แต่ใช้งานได้กับข้อมูลไบนารีเท่านั้น

5
มาตรการความคล้ายคลึงกันระหว่างเส้นโค้ง?
ฉันต้องการคำนวณการวัดความคล้ายคลึงกันระหว่างชุดคะแนนที่สั่งสองชุด --- ชุดที่อยู่ภายใต้ผู้ใช้เปรียบเทียบกับชุดที่อยู่ภายใต้ครู : ประเด็นคือเส้นโค้งในพื้นที่ 3 มิติ แต่ฉันคิดว่าปัญหาจะง่ายขึ้นถ้าฉันพล็อตมันเป็น 2 มิติเหมือนในภาพ หากคะแนนทับซ้อนกันความคล้ายคลึงควรเป็น 100%

3
คะแนนระยะทางแบบยุคลิดและความคล้ายคลึงกัน
ฉันแค่ทำงานกับหนังสือ Collective Intelligence (โดย Toby Segaran) และเจอคะแนนระยะทางแบบยุคลิด ในหนังสือเล่มนี้แสดงให้เห็นว่าผู้เขียนวิธีการคำนวณความคล้ายคลึงกันระหว่างสองอาร์เรย์คำแนะนำ (เช่น )คะแนน ×คนภาพยนตร์ ↦)person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) เขาคำนวณระยะทางแบบยุคลิดสำหรับคนสองคนและp 2โดย d ( p 1 , p 2 ) = √พี1p1p_1พี2p2p_2d( หน้า1, p2) = ∑ฉัน∈ รายการ ( sพี1- sพี2)2-------------√d(p1,p2)=∑i ∈ item(sp1−sp2)2d(p_1, p_2) = \sqrt{\sum_{i~\in~\textrm{item}} (s_{p_1} - s_{p_2})^2} เรื่องนี้ทำให้ฉันรู้สึกอย่างสมบูรณ์ สิ่งที่ฉันไม่เข้าใจจริงๆคือเหตุผลที่เขาคำนวณตอนท้ายต่อไปนี้เพื่อให้ได้ "ความคล้ายคลึงกันตามระยะทาง": 11 + d( …

4
วัตถุประสงค์ของการฟื้นฟูแถวคืออะไร
ฉันเข้าใจเหตุผลที่อยู่เบื้องหลังการทำให้คอลัมน์เป็นมาตรฐานเนื่องจากทำให้คุณสมบัตินั้นมีน้ำหนักเท่ากันแม้ว่าจะไม่ได้วัดในระดับเดียวกัน - อย่างไรก็ตามบ่อยครั้งในวรรณกรรมเพื่อนบ้านที่ใกล้ที่สุดทั้งคอลัมน์และแถวจะถูกทำให้เป็นมาตรฐาน การนอร์มัลไลซ์แถวสำหรับ / ทำไมทำให้แถวเป็นมาตรฐาน โดยเฉพาะผลลัพธ์ของการปรับสภาพแถวมีผลต่อความเหมือน / ระยะห่างระหว่างเวกเตอร์แถวอย่างไร

3
การหาปริมาณความคล้ายคลึงกันระหว่างชุดข้อมูลสองชุด
สรุป : การพยายามค้นหาวิธีที่ดีที่สุดสรุปความคล้ายคลึงกันระหว่างชุดข้อมูลสองชุดโดยใช้ค่าเดียว รายละเอียด : คำถามของฉันอธิบายได้ดีที่สุดด้วยแผนภาพ กราฟด้านล่างแสดงสองชุดข้อมูลที่แตกต่างกันแต่ละคนมีค่าที่มีป้ายกำกับและnf nrจุดตามแกน x เป็นตัวแทนของการวัดและค่าบนแกน y เป็นค่าที่วัดได้ สำหรับกราฟแต่ละอันฉันต้องการตัวเลขเดียวเพื่อสรุปความคล้ายคลึงกันnfและnrค่าของแต่ละจุดการวัด ในตัวอย่างนี้เห็นได้อย่างชัดเจนว่าผลลัพธ์ในกราฟแรกนั้นน้อยกว่าผลลัพธ์ในกราฟที่สอง แต่ฉันมีข้อมูลอื่นมากมายที่ความแตกต่างนั้นชัดเจนน้อยกว่าดังนั้นการจัดอันดับปริมาณนี้จะเป็นประโยชน์ ฉันคิดว่าอาจมีเทคนิคมาตรฐานที่ใช้โดยทั่วไป การค้นหาความคล้ายคลึงกันทางสถิติให้ผลลัพธ์ที่แตกต่างกันมากมาย แต่ฉันไม่แน่ใจว่าสิ่งที่ดีที่สุดที่จะเลือกหรือถ้าสิ่งที่ฉันพร้อมนำไปใช้กับปัญหาของฉัน ดังนั้นฉันคิดว่าคำถามนี้อาจคุ้มค่าที่จะถามที่นี่ในกรณีที่มีคำตอบง่ายๆ

1
ฟังก์ชั่นระยะทางที่ดีที่สุดสำหรับบุคคลคืออะไรเมื่อมีการระบุคุณสมบัติ?
ฉันไม่ทราบว่าฟังก์ชั่นระยะทางระหว่างบุคคลที่จะใช้ในกรณีที่มีคุณสมบัติระบุ (unordered เด็ดขาด) ฉันกำลังอ่านหนังสือเรียนและพวกเขาแนะนำฟังก์ชั่นการจับคู่อย่างง่ายแต่หนังสือบางเล่มแนะนำว่าฉันควรเปลี่ยนชื่อเป็นแอตทริบิวต์ไบนารีและใช้ค่าสัมประสิทธิ์Jaccard อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าค่าของแอตทริบิวต์ที่ระบุไม่ใช่ 2 เกิดอะไรขึ้นถ้ามีค่าสามหรือสี่ค่าในแอตทริบิวต์นั้น ฉันควรใช้ฟังก์ชันระยะทางใดสำหรับคุณลักษณะที่ระบุ

2
ทฤษฎีบทของ Mercer ทำงานในสิ่งที่ตรงกันข้ามหรือไม่?
เพื่อนร่วมงานที่มีฟังก์ชั่นและสำหรับวัตถุประสงค์ของเรามันเป็นกล่องดำ ฟังก์ชั่นวัดความคล้ายคลึงของสองวัตถุs ( , B )ssss ( a , b )s(a,b)s(a,b) เรารู้แน่ว่ามีคุณสมบัติเหล่านี้:sss คะแนนความคล้ายคลึงกันคือตัวเลขจริงระหว่าง 0 ถึง 1 รวม เฉพาะวัตถุที่เหมือนตัวเองเท่านั้นที่มีคะแนน 1 ดังนั้นหมายถึงและในทางกลับกันa = bs ( a , b ) = 1s(a,b)=1s(a,b)=1a = ba=ba=b เราจะรับประกันว่า(ขก)s ( a , b ) = s ( b , a )s(a,b)=s(b,a)s(a,b) = s(b,a) ตอนนี้เขาต้องการทำงานกับอัลกอริธึมที่ต้องการระยะทางเป็นอินพุทและขึ้นอยู่กับอินพุตที่ตอบสนองความจริงของระยะทาง ความคิดของฉันคือเราสามารถรักษาคะแนนความคล้ายคลึงกันราวกับว่าพวกเขาเป็นผลมาจากเคอร์เนล RBF ที่มีระยะทาง …

2
เทคนิคการเรียนรู้ของเครื่องสำหรับการเรียนรู้รูปแบบสตริง
ฉันมีรายการคำที่เป็นของหมวดหมู่ที่กำหนดเองที่แตกต่างกัน แต่ละหมวดหมู่มีรูปแบบของตัวเอง (ตัวอย่างเช่นหมวดหนึ่งมีความยาวคงที่พร้อมด้วยอักขระพิเศษอีกประเภทหนึ่งมีตัวอักษรอยู่ซึ่งเกิดขึ้นเฉพาะในหมวดหมู่ "คำ", ... ) ตัวอย่างเช่น: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... ฉันกำลังค้นหาเทคนิคการเรียนรู้ของเครื่องเพื่อเรียนรู้รูปแบบเหล่านี้ด้วยตนเองตามข้อมูลการฝึกอบรม ฉันได้พยายามกำหนดตัวแปรตัวทำนายบางตัว (เช่นความยาวจำนวนตัวอักษรพิเศษ ... ) ด้วยตัวเองแล้วใช้โครงข่ายประสาทเทียมเพื่อเรียนรู้และทำนายหมวดหมู่ แต่นั่นไม่ใช่สิ่งที่ฉันต้องการ ฉันต้องการเทคนิคเพื่อเรียนรู้รูปแบบสำหรับแต่ละหมวดหมู่ด้วยตัวเอง - แม้กระทั่งเรียนรู้รูปแบบที่ฉันไม่เคยคิด ดังนั้นฉันจึงให้ข้อมูลการเรียนรู้อัลกอริทึม (ประกอบด้วยตัวอย่างหมวดคำ) และต้องการให้เรียนรู้รูปแบบสำหรับแต่ละหมวดหมู่เพื่อทำนายหมวดหมู่ในภายหลังจากคำที่คล้ายกันหรือเท่ากัน มีวิธีการที่ทันสมัยในการทำมันได้หรือไม่ ขอบคุณสำหรับความช่วยเหลือของคุณ

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
วิธีการค้นหาความคล้ายคลึงกันระหว่างอนุกรมเวลา?
ในตัวอย่างต่อไปนี้ผมมีกรอบข้อมูลซึ่งประกอบด้วยอนุกรมเวลาของการวัดอุณหภูมิของน้ำบันทึกที่ 5 ระดับความลึกในมหาสมุทรที่แต่ละค่าในTempสอดคล้องกับวันที่และความลึกในDateTimeDepth set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") DatT <- data.frame(Temp) ## bind together FinalDat <- cbind(DatT, Date = rep(Time,5)) FinalDat <- cbind(FinalDat, AirT = rep(AirT, 5), Depth = rep(Depth, each …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.