คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

4
คุณทดสอบการใช้งาน k-mean ได้อย่างไร?
คำเตือน: ฉันโพสต์คำถามนี้ใน Stackoverflow แต่ฉันคิดว่านี่อาจจะเหมาะกว่าสำหรับแพลตฟอร์มนี้ คุณทดสอบการใช้งาน k-mean ของคุณสำหรับชุดข้อมูลหลายมิติได้อย่างไร ฉันคิดว่าจะใช้งานการใช้งานที่มีอยู่แล้ว (เช่น Matlab) กับข้อมูลและเปรียบเทียบผลลัพธ์กับอัลกอริทึมของฉัน แต่สิ่งนี้จะต้องใช้อัลกอริธึมทั้งสองทำงานมากกว่ากันและการทำแผนที่ระหว่างผลลัพธ์ทั้งสองอาจไม่ใช่เค้ก คุณมีความคิดที่ดีกว่านี้ไหม?

2
การจัดกลุ่มข้อมูลที่เบ้มากนับจำนวน: คำแนะนำใด ๆ ที่จะดำเนินการ (แปลง ฯลฯ )
ปัญหาพื้นฐาน นี่คือปัญหาพื้นฐานของฉัน: ฉันกำลังพยายามจัดกลุ่มชุดข้อมูลที่มีตัวแปรที่เบ้อย่างมากพร้อมจำนวน ตัวแปรประกอบด้วยศูนย์จำนวนมากและดังนั้นจึงไม่ค่อยมีข้อมูลสำหรับขั้นตอนการจัดกลุ่มของฉัน - ซึ่งน่าจะเป็นอัลกอริทึม k-mean คุณพูดได้แค่แปลงตัวแปรโดยใช้สแควร์รูทบ็อกซ์คอกซ์หรือลอการิทึม แต่เนื่องจากตัวแปรของฉันขึ้นอยู่กับตัวแปรเด็ดขาดฉันกลัวว่าฉันอาจแนะนำอคติโดยจัดการกับตัวแปร (ขึ้นอยู่กับค่าหนึ่งของตัวแปรเด็ดขาด) ในขณะที่ปล่อยให้ผู้อื่น (ขึ้นอยู่กับค่าอื่น ๆ ของตัวแปรเด็ดขาด) ในแบบที่พวกเขาเป็น . ลองดูรายละเอียดเพิ่มเติม ชุดข้อมูล ชุดข้อมูลของฉันแสดงถึงการซื้อสินค้า รายการมีหมวดหมู่ต่างกันเช่นสี: น้ำเงินแดงและเขียว การซื้อจะถูกจัดกลุ่มเข้าด้วยกันเช่นจากลูกค้า ลูกค้าเหล่านี้แต่ละคนมีชุดข้อมูลหนึ่งแถวของฉันดังนั้นฉันจึงต้องรวมการซื้อกับลูกค้า วิธีที่ฉันทำคือการนับจำนวนการซื้อโดยที่รายการนั้นมีสีที่แน่นอน ดังนั้นแทนที่จะตัวแปรเดียวcolorผมจบลงด้วยสามตัวแปรcount_red, และcount_bluecount_green นี่คือตัวอย่างสำหรับภาพประกอบ: ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | …

1
วิธีการจัดกลุ่ม U-Matrix อัตโนมัติ?
หลังจากฝึกแผนที่การจัดระเบียบตนเองแล้วสามารถคำนวณU-Matrixได้ มีเครื่องมือบางอย่างที่จะมองเห็นมันด้วยตนเองและระบุกลุ่ม แต่ฉันสงสัยว่ามีอัลกอริทึมใด ๆ ที่จะทำกระบวนการนี้ด้วยวิธีอัตโนมัติ (เช่นไม่มีคนดูรูปเพื่อระบุกลุ่ม) มีวิธีการทำเช่นนี้? ฉันกำลังเขียนรหัสของฉันในอาร์ฉันไม่พบสิ่งใดบนอินเทอร์เน็ตดังนั้นอาจมีคนช่วยฉันที่นี่

3
ฉันสามารถใช้วิธีการทางสถิติเพื่อค้นหาชุดค่าผสมที่นิยมหรือร่วมกันของตัวแปรเด็ดขาดได้อย่างไร
ฉันกำลังศึกษาเรื่องการใช้ polydrug ฉันมีชุดข้อมูลของผู้ติดยา 400 คนซึ่งแต่ละคนระบุว่าพวกเขาเสพยา มีมากกว่า 10 ยาเสพติดและด้วยเหตุนี้จึงมีการรวมกันเป็นไปได้ที่มีขนาดใหญ่ ฉันคำนวณส่วนใหญ่ของยาเสพติดที่พวกเขาใช้เป็นตัวแปรไบนารี (เช่นเฮโรอีนคือ 1 หากผู้เสพติดเฮโรอีนเสพติด 0) ฉันต้องการค้นหาชุดยายอดนิยมหรือยาสามัญ 2 หรือ 3 ตัว มีวิธีการทางสถิติที่ฉันสามารถใช้ได้หรือไม่?

1
ทำความเข้าใจเกี่ยวกับการใช้ลอการิทึมในลอการิทึม TF-IDF
ฉันกำลังอ่าน: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าทำไมสูตรจึงสร้างในแบบที่มันเป็น ฉันเข้าใจอะไร: iDF ควรที่จะวัดระดับความบ่อยครั้งที่คำ S ปรากฏในเอกสารแต่ละฉบับลดลงตามมูลค่าเมื่อคำนั้นปรากฏบ่อยขึ้น จากมุมมองนั้น ฉันD F.( S) = # ของเอกสาร# ของเอกสารที่มี SผมDF(S)=# ของเอกสาร# ของเอกสารที่มี S iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} นอกจากนี้ความถี่เทอมสามารถอธิบายได้อย่างถูกต้องว่า t f( S, D ) = # ของเหตุการณ์ S ในเอกสาร D # จำนวนการเกิดขึ้นสูงสุดสำหรับสตริง Q ใด ๆ ในเอกสาร D …

3
วิธีการและตัวอย่างของการจัดกลุ่มกราฟใน“ R”
ฉันกำลังมองหาการจัดกลุ่ม / ผสานโหนดในกราฟโดยใช้การจัดกลุ่มกราฟใน 'r' นี่คือรูปแบบของเล่นที่น่าทึ่งของปัญหาของฉัน มี "กลุ่ม" สอง มี "สะพาน" เชื่อมต่อกับกลุ่ม นี่คือเครือข่ายผู้สมัคร: เมื่อฉันดูระยะการเชื่อมต่อ "hopcount" ถ้าคุณต้องการฉันจะได้เมทริกซ์ต่อไปนี้: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,2,2), c(2,1,1,1,1,1,1,1,2,2), c(1,1,1,2,2,2,1,1,1,1), c(1,1,2,3,3,2,2,1,1,1), c(1,1,2,3,3,2,2,1,1,1)) ความคิดที่นี่: โชคหรือเนื่องจากความเรียบง่ายของของเล่นเมทริกซ์มีแพทช์ที่เห็นได้ชัดนี่ไม่ใช่กรณีในเมทริกซ์ (ใหญ่มาก) ถ้าฉันสุ่มความสัมพันธ์ระหว่างจุดกับแถวมันจะไม่สะอาด ฉันอาจจะผิดหนึ่ง - ดังนั้นถ้าฉันพิมพ์ผิดแจ้งให้ฉันทราบ Hop-count ที่นี่คือจำนวน hops ที่สั้นที่สุดเพื่อเชื่อมต่อจุดบนแถว i กับจุดบนคอลัมน์ j การกระโดดด้วยตัวเองยังคงเป็นการกระโดดดังนั้นเส้นทแยงมุมจึงเป็นเส้นโค้งทั้งหมด ดังนั้นในเมทริกซ์นี้ระยะทางที่มากขึ้น (ฮ็อพ) มีจำนวนมาก ถ้าฉันต้องการเมทริกซ์ที่แสดง "การเชื่อมต่อ" แทนระยะทางฉันสามารถทำ dot-inverse …

1
ฉันจะตีความสถิติ GAP ได้อย่างไร
ฉันใช้สถิติ GAP เพื่อประเมิน k กลุ่มใน R อย่างไรก็ตามฉันไม่แน่ใจว่าฉันตีความได้ดีหรือไม่ จากพล็อตข้างต้นฉันคิดว่าฉันควรใช้ 3 กลุ่ม จากพล็อตที่สองฉันควรเลือก 6 กลุ่ม การตีความสถิติ GAP ถูกต้องหรือไม่ ฉันจะขอบคุณสำหรับคำอธิบายใด ๆ
10 clustering 

1
จำนวน ss ทั้งหมดและระหว่าง ss หมายถึงอะไรในการจัดกลุ่ม k-mean
ฉันยังใหม่กับการวิเคราะห์กลุ่ม ฉันใช้ R สำหรับการจัดกลุ่ม k หมายถึงและฉันสงสัยว่าสิ่งเหล่านั้นคืออะไร และอะไรจะดีกว่าถ้าอัตราส่วนของพวกมันเล็กกว่าหรือใหญ่กว่า?
10 clustering 

2
PyMC สำหรับการจัดกลุ่มแบบไม่ใช้พารามิเตอร์: กระบวนการ Dirichlet เพื่อประเมินพารามิเตอร์ของส่วนผสมแบบเกาส์ไม่สามารถทำคลัสเตอร์ได้
การตั้งค่าปัญหา หนึ่งในปัญหาของเล่นครั้งแรกที่ฉันต้องการใช้ PyMC กับการจัดกลุ่มแบบไม่ใช้พารามิเตอร์: ให้ข้อมูลบางส่วนสร้างแบบจำลองเป็นแบบเกาส์และเรียนรู้จำนวนของกลุ่มและค่าเฉลี่ยและความแปรปรวนร่วมของแต่ละกลุ่ม สิ่งที่ฉันรู้เกี่ยวกับวิธีนี้ส่วนใหญ่มาจากการบรรยายทางวิดีโอโดย Michael Jordan และ Yee Whye Teh ประมาณปี 2007 (ก่อนที่จะกลายเป็นความโกรธแค้น) และสองสามวันสุดท้ายของการอ่านบทเรียนของดร. Fonnesbeck และ E. Chen [fn1], [ Fn2] แต่ปัญหาคือการศึกษาที่ดีและมีการใช้งานที่น่าเชื่อถือ [fn3] ในปัญหาของเล่นนี้ฉันสร้างสิบดึงจากหนึ่งมิติเกาส์และสี่สิบวาดจาก . อย่างที่คุณเห็นด้านล่างฉันไม่ได้สลับการสุ่มเพื่อให้ง่ายต่อการบอกว่าตัวอย่างใดมาจากส่วนประกอบผสมN ( μ = 4 , σ = 2 )ยังไม่มีข้อความ( μ = 0 , σ= 1 )N(μ=0,σ=1)\mathcal{N}(\mu=0, \sigma=1)ยังไม่มีข้อความ( μ = 4 , σ= …

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

2
การค้นหาศูนย์วงกลมที่รู้จำนวนมากที่สุดซึ่งจะเพิ่มจำนวนคะแนนภายในระยะทางที่แน่นอน
ฉันมีชุดข้อมูล 2 มิติที่ฉันต้องการค้นหาศูนย์กลางของจำนวนศูนย์กลางของวงกลม ( ) ที่ระบุซึ่งจะเพิ่มจำนวนจุดทั้งหมดภายในระยะทางที่กำหนด ( )Rยังไม่มีข้อความNNRRR เช่นฉันมี 10,000 จุดข้อมูลและฉันต้องการที่จะหาศูนย์ของแวดวงที่จับเป็นจุดมากเท่าที่เป็นไปได้ภายในรัศมีของR5 ศูนย์และรัศมี 10 ได้รับล่วงหน้าไม่ได้มาจากข้อมูลN = 5 R = 10( Xผม, วายผม)(Xi,Yi)(X_i, Y_i)ยังไม่มีข้อความ= 5N=5N=5R = 10R=10R=10 การปรากฏตัวของจุดข้อมูลภายในวงกลมเป็นเลขฐานสอง / หรือข้อเสนอ ถ้าไม่มีความแตกต่างของมูลค่าของจุด 11 หน่วยกับ 100 หน่วยในขณะที่ทั้งสอง> 10 ในทำนองเดียวกันกับที่อยู่ในวงกลมไม่มีค่าพิเศษที่จะอยู่ใกล้กับใจกลางและใกล้กับขอบ . จุดข้อมูลอาจอยู่ในหนึ่งในแวดวงหรือออกR = 10R=10R=10 มีอัลกอริทึมที่ดีที่สามารถใช้แก้ปัญหานี้ได้หรือไม่? ดูเหมือนว่าสิ่งเหล่านี้เกี่ยวข้องกับเทคนิคการจัดกลุ่ม แต่แทนที่จะลดระยะทางเฉลี่ยให้น้อยที่สุดฟังก์ชัน "ระยะทาง" คือ 0 ถ้าจุดอยู่ภายในของจุดใด ๆและ 1 เป็นอย่างอื่นNRRRยังไม่มีข้อความNN ความชอบของฉันคือการหาวิธีที่จะทำสิ่งนี้ใน …
10 r  clustering  distance 

1
ความกว้างของเงาต่ำหมายความว่าข้อมูลมีโครงสร้างพื้นฐานน้อยหรือไม่
ฉันยังใหม่กับการวิเคราะห์ลำดับและฉันสงสัยว่าคุณจะตอบสนองอย่างไรถ้าความกว้างของเงาเฉลี่ย (ASW) จากการวิเคราะห์กลุ่มของเมทริกซ์ความแตกต่างของ Optimal Matching-based มีค่าต่ำ (ประมาณ 25) ดูเหมือนจะเหมาะสมหรือไม่ที่จะสรุปว่ามีโครงสร้างพื้นฐานเล็กน้อยที่จะอนุญาตให้มีการเรียงลำดับของคลัสเตอร์หรือไม่ คุณอาจเพิกเฉยต่อ ASW ต่ำตามการวัดคุณภาพคลัสเตอร์อื่น ๆ (ฉันได้วางไว้ด้านล่าง) หรือเป็นไปได้ว่าตัวเลือกที่ทำในระหว่างการวิเคราะห์ลำดับหรือการวิเคราะห์กลุ่มที่ตามมาอาจเป็นสาเหตุของตัวเลข ASW ที่ต่ำ ข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชม ขอบคุณ ในกรณีที่ต้องการบริบทเพิ่มเติม: ฉันกำลังตรวจสอบลำดับของชั่วโมงทำงานที่ไม่ตรงกัน 624 ลำดับ (กล่าวคือไม่ตรงกันระหว่างจำนวนชั่วโมงที่คนต้องการทำงานในหนึ่งสัปดาห์และจำนวนชั่วโมงที่พวกเขาทำงานจริง) ในคนอายุ 20 ปี ลำดับทั้งหมดที่ฉันกำลังตรวจสอบมีความยาว 10 วัตถุลำดับของฉันมีห้าสถานะ (M = ต้องการเวลามากขึ้น S = ต้องการชั่วโมงเดียวกัน, F = ต้องการชั่วโมงที่น้อยกว่า, O = กำลังแรงงานและ U = ผู้ว่างงาน ) ฉันไม่ได้ทำบัญชีอย่างเป็นระบบว่าผลลัพธ์ของ ASW …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
การประเมินกลุ่มของลูกโซ่มาร์คอฟอันดับหนึ่ง
ฉันจัดกลุ่มชุดข้อมูลของมาร์คอฟอันดับหนึ่งหลายพันกลุ่มเป็นกลุ่มประมาณ 10 กลุ่ม มีวิธีที่แนะนำบางอย่างที่ฉันสามารถประเมินกลุ่มเหล่านี้และค้นหารายการในกลุ่มที่ใช้ร่วมกันและสิ่งที่แตกต่างจากกลุ่มอื่น ๆ ? ดังนั้นฉันสามารถสร้างคำสั่งเช่น "กระบวนการในกลุ่ม A มักจะอยู่ในสถานะ Y เมื่อพวกเขาไปถึงที่นั่นซึ่งไม่เป็นความจริงสำหรับกระบวนการในกลุ่มอื่น ๆ " เมทริกซ์การเปลี่ยนแปลงของเชนมาร์คอฟนั้นใหญ่เกินกว่าที่จะ "มองและมอง" พวกมันค่อนข้างเบาบางหากสามารถช่วยได้ ความคิดของฉันคือการใช้เมทริกซ์การเปลี่ยนแปลงทั้งหมดในกลุ่มรวมพวกเขาและพล็อตมันเป็นความเข้มในภาพ (ในระดับจาก 0 ถึง 255) มีอะไรเป็น "มืออาชีพ" มากกว่านี้ที่ฉันควรลอง?

1
ในสหสัมพันธ์ cophenetic สำหรับการรวมกลุ่ม dendrogram
พิจารณาบริบทของการรวมกลุ่ม dendrogram ให้เราเรียกความแตกต่างเดิมระยะทางระหว่างบุคคล หลังจากสร้าง dendrogram เราจะกำหนดความแตกต่างของ copheneticระหว่างบุคคลสองคนเป็นระยะห่างระหว่างกลุ่มที่บุคคลเหล่านี้อยู่ บางคนคิดว่าความสัมพันธ์ระหว่างความแตกต่างดั้งเดิมและความแตกต่างของ cophenetic (เรียกว่าสหสัมพันธ์ cophenetic ) เป็น "ดัชนีความเหมาะสม" ของการจัดหมวดหมู่ เสียงนี้ทำให้ฉันงงงวยจริงๆ การคัดค้านของฉันไม่ได้ขึ้นอยู่กับตัวเลือกเฉพาะของสหสัมพันธ์ของเพียร์สัน แต่โดยทั่วไปแล้วความคิดใด ๆ ที่เชื่อมโยงระหว่างความแตกต่างเดิมกับความแตกต่างของ cophenetic อาจเกี่ยวข้องกับความเหมาะสมของการจำแนกประเภท คุณเห็นด้วยกับฉันหรือคุณอาจเสนออาร์กิวเมนต์ที่สนับสนุนการใช้สหสัมพันธ์ cophenetic เป็นดัชนีความเหมาะสมสำหรับการจำแนก dendrogram?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.