คำถามติดแท็ก partitioning

8
วิธีการตรวจหาชุมชนในเครือข่ายโซเชียล / กราฟถ่วงน้ำหนัก
ฉันสงสัยว่าใครบางคนสามารถแนะนำสิ่งที่เป็นจุดเริ่มต้นที่ดีเมื่อพูดถึงการดำเนินการตรวจสอบชุมชน / การแบ่งกราฟ / การจัดกลุ่มบนกราฟที่มีขอบแบบถ่วงน้ำหนักและไม่มีทิศทาง กราฟที่มีปัญหานั้นมีขอบประมาณ 3 ล้านเส้นและแต่ละขอบจะแสดงระดับความคล้ายคลึงกันระหว่างจุดยอดทั้งสองที่เชื่อมต่อ โดยเฉพาะอย่างยิ่งในชุดข้อมูลนี้เป็นบุคคลและจุดยอดเป็นตัวชี้วัดความคล้ายคลึงกันของพฤติกรรมที่สังเกตได้ ในอดีตฉันทำตามคำแนะนำที่ฉันได้รับที่นี่ใน stats.stackexchange.com และใช้การดำเนินการตามกฎเกณฑ์ของการจัดกลุ่มแบบแยกส่วนของนิวแมนและพอใจกับผลการทดลอง มีอัลกอริทึมเฉพาะที่ฉันควรจะดูหรือไม่?

5
วิธีแบ่งชุดข้อมูลสำหรับการทำนายอนุกรมเวลา
ฉันมีข้อมูลการขายในอดีตจากร้านเบเกอรี่ (ทุกวันมากกว่า 3 ปี) ตอนนี้ฉันต้องการสร้างแบบจำลองเพื่อทำนายยอดขายในอนาคต (โดยใช้คุณสมบัติเช่นวันทำงานตัวแปรสภาพอากาศ ฯลฯ ) ฉันจะแยกชุดข้อมูลเพื่อปรับและประเมินโมเดลได้อย่างไร มันจำเป็นต้องเป็นรถไฟตามลำดับเวลา / การตรวจสอบ / แยกทดสอบหรือไม่? จากนั้นฉันจะทำการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์กับชุดรถไฟและการตรวจสอบความถูกต้องหรือไม่? การตรวจสอบข้าม (ซ้อนกัน) เป็นกลยุทธ์ที่ไม่ดีสำหรับปัญหาอนุกรมเวลาหรือไม่ แก้ไข นี่คือลิงค์ที่ฉันเจอหลังจากติดตาม URL ที่แนะนำโดย @ ene100: Rob Hyndman อธิบาย "ต้นกำเนิดการพยากรณ์แบบหมุน" ในทางทฤษฎีและในทางปฏิบัติ (พร้อมรหัส R) คำศัพท์อื่น ๆ สำหรับต้นกำเนิดการคาดการณ์แบบหมุนคือ "การเพิ่มประสิทธิภาพการเดินไปข้างหน้า" ( ที่นี่หรือที่นี่ ), "ขอบฟ้าที่กลิ้ง" หรือ "ต้นกำเนิดที่กำลังเคลื่อนที่" ดูเหมือนว่าเทคนิคเหล่านี้จะไม่ถูกรวมเข้ากับ scikit เรียนรู้ในอนาคตอันใกล้เพราะ "ความต้องการและความหมายของเทคนิคเหล่านี้ไม่ชัดเจน" (ระบุไว้ที่นี่ ) และนี่คือข้อเสนอแนะอื่นสำหรับการตรวจสอบความถูกต้องข้ามอนุกรมเวลา

2
การแบ่งพาร์ติชันต้นไม้ใน R: party vs. rpart
ไม่นานมานี้ตั้งแต่ฉันดูที่การแยกต้นไม้ ครั้งล่าสุดที่ฉันทำสิ่งนี้ฉันชอบปาร์ตี้ใน R (สร้างโดย Hothorn) แนวคิดของการอนุมานแบบมีเงื่อนไขผ่านการสุ่มตัวอย่างทำให้ฉันมีเหตุผล แต่ rpart ก็มีการอุทธรณ์ ในแอปพลิเคชันปัจจุบัน (ฉันไม่สามารถให้รายละเอียดได้ แต่เกี่ยวข้องกับการพยายามกำหนดว่าใครจะเข้าคุกในกลุ่มตัวอย่างขนาดใหญ่ของผู้ถูกจับกุม) ฉันไม่สามารถใช้วิธีการขั้นสูงเช่นป่าสุ่มการบรรจุถุงการส่งเสริมเป็นต้น - ฉันต้องการความสะดวก กฎ. ฉันจะยังชอบที่จะมีบางส่วนที่ควบคุมด้วยตนเองมากกว่าที่โหนดแยกตามที่แนะนำในวอชิงตันโพสต์และนักร้อง (2010) ซ้ำพาร์ทิชันและการประยุกต์ใช้ ฟรีแวร์ที่มาพร้อมกับหนังสือเล่มนี้อนุญาตให้ทำเช่นนี้ได้ แต่จะค่อนข้างดั้งเดิมในการป้อนข้อมูลของผู้ใช้ คำแนะนำหรือข้อเสนอแนะ?
15 r  cart  rpart  partitioning 

1
ความแตกต่างในการใช้งานของการแยกไบนารีในต้นไม้การตัดสินใจ
ผมอยากรู้เกี่ยวกับการดำเนินการในทางปฏิบัติของการแยกไบนารีในต้นไม้ตัดสินใจ - เป็นที่เกี่ยวกับระดับของเด็ดขาดทำนาย{J}XjXjX{j} โดยเฉพาะฉันมักจะใช้รูปแบบการสุ่มตัวอย่างบางอย่าง (เช่นการบรรจุถุงการใส่ตัวอย่างมากเกินไป) เมื่อสร้างแบบจำลองการทำนายโดยใช้ต้นไม้การตัดสินใจ - เพื่อปรับปรุงความแม่นยำและความมั่นคงของการทำนาย ในระหว่างขั้นตอนการสุ่มตัวอย่างเหล่านี้เป็นไปได้ที่ตัวแปรหมวดหมู่จะถูกนำเสนอไปยังอัลกอริทึมการปรับแต่งแบบต้นไม้ที่น้อยกว่าชุดระดับที่สมบูรณ์ พูดตัวแปร X {A,B,C,D,E}จะใช้เวลาในระดับ ในตัวอย่างอาจจะเพียงระดับ{A,B,C,D}ที่มีอยู่ จากนั้นเมื่อมีการใช้ต้นไม้ผลลัพธ์สำหรับการทำนายอาจจะมีชุดเต็ม ต่อจากตัวอย่างนี้พูดต้นไม้แยกบน X และส่ง{A,B}ไปทางซ้ายและ{C,D}ไปทางขวา ฉันคาดว่าตรรกะของการแบ่งไบนารีจะพูดเมื่อต้องเผชิญกับข้อมูลใหม่: "ถ้า X มีค่า A หรือ B ให้ส่งไปทางซ้ายมิฉะนั้นส่งกรณีนี้ไปทางขวา" สิ่งที่ดูเหมือนจะเกิดขึ้นในการนำไปใช้งานบางอย่างคือ "ถ้า X มีค่า A หรือ B ส่งไปทางซ้ายถ้า X มีค่า C หรือ D ส่งไปทางขวา" เมื่อกรณีนี้ใช้กับค่า E อัลกอริธึมจะพังลง วิธี "ถูกต้อง" สำหรับการแยกแบบไบนารีที่จะจัดการคืออะไร? ดูเหมือนว่าจะมีการใช้วิธีที่มีประสิทธิภาพมากกว่านี้ แต่ไม่เสมอไป (ดู Rpart ด้านล่าง) …

3
โมดูลาร์เครือข่ายของนิวแมนใช้งานได้กับกราฟน้ำหนักที่ลงนามแล้วหรือไม่?
ต้นแบบของกราฟถูกกำหนดไว้ในตัวหน้าวิกิพีเดีย ในการโพสต์ที่แตกต่างกันบางคนอธิบายว่า modularity สามารถคำนวณได้ง่าย (และขยายใหญ่สุด) สำหรับเครือข่ายที่มีน้ำหนักเนื่องจากเมทริกซ์ adjacencyสามารถมีความสัมพันธ์ที่มีคุณค่า อย่างไรก็ตามฉันต้องการทราบว่าสิ่งนี้จะใช้ได้กับขอบที่มีการเซ็นชื่อและมีค่าเช่นตั้งแต่ -10 ถึง +10 คุณสามารถให้สัญชาติญาณพิสูจน์หรืออ้างอิงถึงปัญหานี้ได้หรือไม่?AฉันเจAijA_{ij}

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.