คำถามติดแท็ก data-mining

5
ทำไมการวิจัยเกี่ยวกับอัลกอริธึมทางพันธุกรรมจึงชะลอตัว?
ในขณะที่กำลังพูดถึงหัวข้อระดับอินโทรในวันนี้รวมถึงการใช้อัลกอริทึมทางพันธุกรรม ฉันบอกว่าการวิจัยชะลอตัวลงในสาขานี้ เหตุผลที่กำหนดคือคนส่วนใหญ่มุ่งเน้นไปที่การเรียนรู้ของเครื่องและการทำเหมืองข้อมูล อัปเดต:ถูกต้องหรือไม่ และถ้าเป็นเช่นนั้น ML / DM มีข้อได้เปรียบอะไรบ้างเมื่อเทียบกับ GA

4
อะไรคือความแตกต่างระหว่างการเรียนรู้แบบมีผู้สอนและไม่ได้รับการดูแล?
ฉันพยายามทำความเข้าใจวิธีการจัดกลุ่ม สิ่งที่ฉันคิดว่าฉันเข้าใจ: ในการเรียนรู้ภายใต้การดูแลข้อมูลจะถูกกำหนดให้หมวดหมู่ / ป้ายกำกับก่อนการคำนวณ ดังนั้นจึงมีการใช้เลเบลคลาสหรือหมวดหมู่เพื่อ "เรียนรู้" พารามิเตอร์ที่มีความสำคัญสำหรับกลุ่มเหล่านั้น ในการเรียนรู้ที่ไม่มีการดูแลชุดข้อมูลจะถูกกำหนดให้กับกลุ่มโดยไม่ทราบว่าเป็นกลุ่มใด นั่นหมายความว่าถ้าฉันไม่รู้ด้วยซ้ำว่าพารามิเตอร์ใดมีความสำคัญต่อการแบ่งกลุ่มฉันควรเลือกการเรียนรู้แบบมีผู้สอนหรือไม่

2
การระบุเหตุการณ์ที่เกี่ยวข้องกับวันที่ในวรรค
มีวิธีการแบบอัลกอริทึมในการระบุวันที่ที่ให้ไว้ในย่อหน้าที่สัมพันธ์กับเหตุการณ์ (วลี) ในย่อหน้าหรือไม่? ตัวอย่างพิจารณาย่อหน้าต่อไปนี้: ในเดือนมิถุนายนปี 1970 ผู้นำที่ยิ่งใหญ่ได้สาบาน แต่หลังจากเดือนพฤษภาคม 2515 โพสต์การตายของรัฐมนตรีต่างประเทศว่าเขาเข้ามากุมบังเหียนของประเทศ ในขณะที่เขาได้รับความนิยมจนถึงกลางปี ​​1980 อิทธิพลของเขาก็เริ่มลดลงหลังจากนั้น มีอัลกอริทึม (ที่กำหนดขึ้นหรือสุ่ม) # ที่สามารถสร้าง 2-tuple (วันที่, เหตุการณ์) ที่เหตุการณ์นั้นมีความหมายโดยนัยตามวรรคที่จะเกิดขึ้นในวันที่ ? ในกรณีข้างต้น: (มิถุนายน 2513 ผู้นำที่ยิ่งใหญ่สาบาน) (พฤษภาคม 1972, เข้ามากุมบังเหียน) หรือดีกว่าเลย (พฤษภาคม 1972 ผู้นำที่ยิ่งใหญ่เข้ามากุมบังเหียน) (1980 ตกอยู่ในอิทธิพล) นอกจากนี้ #Later

5
วิทยาศาสตร์ข้อมูลกับการวิจัยการปฏิบัติการ
คำถามทั่วไปตามที่ชื่อแนะนำคือ: DS และ OR / การปรับให้เหมาะสมต่างกันอย่างไร ในระดับแนวคิดฉันเข้าใจว่า DS พยายามดึงความรู้จากข้อมูลที่มีอยู่และใช้เทคนิคการเรียนรู้ของเครื่องเป็นส่วนใหญ่ ในทางกลับกันหรือใช้ข้อมูลเพื่อตัดสินใจบนพื้นฐานของข้อมูลตัวอย่างเช่นโดยการปรับฟังก์ชั่นวัตถุประสงค์ (เกณฑ์) ให้เหมาะสมกับข้อมูล (อินพุต) ฉันสงสัยว่ากระบวนทัศน์ทั้งสองนี้เปรียบเทียบกันอย่างไร เป็นหนึ่งส่วนย่อยของอื่น ๆ ? พวกเขากำลังพิจารณาสาขาเสริมหรือไม่? มีตัวอย่างที่ฟิลด์หนึ่งเติมเต็มฟิลด์อื่นหรือใช้ในการร่วม โดยเฉพาะอย่างยิ่งฉันสนใจในสิ่งต่อไปนี้: มีตัวอย่างใดบ้างที่ใช้เทคนิค OR ในการแก้คำถาม / ปัญหาด้าน Data Science?

4
ความสัมพันธ์และความแตกต่างระหว่างการดึงข้อมูลและการดึงข้อมูล?
จากวิกิพีเดีย การดึงข้อมูลคือกิจกรรมในการรับทรัพยากรสารสนเทศที่เกี่ยวข้องกับความต้องการข้อมูลจากการรวบรวมทรัพยากรสารสนเทศ การค้นหาอาจขึ้นอยู่กับข้อมูลเมตาหรือการจัดทำดัชนีข้อความแบบเต็ม จากวิกิพีเดีย การแยกข้อมูล (IE)เป็นหน้าที่ของการแยกข้อมูลที่มีโครงสร้างโดยอัตโนมัติจากเอกสารที่ไม่มีโครงสร้างและ / หรือเอกสารกึ่งโครงสร้างที่เครื่องอ่านได้ ในกรณีส่วนใหญ่กิจกรรมนี้เกี่ยวข้องกับการประมวลผลข้อความภาษามนุษย์โดยใช้การประมวลผลภาษาธรรมชาติ (NLP) กิจกรรมล่าสุดในการประมวลผลเอกสารมัลติมีเดียเช่นบันทึกย่ออัตโนมัติและการแยกเนื้อหาออกจากภาพ / เสียง / วิดีโออาจถูกมองว่าเป็นการดึงข้อมูล อะไรคือความสัมพันธ์และความแตกต่างระหว่างการดึงข้อมูลและการดึงข้อมูล? ขอบคุณ!

1
การแยกประเภทการปรับแต่ง
ที่ทำงานฉันได้รับมอบหมายให้อนุมานข้อมูลบางประเภทเกี่ยวกับภาษาแบบไดนามิก ฉันเขียนลำดับของข้อความไปยังletนิพจน์ที่ซ้อนกันเช่น: return x; Z => x var x; Z => let x = undefined in Z x = y; Z => let x = y in Z if x then T else F; Z => if x then { T; Z } else { F; Z } เนื่องจากฉันเริ่มต้นจากข้อมูลประเภททั่วไปและพยายามอนุมานประเภทที่เฉพาะเจาะจงมากขึ้นตัวเลือกที่เป็นธรรมชาติคือประเภทการปรับแต่ง ตัวอย่างเช่นตัวดำเนินการตามเงื่อนไขส่งคืนการรวมของประเภทของสาขาที่เป็นจริงและเท็จ …
11 programming-languages  logic  type-theory  type-inference  machine-learning  data-mining  clustering  order-theory  reference-request  information-theory  entropy  algorithms  algorithm-analysis  space-complexity  lower-bounds  formal-languages  computability  formal-grammars  context-free  parsing  complexity-theory  time-complexity  terminology  turing-machines  nondeterminism  programming-languages  semantics  operational-semantics  complexity-theory  time-complexity  complexity-theory  reference-request  turing-machines  machine-models  simulation  graphs  probability-theory  data-structures  terminology  distributed-systems  hash-tables  history  terminology  programming-languages  meta-programming  terminology  formal-grammars  compilers  algorithms  search-algorithms  formal-languages  regular-languages  complexity-theory  satisfiability  sat-solvers  factoring  algorithms  randomized-algorithms  streaming-algorithm  in-place  algorithms  numerical-analysis  regular-languages  automata  finite-automata  regular-expressions  algorithms  data-structures  efficiency  coding-theory  algorithms  graph-theory  reference-request  education  books  formal-languages  context-free  proof-techniques  algorithms  graph-theory  greedy-algorithms  matroids  complexity-theory  graph-theory  np-complete  intuition  complexity-theory  np-complete  traveling-salesman  algorithms  graphs  probabilistic-algorithms  weighted-graphs  data-structures  time-complexity  priority-queues  computability  turing-machines  automata  pushdown-automata  algorithms  graphs  binary-trees  algorithms  algorithm-analysis  spanning-trees  terminology  asymptotics  landau-notation  algorithms  graph-theory  network-flow  terminology  computability  undecidability  rice-theorem  algorithms  data-structures  computational-geometry 

5
ความถี่ของคำที่มีการสั่งซื้อในความซับซ้อน O (n)
ในระหว่างการสัมภาษณ์ตำแหน่งนักพัฒนา Java ฉันถูกถามต่อไปนี้: เขียนฟังก์ชั่นที่ใช้สองพารามิเตอร์: String แสดงเอกสารข้อความและ จำนวนเต็มซึ่งระบุจำนวนรายการที่จะส่งคืน ใช้ฟังก์ชั่นเพื่อส่งคืนรายการ Strings เรียงลำดับตามความถี่ของคำซึ่งเป็นคำที่เกิดขึ้นบ่อยที่สุดก่อน โซลูชันของคุณควรทำงานในเวลาโดยที่คือจำนวนอักขระในเอกสารO(n)O(n)O(n)nnn ต่อไปนี้เป็นสิ่งที่ฉันตอบ (ใน pseudocode) ไม่ใช่แต่ค่อนข้างเวลาเนื่องจากการเรียงลำดับ ฉันไม่สามารถคิดออกว่าจะทำมันเวลา O(n)O(n)O(n)O(nlogn)O(nเข้าสู่ระบบ⁡n)O(n \log n)O(n)O(n)O(n) wordFrequencyMap = new HashMap<String, Integer>(); words = inputString.split(' '); for (String word : words) { count = wordFrequencyMap.get(word); count = (count == null) ? 1 : ++count; wordFrequencyMap.put(word, count); } return …

1
กำลังมองหาอัลกอริทึมการจัดอันดับที่โปรดปรานรายการใหม่
ฉันกำลังทำงานกับระบบการจัดอันดับที่จะจัดอันดับรายการตามคะแนนเสียงที่ได้รับในช่วงระยะเวลาหนึ่ง ฉันกำลังมองหาอัลกอริทึมที่จะคำนวณคะแนนที่ค่อนข้างดีโดยเฉลี่ยอย่างไรก็ตามฉันต้องการให้คะแนนใหม่มากกว่าคะแนนที่เก่ากว่า ฉันกำลังคิดถึงบางสิ่งตามแนว: s c o r e1+ 2 ⋅ s c o r e2 + ⋯ + n ⋅ s c o r en1 + 2 + ⋯ + nsคโอRอี1+ 2⋅sคโอRอี2 + ⋯+ n⋅sคโอRอีn1+2+⋯+n\frac{\mathrm{score}_1 +\ 2\cdot \mathrm{score}_2\ +\ \dots +\ n\cdot \mathrm{score}_n}{1 + 2 + \dots + n} ฉันสงสัยว่ามีอัลกอริทึมอื่นที่มักใช้กับสถานการณ์เช่นนี้หรือไม่และถ้าเป็นเช่นนั้นคุณช่วยอธิบายพวกเขาได้ไหม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.