คำถามติดแท็ก data-mining

กิจกรรมที่ค้นหารูปแบบในชุดข้อมูลขนาดใหญ่และซับซ้อน มันมักจะเน้นเทคนิคอัลกอริทึม แต่อาจเกี่ยวข้องกับชุดทักษะที่เกี่ยวข้องแอปพลิเคชันหรือวิธีการใด ๆ ที่เกี่ยวข้องกับเป้าหมายนั้น

4
K- หมายถึง: อะไรคือวิธีที่ดีในการเลือกชุดเซนทรอยด์เริ่มต้นที่มีประสิทธิภาพ
เมื่อมีการใช้งานการเริ่มต้นแบบสุ่มของ centroids การวิ่งที่ต่างกันของ K-mean จะสร้าง SSE รวมที่แตกต่างกัน และเป็นสิ่งสำคัญในประสิทธิภาพของอัลกอริทึม อะไรคือแนวทางที่มีประสิทธิภาพในการแก้ไขปัญหานี้? แนวทางล่าสุดได้รับการชื่นชม

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
การจำแนกประเภทจำแนกชั้นหนึ่งที่มีภูมิหลังติดลบแบบไม่สมดุล
ฉันกำลังพัฒนาตัวแยกประเภทที่มีการกำกับดูแลที่มีอยู่สำหรับการจัดลำดับ {โปรตีน} ว่าเป็นของคลาสเฉพาะ (สารตั้งต้นของฮอร์โมน Neuropeptide) หรือไม่ มี "ผลบวก" ที่รู้จักกันประมาณ 1,150 ตัวโดยมีพื้นหลังของลำดับโปรตีนประมาณ 13 ล้านลำดับ ("พื้นหลังที่ไม่รู้จัก / มีคำอธิบายประกอบไม่ดี") หรือมีการตรวจสอบประมาณ 100,000 รายการที่เกี่ยวข้องกับโปรตีน วิธี "ลบ") การนำไปใช้ก่อนหน้าของฉันดูที่นี่เป็นปัญหาการจำแนกเลขฐานสอง: Positive set = โปรตีนที่ทำเครื่องหมายเป็น Neuropeptides ชุดเชิงลบ: การสุ่มตัวอย่างตัวอย่าง 1,300 ตัวอย่าง (ทั้งหมด) จากบรรดาโปรตีนที่เหลืออยู่ซึ่งมีการกระจายความยาวที่คล้ายกัน ใช้งานได้ แต่ฉันต้องการปรับปรุงความสามารถในการแยกแยะอย่างมากของเครื่องจักร (ปัจจุบันมีความแม่นยำ 83-86% ในแง่ของความถูกต้อง AUC, F1 ซึ่งวัดโดย CV บนชุดลบสุ่มตัวอย่างหลายชุด) ความคิดของฉันคือ: 1) ทำให้นี่เป็นปัญหาแบบหลายคลาสโดยเลือกโปรตีน 2-3 คลาสที่จะเป็นเนกาทีฟโดยคุณสมบัติ / ชั้นเรียนการทำงานของพวกเขาพร้อมด้วย …

2
ข้อแตกต่างของการแนะนำตามรายการและผู้ใช้ใน Mahout
ฉันอยากจะรู้ว่าผู้ใช้ควานช้างตามและคำแนะนำตามรายการแตกต่างกันอย่างไร มันกำหนดว่า ตามผู้ใช้ : แนะนำรายการโดยการค้นหาผู้ใช้ที่คล้ายกัน สิ่งนี้มักจะยากต่อการปรับขนาดเนื่องจากลักษณะของผู้ใช้แบบไดนามิก รายการตาม : คำนวณความคล้ายคลึงกันระหว่างรายการและให้คำแนะนำ รายการมักจะไม่เปลี่ยนแปลงมากนักดังนั้นสิ่งนี้จึงสามารถคำนวณได้จากบรรทัด แต่ถึงแม้ว่าจะมีข้อเสนอแนะสองแบบให้เลือก แต่สิ่งที่ฉันเข้าใจคือทั้งสองอย่างนี้จะใช้ตัวแบบข้อมูลบางตัว (เช่น 1,2 หรือ 1,2, .5 เป็น item1, item2, value หรือ user1, user2, value โดยที่ value ไม่ได้ บังคับ) และจะทำการคำนวณทั้งหมดตามการวัดความคล้ายคลึงกันและฟังก์ชั่น build-in ของผู้แนะนำที่เราเลือกและเราสามารถเรียกใช้คำแนะนำจากผู้ใช้ / รายการตามข้อมูลเดียวกัน (นี่คือสมมติฐานที่ถูกต้องหรือไม่?) ดังนั้นฉันอยากรู้ว่าอัลกอริทึมทั้งสองแบบนี้แตกต่างกันอย่างไร

4
ต้นไม้การตัดสินใจกับ KNN
ในกรณีใดดีกว่าที่จะใช้แผนผังการตัดสินใจและกรณีอื่นเป็น KNN เหตุใดจึงต้องใช้หนึ่งในนั้นในบางกรณี และอื่น ๆ ในกรณีที่แตกต่างกันอย่างไร (โดยดูที่ฟังก์ชันการทำงานไม่ใช่ที่อัลกอริทึม) ใครมีคำอธิบายหรือการอ้างอิงเกี่ยวกับเรื่องนี้บ้าง?

3
ทำไมวงดนตรีถึงมีประสิทธิภาพอย่างไร้เหตุผล
ดูเหมือนว่าเป็นจริงซึ่งกลุ่มผู้เรียนนำไปสู่ผลลัพธ์ที่ดีที่สุดเท่าที่จะเป็นไปได้ - และมันกลายเป็นสิ่งที่หายากมากเช่นสำหรับรุ่นเดียวที่ชนะการแข่งขันเช่น Kaggle มีคำอธิบายทางทฤษฎีว่าทำไมชุดตระการตาจึงมีประสิทธิภาพ

2
การใช้แอ็ตทริบิวต์เพื่อจำแนก / โปรไฟล์ผู้ใช้คลัสเตอร์
ฉันมีชุดข้อมูลของผู้ใช้ที่ซื้อผลิตภัณฑ์จากเว็บไซต์ คุณลักษณะที่ฉันมีคือรหัสผู้ใช้ภูมิภาค (รัฐ) ของผู้ใช้รหัสหมวดหมู่ของผลิตภัณฑ์รหัสคำหลักของผลิตภัณฑ์รหัสคำหลักของเว็บไซต์และยอดขายที่ใช้ไปของผลิตภัณฑ์ เป้าหมายคือการใช้ข้อมูลของผลิตภัณฑ์และเว็บไซต์เพื่อระบุตัวตนของผู้ใช้เช่น "gamer หนุ่มสาว" หรือ "อยู่กับแม่ที่บ้าน" ฉันแนบภาพตัวอย่างดังต่อไปนี้: มีการรวมหมวดหมู่ที่ไม่ซ้ำกันปี 1940 และคำหลักที่ไม่ซ้ำกัน 13845 รายการสำหรับผลิตภัณฑ์ สำหรับเว็บไซต์มีคำค้นหาที่ไม่ซ้ำ 13063 รายการ ชุดข้อมูลทั้งหมดมีขนาดใหญ่มากเนื่องจากเป็นข้อมูลการบันทึกประจำวัน ฉันกำลังคิดถึงการจัดกลุ่มเนื่องจากไม่มีการสำรอง แต่ ID เหล่านั้นเป็นหมายเลขการสั่งซื้อที่ไม่มีความหมายเชิงตัวเลข ถ้าอย่างนั้นฉันก็ไม่รู้วิธีการใช้อัลกอริทึม ฉันยังคิดถึงการจำแนกประเภท ถ้าฉันเพิ่มคอลัมน์ของคลาสตามจำนวนยอดขายของผลิตภัณฑ์ที่ซื้อ ฉันคิดว่าการรวมกลุ่มเป็นที่ต้องการมากกว่า ฉันไม่ทราบว่าอัลกอริทึมแบบใดที่ฉันควรใช้ในกรณีนี้เนื่องจากขนาดของรหัสคำหลักอาจมากกว่า 10,000 รายการ (แต่ละผลิตภัณฑ์อาจมีคำหลักจำนวนมากเช่นเว็บไซต์จะ) ฉันจำเป็นต้องใช้ Spark สำหรับโครงการนี้ ใครสามารถช่วยฉันด้วยความคิดหรือข้อเสนอแนะ? ขอบคุณมาก!

1
รู้จักไวยากรณ์ในลำดับของโทเค็นฟัซซี่
ฉันมีเอกสารข้อความที่มีรายการเป็นส่วนใหญ่ แต่ละรายการเป็นกลุ่มของโทเค็นหลายประเภทที่แตกต่างกัน: FirstName, นามสกุล, วันเกิด, หมายเลขโทรศัพท์, เมือง, อาชีพ, ฯลฯ โทเค็นคือกลุ่มของคำ รายการสามารถวางได้หลายบรรทัด รายการจากเอกสารจะมีรูปแบบโทเค็นเดียวกัน แต่ไม่จำเป็นต้องเหมือนกันทุกประการ อาจเป็นโทเค็นบางรายการมากขึ้น / น้อยลงระหว่างไอเท็มรวมถึงภายในไอเท็ม FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation เป้าหมายคือการระบุไวยากรณ์ที่ใช้เช่น Occupation City และในท้ายที่สุดระบุรายการทั้งหมดแม้คิดว่าพวกเขาไม่ตรงกัน …

1
Neo4j กับ OrientDB vs Titan
ฉันกำลังทำงานในโครงการวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับการขุดความสัมพันธ์ทางสังคมและต้องการจัดเก็บข้อมูลในฐานข้อมูลกราฟบางตัว ตอนแรกฉันเลือก Neo4j เป็นฐานข้อมูล แต่มันตะเข็บ Neo4j ไม่ได้ปรับขนาดได้ดี ทางเลือกที่ฉันพบคือไททันและ oriebtDB ฉันได้ผ่านนี้เปรียบเทียบทั้งสามฐานข้อมูล แต่ฉันต้องการที่จะได้รับรายละเอียดเพิ่มเติมเกี่ยวกับฐานข้อมูลเหล่านี้ ดังนั้นบางคนสามารถช่วยฉันในการเลือกที่ดีที่สุด ส่วนใหญ่ฉันต้องการเปรียบเทียบประสิทธิภาพการปรับขนาดเอกสารออนไลน์ / แบบฝึกหัดที่มีการสนับสนุนห้องสมุด Python ความซับซ้อนของภาษาคิวรีและการสนับสนุนอัลกอริทึมกราฟของฐานข้อมูลเหล่านี้ มีตัวเลือกฐานข้อมูลที่ดีอื่น ๆ อีกหรือไม่

4
กรณีศึกษา Big Data หรือใช้กรณีตัวอย่าง
ฉันได้อ่านบล็อก \ article มากมายเกี่ยวกับความแตกต่างของประเภทอุตสาหกรรมที่ใช้การวิเคราะห์ข้อมูลขนาดใหญ่ แต่บทความส่วนใหญ่ไม่ได้กล่าวถึง บริษัท เหล่านี้ใช้ข้อมูลอะไรกัน ขนาดของข้อมูลคืออะไร เทคโนโลยีเครื่องมือชนิดใดที่พวกเขาใช้ในการประมวลผลข้อมูล ปัญหาที่พวกเขาเผชิญคืออะไรและข้อมูลเชิงลึกที่พวกเขาได้รับช่วยให้พวกเขาแก้ไขปัญหาได้อย่างไร วิธีที่พวกเขาเลือกเครื่องมือ \ technology เพื่อให้เหมาะกับความต้องการของพวกเขา พวกเขาระบุรูปแบบอะไรจากข้อมูล & พวกเขามองหารูปแบบใดจากข้อมูล ฉันสงสัยว่าใครบางคนสามารถให้คำตอบสำหรับคำถามเหล่านี้ทั้งหมดหรือลิงก์ที่ตอบคำถามอย่างน้อย ฉันกำลังมองหาตัวอย่างในโลกแห่งความจริง มันจะดีถ้ามีคนแบ่งปันว่าอุตสาหกรรมการเงินกำลังใช้ประโยชน์จากการวิเคราะห์ข้อมูลขนาดใหญ่อย่างไร

1
ความแตกต่างระหว่างการเข้ารหัสแบบร้อนและการเข้ารหัสแบบครั้งเดียวคืออะไร
ฉันกำลังอ่านงานนำเสนอและไม่แนะนำให้ใช้การเข้ารหัสการลาแบบหนึ่งครั้ง แต่ก็โอเคกับการเข้ารหัสแบบร้อนเพียงครั้งเดียว ฉันคิดว่าพวกเขาทั้งสองเหมือนกัน ใครสามารถอธิบายความแตกต่างระหว่างพวกเขาคืออะไร?

2
มี API ใดบ้างสำหรับการรวบรวมข้อมูลบทคัดย่อของกระดาษ?
หากฉันมีรายชื่อกระดาษที่ยาวมากฉันจะได้นามธรรมของเอกสารเหล่านี้จากอินเทอร์เน็ตหรือฐานข้อมูลใด ๆ ชื่อกระดาษมีลักษณะเหมือน "การประเมินยูทิลิตี้ในการขุดบนเว็บสำหรับโดเมนด้านสาธารณสุข" มีใครรู้ API ใดบ้างที่สามารถให้ทางออกแก่ฉันได้? ฉันพยายามรวบรวมข้อมูล google scholar อย่างไรก็ตาม google บล็อกโปรแกรมรวบรวมข้อมูลของฉัน

2
อัตราค่าโดยสารของสายการบิน - การวิเคราะห์ใดที่ควรใช้เพื่อตรวจสอบพฤติกรรมการตั้งราคาและความสัมพันธ์ของราคา
ฉันต้องการตรวจสอบพฤติกรรมการตั้งราคาของสายการบิน - โดยเฉพาะว่าสายการบินตอบสนองต่อการกำหนดราคาของคู่แข่งอย่างไร ตามที่ฉันจะบอกความรู้ของฉันเกี่ยวกับการวิเคราะห์ที่ซับซ้อนมากขึ้นค่อนข้าง จำกัด ฉันได้ทำวิธีการพื้นฐานทั้งหมดเพื่อรวบรวมมุมมองโดยรวมของข้อมูล ซึ่งรวมถึงกราฟอย่างง่ายซึ่งช่วยระบุรูปแบบที่คล้ายกัน ฉันใช้ SAS Enterprise 9.4 ด้วย อย่างไรก็ตามฉันกำลังมองหาวิธีการตามจำนวนมากขึ้น ชุดข้อมูล ชุดข้อมูลที่รวบรวม (ตัวเอง) ที่ฉันกำลังใช้อยู่มีประมาณ ~ 54.000 อัตราค่าโดยสาร ค่าโดยสารทั้งหมดถูกรวบรวมภายในหน้าต่างเวลา 60 วันเป็นประจำทุกวัน (ทุกคืนเวลา 00:00 น.) ดังนั้นทุกค่าโดยสารภายในช่วงเวลาดังกล่าวจะเกิดขึ้นครั้งขึ้นอยู่กับความพร้อมของค่าโดยสารรวมถึงวันที่ออกเดินทางของเที่ยวบินเมื่อผ่านไปตามวันที่เรียกเก็บค่าโดยสาร (คุณไม่สามารถรวบรวมค่าโดยสารสำหรับเที่ยวบินเมื่อวันที่ออกเดินทางของเที่ยวบินในอดีต)nnn รูปแบบที่ไม่มีการจัดรูปแบบโดยทั่วไปมีลักษณะดังนี้: (ข้อมูลปลอม) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 …

2
FPGrowth ยังถือว่าเป็น“ สถานะของศิลปะ” ในการขุดแบบบ่อยๆหรือไม่?
เท่าที่ฉันรู้การพัฒนาอัลกอริทึมเพื่อแก้ปัญหาการทำเหมืองบ่อยรูปแบบ (FPM) ถนนของการปรับปรุงมีจุดตรวจหลักบางอย่าง ประการแรกอัลกอริทึมAprioriถูกเสนอในปี 1993 โดยAgrawal และคณะ พร้อมกับการทำให้เป็นทางการของปัญหา อัลกอริทึมก็สามารถที่จะดึงบางชุดออกมาจาก2^n - 1ชุด (powerset) โดยใช้ตาข่ายเพื่อรักษาข้อมูล ข้อเสียเปรียบของวิธีการคือต้องอ่านฐานข้อมูลใหม่เพื่อคำนวณความถี่ของแต่ละชุดที่ขยาย ต่อมาในปี 1997 Zaki และคณะ เสนออัลกอริทึมEclatซึ่งแทรกความถี่ผลลัพธ์ของแต่ละชุดไว้ในโครงตาข่าย สิ่งนี้กระทำโดยการเพิ่มที่แต่ละโหนดของโครงตาข่ายชุดของ transaction-id ที่มีไอเท็มจากรูทไปยังโหนดที่อ้างถึง การสนับสนุนหลักคือเราไม่จำเป็นต้องอ่านชุดข้อมูลทั้งหมดอีกครั้งเพื่อทราบความถี่ของแต่ละชุด แต่หน่วยความจำที่จำเป็นในการรักษาโครงสร้างข้อมูลดังกล่าวอาจมีขนาดเกินขนาดของชุดข้อมูลเอง ในปี 2000 ฮันและคณะ เสนออัลกอริทึมที่ชื่อว่าFPGrowthพร้อมกับโครงสร้างข้อมูลแบบต้นไม้คำนำหน้าชื่อ FPTree อัลกอริทึมสามารถให้การบีบอัดข้อมูลที่สำคัญในขณะเดียวกันก็อนุญาตว่าจะให้เฉพาะชุดไอเท็มที่ใช้บ่อยเท่านั้น (โดยไม่มีการสร้างชุดไอเท็มผู้สมัคร) สิ่งนี้ทำได้โดยการจัดเรียงรายการของแต่ละธุรกรรมในลำดับที่ลดลงเพื่อให้รายการที่พบบ่อยที่สุดคือรายการที่มีการซ้ำซ้อนน้อยที่สุดในโครงสร้างข้อมูลทรี เนื่องจากความถี่ลดลงเท่านั้นขณะที่สำรวจต้นไม้ในเชิงลึกอัลกอริทึมจึงสามารถตัดชุดรายการที่ไม่ได้ใช้บ่อย แก้ไข : เท่าที่ฉันรู้นี่อาจถือได้ว่าเป็นอัลกอริทึมที่ล้ำสมัย แต่ฉันอยากรู้เกี่ยวกับวิธีแก้ปัญหาอื่น ๆ มีอัลกอริธึมอื่นสำหรับ FPM ที่ถูกพิจารณาว่าเป็น "state-of-the-art" หรือไม่? อะไรคือสิ่งที่สัญชาตญาณ / หลักผลงานของอัลกอริทึมดังกล่าวหรือไม่ อัลกอริทึม FPGrowth ยังถือว่าเป็น "สถานะของศิลปะ" …

2
ฉันจะพอดีกับประเภทข้อมูลเด็ดขาดสำหรับการจำแนกป่าแบบสุ่มได้อย่างไร
ฉันต้องการค้นหาความถูกต้องของชุดข้อมูลการฝึกอบรมโดยใช้ Random Forest Algorithm แต่ประเภทของชุดข้อมูลของฉันมีทั้งหมวดหมู่และตัวเลข เมื่อฉันพยายามที่จะพอดีกับข้อมูลเหล่านั้นฉันได้รับข้อผิดพลาด 'อินพุตมี NaN อินฟินิตี้หรือค่ามีขนาดใหญ่เกินไปสำหรับ dtype (' float32 ')' อาจเป็นปัญหาสำหรับประเภทข้อมูลวัตถุ ฉันจะพอดีกับข้อมูลที่เป็นหมวดหมู่โดยไม่มีการแปลงเพื่อใช้ RF ได้อย่างไร นี่คือรหัสของฉัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.