คำถามติดแท็ก classification

อินสแตนซ์ของการเรียนรู้ภายใต้การดูแลที่ระบุหมวดหมู่หรือหมวดหมู่ที่อินสแตนซ์ใหม่ของชุดข้อมูลเป็นของ

5
เลือกอัลกอริทึมการจำแนกประเภทไบนารี
ฉันมีปัญหาการจำแนกเลขฐานสอง: ประมาณ 1,000 ตัวอย่างในชุดฝึกอบรม 10 คุณลักษณะรวมถึงไบนารีตัวเลขและหมวดหมู่ อัลกอริทึมใดเป็นตัวเลือกที่ดีที่สุดสำหรับปัญหาประเภทนี้ โดยค่าเริ่มต้นฉันจะเริ่มต้นด้วย SVM (เบื้องต้นมีค่าแอตทริบิวต์เล็กน้อยแปลงเป็นคุณสมบัติไบนารี) เนื่องจากถือว่าดีที่สุดสำหรับข้อมูลที่ค่อนข้างสะอาดและไม่มีเสียงดัง

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
ผสานข้อมูลที่เบาบางและหนาแน่นในการเรียนรู้ของเครื่องเพื่อปรับปรุงประสิทธิภาพ
ฉันมีคุณสมบัติเบาบางซึ่งสามารถคาดเดาได้และฉันยังมีคุณสมบัติที่หนาแน่นซึ่งสามารถคาดเดาได้ ฉันต้องรวมคุณสมบัติเหล่านี้เข้าด้วยกันเพื่อปรับปรุงประสิทธิภาพโดยรวมของตัวจําแนก ตอนนี้สิ่งที่เกิดขึ้นคือเมื่อฉันพยายามรวมสิ่งเหล่านี้เข้าด้วยกันคุณลักษณะที่หนาแน่นมีแนวโน้มที่จะครอบงำมากกว่าคุณสมบัติเบาบางดังนั้นจึงทำให้การปรับปรุง AUC เพียง 1% เมื่อเทียบกับรุ่นที่มีคุณสมบัติที่หนาแน่นเท่านั้น มีใครบางคนเจอปัญหาที่คล้ายกัน? ชื่นชมอินพุตที่ติดอยู่จริงๆ ฉันได้ลองตัวแยกประเภทที่แตกต่างกันจำนวนมากการรวมกันของตัวแยกประเภทการแปลงคุณสมบัติและการประมวลผลด้วยอัลกอริทึมที่แตกต่างกัน ขอบคุณล่วงหน้าสำหรับความช่วยเหลือ แก้ไข : ฉันได้ลองใช้คำแนะนำที่ให้ไว้ในความคิดเห็นแล้ว สิ่งที่ฉันสังเกตคือเกือบ 45% ของข้อมูลคุณสมบัติเบาบางทำงานได้ดีจริง ๆ ฉันได้รับ AUC ประมาณ 0.9 ด้วยฟีเจอร์เบาบางเท่านั้น แต่สำหรับคุณสมบัติที่หนาแน่นที่เหลืออยู่นั้นทำงานได้ดีกับ AUC ประมาณ 0.75 ฉันพยายามแยกชุดข้อมูลเหล่านี้ออก แต่ฉันได้รับ AUC เท่ากับ 0.6 ดังนั้นฉันจึงไม่สามารถฝึกอบรมโมเดลและตัดสินใจว่าจะใช้ฟีเจอร์ใด เกี่ยวกับข้อมูลโค้ดฉันได้ลองหลายสิ่งหลายอย่างแล้วซึ่งฉันไม่แน่ใจว่าจะแชร์สิ่งใดกันแน่ :(

3
การจำแนกประเภทจำแนกชั้นหนึ่งที่มีภูมิหลังติดลบแบบไม่สมดุล
ฉันกำลังพัฒนาตัวแยกประเภทที่มีการกำกับดูแลที่มีอยู่สำหรับการจัดลำดับ {โปรตีน} ว่าเป็นของคลาสเฉพาะ (สารตั้งต้นของฮอร์โมน Neuropeptide) หรือไม่ มี "ผลบวก" ที่รู้จักกันประมาณ 1,150 ตัวโดยมีพื้นหลังของลำดับโปรตีนประมาณ 13 ล้านลำดับ ("พื้นหลังที่ไม่รู้จัก / มีคำอธิบายประกอบไม่ดี") หรือมีการตรวจสอบประมาณ 100,000 รายการที่เกี่ยวข้องกับโปรตีน วิธี "ลบ") การนำไปใช้ก่อนหน้าของฉันดูที่นี่เป็นปัญหาการจำแนกเลขฐานสอง: Positive set = โปรตีนที่ทำเครื่องหมายเป็น Neuropeptides ชุดเชิงลบ: การสุ่มตัวอย่างตัวอย่าง 1,300 ตัวอย่าง (ทั้งหมด) จากบรรดาโปรตีนที่เหลืออยู่ซึ่งมีการกระจายความยาวที่คล้ายกัน ใช้งานได้ แต่ฉันต้องการปรับปรุงความสามารถในการแยกแยะอย่างมากของเครื่องจักร (ปัจจุบันมีความแม่นยำ 83-86% ในแง่ของความถูกต้อง AUC, F1 ซึ่งวัดโดย CV บนชุดลบสุ่มตัวอย่างหลายชุด) ความคิดของฉันคือ: 1) ทำให้นี่เป็นปัญหาแบบหลายคลาสโดยเลือกโปรตีน 2-3 คลาสที่จะเป็นเนกาทีฟโดยคุณสมบัติ / ชั้นเรียนการทำงานของพวกเขาพร้อมด้วย …

6
อะไรคือเหตุผลที่ทำให้การเปลี่ยนแปลงบันทึกของตัวแปรต่อเนื่องน้อย
ฉันได้รับปัญหาการจัดหมวดหมู่และฉันได้อ่านรหัสและแบบฝึกหัดของคนจำนวนมาก สิ่งหนึ่งที่ผมสังเกตเห็นก็คือว่าหลายคนใช้np.logหรือlogของตัวแปรอย่างต่อเนื่องเหมือนloan_amountหรือapplicant_incomeฯลฯ ฉันแค่ต้องการเข้าใจเหตุผลที่อยู่เบื้องหลัง มันช่วยปรับปรุงความแม่นยำในการทำนายแบบจำลองของเราหรือไม่ จำเป็นหรือไม่ หรือมีเหตุผลใด ๆ ที่อยู่เบื้องหลังมัน? โปรดระบุคำอธิบายหากเป็นไปได้ ขอขอบคุณ.

1
จุดแยกถูกเลือกสำหรับตัวแปรต่อเนื่องในต้นไม้การตัดสินใจอย่างไร
ฉันมีคำถามสองข้อที่เกี่ยวข้องกับต้นไม้ตัดสินใจ: หากเรามีคุณลักษณะแบบต่อเนื่องเราจะเลือกค่าการแยกได้อย่างไร ตัวอย่าง: อายุ = (20,29,50,40 .... ) ลองนึกภาพว่าเรามีคุณลักษณะอย่างต่อเนื่องที่มีค่าในR ฉันสามารถเขียนขั้นตอนวิธีการที่พบแยกจุดโวลต์เพื่อที่ว่าเมื่อเราแยกฉโดยโวลต์เรามีกำไรขั้นต่ำสำหรับฉ> วี ?fffRRRvvvfffvvvf>vf>vf>v

4
ต้นไม้ตัดสินใจหรือการถดถอยโลจิสติก?
ฉันกำลังทำงานกับปัญหาการจำแนก ฉันมีชุดข้อมูลที่มีตัวแปรเด็ดขาดและตัวแปรต่อเนื่องจำนวนเท่ากัน ฉันจะรู้เทคนิคการใช้งานได้อย่างไร? ระหว่างต้นไม้ตัดสินใจกับการถดถอยโลจิสติกส์? การสมมติว่าการถดถอยโลจิสติกจะเหมาะสมกว่าสำหรับตัวแปรต่อเนื่องและต้นไม้ตัดสินใจจะเหมาะสมกว่าสำหรับตัวแปรต่อเนื่อง + หมวดหมู่หรือไม่

2
การใช้แอ็ตทริบิวต์เพื่อจำแนก / โปรไฟล์ผู้ใช้คลัสเตอร์
ฉันมีชุดข้อมูลของผู้ใช้ที่ซื้อผลิตภัณฑ์จากเว็บไซต์ คุณลักษณะที่ฉันมีคือรหัสผู้ใช้ภูมิภาค (รัฐ) ของผู้ใช้รหัสหมวดหมู่ของผลิตภัณฑ์รหัสคำหลักของผลิตภัณฑ์รหัสคำหลักของเว็บไซต์และยอดขายที่ใช้ไปของผลิตภัณฑ์ เป้าหมายคือการใช้ข้อมูลของผลิตภัณฑ์และเว็บไซต์เพื่อระบุตัวตนของผู้ใช้เช่น "gamer หนุ่มสาว" หรือ "อยู่กับแม่ที่บ้าน" ฉันแนบภาพตัวอย่างดังต่อไปนี้: มีการรวมหมวดหมู่ที่ไม่ซ้ำกันปี 1940 และคำหลักที่ไม่ซ้ำกัน 13845 รายการสำหรับผลิตภัณฑ์ สำหรับเว็บไซต์มีคำค้นหาที่ไม่ซ้ำ 13063 รายการ ชุดข้อมูลทั้งหมดมีขนาดใหญ่มากเนื่องจากเป็นข้อมูลการบันทึกประจำวัน ฉันกำลังคิดถึงการจัดกลุ่มเนื่องจากไม่มีการสำรอง แต่ ID เหล่านั้นเป็นหมายเลขการสั่งซื้อที่ไม่มีความหมายเชิงตัวเลข ถ้าอย่างนั้นฉันก็ไม่รู้วิธีการใช้อัลกอริทึม ฉันยังคิดถึงการจำแนกประเภท ถ้าฉันเพิ่มคอลัมน์ของคลาสตามจำนวนยอดขายของผลิตภัณฑ์ที่ซื้อ ฉันคิดว่าการรวมกลุ่มเป็นที่ต้องการมากกว่า ฉันไม่ทราบว่าอัลกอริทึมแบบใดที่ฉันควรใช้ในกรณีนี้เนื่องจากขนาดของรหัสคำหลักอาจมากกว่า 10,000 รายการ (แต่ละผลิตภัณฑ์อาจมีคำหลักจำนวนมากเช่นเว็บไซต์จะ) ฉันจำเป็นต้องใช้ Spark สำหรับโครงการนี้ ใครสามารถช่วยฉันด้วยความคิดหรือข้อเสนอแนะ? ขอบคุณมาก!

2
แบบจำลองการจำแนกประเภทไบนารีสำหรับข้อมูลที่ไม่สมดุล
ฉันมีชุดข้อมูลที่มีข้อกำหนดต่อไปนี้: ชุดข้อมูลการฝึกอบรมที่มีตัวอย่าง 193,176 ตัวอย่างมีผลบวก 2,821 รายการ ชุดข้อมูลทดสอบ 82,887 ตัวอย่างที่มีผลบวก 673 รายการ มี 10 คุณสมบัติ ฉันต้องการทำการจำแนกเลขฐานสอง (0 หรือ 1) ปัญหาที่ฉันเผชิญคือข้อมูลไม่สมดุลมาก หลังจากการทำให้เป็นมาตรฐานและปรับขนาดข้อมูลพร้อมกับคุณสมบัติทางวิศวกรรมบางอย่างและการใช้อัลกอริธึมที่แตกต่างกันสองสามอย่างนี่เป็นผลลัพธ์ที่ดีที่สุดที่ฉันสามารถทำได้: mean square error : 0.00804710026904 Confusion matrix : [[82214 667] [ 0 6]] นั่นคือเพียง 6 การค้นพบในเชิงบวกที่ถูกต้อง นี่คือการใช้การถดถอยโลจิสติก นี่คือสิ่งต่าง ๆ ที่ฉันลองด้วย: อัลกอริทึมที่แตกต่างกันเช่น RandomForest, DecisionTree, SVM การเปลี่ยนค่าพารามิเตอร์เพื่อเรียกใช้ฟังก์ชัน คุณสมบัติทางวิศวกรรมตามสัญชาตญาณเพื่อรวมเอาคุณสมบัติที่รวมเข้าด้วยกัน ตอนนี้คำถามของฉันคือ: ฉันจะทำอย่างไรเพื่อปรับปรุงจำนวนครั้งการค้นหาที่เป็นค่าบวก เราจะตัดสินได้อย่างไรว่ามีกรณีเกินจริงในกรณีเช่นนี้? (ฉันได้ลองพล็อตและอื่น …

1
วิธีจัดการกับปัจจัยศูนย์ในการคำนวณลักษณนาม Naive Bayes?
ถ้าฉันมีชุดข้อมูลการฝึกอบรมและฉันฝึกตัวจําแนก Naive Bayes บนมันและฉันมีค่าคุณลักษณะที่มีความน่าจะเป็นศูนย์ ฉันจะจัดการสิ่งนี้ได้อย่างไรหากฉันต้องการทำนายการจัดประเภทของข้อมูลใหม่ในภายหลัง ปัญหาคือถ้ามีศูนย์ในการคำนวณผลิตภัณฑ์ทั้งหมดจะกลายเป็นศูนย์ไม่ว่าจะมีค่าอื่น ๆ อีกกี่ค่าที่ฉันได้รับซึ่งอาจจะหาวิธีแก้ไขปัญหาอื่นได้ ตัวอย่าง: P( x | s p a m = ye s ) = P( Tฉันm e Zo n e = US| spam=yE s )⋅ P( G e o L o c a t i o n = E)ยู| spam=yE s ) ⋅ …

1
ความแตกต่างระหว่างการสร้างคุณลักษณะและการแยกคุณสมบัติคืออะไร?
ใครช่วยบอกฉันได้ว่าจุดประสงค์ของการสร้างคุณลักษณะคืออะไร และเหตุใดจึงต้องเพิ่มพื้นที่ของฟีเจอร์ก่อนจัดประเภทรูปภาพ มันเป็นขั้นตอนที่จำเป็น? มีวิธีใดบ้างในการเพิ่มพื้นที่คุณลักษณะ?

3
วิธีที่ดีที่สุดในการจำแนกชุดข้อมูลที่มีแอตทริบิวต์หลายประเภท
ฉันอยากจะรู้ว่าอะไรคือวิธีที่ดีที่สุดในการจำแนกชุดข้อมูลที่ประกอบด้วยคุณลักษณะหลายประเภทเช่นข้อความและตัวเลข ฉันรู้ว่าฉันสามารถแปลงข้อความเป็นบูลีนได้ แต่คำศัพท์นั้นมีความหลากหลายและข้อมูลก็เบาบางเกินไป ฉันพยายามจำแนกประเภทของคุณลักษณะแยกจากกันและรวมผลลัพธ์เข้ากับเทคนิคการเรียนรู้เมตา แต่มันก็ใช้งานไม่ได้

2
ทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล?
ฉันต้องรู้ว่าทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล ฉันรู้วิธีจัดการกับมันและวิธีการที่แตกต่างกันในการแก้ปัญหาซึ่งคือการสุ่มตัวอย่างขึ้นหรือการสุ่มตัวอย่างหรือโดยใช้ Smote ตัวอย่างเช่นถ้าฉันมีโรคหายาก 1 เปอร์เซ็นต์จาก 100 และให้บอกว่าฉันตัดสินใจที่จะมีชุดข้อมูลที่สมดุลสำหรับชุดฝึกอบรมของฉันซึ่งก็คือ: ตัวอย่าง 50/50 จะไม่ทำให้เครื่องคิดว่า 50% ของผู้ป่วยจะมี โรค? แม้ว่าอัตราส่วนคือ 1 จาก 100 ดังนั้น ทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล? อัตราส่วนที่แนะนำให้มีการตั้งค่าสมดุลคืออะไร

3
วิธีการใช้ RBM สำหรับการจำแนกประเภท?
ในขณะที่ฉันกำลังเล่นกับ Restricted Boltzmann Machines และเมื่อฉันอยู่ที่จุดนั้นฉันต้องการที่จะจำแนกตัวเลขที่เขียนด้วยลายมือด้วย ตอนนี้โมเดลที่ฉันสร้างเป็นแบบจำลองกำเนิดที่ค่อนข้างแฟนซี แต่ฉันไม่รู้จะทำอย่างไรต่อไป ในบทความนี้ผู้เขียนบอกว่าหลังจากสร้างตัวแบบกำเนิดที่ดีหนึ่ง " แล้วฝึกลักษณนามจำแนก (เช่นลักษณนามเชิงเส้นเครื่องเวกเตอร์สนับสนุน) ด้านบนของ RBM โดยใช้ตัวอย่างที่มีข้อความ " และรัฐต่อไป " เนื่องจากคุณเผยแพร่ เวกเตอร์ข้อมูลไปยังหน่วยที่ซ่อนอยู่ของโมเดล RBM เพื่อรับเวกเตอร์หน่วยที่ซ่อนอยู่หรือการแสดงข้อมูลในระดับที่สูงขึ้น " ปัญหาคือว่าฉันไม่แน่ใจว่าฉันได้รับที่ถูกต้อง นั่นหมายความว่าทั้งหมดที่ฉันต้องทำคือแพร่กระจายข้อมูลไปยังหน่วยที่ซ่อนอยู่และฉันมีคุณสมบัติ RBM ของฉันสำหรับการจัดหมวดหมู่ ใครสามารถอธิบายขั้นตอนนี้ให้ฉันได้บ้าง

1
จำแนกลูกค้าตามคุณสมบัติ 2 อย่างและช่วงเวลาของเหตุการณ์
ฉันต้องการความช่วยเหลือในขั้นตอนต่อไปของฉันในขั้นตอนวิธีที่ฉันออกแบบ เนื่องจาก NDA ฉันไม่สามารถเปิดเผยได้มากนัก แต่ฉันจะพยายามเข้าใจและเข้าใจได้ทั่วไป โดยทั่วไปหลังจากหลายขั้นตอนในอัลกอริทึมฉันมีสิ่งนี้: สำหรับลูกค้าแต่ละรายที่ฉันมีและกิจกรรมที่ทำในช่วงเดือนแรกในช่วงแรกฉันได้จัดกลุ่มเหตุการณ์เป็นหลายหมวดหมู่ (ลูกค้าแต่ละรายจะมีเหตุการณ์แยกออกเป็นหมวดหมู่ที่แยกจาก 1 เป็น x เป็น x ระหว่าง 1 ถึง 25 โดยทั่วไปประเภทแรกจะมีความหนาแน่นของกิจกรรมมากกว่าประเภทอื่น) สำหรับแต่ละหมวดหมู่และลูกค้าฉันได้สร้างอนุกรมเวลารวมเหตุการณ์ของเดือนต่อชั่วโมง (รับรูปแบบของเมื่อเหตุการณ์เหล่านี้เสร็จสิ้น) นอกจากนี้ฉันกำลังใช้ตัวแปร normalizing สองสามตัวตามจำนวนวันในหนึ่งเดือน (30 วัน) ที่ผู้ชายทำกิจกรรมอย่างน้อยหนึ่งเหตุการณ์และจำนวนวันที่มีเหตุการณ์อย่างน้อยหนึ่งเหตุการณ์ในจำนวนวันอย่างน้อยหนึ่งเหตุการณ์ เหตุการณ์ (รวมกลุ่มทั้งหมด) คนแรกให้ฉันอัตราส่วนของการใช้งานของลูกค้าในช่วงเดือนและที่สองน้ำหนักหมวดหมู่กับคนอื่น ๆ ตารางสุดท้ายมีลักษณะเช่นนี้ |*Identifier*| *firstCat* | *feature1* | *feature2* | { *(TIME SERIES)* } CustomerID | ClusterID | DaysOver30 | DaysOverTotal | …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.