วิทยาศาสตร์ข้อมูล classification

3

ฉันจะจัดประเภทเอกสารข้อความที่ไม่มีโครงสร้างนั่นคือเว็บไซต์ที่มีโครงสร้างที่ไม่รู้จัก จำนวนชั้นเรียนที่ฉันกำลังจำแนกมี จำกัด (ณ จุดนี้ฉันเชื่อว่ามีไม่เกินสาม) ใครบ้างมีข้อเสนอแนะสำหรับวิธีฉันอาจเริ่มต้น? "คำพูด" เป็นไปได้หรือไม่? หลังจากนั้นฉันสามารถเพิ่มขั้นตอนการจัดหมวดหมู่อื่นตามโครงสร้างของเอกสาร (อาจเป็นแผนผังการตัดสินใจ) ฉันค่อนข้างคุ้นเคยกับ Mahout และ Hadoop ดังนั้นฉันจึงชอบโซลูชันที่ใช้ Java หากจำเป็นฉันสามารถเปลี่ยนเป็น Scala และ / หรือ Spark engine (ห้องสมุด ML)

12 machine-learning classification text-mining beginner

2

ข้อมูลความเชื่อมั่นสำหรับ Emoji

สำหรับการทดลองเราต้องการใช้Emoji ที่ฝังอยู่ในทวีตจำนวนมากเพื่อเป็นข้อมูลจริง / การฝึกอบรมสำหรับการวิเคราะห์เชิงปริมาณอย่างง่าย ทวีตมักจะไม่มีโครงสร้างเกินกว่าที่ NLP จะทำงานได้ดี อย่างไรก็ตามมี 722 Emoji ใน Unicode 6.0 และอาจเพิ่ม 250 อีกอันใน Unicode 7.0 มีฐานข้อมูล (เช่น SentiWordNet) ที่มีหมายเหตุประกอบไว้สำหรับพวกเขาหรือไม่? (โปรดทราบว่า SentiWordNet อนุญาตสำหรับความหมายที่ไม่ชัดเจนเช่นกันพิจารณาเช่นตลกซึ่งไม่เพียง แต่เป็นบวก: "รสชาตินี้ตลก" อาจไม่เป็นบวก ... เช่นเดียวกันจะถือ;-)เป็นตัวอย่าง แต่ฉันไม่คิดว่ามันยากกว่า สำหรับ Emoji มากกว่าสำหรับคำปกติ ... ) นอกจากนี้หากคุณมีประสบการณ์ในการใช้พวกเขาสำหรับการวิเคราะห์ความเชื่อมั่นฉันก็อยากจะได้ยิน

12 machine-learning classification parsing

3

การวัดประสิทธิภาพของตัวแยกประเภทที่แตกต่างกันด้วยขนาดตัวอย่างที่แตกต่าง

ขณะนี้ฉันใช้ตัวแยกประเภทที่แตกต่างกันหลายรายการในเอนทิตีต่าง ๆ ที่ดึงมาจากข้อความและใช้ความแม่นยำ / การเรียกคืนเพื่อสรุปว่าตัวแยกประเภทแต่ละตัวนั้นทำงานได้ดีเพียงใดในชุดข้อมูลที่กำหนด ฉันสงสัยว่ามีวิธีที่มีความหมายในการเปรียบเทียบประสิทธิภาพของตัวแยกประเภทเหล่านี้ในลักษณะที่คล้ายกัน แต่ยังคำนึงถึงจำนวนรวมของแต่ละเอนทิตีในข้อมูลทดสอบที่ถูกจัดประเภทหรือไม่ ขณะนี้ฉันกำลังใช้ความแม่นยำ / การเรียกคืนเป็นตัวชี้วัดประสิทธิภาพดังนั้นอาจมีสิ่งต่อไปนี้: Precision Recall Person classifier 65% 40% Company classifier 98% 90% Cheese classifier 10% 50% Egg classifier 100% 100% อย่างไรก็ตามชุดข้อมูลที่ฉันใช้งานอาจมีคน 100k บริษัท 5k ชีส 500 ตัวและไข่ 1 ฟอง ดังนั้นมีสถิติสรุปที่ฉันสามารถเพิ่มลงในตารางด้านบนซึ่งคำนึงถึงจำนวนทั้งหมดของแต่ละรายการด้วยหรือไม่ หรือมีวิธีการวัดความจริงที่ว่าเช่น 100% prec / rec บนลักษณนามไข่อาจไม่มีความหมายกับรายการข้อมูลเพียง 1 รายการ? สมมติว่าเรามีตัวแยกประเภทหลายร้อยตัวฉันคิดว่าฉันกำลังมองหาวิธีที่ดีในการตอบคำถามเช่น "ตัวแยกประเภทใดที่มีประสิทธิภาพต่ำกว่า" ตัวแยกประเภทใดที่ขาดข้อมูลทดสอบเพียงพอที่จะบอกได้ว่าพวกมันมีประสิทธิภาพต่ำกว่าหรือไม่ "

12 classification performance

1

ความแตกต่างระหว่างวิธีการบีบอัดข้อมูลทั่วโลกและสากลคืออะไร?

ฉันเข้าใจว่าวิธีการบีบอัดอาจแบ่งออกเป็นสองชุดหลัก: ทั่วโลก ในประเทศ ชุดแรกทำงานโดยไม่คำนึงถึงข้อมูลที่กำลังประมวลผลกล่าวคือพวกมันไม่ได้อาศัยคุณสมบัติใด ๆ ของข้อมูลจึงไม่จำเป็นต้องทำการประมวลผลล่วงหน้าในส่วนใด ๆ ของชุดข้อมูล (ก่อนการบีบอัดเอง) ในขณะที่วิธีการในท้องถิ่นวิเคราะห์ข้อมูลการแยกข้อมูลที่มักจะปรับปรุงอัตราการบีบอัด ในขณะที่อ่านเกี่ยวกับวิธีการเหล่านี้บางอย่างฉันสังเกตเห็นว่าวิธีการที่ไม่เป็นเอกเทศนั้นไม่เป็นสากลซึ่งทำให้ฉันประหลาดใจเนื่องจากฉันคิดว่า วิธีเอกภาพไม่ได้ขึ้นอยู่กับลักษณะของข้อมูลเพื่อให้เกิดการเข้ารหัส (เช่นเป็นวิธีสากล) และดังนั้นจึงควรเป็นสากล / สากลใช่ไหม? คำถามหลักของฉัน: ความแตกต่างระหว่างวิธีสากลและสากลคืออะไร? คำพ้องความหมายของการจำแนกประเภทเหล่านี้ไม่ใช่

12 classification algorithms encoding

1

ฉันควรใช้เซลล์ LSTM กี่เซลล์

มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

วิธีการคำนวณขนาด VC?

ฉันกำลังเรียนรู้การเรียนรู้ของเครื่องและฉันอยากจะรู้วิธีการคำนวณ VC-dimension ตัวอย่างเช่น: h(x)={10if a≤x≤belse h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} ( a , b ) ∈ R 2พร้อมพารามิเตอร์ .(a,b)∈R2(a,b)∈R2(a,b) ∈ R^2 มิติ VC ของมันคืออะไร?

12 machine-learning classification vc-theory

4

หลักการมีดโกนของ Occam จะทำงานอย่างไรในการเรียนรู้ของเครื่อง

คำถามต่อไปนี้ที่ปรากฏในภาพถูกถามในระหว่างการสอบเมื่อเร็ว ๆ นี้ ฉันไม่แน่ใจว่าฉันเข้าใจหลักการมีดโกนของ Occam หรือไม่ ตามการแจกแจงและขอบเขตการตัดสินใจที่กำหนดไว้ในคำถามและตามด้วยมีดโกนของ Occam ขอบเขตการตัดสินใจ B ในทั้งสองกรณีควรเป็นคำตอบ เนื่องจากตาม Razor ของ Occam ให้เลือกตัวแยกประเภทที่ง่ายกว่าซึ่งทำงานได้ดีแทนที่จะซับซ้อน ใครบางคนโปรดเป็นพยานถ้าความเข้าใจของฉันถูกต้องและคำตอบที่เลือกนั้นเหมาะสมหรือไม่? โปรดช่วยด้วยเพราะฉันเป็นเพียงผู้เริ่มต้นในการเรียนรู้ของเครื่อง

11 machine-learning classification

3

มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?

ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

ใช้ลักษณนาม CNN ที่ผ่านการฝึกอบรมมาแล้วและนำไปใช้กับชุดข้อมูลภาพอื่น

คุณจะปรับการฝึกอบรม neural networkให้เหมาะสมเพื่อนำไปใช้กับปัญหาแยกกันอย่างไร คุณจะเพิ่มเลเยอร์เพิ่มเติมให้กับโมเดลที่ผ่านการฝึกอบรมมาแล้วและทดสอบในชุดข้อมูลของคุณหรือไม่ ตัวอย่างเช่นถ้างานนั้นใช้CNNเพื่อจัดกลุ่มวอลเปเปอร์ฉันแน่ใจว่ามันจะไม่ทำงานโดยตรงในการจำแนกเครือข่ายที่ผ่านการฝึกอบรมมาก่อนในการฝึกสอนเกี่ยวกับภาพแมวและสุนัขแม้ว่าทั้งสองจะเป็นตัวแยกรูปภาพ

11 neural-network deep-learning classification convnet

2

เมื่อไหร่ที่เราจะบอกว่าชุดข้อมูลนั้นไม่สามารถจำแนกได้?

ฉันมีการวิเคราะห์ชุดข้อมูลหลายครั้งซึ่งฉันไม่สามารถจำแนกประเภทได้ เพื่อดูว่าฉันจะได้ลักษณนามฉันมักจะใช้ขั้นตอนต่อไปนี้: สร้างพล็อตกล่องฉลากกับค่าตัวเลข ลดมิติเป็น 2 หรือ 3 เพื่อดูว่าคลาสแยกออกจากกันได้หรือไม่ลอง LDA ในบางครั้ง พยายามปรับให้เหมาะสมกับ SVM และป่าสุ่มและดูความสำคัญของฟีเจอร์เพื่อดูว่าคุณสมบัตินั้นเหมาะสมหรือไม่ ลองเปลี่ยนความสมดุลของคลาสและเทคนิคต่าง ๆ เช่นการสุ่มตัวอย่างต่ำเกินไปและการสุ่มตัวอย่างมากเกินไปเพื่อตรวจสอบว่าความไม่สมดุลของคลาสอาจเป็นปัญหาหรือไม่ มีวิธีอื่นอีกมากมายที่ฉันนึกได้ แต่ยังไม่ได้ลอง บางครั้งฉันรู้ว่าคุณสมบัติเหล่านี้ไม่ดีและไม่เกี่ยวข้องกับป้ายกำกับที่เราพยายามคาดการณ์ จากนั้นฉันก็ใช้สัญชาตญาณทางธุรกิจนั้นเพื่อยุติการฝึกโดยสรุปว่าเราต้องการคุณสมบัติที่ดีกว่าหรือป้ายกำกับที่ต่างออกไปโดยสิ้นเชิง คำถามของฉันคือนักวิทยาศาสตร์ข้อมูลรายงานว่าการจำแนกประเภทไม่สามารถทำได้ด้วยคุณสมบัติเหล่านี้ มีวิธีทางสถิติในการรายงานหรือปรับข้อมูลในอัลกอริทึมที่แตกต่างกันก่อนและการดูการตรวจสอบความถูกต้องเป็นตัวเลือกที่ดีที่สุดหรือไม่?

11 machine-learning classification deep-learning class-imbalance bayes-error

2

การจำแนกเอกสารโดยใช้โครงข่ายประสาทเทียม

ฉันพยายามใช้ CNN (เครือข่ายประสาทเทียม) เพื่อจัดประเภทเอกสาร ซีเอ็นเอ็นสำหรับข้อความสั้น ๆ / ประโยคได้รับการศึกษาในเอกสารจำนวนมาก อย่างไรก็ตามดูเหมือนว่าไม่มีเอกสารใดที่ใช้ CNN สำหรับข้อความหรือเอกสารที่ยาว ปัญหาของฉันคือมีฟีเจอร์มากมายจากเอกสาร ในชุดข้อมูลของฉันเอกสารแต่ละฉบับมีโทเค็นมากกว่า 1,000 รายการ / คำ ในการป้อนตัวอย่างแต่ละตัวให้กับ CNN ฉันแปลงเอกสารแต่ละฉบับเป็นเมทริกซ์โดยใช้word2vecหรือถุงมือทำให้เกิดเมทริกซ์ขนาดใหญ่ สำหรับแต่ละเมทริกซ์ความสูงคือความยาวของเอกสารและความกว้างคือขนาดของคำที่ฝังเวกเตอร์ ชุดข้อมูลของฉันมีตัวอย่างมากกว่า 9000 ตัวอย่างและใช้เวลานานในการฝึกอบรมเครือข่าย (ทั้งสัปดาห์) ซึ่งทำให้ยากต่อการปรับแต่งพารามิเตอร์ วิธีการแยกคุณสมบัติอื่นคือการใช้เวกเตอร์หนึ่งคำสำหรับแต่ละคำศัพท์ แต่สิ่งนี้จะสร้างเมทริกซ์ที่กระจัดกระจายมาก และแน่นอนว่าวิธีนี้ใช้เวลาในการฝึกฝนมากกว่าวิธีก่อนหน้า ดังนั้นจะมีวิธีที่ดีกว่าสำหรับการแยกฟีเจอร์โดยไม่ต้องสร้างเมทริกซ์อินพุตขนาดใหญ่หรือไม่? แล้วเราจะจัดการกับความยาวของตัวแปรได้อย่างไร? ขณะนี้ฉันเพิ่มสตริงพิเศษเพื่อให้เอกสารมีความยาวเท่ากัน แต่ฉันไม่คิดว่ามันเป็นทางออกที่ดี

11 classification neural-network text-mining convnet word2vec

3

คลาสที่ไม่สมดุล - วิธีการลดเชิงลบที่ผิดพลาดให้น้อยที่สุดได้อย่างไร

ฉันมีชุดข้อมูลที่มีคุณลักษณะคลาสไบนารี มีอินสแตนซ์ 623 คลาส +1 (บวกมะเร็ง) และ 101,671 อินสแตนซ์กับคลาส -1 (ลบมะเร็ง) ฉันได้ลองอัลกอริธึมที่หลากหลาย (Naive Bayes, Random Forest, AODE, C4.5) และทั้งหมดนั้นมีอัตราส่วนลบติดลบที่ยอมรับไม่ได้ ป่าสุ่มมีความแม่นยำในการทำนายโดยรวมสูงสุด (99.5%) และอัตราส่วนลบติดลบต่ำสุด แต่ก็ยังพลาด 79% ของคลาสบวก (เช่นไม่สามารถตรวจจับ 79% ของเนื้องอกมะเร็ง) ความคิดใดที่ฉันสามารถปรับปรุงสถานการณ์นี้ได้? ขอบคุณ!

11 classification random-forest decision-trees unbalanced-classes

3

สร้างตัวจําแนกไบนารีด้วยข้อมูลเชิงบวกและไม่มีป้ายกำกับเท่านั้น

ฉันมี 2 ชุดข้อมูลหนึ่งชุดมีอินสแตนซ์ที่เป็นบวกของสิ่งที่ฉันต้องการตรวจจับและอีกชุดมีอินสแตนซ์ที่ไม่มีชื่อ ฉันสามารถใช้วิธีการใดได้บ้าง? ตัวอย่างเช่นสมมติว่าเราต้องการทำความเข้าใจการตรวจจับอีเมลขยะโดยดูจากลักษณะโครงสร้างอีเมลบางส่วน เรามีหนึ่งชุดของอีเมลสแปม 10,000 ชุดและหนึ่งชุดของอีเมล 100,000 ชุดที่เราไม่ทราบว่าเป็นสแปมหรือไม่ เราจะแก้ไขปัญหานี้ได้อย่างไร (โดยไม่ต้องติดป้ายกำกับใด ๆ ของข้อมูลที่ไม่มีชื่อ) เราจะทำอย่างไรถ้าเรามีข้อมูลเพิ่มเติมเกี่ยวกับสัดส่วนของสแปมในข้อมูลที่ไม่มีป้ายกำกับ (เช่นถ้าเราประเมินว่าระหว่าง 20-40% ของอีเมลที่ไม่มีป้ายกำกับ 100000 รายการเป็นจดหมายขยะ)

11 classification semi-supervised-learning

4

อัลกอริทึมสำหรับสร้างกฎการจำแนกประเภท

ดังนั้นเราจึงมีศักยภาพสำหรับแอปพลิเคชันการเรียนรู้ของเครื่องที่เหมาะสมอย่างเป็นธรรมกับโดเมนปัญหาดั้งเดิมที่แก้ไขโดยตัวแยกประเภทคือเรามีชุดของคุณลักษณะที่อธิบายรายการและ "ถัง" ที่พวกเขาลงเอยอย่างไรก็ตามแทนที่จะสร้างแบบจำลอง ของความน่าจะเป็นเช่น Naive Bayes หรือตัวแยกประเภทที่คล้ายกันเราต้องการให้ผลลัพธ์ของเราเป็นชุดของกฎที่มนุษย์สามารถอ่านได้ซึ่งสามารถตรวจสอบและแก้ไขได้โดยผู้ใช้ปลายทาง การเรียนรู้กฎของสมาคมดูเหมือนว่าตระกูลของอัลกอริทึมที่แก้ปัญหาประเภทนี้ แต่อัลกอริธึมเหล่านี้ดูเหมือนจะมุ่งเน้นไปที่การระบุชุดค่าผสมทั่วไปของคุณลักษณะและไม่รวมแนวคิดของที่เก็บข้อมูลสุดท้ายที่คุณลักษณะเหล่านั้นอาจชี้ไป ตัวอย่างเช่นชุดข้อมูลของเรามีลักษณะดังนี้: Item A { 4-door, small, steel } => { sedan } Item B { 2-door, big, steel } => { truck } Item C { 2-door, small, steel } => { coupe } ฉันแค่ต้องการกฎที่บอกว่า "ถ้ามันใหญ่และ 2 ประตูเป็นรถบรรทุก" ไม่ใช่กฎที่บอกว่า "ถ้าเป็น 4 …

11 machine-learning classification

3

การถดถอยแบบใดที่ใช้ในการคำนวณผลการเลือกตั้งในระบบหลายส่วน?

ฉันต้องการทำนายผลการเลือกตั้งรัฐสภา ผลลัพธ์ของฉันจะเป็น% ที่แต่ละฝ่ายได้รับ มีมากกว่า 2 ฝ่ายดังนั้นการถดถอยโลจิสติกจึงไม่ใช่ตัวเลือกที่เหมาะสม ฉันสามารถสร้างความถดถอยแยกกันสำหรับแต่ละฝ่าย แต่ในกรณีนั้นผลลัพธ์จะเป็นไปอย่างอิสระจากกัน มันจะไม่แน่ใจว่าผลรวมของผลลัพธ์จะเป็น 100% ฉันควรใช้การถดถอยแบบใด (หรือวิธีการอื่น) เป็นไปได้หรือไม่ที่จะใช้วิธีนี้ใน R หรือ Python ผ่านไลบรารี่เฉพาะ

11 classification r python regression predictive-modeling

คำถามติดแท็ก classification