วิทยาศาสตร์ข้อมูล machine-learning

6

ในการเรียนรู้แบบมีผู้สอนเหตุใดจึงไม่ดีที่จะมีคุณลักษณะที่สัมพันธ์กัน

ฉันอ่านที่ไหนสักแห่งว่าถ้าเรามีฟีเจอร์ที่สัมพันธ์กันมากเกินไปเราต้องลบออกเพราะมันอาจทำให้โมเดลแย่ลง เป็นที่ชัดเจนว่าฟีเจอร์ที่สัมพันธ์กันหมายความว่าพวกเขานำข้อมูลเดียวกันมาดังนั้นจึงเป็นการลบตรรกะอย่างใดอย่างหนึ่ง แต่ฉันไม่สามารถเข้าใจว่าทำไมสิ่งนี้ถึงทำให้รูปแบบแย่ลง

35 machine-learning correlation

6

คำอธิบายการสูญเสียข้ามเอนโทรปี

สมมติว่าฉันสร้าง NN สำหรับการจัดหมวดหมู่ ชั้นสุดท้ายเป็นชั้นหนาแน่นด้วยการเปิดใช้งาน softmax ฉันมีห้าคลาสที่แตกต่างกันเพื่อจัดประเภท สมมติว่าสำหรับการฝึกอบรมเช่นเดียวtrue labelคือในขณะที่การคาดการณ์จะเป็น[1 0 0 0 0] [0.1 0.5 0.1 0.1 0.2]ฉันจะคำนวณการสูญเสียเอนโทรปีของตัวอย่างนี้ได้อย่างไร

35 machine-learning deep-learning

1

ความแตกต่างระหว่าง "หนาแน่น" และ "เวลากระจาย" ของ Keras`

ฉันยังคงสับสนเกี่ยวกับความแตกต่างระหว่างDenseและTimeDistributedDenseของKerasแม้ว่าจะมีอยู่แล้วบางคำถามที่คล้ายกันถามที่นี่และที่นี่ ผู้คนกำลังพูดคุยกันมากมาย แต่ไม่มีข้อสรุปที่ตกลงร่วมกัน และถึงแม้ว่าที่นี่ @fchollet ระบุว่า: TimeDistributedDenseใช้การดำเนินการเดียวกันDense(เชื่อมต่อแบบเต็ม) กับทุกการประทับเวลาของ 3D tensor ฉันยังต้องการภาพประกอบโดยละเอียดเกี่ยวกับความแตกต่างระหว่างพวกเขา

34 machine-learning neural-network keras

5

อะไรคือวิธีมาตรฐานในการคำนวณระยะห่างระหว่างเอกสาร

เมื่อฉันพูดว่า "เอกสาร" ฉันนึกถึงหน้าเว็บต่างๆเช่นบทความ Wikipedia และเรื่องข่าว ฉันต้องการคำตอบที่ให้ทั้งตัวชี้วัดระยะทางวานิลลาคำศัพท์หรือตัวชี้วัดระยะทางความหมายรัฐของศิลปะที่มีการตั้งค่าที่แข็งแกร่งสำหรับหลัง

34 machine-learning data-mining nlp text-mining similarity

5

Deep Learning vs gradient boosting: เมื่อไรที่จะใช้อะไร

ฉันมีปัญหาข้อมูลขนาดใหญ่กับชุดข้อมูลขนาดใหญ่ (ใช้เวลา 50 ล้านแถวและ 200 คอลัมน์) ชุดข้อมูลประกอบด้วยคอลัมน์ตัวเลขประมาณ 100 คอลัมน์และคอลัมน์หมวด 100 คอลัมน์และคอลัมน์ตอบกลับที่แสดงถึงปัญหาระดับไบนารี ความสำคัญของแต่ละคอลัมน์ที่มีค่าน้อยกว่า 50 ฉันต้องการรู้เบื้องต้นว่าฉันควรจะไปเรียนรู้วิธีการเรียนรู้แบบลึกหรือวิธีการเรียนรู้ด้วยต้นไม้ทั้งมวล (เช่นการไล่ระดับสีไล่ระดับ, adaboost หรือป่าสุ่ม) มีการวิเคราะห์ข้อมูลเชิงสำรวจหรือเทคนิคอื่น ๆ ที่สามารถช่วยฉันตัดสินใจเลือกวิธีหนึ่งมากกว่าวิธีอื่นได้หรือไม่?

30 machine-learning classification deep-learning

5

ฟังก์ชั่นถามคืออะไรและฟังก์ชั่น V ในการเรียนรู้การเสริมแรงคืออะไร?

สำหรับฉันแล้วดูเหมือนว่าฟังก์ชั่นสามารถแสดงออกได้อย่างง่ายดายด้วยฟังก์ชั่นและทำให้ฟังก์ชั่นดูเหมือนจะไม่จำเป็นสำหรับฉัน อย่างไรก็ตามฉันใหม่เพื่อเสริมการเรียนรู้ดังนั้นฉันคิดว่าฉันมีบางอย่างผิดปกติVVVQQQVVV คำนิยาม Q- และ V-การเรียนรู้อยู่ในบริบทของมาร์คอฟกระบวนการตัดสินใจ MDPเป็น 5 tupleด้วย(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) SSSคือชุดของสถานะ (โดยทั่วไปจะ จำกัด ) AAAคือชุดของการกระทำ (โดยทั่วไป จำกัด ) s s ′ aP(s,s′,a)=P(st+1=s′|st=s,at=a)P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)ความน่าจะเป็นที่จะได้รับจากรัฐไปยังรัฐด้วยการกระทำssss′s′s'aaa s s ′ a s ′R(s,s′,a)∈RR(s,s′,a)∈RR(s, s', a) \in \mathbb{R}เป็นรางวัลที่ได้ทันทีหลังจากที่ไปจากรัฐไปยังรัฐด้วยการกระทำ (สำหรับฉันดูเหมือนว่าโดยทั่วไปมักเรื่องของ)ssss′s′s'aaas′s′s' γ …

30 machine-learning reinforcement-learning

3

ในตัวแยกประเภท softmax ทำไมต้องใช้ฟังก์ชั่น exp เพื่อทำให้เป็นมาตรฐาน?

เหตุใดจึงต้องใช้ softmax เมื่อเทียบกับการปรับมาตรฐาน ในพื้นที่แสดงความคิดเห็นของคำตอบยอดนิยมของคำถามนี้ @Kilian Batzner ยกคำถาม 2 ข้อซึ่งทำให้ฉันสับสนมาก ดูเหมือนว่าไม่มีใครให้คำอธิบายยกเว้นผลประโยชน์เชิงตัวเลข ฉันได้รับเหตุผลในการใช้ Cross-Entropy Loss แต่นั่นเกี่ยวข้องกับ softmax อย่างไร คุณกล่าวว่า "ฟังก์ชั่น softmax สามารถมองเห็นได้ว่าพยายามลดการข้ามเอนโทรปีระหว่างการทำนายและความจริง" สมมติว่าฉันจะใช้การทำให้เป็นมาตรฐาน / เชิงเส้น แต่ยังคงใช้การสูญเสียข้าม จากนั้นฉันก็จะพยายามลด Cross-Entropy ดังนั้น softmax จะเชื่อมโยงกับ Cross-Entropy อย่างไรเพื่อประโยชน์ด้านตัวเลข? สำหรับมุมมองความน่าจะเป็น: อะไรคือแรงจูงใจในการดูความน่าจะเป็นของบันทึก เหตุผลดูเหมือนจะเป็นแบบ "เราใช้ e ^ x ใน softmax เพราะเราตีความว่า x เป็นความน่าจะเป็นบันทึก" ด้วยเหตุผลเดียวกับที่เราสามารถพูดได้เราใช้ e ^ e ^ e ^ …

30 machine-learning deep-learning

7

ทำไมข้อมูลควรถูกสับสำหรับการเรียนรู้ของเครื่อง

ในงานการเรียนรู้ของเครื่องเป็นเรื่องปกติที่จะสับเปลี่ยนข้อมูลและทำให้เป็นมาตรฐาน วัตถุประสงค์ของการทำให้เป็นมาตรฐานมีความชัดเจน (สำหรับการมีช่วงของค่าคุณลักษณะเดียวกัน) แต่หลังจากที่ต้องดิ้นรนมากฉันไม่พบเหตุผลที่มีค่าสำหรับการสับข้อมูล ฉันได้อ่านบทความนี้ที่นี่พูดคุยเมื่อเราต้องการสับเปลี่ยนข้อมูล แต่ไม่ชัดเจนว่าทำไมเราควรสลับข้อมูล นอกจากนี้ฉันเห็นบ่อยในอัลกอริธึมเช่น Adam หรือ SGD ที่เราต้องการการไล่ระดับแบทช์ (ควรแยกข้อมูลออกเป็นชุดย่อยและต้องระบุขนาดแบทช์) มันมีความสำคัญตามโพสต์นี้เพื่อสลับข้อมูลสำหรับแต่ละยุคเพื่อให้มีข้อมูลที่แตกต่างกันสำหรับแต่ละชุด ดังนั้นข้อมูลอาจถูกสับเปลี่ยนและมีการเปลี่ยนแปลงที่สำคัญกว่า ทำไมเราทำเช่นนี้?

30 machine-learning neural-network deep-learning

1

ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?

ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

คู่มือฉบับย่อเกี่ยวกับการฝึกอบรมชุดข้อมูลที่มีความไม่สมดุลสูง

ฉันมีปัญหาการจัดหมวดหมู่โดยมี 1,000 ตัวอย่างบวกและลบ 10,000 ตัวอย่างในชุดการฝึกอบรม ดังนั้นชุดข้อมูลนี้จึงค่อนข้างไม่สมดุล ป่าสุ่มธรรมดา ๆ กำลังพยายามทำเครื่องหมายตัวอย่างการทดสอบทั้งหมดว่าเป็นเสียงส่วนใหญ่ คำตอบที่ดีเกี่ยวกับการสุ่มตัวอย่างย่อยและการสุ่มน้ำหนักป่ามีให้ที่นี่: อะไรคือความหมายของการฝึกอบรมชุดทรีด้วยชุดข้อมูลที่มีอคติสูง? วิธีการจำแนกประเภทใดนอกจาก RF สามารถจัดการปัญหาได้อย่างดีที่สุด?

29 machine-learning classification dataset unbalanced-classes

2

ความจริงจากพื้นดินคืออะไร

ในบริบทของการเรียนรู้ของเครื่องจักรฉันได้เห็นคำว่าGround Truthใช้บ่อยมาก ฉันค้นหามากและพบคำจำกัดความต่อไปนี้ในWikipedia : ในการเรียนรู้ของเครื่องจักรคำว่า "ความจริงพื้นฐาน" หมายถึงความแม่นยำของการจัดหมวดหมู่ของชุดฝึกอบรมสำหรับเทคนิคการเรียนรู้แบบมีผู้สอน สิ่งนี้ใช้ในแบบจำลองทางสถิติเพื่อพิสูจน์หรือพิสูจน์สมมติฐานการวิจัย คำว่า "ความจริงพื้นฐาน" หมายถึงกระบวนการรวบรวมข้อมูลที่เหมาะสม (พิสูจน์ได้) สำหรับการทดสอบนี้ เปรียบเทียบกับมาตรฐานทองคำ การกรองสแปมแบบเบย์เป็นตัวอย่างทั่วไปของการเรียนรู้แบบมีผู้สอน ในระบบนี้อัลกอริทึมได้รับการสอนด้วยตนเองถึงความแตกต่างระหว่างสแปมและไม่ใช่สแปม ทั้งนี้ขึ้นอยู่กับความจริงพื้นฐานของข้อความที่ใช้ในการฝึกอบรมอัลกอริทึม - ความไม่ถูกต้องในความจริงภาคพื้นดินจะสัมพันธ์กับความไม่ถูกต้องในการตัดสินผลสแปม / ไม่ใช่สแปม ประเด็นก็คือฉันไม่สามารถเข้าใจความหมายได้ นั่นคือเลเบลที่ใช้สำหรับแต่ละออบเจ็กต์ข้อมูลหรือฟังก์ชั่นเป้าหมายที่ให้เลเบลกับออบเจ็กต์ข้อมูลแต่ละอันหรืออาจเป็นอย่างอื่นหรือไม่?

29 machine-learning neural-network deep-learning

4

เมื่อใดที่จะใช้ Random Forest เหนือ SVM และในทางกลับกัน

เมื่อไหร่จะใช้Random Forestซ้ำSVMและในทางกลับกัน? ฉันเข้าใจว่าcross-validationและการเปรียบเทียบแบบจำลองเป็นสิ่งสำคัญในการเลือกแบบจำลอง แต่ที่นี่ฉันต้องการเรียนรู้เพิ่มเติมเกี่ยวกับกฎง่ายๆและการวิเคราะห์พฤติกรรมของทั้งสองวิธี บางคนช่วยอธิบายรายละเอียดปลีกย่อยจุดแข็งและจุดอ่อนของตัวแยกประเภทรวมทั้งปัญหาที่เหมาะสมที่สุดสำหรับแต่ละคนได้หรือไม่?

28 machine-learning classification random-forest svm

4

ฉันควรใช้อัลกอริทึมใดเพื่อจำแนกงานตามข้อมูลประวัติย่อ

โปรดทราบว่าฉันกำลังทำทุกอย่างในอาร์ ปัญหาเกิดขึ้นดังนี้: โดยทั่วไปฉันมีรายการเรซูเม่ (CVs) ผู้สมัครบางคนจะมีประสบการณ์การทำงานมาก่อนและบางคนไม่ เป้าหมายที่นี่คือ: ขึ้นอยู่กับข้อความในประวัติส่วนตัวของพวกเขาฉันต้องการแบ่งพวกเขาออกเป็นภาคงานที่แตกต่างกัน โดยเฉพาะอย่างยิ่งฉันในกรณีเหล่านี้ซึ่งผู้สมัครไม่มีประสบการณ์ใด ๆ / เป็นนักเรียนและฉันต้องการที่จะทำนายการจำแนกประเภทของงานที่ผู้สมัครคนนี้น่าจะเป็นหลังจบการศึกษา คำถามที่ 1: ฉันรู้อัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามฉันไม่เคยทำ NLP มาก่อน ฉันเจอการปันส่วน Dirichlet ของ Latent บนอินเทอร์เน็ต อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นวิธีที่ดีที่สุดในการแก้ไขปัญหาของฉันหรือไม่ ความคิดเดิมของฉัน: ทำให้การเรียนรู้นี้ภายใต้การดูแลปัญหา สมมติว่าเรามีข้อมูลที่มีป้ายกำกับจำนวนมากอยู่แล้วซึ่งหมายความว่าเรามีการติดป้ายชื่อหมวดงานให้ถูกต้องสำหรับรายชื่อผู้สมัคร เราฝึกอบรมแบบจำลองโดยใช้อัลกอริธึม ML (เช่นเพื่อนบ้านที่ใกล้ที่สุด ... ) และป้อนข้อมูลในข้อมูลที่ไม่มีป้ายกำกับซึ่งเป็นผู้สมัครที่ไม่มีประสบการณ์การทำงาน / เป็นนักเรียนและพยายามคาดการณ์ว่าพวกเขาจะอยู่ในภาคส่วนใด อัปเดต คำถามที่ 2: เป็นการดีหรือไม่ที่จะสร้างไฟล์ข้อความโดยแยกทุกอย่างในประวัติย่อและพิมพ์ข้อมูลเหล่านี้ออกมาในไฟล์ข้อความเพื่อให้แต่ละเรซูเม่เกี่ยวข้องกับไฟล์ข้อความซึ่งมีสตริงที่ไม่มีโครงสร้างและจากนั้นเรา นำเทคนิคการขุดข้อความไปใช้กับไฟล์ข้อความและทำให้ข้อมูลมีโครงสร้างหรือแม้กระทั่งการสร้างเมทริกซ์ความถี่ของคำที่ใช้จากไฟล์ข้อความ? ตัวอย่างเช่นไฟล์ข้อความอาจมีลักษณะดังนี้: I deployed ML algorithm in this project and... Skills: Java, …

28 machine-learning classification nlp text-mining

4

แบบจำลองควรได้รับการฝึกอบรมใหม่หรือไม่หากมีการสังเกตใหม่

ดังนั้นฉันไม่สามารถค้นหาวรรณกรรมใด ๆ ในเรื่องนี้ แต่ดูเหมือนว่ามีบางสิ่งที่ควรค่าแก่การคิด: อะไรคือวิธีปฏิบัติที่ดีที่สุดในการฝึกอบรมแบบจำลองและการปรับให้เหมาะสมถ้ามีการสังเกตใหม่ มีวิธีใดบ้างในการกำหนดระยะเวลา / ความถี่ของการฝึกอบรมรูปแบบใหม่ก่อนที่การคาดการณ์จะเริ่มลดลง? มันเกินความเหมาะสมหรือไม่หากพารามิเตอร์ได้รับการปรับให้เหมาะสมกับข้อมูลที่รวบรวมใหม่? โปรดทราบว่าการเรียนรู้อาจไม่จำเป็นต้องออนไลน์ อาจต้องการอัปเกรดโมเดลที่มีอยู่หลังจากสังเกตความแปรปรวนอย่างมีนัยสำคัญในการคาดการณ์ล่าสุด

28 machine-learning predictive-modeling optimization training

6

ความแตกต่างระหว่างพารามิเตอร์โมเดลและพารามิเตอร์โมเดลคืออะไร

ฉันได้พบว่าข้อตกลงดังกล่าวเป็นรูปแบบhyperparameterและรูปแบบพารามิเตอร์ที่ได้รับการใช้สลับกันบนเว็บโดยไม่ต้องชี้แจงก่อน ฉันคิดว่ามันไม่ถูกต้องและต้องการคำอธิบาย พิจารณารูปแบบการเรียนรู้ของเครื่องเครื่องมือแยกประเภทหรือตัวจำแนกภาพที่ใช้ SVM / NN / NB อะไรคือhyperparametersและพารามิเตอร์ของรูปแบบ? โปรดยกตัวอย่างของคุณ

28 machine-learning parameter hyperparameter language-model

คำถามติดแท็ก machine-learning