คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
การประมาณค่าความแปรปรวนในการตรวจสอบความถูกต้องข้ามของ k-fold
การตรวจสอบความถูกต้องไขว้ของ K-fold สามารถใช้เพื่อประเมินความสามารถในการวางนัยทั่วไปของลักษณนามที่กำหนด ฉันสามารถ (หรือฉันควร) คำนวณความแปรปรวนแบบพูลจากการตรวจสอบความถูกต้องทั้งหมดเพื่อให้ได้การประมาณความแปรปรวนที่ดีขึ้นหรือไม่ ถ้าไม่ทำไม ฉันได้พบเอกสารที่จะใช้ค่าเบี่ยงเบนมาตรฐาน pooled ข้ามการตรวจสอบข้ามวิ่ง ฉันยังได้พบเอกสารระบุชัดเจนมีไม่มีประมาณการสากลสำหรับการตรวจสอบความแปรปรวน อย่างไรก็ตามฉันยังพบเอกสารที่แสดงตัวประมาณค่าความแปรปรวนบางอย่างสำหรับข้อผิดพลาดทั่วไป (ฉันยังคงอ่านและพยายามเข้าใจสิ่งนี้) ผู้คนทำอะไร (หรือรายงาน) ในทางปฏิบัติจริง ๆ ? แก้ไข:เมื่อใช้ CV ในการวัดข้อผิดพลาดการจำแนกอย่างคร่าวๆ (นั่นคือตัวอย่างได้รับการติดฉลากอย่างถูกต้องหรือไม่มี; เช่นจริงหรือเท็จ) ดังนั้นจึงอาจไม่เหมาะสมที่จะพูดคุยเกี่ยวกับความแปรปรวนร่วม อย่างไรก็ตามฉันกำลังพูดถึงกรณีที่สถิติที่เรากำลังประเมินมีความแปรปรวนที่กำหนดไว้ ดังนั้นสำหรับการพับที่กำหนดเราสามารถจบลงด้วยค่าสำหรับสถิติและการประมาณค่าความแปรปรวน ดูเหมือนจะไม่ถูกต้องที่จะทิ้งข้อมูลนี้และพิจารณาเฉพาะสถิติเฉลี่ย และในขณะที่ฉันรู้ว่าฉันสามารถสร้างการประมาณค่าความแปรปรวนโดยใช้วิธีการ bootstrap (ถ้าฉันไม่ผิดมาก) การทำเช่นนั้นจะยังคงเพิกเฉยต่อความแปรปรวนแบบพับและใช้การประมาณการทางสถิติเพียงอย่างเดียวในการพิจารณา

3
จะตัดสินได้อย่างไรว่ารูปแบบการเรียนรู้ของเครื่องภายใต้การดูแลนั้นมากเกินไปหรือไม่?
ใครช่วยบอกฉันได้ว่าจะตัดสินว่ารูปแบบการเรียนรู้ของเครื่องภายใต้การดูแลนั้นมากเกินไปหรือไม่? หากฉันไม่มีชุดข้อมูลการตรวจสอบภายนอกฉันต้องการทราบว่าฉันสามารถใช้ ROC ของการตรวจสอบความถูกต้อง 10 เท่าเพื่ออธิบายการ overfitting ได้หรือไม่ หากฉันมีชุดข้อมูลการตรวจสอบภายนอกฉันควรทำอย่างไรต่อไป

5
ฟังก์ชั่นการคูณโดยประมาณของโครงข่ายใยประสาทเทียมโดยที่ไม่สามารถทำให้เป็นมาตรฐานได้หรือไม่?
สมมติว่าเราต้องการถดถอยอย่างง่ายf = x * yโดยใช้เครือข่ายโครงข่ายประสาทในระดับลึก ฉันจำได้ว่ามี reseraches ที่บอกว่า NN ที่มีหนึ่ง hiden layer สามารถ apoximate ฟังก์ชั่นใด ๆ ได้ แต่ฉันได้ลองและไม่มี normalization NN ก็ไม่สามารถประมาณได้แม้แต่การคูณง่าย ๆ นี้ บันทึกการทำข้อมูลให้เป็นมาตรฐานเท่านั้นช่วยm = x*y => ln(m) = ln(x) + ln(y). แต่ดูเหมือนว่าโกง NN สามารถทำสิ่งนี้โดยไม่ใช้บันทึกการทำให้เป็นมาตรฐานได้หรือไม่? เห็นได้ชัดว่า unswer (สำหรับฉัน) - ใช่แล้วดังนั้นคำถามคือสิ่งที่ควรเป็นประเภท / การกำหนดค่า / รูปแบบของ NN เช่นนั้น?

4
วิธีการกำหนดเกณฑ์ที่เหมาะสมที่สุดสำหรับลักษณนามและสร้างเส้นโค้ง ROC?
สมมติว่าเรามีตัวจําแนก SVM เราจะสร้าง ROC curve ได้อย่างไร (เหมือนในทางทฤษฎี) (เพราะเราสร้าง TPR และ FPR ด้วยแต่ละเกณฑ์) และเราจะกำหนดเกณฑ์ที่เหมาะสมที่สุดสำหรับตัวจําแนก SVM นี้ได้อย่างไร

1
การศึกษาระเหยคืออะไร? และมีวิธีที่เป็นระบบในการแสดงหรือไม่?
การศึกษาระเหยคืออะไร? และมีวิธีที่เป็นระบบในการแสดงหรือไม่? ตัวอย่างเช่นฉันมีตัวทำนายในการถดถอยเชิงเส้นซึ่งฉันจะเรียกว่าเป็นแบบจำลองของฉันnnn ฉันจะทำการศึกษาระเหยด้วยวิธีนี้ได้อย่างไร? ฉันควรใช้การวัดใด แหล่งที่มาที่ครอบคลุมหรือตำราเรียนจะได้รับการชื่นชม

1
เหตุใด PCA จึงไวต่อผู้ผิด
มีโพสต์มากมายใน SE นี้ที่กล่าวถึงวิธีการที่แข็งแกร่งในการวิเคราะห์องค์ประกอบหลัก (PCA) แต่ฉันไม่สามารถหาคำอธิบายที่ดีเพียงข้อเดียวว่าทำไม PCA จึงไวต่อผู้ผิดกฎหมายในตอนแรก

1
สัญลักษณ์คลาสสิคในสถิติพีชคณิตเชิงเส้นและการเรียนรู้ของเครื่องคืออะไร และการเชื่อมต่อระหว่างสัญลักษณ์เหล่านี้คืออะไร?
เมื่อเราอ่านหนังสือการทำความเข้าใจสัญลักษณ์มีบทบาทสำคัญในการทำความเข้าใจเนื้อหา น่าเสียดายที่ชุมชนต่าง ๆ มีระเบียบแบบสัญกรณ์ต่างกันสำหรับการกำหนดสูตรในแบบจำลองและปัญหาการปรับให้เหมาะสม คนใดคนหนึ่งสามารถสรุปการกำหนดสูตรบางอย่างที่นี่และให้เหตุผลที่เป็นไปได้? ฉันจะให้ตัวอย่างที่นี่: ในวรรณคดีพีชคณิตเชิงเส้นหนังสือคลาสสิกแปลกเบื้องต้นเกี่ยวกับพีชคณิตเชิงเส้น สัญกรณ์ที่ใช้มากที่สุดในหนังสือเล่มนี้คือ Ax=bAx=b A x=b ที่ไหนเป็นเมทริกซ์ค่าสัมประสิทธิ์ ,เป็นตัวแปรที่จะแก้ไขและเป็นเวกเตอร์บนด้านขวาของสมการ เหตุผลหนังสือเลือกสัญกรณ์นี้เป็นเป้าหมายหลักของพีชคณิตเชิงเส้นคือการแก้ระบบเชิงเส้นและคิดออกว่าเป็นเวกเตอร์xด้วยการกำหนดสูตรดังกล่าวปัญหาการเพิ่มประสิทธิภาพของ OLS คือAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 ในสถิติหรือการเรียนรู้ด้วยเครื่อง (จากองค์ประกอบของหนังสือของการเรียนรู้ทางสถิติ ) ผู้คนใช้สัญลักษณ์ที่แตกต่างกันเพื่อแสดงสิ่งเดียวกัน: Xβ=yXβ=yX \beta= y ที่ไหนXXXเป็นเมทริกซ์ข้อมูล , ββ\betaเป็นค่าสัมประสิทธิ์หรือน้ำหนักที่จะเรียนรู้การเรียนรู้ , yyyคือการตอบสนอง เหตุผลที่คนใช้นี้เป็นเพราะคนที่อยู่ในสถิติหรือชุมชนการเรียนรู้เครื่องข้อมูลการขับเคลื่อนเพื่อให้ข้อมูลและตอบสนองเป็นสิ่งที่น่าสนใจที่สุดสำหรับพวกเขาที่พวกเขาใช้XXXและyyyที่จะเป็นตัวแทน ตอนนี้เราสามารถเห็นความสับสนที่เป็นไปได้ทั้งหมด: AAAในสมการแรกเหมือนกับXXXในสมการที่สอง และในสมการที่สองXXXไม่จำเป็นต้องมีการแก้ไข สำหรับข้อกำหนด: AAAคือเมทริกซ์สัมประสิทธิ์ในพีชคณิตเชิงเส้น แต่เป็นข้อมูลในสถิติ ββ\betaถูกเรียกว่า "สัมประสิทธิ์" นอกจากนี้ฉันพูดถึงXβ=yXβ=yX \beta=yไม่ใช่สิ่งที่ผู้คนใช้กันอย่างแพร่หลายในการเรียนรู้ของเครื่องจักรคนใช้เวอร์ชันเวกเตอร์ครึ่งหนึ่งที่สรุปจุดข้อมูลทั้งหมด เช่น min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) …

6
จะเลือกระหว่างคะแนน ROC AUC และ F1 ได้อย่างไร
ฉันเพิ่งเสร็จสิ้นการแข่งขัน Kaggle ซึ่งใช้คะแนน roc auc ตามข้อกำหนดการแข่งขัน ก่อนหน้าโครงการนี้ปกติฉันใช้คะแนน f1 เป็นตัวชี้วัดเพื่อวัดประสิทธิภาพของแบบจำลอง ก้าวไปข้างหน้าฉันสงสัยว่าฉันควรเลือกระหว่างสองเมตริกเหล่านี้อย่างไร เมื่อใดควรใช้สิ่งไหนและข้อดีและข้อเสียของพวกเขาคืออะไร แต่ฉันอ่านบทความที่นี่อะไรคือความแตกต่างระหว่างคะแนน AUC และ F1 แต่มันไม่ได้บอกฉันว่าจะใช้เมื่อไหร่ ขอบคุณล่วงหน้าสำหรับความช่วยเหลือใด ๆ !

1
One-vs-All และ One-vs-One ใน svm?
อะไรคือความแตกต่างระหว่างตัวจําแนก SVM แบบหนึ่งต่อหนึ่งและแบบหนึ่งต่อหนึ่ง One-vs-all หมายถึงตัวจําแนกประเภทหนึ่งเพื่อจำแนกประเภท / หมวดหมู่ทั้งหมดของภาพใหม่และแบบหนึ่งต่อหนึ่งหมายถึงประเภท / หมวดหมู่ของภาพใหม่แต่ละประเภทที่มีตัวจําแนกที่แตกต่างกันหรือไม่ ตัวอย่างเช่นหากภาพใหม่ที่จะจัดเป็นวงกลมสี่เหลี่ยมสามเหลี่ยม ฯลฯ

4
ความแตกต่างของเมล็ดใน SVM
ใครช่วยบอกความแตกต่างระหว่างเมล็ดใน SVM ได้ไหม: เชิงเส้น พหุนาม เกาส์เซียน (RBF) sigmoid เพราะอย่างที่เรารู้ว่าเคอร์เนลถูกใช้เพื่อแมปพื้นที่อินพุตของเราไปสู่พื้นที่คุณลักษณะมิติสูง และในพื้นที่ของคุณลักษณะนั้นเราพบว่าขอบเขตแบ่งเป็นเชิงเส้น .. พวกเขาจะใช้เมื่อใด (ภายใต้เงื่อนไขใด) และทำไม

3
รูปแบบหัวข้อและวิธีการเกิดร่วมคำ
โมเดลหัวข้อยอดนิยมเช่น LDA มักจัดกลุ่มคำที่มีแนวโน้มที่จะเกิดร่วมกันในหัวข้อเดียวกัน (คลัสเตอร์) อะไรคือความแตกต่างหลักระหว่างโมเดลหัวข้อดังกล่าวและวิธีการจัดกลุ่มแบบง่าย ๆ ที่เกิดขึ้นร่วมกันเช่น PMI (PMI ย่อมาจาก Pointwise Information Mutual และใช้เพื่อระบุคำที่เกิดขึ้นร่วมกับคำที่กำหนด)

2
Neural Network: สำหรับการจำแนกประเภท Binary ให้ใช้ 1 หรือ 2 เซลล์ประสาทเอาท์พุท?
สมมติว่าฉันต้องการจำแนกไบนารี (บางสิ่งเป็นของคลาส A หรือคลาส B) มีความเป็นไปได้ที่จะทำสิ่งนี้ในเลเยอร์การส่งออกของโครงข่ายประสาทเทียม: ใช้ 1 โหนดเอาต์พุต เอาต์พุต 0 (<0.5) ถือเป็นคลาส A และ 1 (> = 0.5) ถือเป็นคลาส B (ในกรณีที่ sigmoid) ใช้ 2 โหนดเอาต์พุต อินพุตเป็นของคลาสของโหนดที่มีค่า / ความน่าจะเป็นสูงสุด (argmax) มีเอกสารใดบ้างที่เขียนเกี่ยวกับเรื่องนี้หรือไม่? คำหลักที่เฉพาะเจาะจงในการค้นหาคืออะไร คำถามนี้ถูกถามมาก่อนในเว็บไซต์นี้เช่นดูลิงค์นี้โดยไม่มีคำตอบจริง ฉันต้องเลือก (วิทยานิพนธ์ระดับปริญญาโท) ดังนั้นฉันต้องการได้รับข้อมูลเชิงลึกเกี่ยวกับข้อดีข้อเสียของแต่ละวิธี

1
การสูญเสียการฝึกอบรมลดลงเรื่อย ๆ เกิดอะไรขึ้น?
การสูญเสียการฝึกอบรมของฉันลดลงจากนั้นขึ้นอีกครั้ง มันแปลกมาก การสูญเสียการตรวจสอบข้ามติดตามการสูญเสียการฝึกอบรม เกิดอะไรขึ้น? ฉันมี LSTMS สองกองซ้อนกันดังต่อไปนี้ (บน Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') ฉันฝึกฝนมาเป็น 100 Epochs: model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) อบรมเกี่ยวกับตัวอย่าง 127803 ตรวจสอบตัวอย่าง 31951 และนั่นคือลักษณะของการสูญเสีย:

4
ทำไมทุกคนจะใช้ KNN เพื่อการถดถอย?
จากสิ่งที่ฉันเข้าใจเราสามารถสร้างฟังก์ชันการถดถอยที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรมเท่านั้น ตัวอย่างเช่น (จำเป็นต้องมีหนึ่งในพาเนลเท่านั้น): ฉันจะทำนายอนาคตได้อย่างไรด้วยการใช้ KNR regressor อีกครั้งดูเหมือนว่าจะประมาณฟังก์ชั่นที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรมเท่านั้น คำถามของฉัน: อะไรคือข้อดีของการใช้ KNN regressor? ฉันเข้าใจว่ามันเป็นเครื่องมือที่ทรงพลังมากสำหรับการจัดหมวดหมู่ แต่ดูเหมือนว่ามันจะทำงานได้ไม่ดีในสถานการณ์การถดถอย

2
ใน caret ความแตกต่างที่แท้จริงระหว่าง cv และ repeatcv คืออะไร?
นี่คล้ายกับคำถามวิธีการสุ่มตัวอย่าง Caret อีกครั้งแม้ว่าจะไม่เคยตอบคำถามนี้ในส่วนที่ตกลงกัน ฟังก์ชั่นรถไฟเครื่องหมายของข้อเสนอและcv repeatedcvอะไรคือความแตกต่างของการพูด: MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) VS MyTrainControl=trainControl( method = "repeatedcv", number=5, repeats=5 ) ฉันเข้าใจว่าcvแบ่งการตั้งค่าเป็น k-folds (พารามิเตอร์number) แล้วเริ่มต้นใหม่และเรียกใช้พารามิเตอร์repeatsจำนวนครั้ง สิ่งเดียวที่ฉันจะคิดว่าอาจจะเป็นปกติcvด้วยrepeatsการใช้ดัชนีที่แน่นอนเดียวกันสำหรับพับแต่ละครั้ง? โดยพื้นฐานแล้วการรันcvเท่ากันแน่นอนในแต่ละครั้ง vs อาจrepeatedcvเลือกใหม่เท่าในแต่ละครั้ง? บางคนสามารถอธิบายได้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.