คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

1
การควบคุมระยะไกล: การดูแลแบบกึ่งควบคุมหรือทั้งสองอย่าง?
"การดูแลระยะไกล" เป็นรูปแบบการเรียนรู้ที่ตัวจำแนกลักษณนามได้รับชุดฝึกอบรมที่มีป้ายกำกับอ่อนแอ (ข้อมูลการฝึกอบรมจะมีป้ายกำกับโดยอัตโนมัติตามการวิเคราะห์พฤติกรรม / กฎ) ฉันคิดว่าทั้งการเรียนรู้ภายใต้การดูแลและการเรียนรู้แบบกึ่งมีส่วนร่วมอาจรวมถึง "การกำกับดูแลที่ห่างไกล" หากข้อมูลที่ติดฉลากของพวกเขานั้นมีการแก้ปัญหาด้วยวิธีฮิวริสติก / อัตโนมัติ อย่างไรก็ตามในหน้านี้ "การกำกับดูแลที่ห่างไกล" หมายถึง "การเรียนรู้แบบกึ่งภายใต้การดูแล" (เช่น จำกัด เฉพาะ "การควบคุมกึ่ง") ดังนั้นคำถามของฉันคือ"การควบคุมดูแลที่ห่างไกล" อ้างถึงการควบคุมกึ่งหรือไม่? ในความคิดของฉันมันสามารถนำไปใช้กับการเรียนรู้ทั้งแบบมีผู้สอนและแบบกึ่งมีผู้สอน โปรดระบุข้อมูลอ้างอิงที่เชื่อถือได้หากมี

1
การอภิปรายเกี่ยวกับ overfit ใน xgboost
การตั้งค่าของฉันมีดังต่อไปนี้: ฉันกำลังติดตามแนวทางใน "การทำนายแบบจำลองประยุกต์" ดังนั้นฉันได้กรองคุณสมบัติที่เกี่ยวข้องและจบลงด้วยสิ่งต่อไปนี้: จุดข้อมูล 4900 ในชุดฝึกอบรมและ 1600 จุดข้อมูลในชุดทดสอบ ฉันมีคุณสมบัติ 26 อย่างและเป้าหมายเป็นตัวแปรต่อเนื่อง ฉันใช้ crossvalidation 5 เท่ากับโมเดลรถไฟโดยใช้caretแพ็คเกจ เมื่อฉันใช้แบบจำลอง MARS ฉันจะได้รับข้อผิดพลาดแบบสัมบูรณ์ (MAE) ประมาณ 4 ในชุดฝึกอบรมและชุดทดสอบ อย่างไรก็ตามการใช้ xgboost (เป็นอัลกอริทึมแบบต้นไม้หรือแบบเชิงเส้น) ฉันได้รับบางอย่างเช่น 0.32 (!) ในชุดการฝึกอบรมและ 2.4 ในชุดทดสอบ ดังนั้นหากข้อผิดพลาดการทดสอบเป็น 8 เท่าของข้อผิดพลาดในการฝึกอบรมฉันจะบอกว่า: ฉันมีข้อมูลการฝึกอบรมมากเกินไป ฉันยังได้รับข้อผิดพลาดเล็กน้อยในการทดสอบอย่างไรก็ตาม ฉันใช้พารามิเตอร์ต่อไปนี้ใน xgboost: nrounds = 1000และeta = 0.01(การเพิ่ม nrounds และการลดลงของกทพ. สามารถช่วยได้ แต่ฉันมีหน่วยความจำไม่เพียงพอและเวลาในการรันนานเกินไป) max_depth = …

1
การสุ่มตัวอย่างเชิงลบทำงานอย่างไรใน word2vec
ฉันพยายามอย่างหนักที่จะเข้าใจแนวคิดของการสุ่มตัวอย่างเชิงลบในบริบทของ word2vec ฉันไม่สามารถแยกแยะความคิดในการสุ่มตัวอย่าง [เชิงลบ] ตัวอย่างเช่นในเอกสารของ Mikolovความคาดหวังการสุ่มตัวอย่างเชิงลบนั้นถูกกำหนดเป็น เข้าสู่ระบบσ( ⟨ w , c ⟩ ) + k ⋅ Eคยังไม่มีข้อความ~ PD[ บันทึกσ( - ⟨ w , cยังไม่มีข้อความ⟩ ) ]เข้าสู่ระบบ⁡σ(⟨W,ค⟩)+k⋅Eคยังไม่มีข้อความ~PD[เข้าสู่ระบบ⁡σ(-⟨W,คยังไม่มีข้อความ⟩)].\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim PD}[\log\sigma(−\langle w,c_N\rangle)]. ฉันเข้าใจคำศัพท์ด้านซ้ายแต่ฉันไม่เข้าใจแนวคิดของการสุ่มตัวอย่างคำศัพท์บริบทบริบทเชิงลบlogσ(⟨w,c⟩)log⁡σ(⟨w,c⟩)\log \sigma(\langle w,c\rangle)

3
การตัดสินใจเป็นตอแบบจำลองเชิงเส้นหรือไม่?
ตอการตัดสินใจเป็นต้นไม้การตัดสินใจที่มีเพียงหนึ่งแยก นอกจากนี้ยังสามารถเขียนเป็นฟังก์ชั่นตามเข็มนาฬิกา ตัวอย่างเช่นสมมติว่าเป็นเวกเตอร์และเป็นองค์ประกอบแรกของในการตั้งค่าการถดถอยการตัดสินใจบางอย่างอาจทำให้ตอx 1 xxxxx1x1x_1xxx ฉ( x ) = { 35x1≤ 2x1> 2ฉ(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} แต่มันเป็นโมเดลเชิงเส้นหรือไม่? สามารถเขียนเป็นที่ไหน คำถามนี้อาจฟังดูแปลกเพราะดังที่ได้กล่าวไว้ในคำตอบและความคิดเห็นหากเราพล็อตฟังก์ชั่นตามลำดับมันไม่ใช่เส้น โปรดดูหัวข้อถัดไปสำหรับสาเหตุที่ฉันถามคำถามนี้ฉ( x ) = βTxฉ(x)=βTxf(x)=\beta^T x แก้ไข: เหตุผลที่ฉันถามคำถามนี้คือการถดถอยโลจิสติกเป็นโมเดลเชิงเส้น (ทั่วไป) และขอบเขตการตัดสินใจเป็นเส้นเช่นกันสำหรับตอการตัดสินใจ หมายเหตุเรามีคำถามนี้ด้วย: เหตุใดการถดถอยแบบลอจิสติกจึงเป็นโมเดลเชิงเส้น . ในทางกลับกันดูเหมือนว่าไม่เป็นความจริงที่ตอการตัดสินใจเป็นแบบจำลองเชิงเส้น อีกเหตุผลที่ฉันถามนี้เนื่องจากคำถามนี้: ในการส่งเสริมหากผู้เรียนพื้นฐานเป็นแบบจำลองเชิงเส้นแบบจำลองสุดท้ายเป็นเพียงแบบจำลองเชิงเส้นอย่างง่ายหรือไม่? โดยที่ถ้าเราใช้โมเดลเชิงเส้นเป็นผู้เรียนพื้นฐานเราจะไม่ได้อะไรมากไปกว่าการถดถอยเชิงเส้น แต่ถ้าเราเลือกผู้เรียนพื้นฐานเป็นตอการตัดสินใจเราจะได้แบบจำลองที่น่าสนใจมาก นี่คือตัวอย่างหนึ่งของการตัดสินใจตอการส่งเสริมการถดถอยด้วย 2 คุณสมบัติและ 1 …

5
ชุดข้อมูลที่ดีในการเรียนรู้อัลกอริทึมการเรียนรู้เครื่องพื้นฐานคืออะไรและเพราะอะไร
ฉันยังใหม่กับการเรียนรู้ของเครื่องและกำลังมองหาชุดข้อมูลบางอย่างที่ฉันสามารถเปรียบเทียบและตัดกันความแตกต่างระหว่างอัลกอริทึมการเรียนรู้ของเครื่องที่แตกต่างกัน (Decision Trees, Boosting, SVM และ Neural Networks) ฉันจะหาชุดข้อมูลเหล่านี้ได้จากที่ไหน? ฉันควรมองหาอะไรขณะพิจารณาชุดข้อมูล มันจะดีถ้าคุณสามารถชี้ไปที่ชุดข้อมูลที่ดีและบอกฉันว่าอะไรทำให้พวกเขาเป็นชุดข้อมูลที่ดี?

2
การส่งเสริม: เหตุใดอัตราการเรียนรู้จึงเรียกว่าพารามิเตอร์การทำให้เป็นมาตรฐาน
อัตราการเรียนรู้พารามิเตอร์ ( ) ในการไล่โทนสีการส่งเสริมการมีส่วนร่วมของ shrinks รุ่นแต่ละฐานใหม่ -typically tree- ตื้นที่จะถูกเพิ่มในซีรีส์ มันแสดงให้เห็นถึงการเพิ่มความแม่นยำของชุดการทดสอบอย่างมากซึ่งเป็นที่เข้าใจได้เช่นเดียวกับขั้นตอนที่เล็กกว่าขั้นต่ำของฟังก์ชั่นการสูญเสียสามารถบรรลุได้อย่างแม่นยำมากขึ้น ν∈[0,1]ν∈[0,1]\nu \in [0,1] ฉันไม่เข้าใจว่าทำไมอัตราการเรียนรู้จึงถือเป็นพารามิเตอร์ในการทำให้เป็นมาตรฐาน? อ้างถึงองค์ประกอบของการเรียนรู้สถิติส่วนที่ 10.12.1, p.364: การควบคุมจำนวนต้นไม้ไม่ได้เป็นเพียงกลยุทธ์การทำให้เป็นมาตรฐานเท่านั้น เช่นเดียวกับการถดถอยของสันเขาและโครงข่ายประสาทเทียมสามารถใช้เทคนิคการหดตัวได้เช่นกัน ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำM ดังนั้นทั้งνและM จึงควบคุมความเสี่ยงในการทำนายข้อมูลการฝึกอบรมνν\nuMMMνν\nuMMM การทำให้เป็นมาตรฐานหมายถึง "วิธีหลีกเลี่ยงการทำให้อ้วนมากเกินไป" ดังนั้นจึงเป็นที่ชัดเจนว่าจำนวนการวนซ้ำเป็นสิ่งสำคัญในการเคารพนั้น ( Mที่สูงเกินไปที่จะนำไปสู่การล้น) แต่:MMMMMM ค่าที่น้อยกว่าของ (หดตัวมากกว่า) ผลความเสี่ยงในการฝึกอบรมที่มีขนาดใหญ่สำหรับหมายเลขเดียวกันซ้ำMνν\nuMMM เพียงหมายความว่าด้วยอัตราการเรียนรู้ต่ำจำเป็นต้องมีการทำซ้ำมากขึ้นเพื่อให้ได้ความถูกต้องเหมือนกันในชุดฝึกอบรม แล้วมันเกี่ยวข้องอย่างไรกับการบรรจุมากเกินไป?

2
เครือข่ายประสาทกำเริบสามารถนำมาใช้สำหรับการจำแนกลำดับได้อย่างไร
RNN สามารถใช้สำหรับการทำนายหรือลำดับการแมปลำดับ แต่จะใช้ RNN ในการจำแนกได้อย่างไร? ฉันหมายถึงเราให้ลำดับทั้งหมดหนึ่งป้ายกำกับ

2
ชื่อ“ Logistic Regression” หมายถึงอะไร
ฉันกำลังตรวจสอบการดำเนินการของการถดถอยโลจิสติกจากที่นี่ หลังจากที่ฉันอ่านบทความนั้นดูเหมือนว่าส่วนที่สำคัญคือการหาค่าสัมประสิทธิ์ที่ดีที่สุดในการกำหนดฟังก์ชั่น sigmoid ดังนั้นฉันจึงสงสัยว่าทำไมวิธีนี้เรียกว่า "Logistic Regression" มันเกี่ยวข้องกับฟังก์ชันลอการิทึมหรือไม่? บางทีฉันอาจต้องการข้อมูลพื้นฐานทางประวัติศาสตร์เพื่อทำความเข้าใจให้ดีขึ้น

6
โปรแกรมเมอร์กำลังมองหาที่จะบุกเข้าไปในสนามการเรียนรู้ของเครื่อง
ฉันเป็นนักพัฒนาซอฟต์แวร์ (ส่วนใหญ่เป็น. NET และ Python ประมาณ 5 ปี) ฉันจะทำอะไรได้บ้างเพื่อช่วยให้ฉันได้งานในสาขาการเรียนรู้ของเครื่องหรืออะไรก็ตามที่จะทำให้ฉันเริ่มต้นในสาขานั้น? การเรียนระดับปริญญาโทถือเป็นเรื่องยากหรือไม่?

1
การทำนายแบบจำลอง - เราควรใส่ใจกับการสร้างแบบจำลองที่หลากหลายหรือไม่
สำหรับการสร้างแบบจำลองการทำนายเราจำเป็นต้องคำนึงถึงตัวเราด้วยแนวคิดทางสถิติเช่นเอฟเฟกต์แบบสุ่มและการไม่เป็นอิสระจากการสังเกต (มาตรการซ้ำ ๆ )? ตัวอย่างเช่น.... ฉันมีข้อมูลจากแคมเปญอีเมลโดยตรง 5 รายการ (เกิดขึ้นในช่วงหนึ่งปี) ที่มีคุณลักษณะและการตั้งค่าสถานะการซื้อต่างๆ เป็นการดีที่ฉันจะใช้ข้อมูลทั้งหมดนี้รวมกันเพื่อสร้างแบบจำลองสำหรับการซื้อที่กำหนดคุณลักษณะของลูกค้าในช่วงเวลาของแคมเปญ เหตุผลคือเหตุการณ์การซื้อหายากและฉันต้องการใช้ข้อมูลให้มากที่สุด มีโอกาสที่ลูกค้าที่กำหนดอาจอยู่ในทุก ๆ 1 ถึง 5 ของแคมเปญ - หมายความว่าไม่มีความเป็นอิสระระหว่างบันทึก ไม่สำคัญเมื่อใช้: 1) วิธีการเรียนรู้ของเครื่อง (เช่น tree, MLP, SVM) 2) วิธีการทางสถิติ (การถดถอยโลจิสติก)? **ADD:** ความคิดของฉันเกี่ยวกับการสร้างแบบจำลองการคาดการณ์คือถ้าแบบจำลองใช้งานได้ เพื่อให้ฉันไม่เคยพิจารณาความสำคัญของสมมติฐาน การนึกถึงกรณีที่ฉันอธิบายไว้ข้างต้นทำให้ฉันสงสัย MLP and SVMใช้ขั้นตอนวิธีการเรียนรู้เครื่องเช่น สิ่งเหล่านี้ถูกใช้อย่างประสบความสำเร็จในการสร้างแบบจำลองเหตุการณ์ไบนารีเช่นตัวอย่างของฉันด้านบน แต่ยังมีข้อมูลอนุกรมเวลาที่มีความสัมพันธ์อย่างชัดเจน อย่างไรก็ตามฟังก์ชั่นการสูญเสียการใช้งานจำนวนมากที่มีความเป็นไปได้และมาจากการสันนิษฐานว่าเป็นข้อผิดพลาดคือ id ตัวอย่างเช่นต้นไม้เพิ่มระดับความลาดชันใน R gbmใช้ฟังก์ชั่นการสูญเสียความเบี่ยงเบนที่ได้มาจากทวินาม ( หน้า 10 )


2
เมื่อใดที่“ เพื่อนบ้านใกล้ที่สุด” มีความหมายวันนี้?
ในปี 1999 เบเยอร์และคณะ ถาม เมื่อ "เพื่อนบ้านที่ใกล้ที่สุด" มีความหมาย? มีวิธีที่ดีกว่าในการวิเคราะห์และแสดงผลของความเรียบของระยะทางในการค้นหา NN ตั้งแต่ปี 1999 หรือไม่ ชุดข้อมูล [ที่ระบุ] ให้คำตอบที่มีความหมายต่อปัญหา 1-NN หรือไม่ ปัญหา 10-NN? ปัญหา 100-NN? วันนี้คุณจะผู้เชี่ยวชาญตอบคำถามนี้อย่างไร การแก้ไขวันจันทร์ 24 มกราคม: วิธี "ระยะทางสีขาว" เป็นชื่อที่สั้นกว่าสำหรับ "ความเรียบระยะทางกับมิติที่เพิ่มขึ้น"? วิธีง่าย ๆ ในการดู "ระยะทางไวต์ไวท์" คือการเรียกใช้ 2-NN และวางแผนระยะทางไปยังเพื่อนบ้านที่ใกล้ที่สุดและเพื่อนบ้านที่ใกล้ที่สุดที่สอง เนื้อเรื่องด้านล่างแสดง dist 1และ dist 2 สำหรับช่วงของ nclusters และมิติโดย Monte Carlo ตัวอย่างนี้แสดงความแตกต่างของระยะทางที่ค่อนข้างดีสำหรับส่วนต่างสัมบูรณ์ | dist 2 …

6
แนวคิด 'พื้นฐาน' ของการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คืออะไร
ความคิด 'พื้นฐาน' สถิติสำหรับประมาณค่าพารามิเตอร์เป็นโอกาสสูงสุด ฉันสงสัยว่าอะไรคือความคิดที่สอดคล้องกันในการเรียนรู้ของเครื่อง Qn 1. เป็นธรรมหรือไม่ที่จะบอกว่าแนวคิด 'พื้นฐาน' ในการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คือ: 'ฟังก์ชั่นการสูญเสีย' [หมายเหตุ: มันเป็นความประทับใจของฉันที่อัลกอริทึมการเรียนรู้ของเครื่องมักจะปรับฟังก์ชั่นการสูญเสียให้เหมาะสมดังนั้นคำถามข้างต้น] Qn 2: มีวรรณกรรมใดบ้างที่พยายามลดช่องว่างระหว่างสถิติและการเรียนรู้ของเครื่อง? [หมายเหตุ: บางทีโดยฟังก์ชั่นการสูญเสียที่เกี่ยวข้องกับโอกาสสูงสุด (เช่น OLS เทียบเท่ากับโอกาสสูงสุดสำหรับข้อผิดพลาดที่กระจายตามปกติ ฯลฯ )]

6
การปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ในตัวอย่างของชุดข้อมูลเป็นแนวคิดที่ไม่ดีหรือไม่?
ฉันมีชุดข้อมูลของตัวอย่าง 140000 ตัวอย่างและคุณลักษณะ 30 อย่างที่ฉันกำลังฝึกอบรมตัวแยกประเภทหลายตัวสำหรับการจำแนกเลขฐานสอง (SVM, การถดถอยโลจิสติก, การสุ่มป่า ฯลฯ ) ในหลายกรณีการปรับพารามิเตอร์แบบหลายมิติบนชุดข้อมูลทั้งหมดโดยใช้การค้นหาแบบกริดหรือแบบสุ่มนั้นใช้เวลานานเกินไป ฉันเริ่มใช้เทคนิคต่อไปนี้ ตัวอย่างชุดย่อยของฉัน ใช้เศษส่วนที่ได้รับเพื่อปรับพารามิเตอร์หลายมิติบน ใช้พารามิเตอร์ที่ได้รับเพื่อฝึกฝนโมเดลโดยใช้ชุดข้อมูลทั้งหมด เพื่อประเมินชุดของพารามิเตอร์แต่ละเกี่ยวกับการใช้ขั้นตอนที่สองผมsklearn's GridSearchCVกับพันธุ์ = 10 เพื่อประเมินรุ่นสุดท้ายที่ฉันจะสร้างในขั้นตอนที่สามผมใช้'ssklearn cross_val_predictในแง่นั้นฉันประเมินแบบจำลองของฉันที่ทิ้งข้อมูล 10% ของข้อมูลออกไปฉันทำการฝึกอบรมส่วนที่เหลือและวัดความแม่นยำในการทำนาย 10% หรือ 10 เท่าแล้วจึงเฉลี่ยคะแนน สิ่งที่ทำให้ฉันกังวลคือความแม่นยำในการทำนายที่ฉันได้รับจากการฝึกอบรมในชุดข้อมูลทั้งหมดของฉันใกล้เคียงกับการประเมินที่ฉันได้รับเมื่อทำการปรับพารามิเตอร์สำหรับชุดของพารามิเตอร์ที่ดีที่สุด (ชุดทดสอบแต่ละชุด ผลการตรวจสอบแบบพับข้าม) เกือบทุกครั้งที่ความแม่นยำที่cross_val_predictวัดได้โดยใช้ตัวอย่างการฝึกอบรมทั้งหมด (ชุดข้อมูลทั้งหมด) นั้นสูงกว่าการประเมินผลพารามิเตอร์ที่ดีที่สุดเล็กน้อย เพื่ออธิบายสิ่งนี้นี่คือการประเมินชุดของพารามิเตอร์ (ในชุดข้อมูลขนาดเล็กกว่าที่ฉันอธิบายไว้ข้างต้น แต่ผลเหมือนกัน) Best parameters set found on development set: {'kernel': 'rbf', 'C': 9, 'gamma': 0.1} Scores …

11
เหตุใดการถดถอยแบบลอจิสติกจึงเรียกว่าอัลกอริทึมการเรียนรู้ของเครื่อง?
ถ้าฉันเข้าใจถูกต้องในอัลกอริทึมการเรียนรู้ของเครื่องโมเดลต้องเรียนรู้จากประสบการณ์ของมันเช่นเมื่อแบบจำลองให้การทำนายผิดสำหรับกรณีใหม่มันจะต้องปรับให้เข้ากับการสังเกตใหม่และในเวลานั้นแบบจำลองจะยิ่งดีขึ้น . ฉันไม่เห็นว่าการถดถอยโลจิสติกมีคุณสมบัตินี้ เหตุใดจึงยังถือว่าเป็นขั้นตอนวิธีการเรียนรู้ของเครื่อง? ความแตกต่างระหว่างการถดถอยโลจิสติกกับการถดถอยปกติในแง่ของ "การเรียนรู้" คืออะไร? ฉันมีคำถามเดียวกันสำหรับป่าสุ่ม! และคำจำกัดความของ "การเรียนรู้ของเครื่อง" คืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.