คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

1
“ จบสิ้น” หมายความว่าอย่างไรในวิธีการเรียนรู้ลึก
ฉันต้องการรู้ว่ามันคืออะไรและมันแตกต่างจากการประกอบกันอย่างไร สมมติว่าฉันต้องการบรรลุความแม่นยำสูงในการจัดหมวดหมู่และการแบ่งเซ็กเมนต์สำหรับงานเฉพาะถ้าฉันใช้เครือข่ายที่แตกต่างกันเช่น CNN, RNN และอื่น ๆ เพื่อให้บรรลุสิ่งนี้เรียกว่าแบบ end to end model หรือไม่? (สถาปัตยกรรม?) หรือไม่?

1
เทคนิคการเสริมข้อมูลที่มีประโยชน์สำหรับเครือข่ายประสาทเทียมระดับลึกคืออะไร?
พื้นหลัง: ฉันเพิ่งเข้าใจในระดับลึกถึงความสำคัญของการเสริมข้อมูลเมื่อการฝึกอบรมเครือข่ายประสาทสับสนหลังจากที่ได้เห็นการพูดคุยที่ดีเยี่ยมนี้โดยเจฟฟรีย์ฮินตัน เขาอธิบายว่าโครงข่ายประสาทเทียมแบบยุคปัจจุบันไม่สามารถสรุปกรอบการอ้างอิงของวัตถุภายใต้การทดสอบทำให้ยากสำหรับเครือข่ายที่จะเข้าใจอย่างแท้จริงว่าภาพสะท้อนของวัตถุนั้นเหมือนกัน งานวิจัยบางชิ้นพยายามแก้ไขสิ่งนี้ นี่คือหนึ่งในตัวอย่างมากมาย ฉันคิดว่าสิ่งนี้ช่วยในการกำหนดวิธีการเพิ่มข้อมูลที่สำคัญในวันนี้เมื่อฝึกอบรมเครือข่ายประสาทเทียม เทคนิคการเสริมข้อมูลมักจะไม่ได้ทำการเปรียบเทียบกัน ดังนั้น: คำถาม: มีเอกสารอะไรบ้างที่ผู้ปฏิบัติงานรายงานว่ามีประสิทธิภาพดีขึ้นเป็นพิเศษ เทคนิคการเสริมข้อมูลที่คุณพบว่ามีประโยชน์อะไรบ้าง?

3
เครื่องสามารถใช้โมเดลการเรียนรู้ของเครื่อง (GBM, NN และอื่น ๆ ) สำหรับการวิเคราะห์การอยู่รอดได้อย่างไร
ฉันรู้ว่าแบบจำลองทางสถิติแบบดั้งเดิมเช่น Cox Proportional Hazards Regression & แบบจำลอง Kaplan-Meier บางอย่างสามารถใช้ในการทำนายวันจนกว่าเหตุการณ์ที่จะเกิดขึ้นต่อไปจะบอกว่าล้มเหลว ฯลฯ เช่นการวิเคราะห์การอยู่รอด คำถาม การถดถอยของโมเดลการเรียนรู้ของเครื่องเช่น GBM, โครงข่ายใยประสาทเทียม ฯลฯ สามารถใช้ในการทำนายวันจนถึงเหตุการณ์ได้อย่างไร? ฉันเชื่อว่าการใช้วันจนกว่าจะเกิดขึ้นเป็นตัวแปรเป้าหมายและการใช้โมเดลการถดถอยจะไม่ทำงาน ทำไมมันไม่ทำงานและจะแก้ไขอย่างไร เราสามารถแปลงปัญหาการวิเคราะห์การเอาชีวิตรอดเป็นการจัดประเภทแล้วได้รับความน่าจะเป็นของการอยู่รอดได้หรือไม่? ถ้าเช่นนั้นจะสร้างตัวแปรเป้าหมายไบนารีได้อย่างไร? ข้อดีและข้อเสียของวิธีการเรียนรู้ของเครื่องเทียบกับการถดถอยอันตรายของ Cox Proportional & รุ่น Kaplan-Meier ฯลฯ คืออะไร? ลองนึกภาพข้อมูลตัวอย่างอินพุตเป็นรูปแบบด้านล่าง บันทึก: เซ็นเซอร์ส่ง Ping ข้อมูลในช่วงเวลา 10 นาที แต่ในบางครั้งข้อมูลอาจหายไปเนื่องจากปัญหาเครือข่าย ฯลฯ ตามที่แสดงโดยแถวที่มี NA var1, var2, var3 เป็นตัวทำนายตัวแปรอธิบาย failure_flag บอกว่าเครื่องล้มเหลวหรือไม่ เรามีข้อมูล 6 เดือนล่าสุดทุก ๆ …

1
การลดขนาดแบบมีผู้สอน
ฉันมีชุดข้อมูลซึ่งประกอบด้วยตัวอย่างที่มีป้ายกำกับ 15K (จาก 10 กลุ่ม) ฉันต้องการนำการลดขนาดมาใช้เป็น 2 มิติโดยคำนึงถึงความรู้เกี่ยวกับฉลาก เมื่อฉันใช้เทคนิคการลดขนาดที่ไม่ได้รับอนุญาต "มาตรฐาน" เช่น PCA พล็อตกระจายดูเหมือนจะไม่มีส่วนเกี่ยวข้องกับฉลากที่รู้จัก สิ่งที่ฉันกำลังมองหามีชื่อหรือไม่? ฉันต้องการอ่านการอ้างอิงของการแก้ปัญหา

3
โครงข่ายประสาทเทียมแบบ Convolutional ใช้วิธีการแบบ Convolitis แทนการคูณเมทริกซ์อย่างไร?
ฉันกำลังอ่านหนังสือของ Yoshua Bengio เกี่ยวกับการเรียนรู้ที่ลึกซึ้งและมันบอกไว้ในหน้า 224: เครือข่าย Convolutional เป็นเพียงเครือข่ายประสาทที่ใช้ convolution แทนการคูณเมทริกซ์ทั่วไปอย่างน้อยหนึ่งชั้น อย่างไรก็ตามฉันไม่แน่ใจ 100% ของวิธีการ "แทนที่การคูณเมทริกซ์ด้วยการโน้มน้าว" ในแง่ที่แม่นยำทางคณิตศาสตร์ สิ่งที่ฉันสนใจจริงๆคือการกำหนดสิ่งนี้สำหรับเวกเตอร์อินพุตใน 1D (เช่นใน ) ดังนั้นฉันจะไม่ป้อนข้อมูลเป็นภาพและพยายามหลีกเลี่ยงการบิดในแบบ 2Dx ∈ Rdx∈Rdx \in \mathbb{R}^d ตัวอย่างเช่นในเครือข่ายประสาท "ปกติ" การดำเนินการและรูปแบบของผู้ให้บริการอาหารสามารถแสดงให้เห็นได้อย่างชัดเจนดังที่บันทึกไว้ในบันทึกของ Andrew Ng: W( l )a( l )= z( l + 1 )W(l)a(l)=z(l+1) W^{(l)} a^{(l)} = z^{(l+1)} ฉ( z( l + 1 )) …

3
ป่าสุ่มและการส่งเสริมพารามิเตอร์หรือไม่ใช่พารามิเตอร์หรือไม่
จากการอ่านการสร้างแบบจำลองทางสถิติที่ยอดเยี่ยม: ทั้งสองวัฒนธรรม (Breiman 2001)เราสามารถยึดความแตกต่างทั้งหมดระหว่างแบบจำลองทางสถิติแบบดั้งเดิม (เช่นการถดถอยเชิงเส้น) และอัลกอริทึมการเรียนรู้ของเครื่องจักร (เช่นการห่อป่าแบบสุ่ม Breiman วิพากษ์วิจารณ์แบบจำลองข้อมูล (พารามิเตอร์) เพราะพวกเขาอยู่บนพื้นฐานของข้อสันนิษฐานว่าการสังเกตนั้นถูกสร้างขึ้นโดยแบบจำลองที่เป็นทางการซึ่งเป็นที่รู้จักซึ่งกำหนดโดยนักสถิติซึ่งอาจเลียนแบบธรรมชาติได้ไม่ดี ในทางตรงกันข้าม ML algos จะไม่ถือว่าแบบจำลองที่เป็นทางการใด ๆ และเรียนรู้การเชื่อมโยงโดยตรงระหว่างตัวแปรอินพุตและเอาต์พุตจากข้อมูล ฉันตระหนักว่าบรรจุถุง / RF และการส่งเสริมการนอกจากนี้ยังมีการจัดเรียงของพารา: ยกตัวอย่างเช่นntree , mtryใน RF, อัตราการเรียนรู้ , ส่วนถุง , ซับซ้อนต้นไม้ใน Stochastic ไล่โทนสีต้นไม้เพิ่มขึ้นมีการปรับจูนทุกพารามิเตอร์ นอกจากนี้เรายังประมาณค่าพารามิเตอร์เหล่านี้จากข้อมูลเนื่องจากเราใช้ข้อมูลเพื่อค้นหาค่าที่ดีที่สุดของพารามิเตอร์เหล่านี้ ดังนั้นความแตกต่างคืออะไร? RF และ Boosted Trees เป็นโมเดลพาราเมตริกหรือไม่?

2
ความแตกต่างระหว่างการเลือกคุณสมบัติและการลดขนาดคืออะไร?
ฉันรู้ว่าทั้งการเลือกคุณสมบัติและการลดมิติข้อมูลมุ่งไปที่การลดจำนวนคุณสมบัติในชุดคุณสมบัติดั้งเดิม อะไรคือความแตกต่างที่แน่นอนระหว่างสองสิ่งนี้หากเราทำสิ่งเดียวกันทั้งสองอย่าง

1
ชุมชนการเรียนรู้ของเครื่องใช้กำลัง“ ละเมิดเงื่อนไข” และ“ ถูก จำกัด โดย” หรือไม่?
กล่าวว่าจะขึ้นอยู่กับα พูดอย่างจริงจังXXXαα\alpha ถ้าและαเป็นทั้งตัวแปรสุ่มเราสามารถเขียนp ( X ∣ α ) ;XXXαα\alphap ( X)∣ α )p(X∣α)p(X\mid\alpha) แต่ถ้าเป็นตัวแปรสุ่มและαเป็นพารามิเตอร์ที่เราต้องเขียนP ( X ; α )XXXαα\alphap ( X); α )p(X;α)p(X; \alpha) ฉันสังเกตเห็นหลายครั้งว่าชุมชนการเรียนรู้ของเครื่องดูเหมือนจะเพิกเฉยต่อความแตกต่างและใช้ข้อกำหนดในทางที่ผิด ตัวอย่างเช่นในโมเดล LDA ที่มีชื่อเสียงโดยที่คือพารามิเตอร์ Dirichlet แทนที่จะเป็นตัวแปรสุ่มαα\alpha ไม่ควรจะเป็น ? ฉันเห็นผู้คนจำนวนมากรวมทั้งเขียนต้นฉบับกระดาษ LDA ที่เขียนเป็นP ( θ | อัลฟ่า )p ( θ ; α )p(θ;α)p(\theta;\alpha)p ( θ ∣ α )p(θ∣α)p(\theta\mid\alpha)

4
การตรวจสอบข้ามแตกต่างจากการสอดแนมข้อมูลอย่างไร
ฉันเพิ่งเสร็จสิ้น"รู้เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติ" ฉันสงสัยว่าการใช้การตรวจสอบข้ามเพื่อค้นหาพารามิเตอร์การปรับที่ดีที่สุดสำหรับเทคนิคการเรียนรู้ของเครื่องที่แตกต่างจากการสอดแนมข้อมูลหรือไม่ เรากำลังตรวจสอบซ้ำ ๆ ว่าค่าของพารามิเตอร์การปรับค่าใดให้ผลลัพธ์การทำนายที่ดีที่สุดในชุดทดสอบ จะเกิดอะไรขึ้นถ้าพารามิเตอร์การปรับแต่งที่เรามาถึงนั้นเกิดขึ้นเพื่อให้เหมาะสมกับการทดสอบเฉพาะที่กำหนดโดยบังเอิญและจะไม่ทำงานได้ดีในชุดการทดสอบในอนาคต กรุณายกโทษให้ฉันเข้าใจสามเณรของการเรียนรู้ของเครื่องและฉันอยากได้รับการศึกษา แก้ไข: โปรดดูคำตอบ @AdamO เกี่ยวกับคำจำกัดความของ "data snooping" ฉันใช้คำนั้นไม่ถูกต้องในคำถามของฉัน

3
ฟอเรสต์แบบสุ่มในข้อมูลที่มีโครงสร้างหลายระดับ / ลำดับชั้น
ฉันค่อนข้างใหม่กับการเรียนรู้ด้วยเครื่องจักรเทคนิคของ CART และสิ่งที่คล้ายกันและฉันหวังว่าไร้เดียงสาของฉันจะไม่ชัดเจนเกินไป Random Forest จัดการโครงสร้างข้อมูลหลายระดับ / ลำดับชั้นได้อย่างไร (ตัวอย่างเช่นเมื่อการโต้ตอบข้ามระดับเป็นที่สนใจ) นั่นคือชุดข้อมูลที่มีหน่วยการวิเคราะห์ในหลายระดับชั้น ( เช่นนักเรียนซ้อนกันภายในโรงเรียนพร้อมข้อมูลเกี่ยวกับทั้งนักเรียนและโรงเรียน) ยกตัวอย่างเช่นพิจารณาชุดข้อมูลหลายระดับที่มีบุคคลในระดับแรก ( เช่นข้อมูลพฤติกรรมการลงคะแนนประชากร ฯลฯ ) ซ้อนกันภายในประเทศในระดับที่สอง (พร้อมข้อมูลระดับประเทศเช่นประชากร): ID voted age female country population 1 1 19 1 1 53.01 2 1 23 0 1 53.01 3 0 43 1 1 53.01 4 1 27 1 1 53.01 5 …

3
ฉันควรใช้ Kernel Trick ทุกครั้งที่เป็นไปได้สำหรับข้อมูลที่ไม่ใช่เชิงเส้นหรือไม่?
เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้เกี่ยวกับการใช้ Kernel trick ซึ่งจะแมปข้อมูลลงในช่องว่างมิติที่สูงขึ้นเพื่อพยายามทำให้ข้อมูลในมิติเหล่านั้นเป็นเส้นตรง มีกรณีใดบ้างที่ฉันควรหลีกเลี่ยงการใช้เทคนิคนี้? มันเป็นเพียงเรื่องของการหาฟังก์ชั่นเคอร์เนลที่ใช่หรือไม่? สำหรับข้อมูลเชิงเส้นแน่นอนว่าไม่มีประโยชน์ แต่สำหรับข้อมูลที่ไม่ใช่เชิงเส้นสิ่งนี้ดูเหมือนจะมีประโยชน์เสมอ การใช้ตัวจําแนกเชิงเส้นเป็นเรื่องง่ายกว่าที่ไม่ใช่เชิงเส้นในแง่ของเวลาการฝึกอบรมและความยืดหยุ่น

2
multiclass perceptron ทำงานอย่างไร
ฉันไม่มีพื้นหลังในวิชาคณิตศาสตร์ แต่ฉันเข้าใจว่า Perceptron ง่าย ๆ ทำงานอย่างไรและฉันคิดว่าฉันเข้าใจแนวคิดของไฮเปอร์เพลน (ฉันจินตนาการว่ามันเป็นเรขาคณิตในระนาบในอวกาศ 3 มิติซึ่งแยกเมฆสองจุดออกเป็นเส้นแยกกัน เมฆสองจุดในพื้นที่ 2 มิติ) แต่ฉันไม่เข้าใจว่าระนาบหนึ่งเส้นหรือหนึ่งเส้นสามารถแยกเมฆจุดแตกต่างกันสามจุดในพื้นที่ 3 มิติหรือในพื้นที่ 2 มิติตามลำดับ - นี่เป็นไปไม่ได้ทางเรขาคณิตใช่ไหม? ฉันพยายามเข้าใจส่วนที่เกี่ยวข้องในบทความ Wikipediaแต่ล้มเหลวอย่างน่าสมเพชในประโยค“ ที่นี่อินพุต x และผลลัพธ์ y ถูกดึงออกมาจากชุดที่กำหนดเอง” ใครบางคนสามารถอธิบาย perceptron แบบหลายคลาสให้ฉันและมันเป็นไปตามแนวคิดของไฮเปอร์เพลนหรืออาจชี้ให้ฉันไปที่คำอธิบายที่ไม่เกี่ยวกับคณิตศาสตร์?

2
เมื่อใดที่จะเข้าสู่ระบบ / ขยายตัวแปรของคุณเมื่อใช้โมเดลฟอเรสต์แบบสุ่ม?
ฉันกำลังถดถอยด้วยการสุ่มป่าเพื่อทำนายราคาตามคุณลักษณะหลายอย่าง โค้ดถูกเขียนเป็น Python โดยใช้ Scikit-learn คุณจะตัดสินใจว่าคุณควรแปลงตัวแปรของคุณโดยใช้exp/ logก่อนที่จะใช้เพื่อให้พอดีกับรูปแบบการถดถอยอย่างไร จำเป็นหรือไม่เมื่อใช้วิธี Ensemble เช่น Random Forest?

2
การศึกษาด้วยตนเองจะได้รับไกลแค่ไหน
ฉันไม่เคยมีส่วนร่วมในการวิเคราะห์ข้อมูลอย่างเป็นทางการหรือมีโครงสร้างหรือหลักสูตรการเรียนรู้ด้วยเครื่อง (นอกเหนือจากข้อเสนอออนไลน์ล่าสุด) และได้เรียนรู้สิ่งที่ฉันรู้จากการอ่านและทดลองใช้มากที่สุด ฉันรู้ว่าฉันอยู่ห่างไกลจากความสามารถในการหางาน คำถามของฉันไม่ใช่สิ่งที่ดีกว่า ( เช่นคำถามนี้ ) แต่ฉันสามารถไปถึงระดับที่ฉันสามารถสมัครงานและมีโอกาสเรียนรู้ด้วยตนเองได้หรือไม่ นอกจากนี้เป็นไปได้ไหมที่จะทำสิ่งนี้ภายในกรอบเวลาที่เหมาะสม (อาจจะเป็น 10 ปีหรือไม่ตอนนี้ฉันอายุ 31 แล้ว ... )? หรือฉันจะต้องไปหาวิธีที่จะเข้าร่วมการจัดเรียงของวิทยาลัย / สถาบันการบางอย่าง?

1
การสร้างคุณสมบัติและการปรับสภาพในการเรียนรู้ของเครื่อง
ให้บอกว่าฉันต้องการสร้างลอจิสติกลอจิสติกสำหรับภาพยนตร์เอ็มคุณสมบัติของฉันจะเป็นเช่นอายุของบุคคลเพศอาชีพสถานที่ ดังนั้นชุดฝึกอบรมจะเป็นอย่างไร: อายุเพศอาชีพตำแหน่งชอบ (1) / ไม่ชอบ (0) 23 M ซอฟต์แวร์ US 1 24 F Doctor UK 0 และอื่น ๆ .... ตอนนี้คำถามของฉันคือฉันควรปรับขนาดและแสดงคุณสมบัติของฉันอย่างไร วิธีหนึ่งที่ฉันคิดว่า: แบ่งอายุเป็นกลุ่มอายุดังนั้น 18-25, 25-35, 35- ข้างต้นเพศเป็น M, F, สถานที่เช่นสหรัฐอเมริกา, อังกฤษ, อื่น ๆ ตอนนี้สร้างคุณสมบัติไบนารีสำหรับค่าเหล่านี้ดังนั้นอายุจะมี 3 คุณลักษณะไบนารีแต่ละที่สอดคล้องกับกลุ่มอายุและอื่น ๆ ดังนั้นผู้ชายอายุ 28 ปีจากสหรัฐอเมริกาจะถูกแสดงเป็น 010 10 100 (010-> กลุ่มอายุ 25-35, 10 -> ชาย, 100 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.