สถิติและข้อมูลขนาดใหญ่ machine-learning

2

เคอร์เนลเชิงเส้นและเคอร์เนลที่ไม่ใช่เชิงเส้นสำหรับเครื่องเวกเตอร์สนับสนุน?

เมื่อใช้เครื่องสนับสนุนเวกเตอร์มีแนวทางในการเลือกเคอร์เนลเชิงเส้นกับเคอร์เนลแบบไม่เชิงเส้นเช่น RBF หรือไม่? ฉันเคยได้ยินว่าเคอร์เนลที่ไม่ใช่เชิงเส้นมีแนวโน้มที่จะไม่ทำงานได้ดีเมื่อจำนวนของคุณลักษณะมีขนาดใหญ่ มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่?

45 machine-learning classification svm references kernel-trick

5

ทางเลือกของ Gradient Descent คืออะไร?

Gradient Descent มีปัญหาในการติดอยู่ใน Local Minima เราจำเป็นต้องใช้เวลาเอ็กซ์โพเนนเชียลของการไล่ระดับสีเพื่อค้นหาค่าต่ำสุดของโลก ใครสามารถบอกฉันเกี่ยวกับทางเลือกอื่น ๆ ของการไล่ระดับสีแบบลาดเอียงที่ใช้ในการเรียนรู้เครือข่ายประสาทเทียมพร้อมกับข้อดีข้อเสีย

45 machine-learning svm neural-networks

8

แบบจำลองทั้งหมดไร้ประโยชน์หรือไม่? มีรูปแบบที่แน่นอน - หรือมีประโยชน์หรือไม่

คำถามนี้รบกวนจิตใจฉันมานานกว่าหนึ่งเดือนแล้ว ฉบับเดือนกุมภาพันธ์ 2558 ของAmstat Newsมีบทความโดย Berkeley ศาสตราจารย์ Mark van der Laan ที่ดุคนที่ใช้โมเดลที่ไม่แน่นอน เขากล่าวว่าการใช้แบบจำลองสถิติเป็นศิลปะมากกว่าวิทยาศาสตร์ ตามที่เขาพูดเราสามารถใช้ "แบบจำลองที่แน่นอน" และความล้มเหลวของเราในการทำเช่นนั้นมีส่วนทำให้ "ขาดความเข้มงวด ... ฉันกลัวว่าการเป็นตัวแทนของเราในด้านวิทยาศาสตร์ข้อมูลกำลังกลายเป็นคนชายขอบ" ผมยอมรับว่าเราอยู่ในอันตรายจากการกลายเป็นชายขอบ แต่ภัยคุกคามมักจะมาจากผู้ที่เรียกร้อง (มีเสียงมากเช่นศาสตราจารย์แวนเดอร์ Laan ดูเหมือนว่า) ว่าพวกเขาจะไม่ได้ใช้วิธีการตัวอย่างบางส่วน แต่มีวิธีการในความเป็นจริงไกลน้อยเข้มงวดกว่าแบบจำลองทางสถิติที่มีการใช้อย่างระมัดระวัง - แม้เป็นสิ่งที่ผิด ฉันคิดว่ามันยุติธรรมที่จะบอกว่าศาสตราจารย์แวนเดอร์ลันค่อนข้างดูถูกคนที่พูดซ้ำคำพูดที่ใช้บ่อยของ Box "ทุกรุ่นผิด แต่มีประโยชน์" โดยพื้นฐานแล้วเมื่อฉันอ่านมันเขาบอกว่าแบบจำลองทั้งหมดผิดและไร้ประโยชน์ทั้งหมด ตอนนี้ฉันจะไม่เห็นด้วยกับอาจารย์ของ Berkeley บ้าง ในทางกลับกันเขาเป็นใครที่มองข้ามมุมมองของยักษ์ตัวจริงในสนามของเรา ในการอธิบายอย่างละเอียดดร. แวนเดอร์แลนกล่าวว่า "มันไร้สาระสมบูรณ์เมื่อต้องระบุว่าแบบจำลองทั้งหมดผิด ... ตัวอย่างเช่นแบบจำลองทางสถิติที่ไม่ทำให้สมมติฐานเป็นจริงเสมอไป" เขายังคง: "แต่บ่อยครั้งที่เราสามารถทำได้ดีกว่าที่เราจะได้รู้ว่าข้อมูลที่เป็นผลของทดลองเหมือนอิสระ." ฉันไม่เห็นว่าจะมีใครรู้ว่ายกเว้นในการสุ่มตัวอย่างแบบสุ่มหรือการตั้งค่าการทดลองที่แคบมาก ผู้เขียนชี้ให้เห็นถึงการทำงานของเขาในการเรียนรู้โอกาสสูงสุดและการเรียนรู้ด้วยการสูญเสียขั้นต่ำที่กำหนดเป้าหมายซึ่ง "รวมเอาสถานะของศิลปะในการประเมินการเรียนรู้ของเครื่องจักร / การปรับตัวด้วยข้อมูล ทฤษฎีกระบวนการในขณะที่ยังคงให้การอนุมานทางสถิติอย่างเป็นทางการ …

45 machine-learning maximum-likelihood modeling nonparametric parametric

4

เมล็ดถูกนำไปใช้กับแผนที่คุณลักษณะเพื่อสร้างแผนที่คุณลักษณะอื่น ๆ อย่างไร

ฉันพยายามที่จะทำความเข้าใจกับส่วนต่าง ๆ ของโครงข่ายประสาทเทียม ดูรูปต่อไปนี้: ฉันไม่มีปัญหาในการทำความเข้าใจกับชั้นแรกของการบิดที่เรามีเมล็ดที่แตกต่างกัน 4 ขนาด (ขนาด ) ซึ่งเราได้ทำการเชื่อมต่อกับภาพอินพุตเพื่อรับแผนที่คุณลักษณะ 4 แบบk × kk×kk \times k สิ่งที่ฉันไม่เข้าใจคือเลเยอร์ convolution ถัดไปซึ่งเราไปจาก 4 ฟีเจอร์แมปถึง 6 ฟีเจอร์แมป ฉันคิดว่าเรามี 6 เมล็ดในเลเยอร์นี้ (ดังนั้นให้แผนที่คุณลักษณะเอาต์พุต 6 รายการ) แต่เมล็ดเหล่านี้ทำงานบนแผนที่คุณลักษณะ 4 รายการที่แสดงใน C1 ได้อย่างไร เมล็ดเป็นแบบสามมิติหรือเป็นแบบสองมิติและทำซ้ำในแผนที่คุณลักษณะอินพุต 4 ตัวหรือไม่

44 machine-learning neural-networks deep-learning conv-neural-network

6

เหตุใดจึงไม่มีการตรวจสอบความสัมพันธ์หลายระดับในสถิติสมัยใหม่ / การเรียนรู้ของเครื่อง

ในสถิติแบบดั้งเดิมในขณะที่สร้างแบบจำลองเราจะตรวจสอบความหลากหลายทางพินิจพิเคราะห์โดยใช้วิธีการเช่นประมาณการค่าความแปรปรวนของเงินเฟ้อ (VIF) แต่ในการเรียนรู้ของเครื่อง เลย ทำไมเราทำเช่นนั้น?

44 regression machine-learning multicollinearity regularization vif

13

การเรียนรู้ของเครื่องสามารถถอดรหัสแฮช SHA256 ได้หรือไม่

ฉันมีแฮช SHA256 64 ตัว ฉันหวังว่าจะฝึกแบบจำลองที่สามารถทำนายได้ว่าข้อความธรรมดาที่ใช้สร้างแฮชเริ่มต้นด้วย 1 หรือไม่ ไม่ว่าจะเป็น "เป็นไปได้" อัลกอริทึมแบบใดที่จะเป็นแนวทางที่ดีที่สุด ความคิดเริ่มต้นของฉัน: สร้างตัวอย่างแฮชขนาดใหญ่ที่เริ่มต้นด้วย 1 และตัวอย่างแฮชขนาดใหญ่ที่ไม่ได้ขึ้นต้นด้วย 1 ตั้งค่าอักขระแฮช 64 ตัวแต่ละตัวเป็นพารามิเตอร์สำหรับโมเดลการถดถอยโลจิสติกที่ไม่ได้รับการดูแลบางประเภท ฝึกโมเดลโดยบอกเมื่อถูก / ผิด หวังว่าจะสามารถสร้างแบบจำลองที่สามารถทำนายได้ว่าข้อความธรรมดาเริ่มต้นด้วย 1 หรือไม่ที่มีความแม่นยำสูงพอ (และด้วยคัปปาที่ดี)

43 machine-learning logistic

3

ทำความเข้าใจเกี่ยวกับบทบาทของปัจจัยส่วนลดในการเรียนรู้การเสริมแรง

ฉันสอนตัวเองเกี่ยวกับการเรียนรู้การเสริมแรงและพยายามทำความเข้าใจแนวคิดของรางวัลที่ได้รับส่วนลด ดังนั้นรางวัลจึงมีความจำเป็นที่จะต้องบอกระบบว่าคู่กรรมของรัฐนั้นดีและอะไรไม่ดี แต่สิ่งที่ฉันไม่เข้าใจคือเหตุผลว่าทำไมจึงจำเป็นต้องให้รางวัลส่วนลด เหตุใดจึงสำคัญว่ารัฐที่มีฐานะดีจะมาถึงในไม่ช้าแทนที่จะเป็นในภายหลังหรือไม่ ฉันเข้าใจว่านี่เกี่ยวข้องในบางกรณี ตัวอย่างเช่นหากคุณใช้การเรียนรู้การเสริมแรงเพื่อแลกเปลี่ยนในตลาดหุ้นมันจะมีประโยชน์มากขึ้นในการทำกำไรได้เร็วกว่าแทนที่จะทำภายหลัง นี่เป็นเพราะการมีเงินในตอนนี้ช่วยให้คุณสามารถทำสิ่งต่าง ๆ ด้วยเงินในตอนนี้ซึ่งเป็นที่ต้องการมากกว่าทำเงินด้วยเงินในภายหลัง แต่ในกรณีส่วนใหญ่ฉันไม่เห็นว่าทำไมการลดราคาจึงมีประโยชน์ ตัวอย่างเช่นสมมติว่าคุณต้องการให้หุ่นยนต์เรียนรู้วิธีนำทางไปรอบ ๆ ห้องเพื่อไปถึงอีกด้านหนึ่งซึ่งมีบทลงโทษหากมันชนกับสิ่งกีดขวาง หากไม่มีปัจจัยส่วนลดแล้วมันจะเรียนรู้ที่จะไปถึงอีกด้านอย่างสมบูรณ์แบบโดยไม่ชนกับสิ่งกีดขวางใด ๆ อาจใช้เวลานานในการไปถึงที่นั่น แต่มันจะไปถึงที่นั่นในที่สุด แต่ถ้าเรามอบส่วนลดให้กับรางวัลหุ่นยนต์จะได้รับการกระตุ้นให้ไปถึงอีกด้านหนึ่งของห้องได้อย่างรวดเร็วแม้ว่ามันจะต้องชนกับวัตถุตามทาง เห็นได้ชัดว่าไม่ใช่ผลลัพธ์ที่ต้องการ แน่นอนว่าคุณต้องการให้หุ่นยนต์ไปด้านอื่น ๆ อย่างรวดเร็ว แต่ไม่ใช่ถ้านี่หมายความว่ามันจะต้องชนกับวัตถุระหว่างทาง ดังนั้นสัญชาตญาณของฉันคือปัจจัยรูปแบบส่วนลดใด ๆ ที่จริงจะนำไปสู่การแก้ปัญหาย่อยที่ดีที่สุด และตัวเลือกของตัวลดราคามักจะเป็นแบบสุ่ม - หลายวิธีที่ฉันได้เห็นเพียงตั้งค่าเป็น 0.9 สิ่งนี้ดูเหมือนจะไร้เดียงสามากสำหรับฉันและดูเหมือนจะเป็นการแลกเปลี่ยนโดยพลระหว่างวิธีการแก้ปัญหาที่เหมาะสมที่สุดและวิธีแก้ปัญหาที่เร็วที่สุด แต่ในความเป็นจริงการแลกเปลี่ยนนี้มีความสำคัญมาก กรุณามีใครช่วยให้ฉันเข้าใจทั้งหมดนี้ไหม ขอขอบคุณ :)

43 machine-learning reinforcement-learning

2

maxout ในโครงข่ายประสาทเทียมคืออะไร

ใครสามารถอธิบายว่าหน่วย maxout ในเครือข่ายประสาทเทียมทำอะไรได้บ้าง พวกเขาทำงานได้อย่างไรและแตกต่างจากหน่วยทั่วไปอย่างไร ฉันพยายามอ่านกระดาษ"Maxout Network" 2013 โดย Goodfellow และคณะ (จากกลุ่มของศาสตราจารย์โยชูวาเบงกิโอ) แต่ฉันไม่เข้าใจเลย

42 machine-learning neural-networks

5

การเรียนรู้ของเครื่องมีประโยชน์น้อยกว่าสำหรับการทำความเข้าใจถึงเวรกรรมซึ่งน่าสนใจน้อยกว่าสำหรับสังคมศาสตร์หรือไม่?

ความเข้าใจของฉันเกี่ยวกับความแตกต่างระหว่างการเรียนรู้ด้วยเครื่อง / เทคนิคการทำนายเชิงสถิติอื่น ๆ กับชนิดของสถิติที่นักวิทยาศาสตร์สังคม (เช่นนักเศรษฐศาสตร์) ใช้คือนักเศรษฐศาสตร์ดูเหมือนจะสนใจอย่างมากในการทำความเข้าใจผลของตัวแปรเดี่ยวหรือตัวแปรหลายตัว ขนาดและการตรวจสอบว่าความสัมพันธ์เป็นสาเหตุ สำหรับเรื่องนี้คุณจะต้องเกี่ยวข้องกับตัวเองด้วยวิธีการทดลองและกึ่งทดลอง ฯลฯ การเรียนรู้ด้วยเครื่องหรือการสร้างแบบจำลองทางสถิติที่สามารถคาดการณ์ได้มักจะมองข้ามแง่มุมนี้และในหลายกรณีไม่ได้ให้ระดับที่เฉพาะเจาะจงซึ่งตัวแปรหนึ่งมีผลต่อผลลัพธ์ (logit และ probit ดูเหมือนจะทำทั้งสองอย่าง) คำถามที่เกี่ยวข้องคือตัวแบบทางเศรษฐศาสตร์หรือแบบจำลองพฤติกรรมที่ได้รับแรงบันดาลใจทางทฤษฎีในระดับใดมีข้อได้เปรียบมากกว่าตัวแบบแบบไม่เชื่อเรื่องพระเจ้าเมื่อคาดการณ์โดเมนใหม่? การเรียนรู้ด้วยเครื่องหรือนักสถิติเชิงพยากรณ์จะพูดอย่างไรกับการวิพากษ์วิจารณ์ว่าหากไม่มีแบบจำลองทางเศรษฐกิจคุณจะไม่สามารถคาดการณ์ตัวอย่างใหม่ได้อย่างถูกต้องที่ผู้แปรสภาพมีความแตกต่างกันมาก ฉันมีความสุขจริงๆที่ได้ยินว่าผู้คนรับสิ่งนี้จากทุกมุมมอง

42 machine-learning econometrics

6

ทำไมต้องลดตัวอย่าง

สมมติว่าฉันต้องการเรียนรู้ลักษณนามที่ทำนายว่าอีเมลเป็นสแปมหรือไม่ และสมมติว่าอีเมลเพียง 1% เท่านั้นที่เป็นสแปม สิ่งที่ง่ายที่สุดที่จะทำคือการเรียนรู้ลักษณนามลวงที่ระบุว่าไม่มีอีเมลใดเป็นสแปม ตัวจําแนกนี้จะให้ความแม่นยำกับเราถึง 99% แต่จะไม่ได้เรียนรู้อะไรที่น่าสนใจ เพื่อแก้ปัญหานี้ผู้คนบอกให้ฉัน "ตัวอย่าง" หรือเรียนรู้ในส่วนย่อยของข้อมูลที่ตัวอย่าง 50% เป็นสแปมและ 50% ไม่ใช่สแปม แต่ฉันกังวลเกี่ยวกับวิธีการนี้ตั้งแต่เมื่อเราสร้างตัวจําแนกนี้และเริ่มใช้มันในคลังข้อความจริง ไม่จริงๆ เพียงเพราะมันเคยเห็นสแปมมากกว่าที่มีอยู่ในชุดข้อมูล แล้วเราจะแก้ไขปัญหานี้อย่างไร ("Upsampling" หรือทำซ้ำตัวอย่างการฝึกอบรมเชิงบวกหลาย ๆ ครั้งดังนั้นข้อมูล 50% เป็นตัวอย่างการฝึกอบรมเชิงบวกดูเหมือนว่าจะประสบปัญหาที่คล้ายกัน)

42 machine-learning classification

2

นุ่น / Statsmodel / Scikit เรียนรู้

Pandas, Statsmodels และ Scikit เรียนรู้การใช้งานที่แตกต่างกันของการเรียนรู้ด้วยเครื่องจักร / การดำเนินการทางสถิติหรือเป็นส่วนเสริมเหล่านี้หรือไม่? ข้อใดต่อไปนี้มีฟังก์ชันการทำงานที่ครอบคลุมที่สุด สิ่งใดที่ได้รับการพัฒนาและ / หรือสนับสนุนอย่างแข็งขัน ฉันต้องใช้การถดถอยโลจิสติก ข้อเสนอแนะใดที่ฉันควรใช้กับสิ่งเหล่านี้?

41 machine-learning python scikit-learn statsmodels pandas

1

วิธีการตีความการวัดข้อผิดพลาด?

ฉันใช้การจำแนกประเภทใน Weka สำหรับชุดข้อมูลบางอย่างและฉันสังเกตเห็นว่าถ้าฉันพยายามที่จะทำนายค่าเล็กน้อยผลลัพธ์จะแสดงค่าที่ถูกต้องและคาดการณ์ไม่ถูกต้องโดยเฉพาะ อย่างไรก็ตามตอนนี้ฉันกำลังเรียกใช้สำหรับคุณลักษณะที่เป็นตัวเลขและผลลัพธ์คือ: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 ฉันจะตีความสิ่งนี้ได้อย่างไร ฉันลองใช้ความคิดแต่ละอย่างแล้ว แต่ฉันไม่เข้าใจมากนักเนื่องจากสถิติไม่ได้อยู่ในความเชี่ยวชาญของฉัน ฉันขอขอบคุณคำตอบประเภท ELI5 อย่างมากในแง่ของสถิติ

41 machine-learning error weka mse rms

1

softmax_cross_entropy_with_logits แตกต่างจาก softmax_cross_entropy_with_logits_v2 อย่างไร

โดยเฉพาะฉันคิดว่าฉันสงสัยเกี่ยวกับคำสั่งนี้: เวอร์ชันหลักของ TensorFlow ในอนาคตจะอนุญาตให้การไล่ระดับสีไหลไปยังอินพุตของฉลากบน backprop ตามค่าเริ่มต้น tf.nn.softmax_cross_entropy_with_logitsซึ่งจะแสดงเมื่อฉันใช้ tf.nn.softmax_cross_entropy_with_logits_v2ในข้อความเดียวกันก็เรียกร้องให้ผมที่จะมีลักษณะที่ ฉันดูเอกสาร แต่ระบุว่าtf.nn.softmax_cross_entropy_with_logits_v2: Backpropagation จะเกิดขึ้นในทั้งการบันทึกและป้ายกำกับ หากต้องการไม่อนุญาตให้ backpagation ลงในฉลากให้ส่งเทนเซอร์ของฉลากผ่าน stop_gradients ก่อนส่งไปยังฟังก์ชันนี้ เมื่อเทียบกับtf.nn.softmax_cross_entropy_with_logits: การแพร่กระจายย้อนหลังจะเกิดขึ้นในบันทึกเท่านั้น เป็นเรื่องใหม่มากกับเรื่อง (ฉันกำลังพยายามหาทางผ่านบทเรียนพื้นฐานบางอย่าง) ข้อความเหล่านี้ไม่ชัดเจน ฉันมีความเข้าใจตื้น ๆ เกี่ยวกับ backpropagation แต่จริงๆแล้วข้อความก่อนหน้านี้หมายถึงอะไร? backpropagation และฉลากเชื่อมต่อกันอย่างไร? และสิ่งนี้จะเปลี่ยนแปลงวิธีที่ฉันทำงานด้วยtf.nn.softmax_cross_entropy_with_logits_v2เมื่อเทียบกับต้นฉบับได้อย่างไร

41 machine-learning supervised-learning tensorflow backpropagation

5

การเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ใช้งานได้: การสุ่มเทียบกับการค้นหากริด

ขณะนี้ฉันกำลังผ่านการค้นหาแบบสุ่ม ของ Bengio และ Bergsta สำหรับการเพิ่มประสิทธิภาพพารามิเตอร์มากเกินไป[1]ซึ่งผู้เขียนอ้างว่าการค้นหาแบบสุ่มนั้นมีประสิทธิภาพมากกว่าการค้นหาแบบตารางเพื่อให้ได้ประสิทธิภาพที่เท่าเทียมกันโดยประมาณ คำถามของฉันคือ: คนที่นี่เห็นด้วยกับการเรียกร้องนั้นหรือไม่? ในงานของฉันฉันใช้การค้นหากริดเป็นส่วนใหญ่เนื่องจากการขาดเครื่องมือที่พร้อมใช้งานเพื่อทำการค้นหาแบบสุ่มได้อย่างง่ายดาย ประสบการณ์ของผู้ใช้ที่ใช้กริดกับการค้นหาแบบสุ่มคืออะไร

40 machine-learning hyperparameter optimization

4

การเรียกคืนและความแม่นยำในการจำแนก

ฉันอ่านคำจำกัดความของการเรียกคืนและความแม่นยำแม้ว่าจะเป็นทุกครั้งในบริบทของการดึงข้อมูล ฉันสงสัยว่าบางคนสามารถอธิบายเรื่องนี้ได้มากกว่านี้ในบริบทการจำแนกประเภทและอาจแสดงตัวอย่างบางอย่าง พูดเช่นฉันมีตัวจําแนกไบนารี่ซึ่งให้ความแม่นยำ 60% และการเรียกคืน 95% นี่คือตัวจําแนกที่ดีหรือไม่ อาจช่วยให้เป้าหมายของฉันเพิ่มมากขึ้นตัวแยกประเภทที่ดีที่สุดตามตัวคุณคืออะไร? (ชุดข้อมูลนั้นไม่สมดุลคลาสส่วนใหญ่มีสองเท่าของตัวอย่างของชนกลุ่มน้อยคลาส) โดยส่วนตัวฉันจะบอกว่า5เพราะพื้นที่ใต้เส้นโค้งตัวรับสัญญาณ (อย่างที่คุณเห็นในที่นี้รุ่น 8 มีความแม่นยำต่ำเรียกคืนได้สูงมาก แต่หนึ่งใน AUC_ROC ที่ต่ำที่สุดนั่นทำให้มันเป็นแบบอย่างที่ดีหรือไม่? แก้ไข: ฉันมีไฟล์ excel พร้อมข้อมูลเพิ่มเติม: https://www.dropbox.com/s/6hq7ew5qpztwbo8/comparissoninbalance.xlsx ในเอกสารนี้สามารถหาบริเวณใต้เส้นโค้งตัวดำเนินการของตัวรับสัญญาณและพื้นที่ใต้เส้นโค้งเรียกคืนความแม่นยำ ร่วมกันกับแปลง

40 machine-learning metric

คำถามติดแท็ก machine-learning