การเลือกตัวแปรสำหรับการสร้างแบบจำลองการทำนายจำเป็นจริงๆในปี 2559?


67

คำถามนี้ถูกถามใน CV เมื่อหลายปีที่ผ่านมาดูเหมือนว่ามูลค่าของ repost ในแง่ของ 1) ลำดับความสำคัญของเทคโนโลยีการคำนวณที่ดีกว่า (เช่นการคำนวณแบบขนาน, HPC เป็นต้น) และ 2) เทคนิคที่ใหม่กว่าเช่น [3]

ก่อนบริบทบางอย่าง สมมติว่าเป้าหมายไม่ใช่การทดสอบสมมติฐานไม่ใช่การประมาณผล แต่คาดการณ์จากชุดทดสอบที่ไม่เห็น ดังนั้นจะไม่มีการให้น้ำหนักกับผลประโยชน์ใด ๆ ที่สามารถตีความได้ ประการที่สองสมมติว่าคุณไม่สามารถแยกแยะความเกี่ยวข้องของตัวทำนายใด ๆ ในการพิจารณาเรื่องเช่น พวกเขาดูเหมือนจะมีเหตุผลเป็นรายบุคคลหรือใช้ร่วมกับตัวทำนายอื่น ๆ ประการที่สามคุณต้องเผชิญหน้ากับผู้ทำนายหลายล้านคน ข้อที่สี่สมมติว่าคุณมีสิทธิ์เข้าถึง AWS ด้วยงบประมาณไม่ จำกัด ดังนั้นพลังในการคำนวณจึงไม่ใช่ข้อ จำกัด

ปกติสำหรับการเลือกตัวแปรคือ 1) ประสิทธิภาพ; เร็วกว่าเพื่อให้พอดีกับโมเดลที่เล็กลงและถูกลงเพื่อรวบรวมตัวทำนายที่น้อยลง, 2) การตีความ; การรู้ตัวแปร "สำคัญ" จะช่วยให้เข้าใจกระบวนการที่เป็นพื้นฐาน [1]

ตอนนี้เป็นที่ทราบกันอย่างกว้างขวางว่าวิธีการเลือกตัวแปรหลายวิธีนั้นไม่มีประสิทธิภาพและมักเป็นอันตรายทันที (เช่นการถดถอยแบบขั้นตอนไปข้างหน้า) [2]

ประการที่สองถ้าแบบจำลองที่เลือกนั้นดีคุณไม่จำเป็นต้องลดรายชื่อผู้ทำนายเลย แบบจำลองควรทำเพื่อคุณ ตัวอย่างที่ดีคือ lasso ซึ่งกำหนดค่าสัมประสิทธิ์เป็นศูนย์ให้กับตัวแปรที่ไม่เกี่ยวข้องทั้งหมด

ฉันรู้ว่าบางคนสนับสนุนโดยใช้รูปแบบ "ช้าง" คือ โยนตัวทำนายที่คาดเดาได้ทั้งหมดลงในฟิตและวิ่งไปกับมัน [2]

มีเหตุผลพื้นฐานที่ต้องทำการเลือกตัวแปรหรือไม่ถ้าเป้าหมายคือความแม่นยำในการทำนาย?

[1] Reunanen, J. (2003) การทำมากเกินไปในการเปรียบเทียบระหว่างวิธีการเลือกตัวแปร วารสารการวิจัยการเรียนรู้ของเครื่อง, 3, 1371-1382

[2] Harrell, F. (2015) กลยุทธ์การสร้างแบบจำลองการถดถอย: ด้วยการประยุกต์ใช้กับแบบจำลองเชิงเส้นการถดถอยโลจิสติกและลำดับและการวิเคราะห์การอยู่รอด สปริงเกอร์

[3] เทย์เลอร์, J. , & Tibshirani, RJ (2015) การเรียนรู้เชิงสถิติและการอนุมานเชิงเลือก การดำเนินการของ National Academy of Sciences, 112 (25), 7629-7634

[4] Zhou, J. , Foster, D. , Stine, R. , & Ungar, L. (2005, สิงหาคม) การสตรีมการเลือกคุณสมบัติโดยใช้การลงทุนด้วยตนเอง ในการประชุม ACM SIGKDD ระดับนานาชาติครั้งที่ 11 เรื่องการค้นพบองค์ความรู้ในการขุดข้อมูล (หน้า 384-393) พลอากาศเอก


6
คำถามแรกที่ดี - อาจเป็นไปได้ว่าปิดซ้ำ แต่ฉันขอขอบคุณที่คุณใช้ความพยายามในการกำหนดสิ่งที่คุณรู้สึกว่าแตกต่าง ฉันขอแนะนำให้แก้ไขชื่อเพื่อให้ชัดเจนว่าการโฟกัสของคุณอยู่ที่การคาดการณ์เท่านั้น
Silverfish

5
หากคำถามนี้ถูกถามไปแล้ว แต่คุณคิดว่าเป็นเรื่องสำคัญที่จะต้องโพสต์คำถามอีกครั้งหลังจากผ่านไประยะหนึ่งบางทีคุณอาจให้ลิงก์ไปยังคำถามก่อนหน้า มันน่าสนใจที่จะเปรียบเทียบคำตอบก่อนหน้านี้
ทิม

1
@ qbert65536 มุมมองเดียวคือคุณไม่ การเลือกคุณสมบัติไม่น่าเชื่อถือโดยเนื้อแท้
horaceT

8
วิธีการที่เลือกชุดย่อยของคุณสมบัติโดยอัตโนมัติ (เช่นรุ่นที่มีการลงโทษ l1) ก็กำลังทำการเลือกคุณสมบัติเช่นกัน ดังนั้นคำถามที่สำคัญไม่ใช่ "คือการเลือกคุณลักษณะที่ดี / ไม่ดี" แต่ "คุณสมบัติใดที่แยกความแตกต่างของวิธีการเลือกคุณลักษณะที่ดีจากสิ่งที่ไม่ดี" การดำเนินการร่วมกับการประมาณค่าพารามิเตอร์ (เช่นเดียวกับใน Lasso) เป็นหนึ่งในคุณสมบัติและเราสามารถถามว่าเรื่องนั้น (พร้อมกับคุณสมบัติอื่น ๆ อีกมากมาย)
user20160

2
@ToussaintLouverture เนื่องจากฉันโพสต์คำถามนี้เมื่อหนึ่งปีก่อนฉันมีความคิดที่สอง (และสาม) ตอนนี้ฉันเชื่อว่าคำถามที่เหมาะสมคือความสำคัญเพียงใดในการพยายามเลือกตัวแปรโดยตรงแทนที่จะเลือกแบบจำลองเพื่อเลือกแบบจำลองที่มีความสามารถมากกว่าที่จะสรุปจากคุณลักษณะทั้งหมดของการทดสอบ
horaceT

คำตอบ:


37

มีข่าวลือมาหลายปีแล้วที่ Google ใช้คุณลักษณะทั้งหมดที่มีในการสร้างอัลกอริทึมการคาดการณ์ อย่างไรก็ตามถึงวันที่ไม่มีการปฏิเสธความรับผิดชอบคำอธิบายหรือเอกสารสีขาวได้เกิดขึ้นที่ชี้แจงและ / หรือข้อพิพาทข่าวลือนี้ แม้แต่สิทธิบัตรที่ตีพิมพ์ของพวกเขาก็ไม่ช่วยในการทำความเข้าใจ เป็นผลให้ไม่มีใครภายนอก Google รู้ว่าสิ่งที่พวกเขากำลังทำเพื่อความรู้ของฉันที่ดีที่สุด

/ * อัปเดตในเดือนก. ย. 2562 นักเผยแผ่ศาสนา Google Tensorflow ดำเนินการบันทึกการนำเสนอโดยระบุว่าวิศวกรของ Google ประเมินพารามิเตอร์มากกว่า 5 พันล้านพารามิเตอร์สำหรับPageRankเวอร์ชันปัจจุบันเป็นประจำ * /

ในฐานะที่เป็น OP บันทึกหนึ่งในปัญหาที่ใหญ่ที่สุดในการสร้างแบบจำลองการทำนายคือการรวมกันระหว่างการทดสอบสมมติฐานคลาสสิกและข้อกำหนดของแบบจำลองอย่างระมัดระวังกับการทำเหมืองข้อมูลบริสุทธิ์ การฝึกฝนแบบคลาสสิกนั้นค่อนข้างยากที่จะเข้าใจถึงความต้องการ "ความแม่นยำ" ในการออกแบบและพัฒนาแบบจำลอง ความจริงก็คือเมื่อเผชิญหน้ากับตัวทำนายจำนวนมากและเป้าหมายที่เป็นไปได้หลายอย่างหรือตัวแปรขึ้นอยู่กับกรอบการทำงานแบบดั้งเดิมก็ไม่สามารถใช้งานได้ เอกสารล่าสุดจำนวนมากอธิบายภาวะที่กลืนไม่เข้าคายไม่ออกนี้จาก Chattopadhyay และกระดาษ Lipson ยอดเยี่ยมData Smashing: การเปิดโปงที่ซุ่มซ่อนการสั่งซื้อใน Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf

คอขวดสำคัญคืออัลกอริธึมการเปรียบเทียบข้อมูลส่วนใหญ่ในปัจจุบันพึ่งพาผู้เชี่ยวชาญของมนุษย์เพื่อระบุว่า 'คุณสมบัติ' ของข้อมูลใดที่เกี่ยวข้องกับการเปรียบเทียบ ที่นี่เราเสนอหลักการใหม่สำหรับการประเมินความคล้ายคลึงกันระหว่างแหล่งที่มาของกระแสข้อมูลโดยพลการโดยไม่ใช้ความรู้ในโดเมนหรือการเรียนรู้

ถึงรายงาน AER ของปีที่แล้วเกี่ยวกับปัญหานโยบายการทำนายโดย Kleinberg และคณะ https://www.aeaweb.org/articles?id=10.1257/aer.p20151023ซึ่งทำให้กรณีสำหรับการทำเหมืองข้อมูลและการทำนายเป็นเครื่องมือที่มีประโยชน์ในการกำหนดนโยบายทางเศรษฐกิจโดยอ้างถึงกรณีที่ "การอนุมานเชิงสาเหตุไม่ใช่สิ่งสำคัญหรือจำเป็น "

ความจริงก็คือคำถามที่มีมูลค่ามากกว่า $ 64,000 คือการเปลี่ยนความคิดและความท้าทายในกรอบการทดสอบสมมุติฐานแบบคลาสสิกโดยนัยเช่นการสัมมนาทางวิชาการEdge.orgเรื่อง "ล้าสมัย" การคิดเชิงวิทยาศาสตร์https://www.edge.org/ การตอบสนอง / อะไร - ความคิดทางวิทยาศาสตร์ - คือพร้อมสำหรับการเกษียณอายุเช่นเดียวกับบทความล่าสุดนี้โดย Eric Beinhocker ใน "เศรษฐศาสตร์ใหม่" ซึ่งนำเสนอข้อเสนอที่รุนแรงสำหรับการบูรณาการสาขาวิชาที่แตกต่างกันเช่นเศรษฐศาสตร์พฤติกรรมทฤษฎีความซับซ้อน ทฤษฎีการพัฒนาเครือข่ายและพอร์ตโฟลิโอเป็นแพลตฟอร์มสำหรับการนำนโยบายไปปฏิบัติและการยอมรับhttps://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/จำเป็นต้องพูดปัญหาเหล่านี้ไปไกลกว่าเพียงความกังวลทางเศรษฐกิจและแนะนำว่าเรากำลังดำเนินการเปลี่ยนแปลงขั้นพื้นฐานในกระบวนทัศน์ทางวิทยาศาสตร์ มุมมองที่เปลี่ยนไปนั้นเป็นพื้นฐานของความแตกต่างระหว่าง reductionistic, มีดโกนของ Occam เช่นการสร้างแบบจำลองเทียบกับหลักการที่กว้างขวางของ Epicurus หรือคำอธิบายที่หลากหลายซึ่งระบุไว้อย่างคร่าว ๆ ว่าหากการค้นพบหลายอย่างอธิบายให้เก็บไว้ทั้งหมด ... https: // en wikipedia.org/wiki/Principle_of_plenitude

แน่นอนว่าคนอย่าง Beinhocker นั้นปราศจากภาระผูกพันในทางปฏิบัติในสนามเพลาะเกี่ยวกับการประยุกต์ใช้การแก้ปัญหาเชิงสถิติสำหรับกระบวนทัศน์ที่พัฒนาขึ้นนี้ เมื่อถามถึงคำถามเกี่ยวกับการเลือกตัวแปรที่มีมิติสูงพิเศษ OP ค่อนข้างไร้ความหมายเกี่ยวกับแนวทางการสร้างแบบจำลองที่อาจใช้ประโยชน์ได้เช่น Lasso, LAR, อัลกอริธึมแบบขั้นตอนหรือ "แบบจำลองช้าง" ที่ใช้ข้อมูลที่มีอยู่ทั้งหมด ความจริงก็คือแม้ว่า AWS หรือซูเปอร์คอมพิวเตอร์คุณจะไม่สามารถใช้ข้อมูลที่มีอยู่ทั้งหมดในเวลาเดียวกัน - มี RAM ไม่เพียงพอในการโหลดข้อมูลทั้งหมดสิ่งนี้หมายความว่าอย่างไร เช่นการค้นพบของ NSF ในชุดข้อมูลที่ซับซ้อนหรือชุดข้อมูลขนาดใหญ่: ชุดรูปแบบทางสถิติทั่วไปถึง "การแบ่งและพิชิต" อัลกอริทึมสำหรับการขุดข้อมูลขนาดใหญ่เช่น Wang, et al's paper การสำรวจวิธีการทางสถิติและการคำนวณสำหรับ Big Data http://arxiv.org/pdf/1502.07989.pdfรวมถึง Leskovec, et al หนังสือการทำเหมืองแร่ของชุดข้อมูลขนาดใหญ่ http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets

ขณะนี้มีเอกสารนับร้อยหากไม่นับพันที่จัดการกับแง่มุมต่าง ๆ ของความท้าทายเหล่านี้ทั้งหมดเสนอเครื่องมือวิเคราะห์ที่แตกต่างกันอย่างกว้างขวางเป็นแกนหลักของพวกเขาจากอัลกอริทึม "หารและพิชิต"; unsupervised แบบจำลอง "การเรียนรู้ลึก"; ทฤษฎีเมทริกซ์แบบสุ่มที่ใช้กับการสร้างความแปรปรวนร่วมขนาดใหญ่ แบบจำลองเมตริกซ์แบบเบย์ไปเป็นแบบคลาสสิกการถดถอยโลจิสติกภายใต้การดูแลและอื่น ๆ เมื่อสิบห้าปีก่อนการอภิปรายส่วนใหญ่มุ่งเน้นไปที่คำถามที่เกี่ยวข้องกับข้อดีของการแก้ปัญหาแบบเบย์แบบลำดับชั้นเทียบกับแบบ จำกัด การผสมแบบบ่อยๆ ในบทความที่กล่าวถึงปัญหาเหล่านี้ Ainslie และคณะ http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfมาถึงข้อสรุปว่าวิธีการทางทฤษฎีที่แตกต่างกันในทางปฏิบัติผลิตผลลัพธ์ที่เท่าเทียมกันส่วนใหญ่ยกเว้นปัญหาที่เกี่ยวข้องกับข้อมูลที่กระจัดกระจายและ / หรือมิติสูงที่แบบจำลอง HB มีข้อได้เปรียบ วันนี้ด้วยการถือกำเนิดของการแก้ปัญหา D & C โมเดลการเก็งกำไร HB อาจมีความสุขในอดีตจะถูกกำจัด

ตรรกะพื้นฐานของวิธีแก้ปัญหาเหล่านี้คือส่วนขยายขนาดใหญ่ของเทคนิคการสุ่มป่าที่มีชื่อเสียงของ Breiman ซึ่งอาศัยการ bootstrapped resampling ของการสังเกตและคุณสมบัติ Breiman ทำงานของเขาในช่วงปลายยุค 90 บนซีพียูเดียวเมื่อข้อมูลขนาดใหญ่มีความหมายว่ามีกิ๊กเพียงไม่กี่โหลและคุณสมบัติสองสามพันอย่าง ในวันนี้แพลตฟอร์มแบบมัลติคอร์ขนานกันอย่างหนาแน่นมันเป็นไปได้ที่จะรันอัลกอริธึมที่วิเคราะห์ข้อมูลเทราไบต์ที่มีคุณสมบัติหลายสิบล้านสร้างคุณลักษณะมินิ "RF" นับล้านในเวลาไม่กี่ชั่วโมง

มีคำถามสำคัญจำนวนหนึ่งที่ออกมาจากทั้งหมดนี้ สิ่งหนึ่งเกี่ยวข้องกับการสูญเสียความแม่นยำเนื่องจากลักษณะของการแก้ปัญหาเหล่านี้โดยประมาณ ปัญหานี้ได้รับการแก้ไขโดยเฉินและ Xie ในกระดาษของพวกเขา, วิธีการแยกและปราบการวิเคราะห์ข้อมูลขนาดใหญ่เป็นพิเศษ http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdfที่พวกเขาสรุป การประมาณนั้นแตกต่างกันอย่างสิ้นเชิงจากโมเดล "ข้อมูลเต็มรูปแบบ"

ข้อกังวลประการที่สองซึ่งความรู้ที่ดีที่สุดของฉันยังไม่ได้รับการกล่าวถึงอย่างเพียงพอโดยสิ่งที่ทำกับผลลัพธ์ (เช่น "พารามิเตอร์") จากแบบจำลองการคาดการณ์ขนาดเล็กหลายล้านครั้งเมื่อการแก้ไขปัญหาเสร็จสิ้น ได้รับการสรุปและสรุป กล่าวอีกนัยหนึ่งวิธีดำเนินการบางอย่างง่าย ๆ เหมือนกับ "ให้คะแนน" ข้อมูลใหม่กับผลลัพธ์เหล่านี้ สัมประสิทธิ์แบบจำลองขนาดเล็กจะถูกบันทึกและจัดเก็บหรือไม่หรือเพียงแค่เรียกใช้อัลกอริทึม d & c ใหม่ในข้อมูลใหม่ได้หรือไม่

ในหนังสือของเขาNumbers Rule Your World , Kaiser Fung อธิบายถึงภาวะที่กลืนไม่เข้าคายไม่ออกที่ Netflix เผชิญเมื่อนำเสนอด้วยชุดรูปแบบเพียง 104 รุ่นที่มอบโดยผู้ชนะการแข่งขันของพวกเขา ผู้ชนะมีจริงลด MSE เทียบกับคู่แข่งอื่น ๆ ทั้งหมด แต่สิ่งนี้แปลเป็นทศนิยมหลายตำแหน่งปรับปรุงความถูกต้องในระดับ 5 คะแนนคะแนน Likert ประเภทที่ใช้โดยระบบแนะนำภาพยนตร์ของพวกเขา นอกจากนี้การบำรุงรักษาด้านไอทีที่จำเป็นสำหรับชุดรูปแบบนี้มีค่าใช้จ่ายมากกว่าการประหยัดที่เห็นได้จาก "การปรับปรุง" ในแบบจำลองความแม่นยำ

จากนั้นมีคำถามทั้งหมดว่า "การเพิ่มประสิทธิภาพ" เป็นไปได้ด้วยข้อมูลขนาดนี้หรือไม่ ตัวอย่างเช่นเอ็มมานูเอลเดอร์แมนนักฟิสิกส์และวิศวกรการเงินในหนังสือชีวิตของฉันในฐานะที่เป็น Quantแสดงให้เห็นว่าการปรับให้เหมาะสมเป็นตำนานที่ไม่ยั่งยืนอย่างน้อยในสาขาวิศวกรรมการเงิน

ในที่สุดคำถามสำคัญเกี่ยวกับความสำคัญของคุณลักษณะที่เกี่ยวข้องกับคุณลักษณะจำนวนมากยังไม่ได้รับการแก้ไข

ไม่มีคำตอบง่าย ๆ เกี่ยวกับความจำเป็นในการเลือกตัวแปรและความท้าทายใหม่ ๆ ที่เปิดขึ้นในปัจจุบันการแก้ปัญหาของ Epicurean ยังคงได้รับการแก้ไข สิ่งสำคัญที่สุดคือเราทุกคนเป็นนักวิทยาศาสตร์ด้านข้อมูล

**** แก้ไข *** การอ้างอิง

  1. Chattopadhyay I, Lipson H. 2014 Data smashing: เปิดเผยคำสั่งที่ซุ่มซ่อนในข้อมูล JR Soc อินเทอร์เฟซ 11: 20140826 http://dx.doi.org/10.1098/rsif.2014.0826

  2. Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan และ Ziad Obermeyer 2558. "ปัญหานโยบายการคาดการณ์" American Economic Review, 105 (5): 491-95 DOI: 10.1257 / aer.p20151023

  3. Edge.org, คำถามประจำปี 2014: ความคิดทางวิทยาศาสตร์คืออะไรพร้อมสำหรับการตอบแทน? https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement

  4. Eric Beinhocker, การเปลี่ยนแปลงที่ลึกซึ้งทางเศรษฐศาสตร์ทำให้การถกเถียงกันอย่างเผด็จการกับซ้ายไม่ถูกต้อง, 2016, Evonomics.org https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/

  5. หลักการ Epicurus ของคำอธิบายที่หลากหลาย: เก็บทุกรุ่นไว้ Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/

  6. NSF, การค้นพบที่ซับซ้อนหรือชุดข้อมูลขนาดใหญ่: ธีมทางสถิติทั่วไป, การประชุมเชิงปฏิบัติการได้รับทุนจากมูลนิธิวิทยาศาสตร์แห่งชาติ, วันที่ 16-17 ตุลาคม 2550 https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf

  7. วิธีการทางสถิติและการคำนวณสำหรับข้อมูลขนาดใหญ่กระดาษทำงานโดย Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu และ Jun Yan, 29 ตุลาคม 2015 http://arxiv.org/pdf/1502.07989.pdf

  8. Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, การขุดชุดข้อมูลขนาดใหญ่, สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์; 2 ฉบับ (29 ธันวาคม 2557) ISBN: 978-1107077232

  9. ตัวอย่างการวิเคราะห์ความแปรปรวนร่วมขนาดใหญ่และการวิเคราะห์ข้อมูลมิติสูง (ซีรี่ส์ Cambridge ในคณิตศาสตร์และความน่าจะเป็นทางคณิตศาสตร์) โดย Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 ฉบับ (30 มีนาคม 2558) ISBN: 978-1107065178

  10. RICK L. ANDREWS, ANDINW AINSLIE และ IMRAN S. CURRIM, การเปรียบเทียบเชิงประจักษ์ของแบบจำลองทางเลือก Logit กับการแยกแบบต่อเนื่องแทนที่จะเป็นตัวแทนของความหลากหลาย, วารสารการวิจัยการตลาด, 479 เล่ม XXXIX (พฤศจิกายน 2545), 479–487 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1.197.788&rep=rep1&type=pdf

  11. แนวทางแบบแยกส่วนและยึดครองสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่พิเศษ Xueying Chen และ Minge Xie, รายงานทางเทคนิค DIMACS 2012-01, มกราคม 2012 http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01-01.pdf

  12. Kaiser Fung ตัวเลขครองโลกของคุณ: อิทธิพลที่ซ่อนเร้นของความน่าจะเป็นและสถิติเกี่ยวกับทุกสิ่งที่คุณทำ, การศึกษา McGraw-Hill; 1 ฉบับ (15 กุมภาพันธ์ 2010) ISBN: 978-0071626538

  13. Emmanuel Derman ชีวิตของฉันในฐานะ Quant: ภาพสะท้อนของฟิสิกส์และการเงินไวลีย์; 1 ฉบับ (11 มกราคม 2559) ISBN: 978-0470192733

* อัพเดทเดือนพฤศจิกายน 2560 *

หนังสือของ Nathan Kutz ในปี 2013 การสร้างแบบจำลองข้อมูลและการคำนวณทางวิทยาศาสตร์: วิธีการสำหรับระบบที่ซับซ้อนและข้อมูลขนาดใหญ่เป็นการสำรวจทางคณิตศาสตร์และ PDE ที่มุ่งเน้นไปที่การเลือกตัวแปรรวมถึงวิธีการลดขนาดและเครื่องมือ ยอดเยี่ยม 1 ชั่วโมงเบื้องต้นเกี่ยวกับความคิดของเขาสามารถพบได้ในนี้มิถุนายน 2017 Youtube วิดีโอข้อมูลขับเคลื่อนการค้นพบระบบพลวัตและโคน ในนั้นเขาทำการอ้างอิงถึงการพัฒนาล่าสุดในสาขานี้ https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop


1
เมื่อสองสามปีที่ผ่านมาที่ Machine Learning Summer School เพื่อนจาก Google ได้พูดคุยกัน (ลืมชื่อ) เขากล่าวถึงแบบจำลอง (การจำแนกเลขฐานสอง) ในการผลิตเกี่ยวข้องกับบางอย่างเช่น ~ 200 ล้านคุณลักษณะการฝึกอบรมชุดบน ~ 30 Tb ของชุดข้อมูล; ส่วนใหญ่เป็นคุณสมบัติไบนารี ฉันจำไม่ได้ว่าเขาเคยพูดถึงการเลือกตัวแปร
horaceT

1
ความคิดเห็นที่ดี (แม้ว่าส่วนหนึ่งของมันออกไปสัมผัส) ฉันชอบมุมมองที่ความคิดสมัยเก่าจำนวนมากต้องการการสอบใหม่ในยุคของ Big Data
horaceT

1
@horaceT น่าสนใจมาก อย่างน้อยก็ยืนยันข่าวลือ ขอบคุณ โปรแกรม ML ตัวไหนคืออะไร?
Mike Hunter

1
MLSS 2012 ที่ UC Santa Cruz ผู้บรรยายคือ Tushar Chandra นี่คือสไลด์users.soe.ucsc.edu/~niejiazhong/slides/chandra.pdf
horaceT

2
@Glen_b ขอบคุณสำหรับความคิดเห็น ฉันคิดว่าฉันให้ชื่อและชื่อเรื่องสำหรับการอ้างอิงอย่างแม่นยำเนื่องจากปัญหาลิงค์เสีย ไม่ว่าฉันจะเพิ่มส่วนอ้างอิงในตอนท้าย แจ้งให้เราทราบหากมีสิ่งใดขาดหายไป
Mike Hunter

14

ในแง่ของการทำนายคุณอาจต้องคิดถึงคำถามว่าโมเดลนั้นเรียนรู้คุณลักษณะที่สำคัญได้อย่างรวดเร็วเพียงใด แม้จะคิดถึง OLS สิ่งนี้จะทำให้คุณได้รับข้อมูลที่เพียงพอ แต่เรารู้ว่ามันไม่เข้าหาโซลูชันนี้เร็วพอดังนั้นเราจึงค้นหาสิ่งที่ดีกว่า

วิธีการส่วนใหญ่ตั้งสมมติฐานเกี่ยวกับชนิดของ betas / coefficients ที่จะเกิดขึ้น (เช่นการกระจายก่อนหน้านี้ในแบบจำลอง Bayesian) พวกเขาทำงานได้ดีที่สุดเมื่อสมมติฐานเหล่านี้ถือ ตัวอย่างเช่นการถดถอยของสัน / lasso ถือว่า betas ส่วนใหญ่อยู่ในระดับเดียวกันกับเกือบเป็นศูนย์ พวกเขาจะไม่ทำงานเช่นกันสำหรับ "เข็มในกองหญ้า" ซึ่งส่วนใหญ่เป็นศูนย์ betas และบาง betas มีขนาดใหญ่มาก (เช่นเกล็ดแตกต่างกันมาก) การเลือกคุณสมบัติอาจทำงานได้ดีขึ้นที่นี่ - เชือกสามารถติดระหว่างเสียงหดตัวและปล่อยสัญญาณไม่ถูกแตะต้อง การเลือกคุณสมบัติไม่แน่นอนมากขึ้น - เอฟเฟกต์อาจเป็น "สัญญาณ" หรือ "เสียง"

ในแง่ของการตัดสินใจ - คุณต้องมีความคิดเกี่ยวกับตัวแปรทำนายที่คุณมี คุณมีของดีอยู่หรือเปล่า หรือตัวแปรทั้งหมดอ่อนแอ นี่จะเป็นการขับเคลื่อนโปรไฟล์ของ betas ที่คุณมี และวิธีการลงโทษ / การเลือกที่คุณใช้ (ม้าสำหรับหลักสูตรและทั้งหมดนั้น)

การเลือกคุณสมบัติก็ไม่เลวเช่นกัน แต่การประมาณแบบเก่าบางส่วนเนื่องจากข้อ จำกัด ในการคำนวณนั้นไม่ดีอีกต่อไป (แบบขั้นตอนไปข้างหน้า) การหาค่าเฉลี่ยของแบบจำลองโดยใช้การเลือกคุณสมบัติ (รุ่นทั้งหมด 1 แบบ, รุ่น 2 แบบจำลอง ฯลฯ ซึ่งมีน้ำหนักตามประสิทธิภาพ) จะทำงานได้ดีในการทำนายผล แต่สิ่งเหล่านี้เป็นการลงโทษ betas ผ่านน้ำหนักที่กำหนดให้กับโมเดลที่ไม่รวมตัวแปรนั้น - ไม่ใช่โดยตรง - และไม่ใช่ในรูปแบบการหาค่าเหมาะที่สุดของนูน


12

ฉันให้มุมมองของอุตสาหกรรม

อุตสาหกรรมไม่ชอบที่จะใช้จ่ายเงินกับเซ็นเซอร์และระบบตรวจสอบซึ่งพวกเขาไม่รู้ว่าพวกเขาจะได้รับประโยชน์มากแค่ไหน

ตัวอย่างเช่นฉันไม่ต้องการตั้งชื่อดังนั้นจินตนาการว่าส่วนประกอบที่มีเซ็นเซอร์ 10 ตัวรวบรวมข้อมูลทุกนาที เจ้าของสินทรัพย์หันมาหาฉันและถามฉันว่าคุณสามารถทำนายพฤติกรรมของส่วนประกอบของฉันด้วยข้อมูลเหล่านี้จากเซ็นเซอร์ 10 ตัวได้อย่างไร จากนั้นพวกเขาทำการวิเคราะห์ต้นทุนและผลประโยชน์

จากนั้นพวกเขามีองค์ประกอบเดียวกันกับเซ็นเซอร์ 20 พวกเขาถามฉันอีกครั้งคุณจะทำนายพฤติกรรมของส่วนประกอบของฉันกับข้อมูลเหล่านี้ได้จากเซ็นเซอร์ 20 ตัวได้อย่างไร พวกเขาทำการวิเคราะห์ผลประโยชน์ต้นทุนอื่น

ในแต่ละกรณีพวกเขาเปรียบเทียบผลประโยชน์กับต้นทุนการลงทุนเนื่องจากการติดตั้งเซ็นเซอร์ (นี่ไม่ใช่แค่การเพิ่มเซ็นเซอร์ $ 10 ให้กับส่วนประกอบมีหลายปัจจัยที่มีบทบาท) นี่คือที่การวิเคราะห์การเลือกตัวแปรจะมีประโยชน์


1
จุดดี. แต่คุณจะไม่รู้จักเซ็นเซอร์ 10 ตัวที่ดีพอหรือต้องการอีก 10 ตัวจนกว่าคุณจะมีข้อมูลบางส่วนจาก 20 ตัว
horaceT

จริงและคุณสามารถคาดเดาได้จากการศึกษาบางอย่าง คุณติดตั้งเซ็นเซอร์แต่ละตัวโดยมีเป้าหมายเพื่อหลีกเลี่ยงความล้มเหลว หากอัตราความล้มเหลวต่ำหรือคุณได้ครอบคลุมส่วนที่สำคัญของส่วนประกอบแล้วคุณรู้ว่าการเพิ่ม 1 เซ็นเซอร์จะไม่ให้ผลตอบแทนมาก ดังนั้นคุณไม่จำเป็นต้องติดตั้งเซ็นเซอร์เหล่านั้นรวบรวมข้อมูลและทำการศึกษาเพื่อทราบว่าเซ็นเซอร์เพิ่มเติมเหล่านั้นดีพอจริงหรือไม่
PeyM87

'เซ็นเซอร์' อาจไม่ได้หมายถึงเซ็นเซอร์ - ใน บริษัท ของฉันเราสมัครเป็นสมาชิกกับข้อมูลทั้งหมดของเราดังนั้นจึงมีโอกาสที่จะค้นพบคุณสมบัติที่ไม่ได้มีส่วนช่วยอะไรเลยและลดค่าใช้จ่ายโดยการลบออกจากบริการสมัครสมาชิก อัตราการสมัครใช้งานในระดับที่สูงกว่าคอลัมน์แต่ละแห่ง แต่แน่นอนว่าเป็นไปได้ที่จะจินตนาการถึงองค์ประกอบของการสมัครรับข้อมูลที่ให้คุณลักษณะหนึ่งเดียวกับรุ่นสุดท้ายและสามารถหยุดหากไม่ปรับปรุงประสิทธิภาพ)
Robert de Graaf

9

ในฐานะที่เป็นส่วนหนึ่งของอัลกอริทึมสำหรับการเรียนรู้รูปแบบการทำนายอย่างหมดจดการเลือกตัวแปรไม่จำเป็นต้องเลวร้ายจากมุมมองประสิทธิภาพ อย่างไรก็ตามมีปัญหาบางอย่างที่ควรทราบ

E(YiXi)=XiTβ
i=1,,NXiβp
xE(YX=x)=XTβ,
YX=xβ

k kk=1,,min(N,p)kk

อันตรายด้วยเช่นขั้นตอนการเลือกตัวแปรคือว่าหลายผลการกระจายมาตรฐานไม่ถูกต้องตามเงื่อนไขในการเลือกตัวแปร นี่ถือเป็นการทดสอบมาตรฐานและช่วงความมั่นใจและเป็นหนึ่งในปัญหาที่ Harrell [2] เตือนไว้ Breiman ยังเตือนเกี่ยวกับการเลือกรูปแบบขึ้นอยู่กับเช่น Mallows'ในThe Little Bootstrap ... C_p ของหรือ AIC สำหรับเรื่องนั้นไม่ต้องคำนึงถึงการเลือกรุ่นและพวกเขาจะให้ข้อผิดพลาดในการคาดการณ์ในแง่ดีเกินไปC pCpCp

อย่างไรก็ตามการตรวจสอบข้ามสามารถใช้ในการประเมินข้อผิดพลาดในการทำนายและสำหรับการเลือกและการเลือกตัวแปรสามารถบรรลุความสมดุลที่ดีระหว่างอคติและความแปรปรวน นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งถ้ามีพิกัดขนาดใหญ่ไม่กี่แห่งและที่เหลืออยู่ใกล้กับศูนย์ตามที่ @probabilityislogic กล่าวถึงβ -kβ

วิธีการหดตัวเช่นสันเขาถดถอยและเชือกสามารถบรรลุการแลกเปลี่ยนที่ดีระหว่างอคติและความแปรปรวนโดยไม่มีการเลือกตัวแปรที่ชัดเจน อย่างไรก็ตามในขณะที่ OP กล่าวถึง Lasso จะทำการเลือกตัวแปรโดยปริยาย มันไม่ใช่แบบจำลองจริงๆแต่เป็นวิธีการที่เหมาะสมกับรุ่นที่เลือกตัวแปร จากมุมมองดังกล่าวการเลือกตัวแปร (โดยนัยหรือชัดเจน) เป็นเพียงส่วนหนึ่งของวิธีการปรับโมเดลให้เหมาะสมกับข้อมูลและควรได้รับการพิจารณาเช่นนี้

อัลกอริทึมสำหรับการคำนวณ lasso estimator สามารถได้รับประโยชน์จากการเลือกตัวแปร (หรือการคัดกรอง) ในการเรียนรู้ทางสถิติด้วย Sparsity: The Lasso และ Generalisation , Section 5.10, มันอธิบายวิธีการคัดกรอง, ที่นำมาใช้glmnet, มีประโยชน์อย่างไร มันสามารถนำไปสู่การคำนวณ lasso อย่างรวดเร็วยิ่งขึ้น

ประสบการณ์ส่วนตัวอย่างหนึ่งคือจากตัวอย่างที่การเลือกตัวแปรทำให้เป็นไปได้เพื่อให้พอดีกับโมเดลที่ซับซ้อนมากขึ้น (โมเดลเสริมทั่วไป) โดยใช้ตัวแปรที่เลือก ผลการตรวจสอบข้ามระบุว่ารุ่นนี้ดีกว่าทางเลือกจำนวนมากแม้ว่าจะไม่ใช่ป่าสุ่ม ถ้าgamselอยู่ใกล้ ๆซึ่งรวมโมเดลเสริมทั่วไปเข้ากับการเลือกตัวแปรฉันอาจลองพิจารณาด้วยเช่นกัน- -

แก้ไข:เนื่องจากฉันเขียนคำตอบนี้จึงมีบทความเกี่ยวกับแอปพลิเคชันเฉพาะที่ฉันมีในใจ มีรหัส R สำหรับทำซ้ำผลลัพธ์ในกระดาษ

โดยสรุปฉันจะบอกว่าการเลือกตัวแปร (ในรูปแบบเดียวหรืออื่น ๆ ) เป็นและจะยังคงมีประโยชน์แม้สำหรับจุดประสงค์ในการทำนายอย่างหมดจดเป็นวิธีในการควบคุมการแลกเปลี่ยนอคติแปรปรวน หากไม่ใช่เพราะเหตุผลอื่นอย่างน้อยก็เพราะโมเดลที่ซับซ้อนมากขึ้นอาจไม่สามารถจัดการกับตัวแปรจำนวนมากนอกกรอบได้ อย่างไรก็ตามเมื่อเวลาผ่านไปเราจะเห็นพัฒนาการตามธรรมชาติเช่น gamsel ที่รวมการเลือกตัวแปรเข้ากับวิธีการประมาณค่า -

แน่นอนว่าเป็นสิ่งสำคัญเสมอที่เราคำนึงถึงการเลือกตัวแปรเป็นส่วนหนึ่งของวิธีการประมาณ อันตรายคือการเชื่อว่าการเลือกตัวแปรดำเนินการเหมือนพยากรณ์และระบุชุดของตัวแปรที่ถูกต้อง หากเราเชื่อว่าและดำเนินการต่อราวกับว่าตัวแปรไม่ถูกเลือกตามข้อมูลแสดงว่าเรามีความเสี่ยงที่จะเกิดข้อผิดพลาด


1
ฉันไม่ชัดเจนเกี่ยวกับวิธีการเลือกตัวแปรที่ทำให้เป็นไปได้เพื่อให้พอดีกับแบบจำลองที่ซับซ้อนมากขึ้น ด้วยการเลือกตัวแปรคุณยังคงประมาณจำนวนพารามิเตอร์ที่เท่ากัน คุณแค่ประมาณว่ามันเป็นศูนย์ ความเสถียรของแบบจำลองตามเงื่อนไขที่ติดตั้งหลังจากการเลือกตัวแปรอาจเป็นภาพลวงตา
Frank Harrell

1
@Harrell ในตัวอย่างโดยเฉพาะการเลือกตัวแปรนั้นดำเนินการโดยใช้ lasso ร่วมกับการเลือกความเสถียรในรูปแบบที่ตัวแปรทั้งหมดเข้าสู่เส้นตรง เกมนั้นได้รับการติดตั้งโดยใช้ตัวแปรที่เลือก ฉันเห็นด้วยอย่างสมบูรณ์ว่าการเลือกตัวแปรเป็นเพียงการประมาณค่าพารามิเตอร์บางอย่างให้เป็นศูนย์และแอปพลิเคชันทำเช่นนั้นในแบบจำลองเกมโดยขั้นตอนสองขั้นตอน ฉันแน่ใจว่า gamsel ให้แนวทางที่เป็นระบบมากกว่านี้ ประเด็นของฉันคือไม่ใช้วิธีนี้การเลือกตัวแปรอาจเป็นทางลัดที่มีประโยชน์
NRH

1
การใช้วิธี unpenalized เพื่อปรับแก้ตัวแปรที่เลือกใหม่ในขั้นตอนการลงโทษก่อนหน้านี้ไม่เหมาะสม นั่นจะเป็นอคติอย่างมีนัยสำคัญ และการเลือกตัวแปรที่ไม่ผ่านการปรับแต่งไม่ใช่ทางลัดที่ดี
Frank Harrell

1
การเลือกความเสถียรเป็นแบบอนุรักษ์นิยมมากกว่าการเลือกตัวแปรโดยใช้ lasso และ re-fitting โดยไม่มีการลงโทษ สิ่งหลังทำไม่ได้คาดหวังได้ผลดีมากจากมุมมองที่คาดการณ์ได้ เมื่อฉันผ่านการตรวจสอบข้ามในกรณีที่เป็นรูปธรรมพบว่าการเลือกตัวแปร + เกมให้ประสิทธิภาพการทำนายที่ดีกว่าตัวประมาณสันหรือแบบบ่วงนี่คือการวัดของฉันว่าขั้นตอนนั้นดีหรือไม่
NRH

1
โปรดระบุ 'การเลือกความมั่นคง' และการปรับให้เหมาะสมโดยไม่ถูกลงโทษก็เป็นการต่อต้านแบบอนุรักษ์นิยม
Frank Harrell

4

อนุญาตให้ฉันแสดงความคิดเห็นต่อคำสั่ง:“ ... การปรับพารามิเตอร์ k ให้เหมาะกับการสังเกต <k จะไม่เกิดขึ้น”

ในวิชาเคมีเรามักจะสนใจแบบจำลองการคาดการณ์และสถานการณ์ k >> n มักจะพบเจอ (เช่นในข้อมูลทางสเปกโทรสโกปี) โดยทั่วไปแล้วปัญหานี้จะได้รับการแก้ไขอย่างง่าย ๆ โดยการฉายการสังเกตการณ์ไปยังพื้นที่ย่อยที่มีมิติต่ำกว่า a โดยที่ <n ก่อนการถดถอย (เช่นการถดถอยส่วนประกอบหลัก) การใช้การถดถอยกำลังสองน้อยที่สุดการประมาณและการถดถอยจะดำเนินการพร้อมกันซึ่งเป็นที่นิยมในการทำนายคุณภาพ วิธีการที่กล่าวถึงพบการปลอมแปลงที่เหมาะสมที่สุดสำหรับความแปรปรวนร่วม (เอกพจน์) หรือเมทริกซ์สหสัมพันธ์เช่นโดยการสลายตัวของค่าเอกพจน์

ประสบการณ์แสดงให้เห็นว่าประสิทธิภาพการทำนายของตัวแบบหลายตัวแปรเพิ่มขึ้นเมื่อมีการลบตัวแปรที่มีเสียงดัง ดังนั้นแม้ว่าเรา - ในทางที่มีความหมาย - สามารถประมาณค่าพารามิเตอร์ k ที่มีเพียงสมการ n (n <k) แต่เราพยายามหาแบบจำลองที่มีลักษณะเฉพาะ สำหรับจุดประสงค์นั้นการเลือกตัวแปรมีความเกี่ยวข้องและมีการใช้เอกสารทางเคมีมากในเรื่องนี้

ในขณะที่การคาดการณ์เป็นวัตถุประสงค์ที่สำคัญวิธีการฉายภาพในเวลาเดียวกันก็ให้ข้อมูลเชิงลึกที่มีคุณค่าเช่นรูปแบบข้อมูลและความเกี่ยวข้องของตัวแปร นี่คือการอำนวยความสะดวกโดยส่วนใหญ่เป็นแบบจำลอง - แปลงเช่นคะแนนโหลดส่วนที่เหลือ ฯลฯ

เทคโนโลยี Chemometric ถูกนำมาใช้อย่างกว้างขวางเช่นในอุตสาหกรรมที่การคาดการณ์ที่เชื่อถือได้และแม่นยำนับจริง ๆ


3

ในหลายกรณีที่รู้จักกันดีใช่ไม่จำเป็นต้องเลือกตัวแปร การเรียนรู้อย่างลึกซึ้งได้กลายเป็นเรื่องที่หนักเกินไปด้วยเหตุผลนี้

ตัวอย่างเช่นเมื่อเครือข่ายประสาทที่ซับซ้อน ( http://cs231n.github.io/convolutional-networks/ ) พยายามที่จะทำนายว่าภาพที่อยู่ตรงกลางมีใบหน้ามนุษย์มุมของภาพมักจะมีค่าการทำนายน้อยที่สุด การสร้างแบบจำลองแบบดั้งเดิมและการเลือกตัวแปรจะทำให้ผู้สร้างแบบจำลองลบพิกเซลมุมเป็นตัวทำนาย อย่างไรก็ตามเครือข่ายประสาทที่ซับซ้อนนั้นฉลาดพอที่จะละทิ้งตัวทำนายเหล่านี้โดยอัตโนมัติ นี่เป็นความจริงสำหรับโมเดลการเรียนรู้ส่วนใหญ่ที่พยายามทำนายการมีอยู่ของวัตถุบางอย่างในภาพ (เช่นรถยนต์ที่ขับด้วยตนเอง "ทำนาย" เครื่องหมายเลนสิ่งกีดขวางหรือรถคันอื่นในเฟรมของวิดีโอสตรีมมิ่งออนบอร์ด)

การเรียนรู้อย่างลึกซึ้งอาจเป็นปัญหามากเกินไปสำหรับปัญหาแบบดั้งเดิมเช่นที่ชุดข้อมูลมีขนาดเล็กหรือมีความรู้เกี่ยวกับโดเมนจำนวนมากดังนั้นการเลือกตัวแปรแบบดั้งเดิมอาจยังคงเกี่ยวข้องเป็นเวลานานอย่างน้อยในบางพื้นที่ อย่างไรก็ตามการเรียนรู้อย่างลึกซึ้งนั้นยอดเยี่ยมเมื่อคุณต้องการรวมวิธีการแก้ปัญหา "ดีงาม" เข้าด้วยกันโดยมีมนุษย์เข้ามาแทรกแซงน้อยที่สุด อาจใช้เวลาหลายชั่วโมงในการฝีมือและเลือกตัวทำนายเพื่อรับรู้ตัวเลขที่เขียนด้วยลายมือในภาพ แต่ด้วยเครือข่ายประสาทที่ซับซ้อนและการเลือกตัวแปรที่เป็นศูนย์ฉันสามารถมีรูปแบบที่ทันสมัยภายในเวลาไม่ถึง 20 นาทีโดยใช้ TensorFlow ของ Google ( https://www.tensorflow.org/versions/r0.8/tutorials/mnist/pros/index.html )


3
ฉันชอบมุมมอง DL นี้มาก ใน Computer Vision เมทริกซ์ข้อมูลที่คุณพบจะเป็นภาพ 2D ที่แบนซึ่งความหมายของคอลัมน์ใดคอลัมน์หนึ่งขึ้นอยู่กับการสังเกต ตัวอย่างพิกเซล 147 อาจเป็นใบหน้าของแมวในภาพที่ 27 แต่เป็นผนังพื้นหลังในภาพที่ 42 ดังนั้นการเลือกคุณสมบัติที่เรารู้ว่ามันจะล้มเหลวอย่างน่าสังเวช นั่นเป็นเหตุผลว่าทำไม ConvNet จึงทรงพลังเพราะมันมีค่าความแปรปรวน / การหมุนในตัว
horaceT
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.