มีข่าวลือมาหลายปีแล้วที่ Google ใช้คุณลักษณะทั้งหมดที่มีในการสร้างอัลกอริทึมการคาดการณ์ อย่างไรก็ตามถึงวันที่ไม่มีการปฏิเสธความรับผิดชอบคำอธิบายหรือเอกสารสีขาวได้เกิดขึ้นที่ชี้แจงและ / หรือข้อพิพาทข่าวลือนี้ แม้แต่สิทธิบัตรที่ตีพิมพ์ของพวกเขาก็ไม่ช่วยในการทำความเข้าใจ เป็นผลให้ไม่มีใครภายนอก Google รู้ว่าสิ่งที่พวกเขากำลังทำเพื่อความรู้ของฉันที่ดีที่สุด
/ * อัปเดตในเดือนก. ย. 2562 นักเผยแผ่ศาสนา Google Tensorflow ดำเนินการบันทึกการนำเสนอโดยระบุว่าวิศวกรของ Google ประเมินพารามิเตอร์มากกว่า 5 พันล้านพารามิเตอร์สำหรับPageRankเวอร์ชันปัจจุบันเป็นประจำ * /
ในฐานะที่เป็น OP บันทึกหนึ่งในปัญหาที่ใหญ่ที่สุดในการสร้างแบบจำลองการทำนายคือการรวมกันระหว่างการทดสอบสมมติฐานคลาสสิกและข้อกำหนดของแบบจำลองอย่างระมัดระวังกับการทำเหมืองข้อมูลบริสุทธิ์ การฝึกฝนแบบคลาสสิกนั้นค่อนข้างยากที่จะเข้าใจถึงความต้องการ "ความแม่นยำ" ในการออกแบบและพัฒนาแบบจำลอง ความจริงก็คือเมื่อเผชิญหน้ากับตัวทำนายจำนวนมากและเป้าหมายที่เป็นไปได้หลายอย่างหรือตัวแปรขึ้นอยู่กับกรอบการทำงานแบบดั้งเดิมก็ไม่สามารถใช้งานได้ เอกสารล่าสุดจำนวนมากอธิบายภาวะที่กลืนไม่เข้าคายไม่ออกนี้จาก Chattopadhyay และกระดาษ Lipson ยอดเยี่ยมData Smashing: การเปิดโปงที่ซุ่มซ่อนการสั่งซื้อใน Data http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
คอขวดสำคัญคืออัลกอริธึมการเปรียบเทียบข้อมูลส่วนใหญ่ในปัจจุบันพึ่งพาผู้เชี่ยวชาญของมนุษย์เพื่อระบุว่า 'คุณสมบัติ' ของข้อมูลใดที่เกี่ยวข้องกับการเปรียบเทียบ ที่นี่เราเสนอหลักการใหม่สำหรับการประเมินความคล้ายคลึงกันระหว่างแหล่งที่มาของกระแสข้อมูลโดยพลการโดยไม่ใช้ความรู้ในโดเมนหรือการเรียนรู้
ถึงรายงาน AER ของปีที่แล้วเกี่ยวกับปัญหานโยบายการทำนายโดย Kleinberg และคณะ https://www.aeaweb.org/articles?id=10.1257/aer.p20151023ซึ่งทำให้กรณีสำหรับการทำเหมืองข้อมูลและการทำนายเป็นเครื่องมือที่มีประโยชน์ในการกำหนดนโยบายทางเศรษฐกิจโดยอ้างถึงกรณีที่ "การอนุมานเชิงสาเหตุไม่ใช่สิ่งสำคัญหรือจำเป็น "
ความจริงก็คือคำถามที่มีมูลค่ามากกว่า $ 64,000 คือการเปลี่ยนความคิดและความท้าทายในกรอบการทดสอบสมมุติฐานแบบคลาสสิกโดยนัยเช่นการสัมมนาทางวิชาการEdge.orgเรื่อง "ล้าสมัย" การคิดเชิงวิทยาศาสตร์https://www.edge.org/ การตอบสนอง / อะไร - ความคิดทางวิทยาศาสตร์ - คือพร้อมสำหรับการเกษียณอายุเช่นเดียวกับบทความล่าสุดนี้โดย Eric Beinhocker ใน "เศรษฐศาสตร์ใหม่" ซึ่งนำเสนอข้อเสนอที่รุนแรงสำหรับการบูรณาการสาขาวิชาที่แตกต่างกันเช่นเศรษฐศาสตร์พฤติกรรมทฤษฎีความซับซ้อน ทฤษฎีการพัฒนาเครือข่ายและพอร์ตโฟลิโอเป็นแพลตฟอร์มสำหรับการนำนโยบายไปปฏิบัติและการยอมรับhttps://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/จำเป็นต้องพูดปัญหาเหล่านี้ไปไกลกว่าเพียงความกังวลทางเศรษฐกิจและแนะนำว่าเรากำลังดำเนินการเปลี่ยนแปลงขั้นพื้นฐานในกระบวนทัศน์ทางวิทยาศาสตร์ มุมมองที่เปลี่ยนไปนั้นเป็นพื้นฐานของความแตกต่างระหว่าง reductionistic, มีดโกนของ Occam เช่นการสร้างแบบจำลองเทียบกับหลักการที่กว้างขวางของ Epicurus หรือคำอธิบายที่หลากหลายซึ่งระบุไว้อย่างคร่าว ๆ ว่าหากการค้นพบหลายอย่างอธิบายให้เก็บไว้ทั้งหมด ... https: // en wikipedia.org/wiki/Principle_of_plenitude
แน่นอนว่าคนอย่าง Beinhocker นั้นปราศจากภาระผูกพันในทางปฏิบัติในสนามเพลาะเกี่ยวกับการประยุกต์ใช้การแก้ปัญหาเชิงสถิติสำหรับกระบวนทัศน์ที่พัฒนาขึ้นนี้ เมื่อถามถึงคำถามเกี่ยวกับการเลือกตัวแปรที่มีมิติสูงพิเศษ OP ค่อนข้างไร้ความหมายเกี่ยวกับแนวทางการสร้างแบบจำลองที่อาจใช้ประโยชน์ได้เช่น Lasso, LAR, อัลกอริธึมแบบขั้นตอนหรือ "แบบจำลองช้าง" ที่ใช้ข้อมูลที่มีอยู่ทั้งหมด ความจริงก็คือแม้ว่า AWS หรือซูเปอร์คอมพิวเตอร์คุณจะไม่สามารถใช้ข้อมูลที่มีอยู่ทั้งหมดในเวลาเดียวกัน - มี RAM ไม่เพียงพอในการโหลดข้อมูลทั้งหมดสิ่งนี้หมายความว่าอย่างไร เช่นการค้นพบของ NSF ในชุดข้อมูลที่ซับซ้อนหรือชุดข้อมูลขนาดใหญ่: ชุดรูปแบบทางสถิติทั่วไปถึง "การแบ่งและพิชิต" อัลกอริทึมสำหรับการขุดข้อมูลขนาดใหญ่เช่น Wang, et al's paper การสำรวจวิธีการทางสถิติและการคำนวณสำหรับ Big Data http://arxiv.org/pdf/1502.07989.pdfรวมถึง Leskovec, et al หนังสือการทำเหมืองแร่ของชุดข้อมูลขนาดใหญ่ http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
ขณะนี้มีเอกสารนับร้อยหากไม่นับพันที่จัดการกับแง่มุมต่าง ๆ ของความท้าทายเหล่านี้ทั้งหมดเสนอเครื่องมือวิเคราะห์ที่แตกต่างกันอย่างกว้างขวางเป็นแกนหลักของพวกเขาจากอัลกอริทึม "หารและพิชิต"; unsupervised แบบจำลอง "การเรียนรู้ลึก"; ทฤษฎีเมทริกซ์แบบสุ่มที่ใช้กับการสร้างความแปรปรวนร่วมขนาดใหญ่ แบบจำลองเมตริกซ์แบบเบย์ไปเป็นแบบคลาสสิกการถดถอยโลจิสติกภายใต้การดูแลและอื่น ๆ เมื่อสิบห้าปีก่อนการอภิปรายส่วนใหญ่มุ่งเน้นไปที่คำถามที่เกี่ยวข้องกับข้อดีของการแก้ปัญหาแบบเบย์แบบลำดับชั้นเทียบกับแบบ จำกัด การผสมแบบบ่อยๆ ในบทความที่กล่าวถึงปัญหาเหล่านี้ Ainslie และคณะ http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfมาถึงข้อสรุปว่าวิธีการทางทฤษฎีที่แตกต่างกันในทางปฏิบัติผลิตผลลัพธ์ที่เท่าเทียมกันส่วนใหญ่ยกเว้นปัญหาที่เกี่ยวข้องกับข้อมูลที่กระจัดกระจายและ / หรือมิติสูงที่แบบจำลอง HB มีข้อได้เปรียบ วันนี้ด้วยการถือกำเนิดของการแก้ปัญหา D & C โมเดลการเก็งกำไร HB อาจมีความสุขในอดีตจะถูกกำจัด
ตรรกะพื้นฐานของวิธีแก้ปัญหาเหล่านี้คือส่วนขยายขนาดใหญ่ของเทคนิคการสุ่มป่าที่มีชื่อเสียงของ Breiman ซึ่งอาศัยการ bootstrapped resampling ของการสังเกตและคุณสมบัติ Breiman ทำงานของเขาในช่วงปลายยุค 90 บนซีพียูเดียวเมื่อข้อมูลขนาดใหญ่มีความหมายว่ามีกิ๊กเพียงไม่กี่โหลและคุณสมบัติสองสามพันอย่าง ในวันนี้แพลตฟอร์มแบบมัลติคอร์ขนานกันอย่างหนาแน่นมันเป็นไปได้ที่จะรันอัลกอริธึมที่วิเคราะห์ข้อมูลเทราไบต์ที่มีคุณสมบัติหลายสิบล้านสร้างคุณลักษณะมินิ "RF" นับล้านในเวลาไม่กี่ชั่วโมง
มีคำถามสำคัญจำนวนหนึ่งที่ออกมาจากทั้งหมดนี้ สิ่งหนึ่งเกี่ยวข้องกับการสูญเสียความแม่นยำเนื่องจากลักษณะของการแก้ปัญหาเหล่านี้โดยประมาณ ปัญหานี้ได้รับการแก้ไขโดยเฉินและ Xie ในกระดาษของพวกเขา, วิธีการแยกและปราบการวิเคราะห์ข้อมูลขนาดใหญ่เป็นพิเศษ http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdfที่พวกเขาสรุป การประมาณนั้นแตกต่างกันอย่างสิ้นเชิงจากโมเดล "ข้อมูลเต็มรูปแบบ"
ข้อกังวลประการที่สองซึ่งความรู้ที่ดีที่สุดของฉันยังไม่ได้รับการกล่าวถึงอย่างเพียงพอโดยสิ่งที่ทำกับผลลัพธ์ (เช่น "พารามิเตอร์") จากแบบจำลองการคาดการณ์ขนาดเล็กหลายล้านครั้งเมื่อการแก้ไขปัญหาเสร็จสิ้น ได้รับการสรุปและสรุป กล่าวอีกนัยหนึ่งวิธีดำเนินการบางอย่างง่าย ๆ เหมือนกับ "ให้คะแนน" ข้อมูลใหม่กับผลลัพธ์เหล่านี้ สัมประสิทธิ์แบบจำลองขนาดเล็กจะถูกบันทึกและจัดเก็บหรือไม่หรือเพียงแค่เรียกใช้อัลกอริทึม d & c ใหม่ในข้อมูลใหม่ได้หรือไม่
ในหนังสือของเขาNumbers Rule Your World , Kaiser Fung อธิบายถึงภาวะที่กลืนไม่เข้าคายไม่ออกที่ Netflix เผชิญเมื่อนำเสนอด้วยชุดรูปแบบเพียง 104 รุ่นที่มอบโดยผู้ชนะการแข่งขันของพวกเขา ผู้ชนะมีจริงลด MSE เทียบกับคู่แข่งอื่น ๆ ทั้งหมด แต่สิ่งนี้แปลเป็นทศนิยมหลายตำแหน่งปรับปรุงความถูกต้องในระดับ 5 คะแนนคะแนน Likert ประเภทที่ใช้โดยระบบแนะนำภาพยนตร์ของพวกเขา นอกจากนี้การบำรุงรักษาด้านไอทีที่จำเป็นสำหรับชุดรูปแบบนี้มีค่าใช้จ่ายมากกว่าการประหยัดที่เห็นได้จาก "การปรับปรุง" ในแบบจำลองความแม่นยำ
จากนั้นมีคำถามทั้งหมดว่า "การเพิ่มประสิทธิภาพ" เป็นไปได้ด้วยข้อมูลขนาดนี้หรือไม่ ตัวอย่างเช่นเอ็มมานูเอลเดอร์แมนนักฟิสิกส์และวิศวกรการเงินในหนังสือชีวิตของฉันในฐานะที่เป็น Quantแสดงให้เห็นว่าการปรับให้เหมาะสมเป็นตำนานที่ไม่ยั่งยืนอย่างน้อยในสาขาวิศวกรรมการเงิน
ในที่สุดคำถามสำคัญเกี่ยวกับความสำคัญของคุณลักษณะที่เกี่ยวข้องกับคุณลักษณะจำนวนมากยังไม่ได้รับการแก้ไข
ไม่มีคำตอบง่าย ๆ เกี่ยวกับความจำเป็นในการเลือกตัวแปรและความท้าทายใหม่ ๆ ที่เปิดขึ้นในปัจจุบันการแก้ปัญหาของ Epicurean ยังคงได้รับการแก้ไข สิ่งสำคัญที่สุดคือเราทุกคนเป็นนักวิทยาศาสตร์ด้านข้อมูล
**** แก้ไข ***
การอ้างอิง
Chattopadhyay I, Lipson H. 2014 Data smashing: เปิดเผยคำสั่งที่ซุ่มซ่อนในข้อมูล JR Soc อินเทอร์เฟซ 11: 20140826
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan และ Ziad Obermeyer 2558. "ปัญหานโยบายการคาดการณ์" American Economic Review, 105 (5): 491-95 DOI: 10.1257 / aer.p20151023
Edge.org, คำถามประจำปี 2014: ความคิดทางวิทยาศาสตร์คืออะไรพร้อมสำหรับการตอบแทน?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, การเปลี่ยนแปลงที่ลึกซึ้งทางเศรษฐศาสตร์ทำให้การถกเถียงกันอย่างเผด็จการกับซ้ายไม่ถูกต้อง, 2016, Evonomics.org
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
หลักการ Epicurus ของคำอธิบายที่หลากหลาย: เก็บทุกรุ่นไว้ Wikipedia
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, การค้นพบที่ซับซ้อนหรือชุดข้อมูลขนาดใหญ่: ธีมทางสถิติทั่วไป, การประชุมเชิงปฏิบัติการได้รับทุนจากมูลนิธิวิทยาศาสตร์แห่งชาติ, วันที่ 16-17 ตุลาคม 2550
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
วิธีการทางสถิติและการคำนวณสำหรับข้อมูลขนาดใหญ่กระดาษทำงานโดย Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu และ Jun Yan, 29 ตุลาคม 2015
http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, การขุดชุดข้อมูลขนาดใหญ่, สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์; 2 ฉบับ (29 ธันวาคม 2557) ISBN: 978-1107077232
ตัวอย่างการวิเคราะห์ความแปรปรวนร่วมขนาดใหญ่และการวิเคราะห์ข้อมูลมิติสูง (ซีรี่ส์ Cambridge ในคณิตศาสตร์และความน่าจะเป็นทางคณิตศาสตร์) โดย Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 ฉบับ (30 มีนาคม 2558) ISBN: 978-1107065178
RICK L. ANDREWS, ANDINW AINSLIE และ IMRAN S. CURRIM, การเปรียบเทียบเชิงประจักษ์ของแบบจำลองทางเลือก Logit กับการแยกแบบต่อเนื่องแทนที่จะเป็นตัวแทนของความหลากหลาย, วารสารการวิจัยการตลาด, 479 เล่ม XXXIX (พฤศจิกายน 2545), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1.197.788&rep=rep1&type=pdf
แนวทางแบบแยกส่วนและยึดครองสำหรับการวิเคราะห์ข้อมูลขนาดใหญ่พิเศษ Xueying Chen และ Minge Xie, รายงานทางเทคนิค DIMACS 2012-01, มกราคม 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01-01.pdf
Kaiser Fung ตัวเลขครองโลกของคุณ: อิทธิพลที่ซ่อนเร้นของความน่าจะเป็นและสถิติเกี่ยวกับทุกสิ่งที่คุณทำ, การศึกษา McGraw-Hill; 1 ฉบับ (15 กุมภาพันธ์ 2010) ISBN: 978-0071626538
Emmanuel Derman ชีวิตของฉันในฐานะ Quant: ภาพสะท้อนของฟิสิกส์และการเงินไวลีย์; 1 ฉบับ (11 มกราคม 2559) ISBN: 978-0470192733
* อัพเดทเดือนพฤศจิกายน 2560 *
หนังสือของ Nathan Kutz ในปี 2013 การสร้างแบบจำลองข้อมูลและการคำนวณทางวิทยาศาสตร์: วิธีการสำหรับระบบที่ซับซ้อนและข้อมูลขนาดใหญ่เป็นการสำรวจทางคณิตศาสตร์และ PDE ที่มุ่งเน้นไปที่การเลือกตัวแปรรวมถึงวิธีการลดขนาดและเครื่องมือ ยอดเยี่ยม 1 ชั่วโมงเบื้องต้นเกี่ยวกับความคิดของเขาสามารถพบได้ในนี้มิถุนายน 2017 Youtube วิดีโอข้อมูลขับเคลื่อนการค้นพบระบบพลวัตและโคน ในนั้นเขาทำการอ้างอิงถึงการพัฒนาล่าสุดในสาขานี้ https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop