คำถามที่ดี. @ G5W อยู่ในเส้นทางที่ถูกต้องในการอ้างอิงเอกสารของ Wei-Yin Loh บทความของ Loh กล่าวถึงสิ่งที่มาทางสถิติของต้นไม้ตัดสินใจและถูกต้องติดตามตำแหน่งของพวกเขากลับไปที่เอกสาร Fisher's (1936) ในการวิเคราะห์จำแนก - โดยพื้นฐานแล้วการถดถอยจะจำแนกกลุ่มหลายกลุ่มเป็นตัวแปรตาม - จากที่นั่นผ่าน AID, THAID, CHAID และ โมเดลรถเข็น
คำตอบสั้น ๆ คือบทความแรกที่ฉันสามารถค้นพบที่พัฒนาวิธีการ "ต้นไม้ตัดสินใจ" วันที่ 1959 และนักวิจัยชาวอังกฤษ William Belson ในกระดาษชื่อการจับคู่และการทำนายเกี่ยวกับหลักการของการจำแนกทางชีวภาพ , ( JRSS , Series C, สถิติประยุกต์, Vol. 8, No. 2, June, 1959, pp. 65-75) ซึ่งบทคัดย่ออธิบายวิธีการของเขาเป็นหนึ่งในตัวอย่างประชากรที่ตรงกันและเกณฑ์การพัฒนาสำหรับการทำเช่นนั้น:
ในบทความนี้ดร. เบลสันอธิบายถึงเทคนิคสำหรับการจับคู่ตัวอย่างประชากร ขึ้นอยู่กับการรวมกันของตัวทำนายที่ได้รับการพัฒนาเชิงประจักษ์เพื่อให้การทำนายที่ดีที่สุดหรือการจับคู่แบบประกอบ หลักการพื้นฐานค่อนข้างแตกต่างจากที่มีอยู่ในวิธีสหสัมพันธ์
คำตอบ "ยาว" คือคำตอบอื่น ๆ แม้กระทั่งกระแสความคิดก่อนหน้าดูเหมือนจะเกี่ยวข้องกันที่นี่ ตัวอย่างเช่นการแบ่งกลุ่มตามเพศอายุอย่างง่ายที่ใช้ในตารางการตายตามหลักคณิตศาสตร์ประกันภัยเสนอกรอบสำหรับการคิดเกี่ยวกับการตัดสินใจที่ย้อนกลับไปหลายศตวรรษ นอกจากนี้ยังอาจเป็นที่ถกเถียงกันอยู่ว่าความพยายามย้อนหลังไปถึงชาวบาบิโลนใช้สมการกำลังสองซึ่งไม่เชิงเส้นในตัวแปร (ไม่ใช่ในพารามิเตอร์http://www-history.mcs.st-and.ac.uk/HistTopics/Quadratic_etc_equations html ) มีความเกี่ยวข้องอย่างน้อยที่สุดตราบเท่าที่พวกเขาแสดงแบบจำลองเชิงพารามิเตอร์ของการเติบโตของโลจิสติก (ฉันตระหนักว่านี่เป็นการยืดความคิดเห็นโปรดอ่านเพื่อแรงจูงใจเต็มที่ของมัน) นอกจากนี้นักปรัชญาได้รับการยอมรับที่ยาวนานและมหาเศรษฐีเกี่ยวกับการดำรงอยู่ของการจัดลำดับชั้นข้อมูลเชิงคุณภาพเช่นหนังสือของอริสโตเติลในหมวดหมู่ แนวคิดและข้อสมมติของลำดับชั้นเป็นกุญแจสำคัญที่นี่ ที่เกี่ยวข้องอื่น ๆ การค้นพบในเวลาต่อมาถูกผลักดันเกินกว่าขอบเขตของปริภูมิแบบยุคลิดแบบ 3 มิติในการพัฒนาอย่างไม่สิ้นสุดของ David Hilbert, Hilbertspace, combinatorics, การค้นพบในสาขาฟิสิกส์ที่เกี่ยวข้องกับ 4-D Minkowski space, ระยะทางและเวลา, กลไกทางสถิติที่อยู่เบื้องหลังทฤษฎีสัมพัทธภาพพิเศษของ Einstein รวมถึงนวัตกรรมในทฤษฎีความน่าจะเป็นที่เกี่ยวข้องกับแบบจำลองของโซ่มาร์คอฟ ประเด็นในที่นี้คืออาจมีความล่าช้าอย่างมีนัยสำคัญระหว่างทฤษฎีใด ๆ และการประยุกต์ใช้ - ในกรณีนี้ความล่าช้าระหว่างทฤษฎีเกี่ยวกับข้อมูลเชิงคุณภาพและการพัฒนาที่เกี่ยวข้องกับการประเมินเชิงประจักษ์การทำนายการจำแนกและการสร้างแบบจำลอง
การคาดเดาที่ดีที่สุดคือการพัฒนาเหล่านี้สามารถเชื่อมโยงกับประวัติของการเพิ่มความซับซ้อนของนักสถิติซึ่งส่วนใหญ่อยู่ใน 20 c ในการพัฒนาแบบจำลองที่ใช้ประโยชน์จากมาตราส่วนประเภทอื่นที่ไม่ใช่แบบต่อเนื่อง (เช่นเล็กน้อยหรือง่ายกว่าข้อมูลเชิงหมวดหมู่) (ปัวซอง) ตารางข้ามประเภทการจำแนกสถิติ nonparametric แบบกระจายการแจกแจงแบบหลายมิติ (เช่น JG Carroll และอื่น ๆ ) แบบจำลองที่มีตัวแปรตามคุณภาพเช่นการถดถอยโลจิสติกสองกลุ่มรวมถึงการวิเคราะห์การติดต่อ (ส่วนใหญ่ในฮอลแลนด์และฝรั่งเศส ในยุค 70 และ 80)
มีวรรณกรรมมากมายที่กล่าวถึงและเปรียบเทียบการถดถอยโลจิสติกของกลุ่มสองกลุ่มกับการวิเคราะห์จำแนกสองกลุ่มและสำหรับคุณสมบัติที่ระบุอย่างสมบูรณ์พบว่าพวกเขาให้การแก้ปัญหาที่เทียบเท่า (เช่น Dillon และการวิเคราะห์หลายตัวแปรของ Goldstein , 1984)
บทความของ JS Cramer เกี่ยวกับประวัติของการถดถอยโลจิสติก ( The History of Logistic Regression , http://papers.tinbergen.nl/02119.pdf ) อธิบายว่ามันมาจากการพัฒนาของ univariate, logistic function หรือเส้นโค้งรูปตัว Sคลาสสิก:
ความอยู่รอดของคำว่าโลจิสติกส์และการใช้งานอุปกรณ์อย่างกว้างขวางได้รับการพิจารณาอย่างเด็ดขาดโดยประวัติส่วนตัวและการกระทำส่วนตัวของนักวิชาการไม่กี่คน ...
แบบจำลองที่กำหนดขึ้นของเส้นโค้งลอจิสติกที่เกิดขึ้นในปี 1825 เมื่อเบนจามิน Gompertz ( https://en.wikipedia.org/wiki/Benjamin_Gompertz ) ตีพิมพ์กระดาษพัฒนารูปแบบโลจิสติกแบบไม่เชิงเส้นตัวแรกอย่างแท้จริง (ไม่เชิงเส้นในพารามิเตอร์ ชาวบาบิโลน) - รูปแบบและความโค้งของ Gompertz
ฉันขอแนะนำว่าอีกหนึ่งลิงค์สำคัญในห่วงโซ่นี้ที่นำไปสู่การคิดค้นต้นไม้ตัดสินใจคืองานของนักสังคมวิทยาของ Paul Lazarsfeld เกี่ยวกับแบบจำลองโครงสร้างแฝง ผลงานของเขาเริ่มต้นขึ้นในยุค 30 อย่างต่อเนื่องในช่วงสงครามโลกครั้งที่สองที่มีการวิเคราะห์เนื้อหาของเขาในหนังสือพิมพ์ภาษาเยอรมันที่พึ่ง OSS (ต่อมาซีไอเอตามที่กล่าวไว้ในจอห์น Naisbett หนังสือMegatrends ) และในที่สุดก็ตีพิมพ์ในปี 1950 แอนเดออธิบายว่าวิธีนี้ ( โครงสร้างแฝงวิเคราะห์: การสำรวจ , Erling B. Andersen, วารสารสถิติสแกนดิเนเวียน , อัตรา 9, ลำดับ 1, 1982, pp. 1-12):
รากฐานสำหรับทฤษฎีคลาสสิกของการวิเคราะห์โครงสร้างแฝงได้รับการพัฒนาโดย Paul Lazarsfeld ในปี 1950 ในการศึกษาชาติพันธุ์ของทหารอเมริกันในช่วงสงครามโลกครั้งที่สอง Lazarsfeld ให้ความสนใจเป็นหลักในการพัฒนาแนวคิดพื้นฐานของแบบจำลองโครงสร้างแฝง ... วิธีการทางสถิติที่พัฒนาโดย Lazarsfeld นั้นเป็นแบบดั้งเดิม แต่ ... ความพยายามแรกเริ่มที่จะได้รับวิธีการประมาณค่าที่มีประสิทธิภาพและขั้นตอนการทดสอบทำโดยเพื่อนร่วมงานของ Lazarsfeld ที่มหาวิทยาลัยโคลัมเบีย , TW Anderson ที่อยู่ในกระดาษ ( Psychometrika , มีนาคม 1954, เล่มที่ 19, ฉบับที่ 1, pp 1-10, การประมาณค่าพารามิเตอร์ในการวิเคราะห์โครงสร้างแฝง) พัฒนาวิธีการประมาณค่าที่มีประสิทธิภาพสำหรับพารามิเตอร์ของโมเดลคลาสแฝง ... เพื่อแนะนำเฟรมเวิร์ก (ของโมเดลคลาสแฝง) เราจะสรุปโครงร่างแนวคิดพื้นฐานสั้น ๆ ในเวลาสั้น ๆ และใช้ระบบสัญกรณ์ที่พัฒนาขึ้นในภายหลังโดย Goodman (1974a) ... ข้อมูลจะได้รับในรูปแบบของตารางฉุกเฉินหลาย ...
มีความแตกต่างที่มีประโยชน์คุ้มค่าที่นี่เนื่องจากสามารถเชื่อมโยงกับความก้าวหน้าจาก AID ถึง CHAID (CART ในภายหลัง) ระหว่างโมเดลตามตารางฉุกเฉิน (ตัวแปรทั้งหมดในโมเดลจะถูกปรับขนาดแบบนาม) และแบบจำลองแฝงระดับล่าสุด แม่นยำ, แบบ จำกัด แน่นอนโดยใช้ "mixtures" ของเครื่องชั่งและดิสทริบิวชั่น, เช่น Kamakura และ Russell, 1989, A Probabilistic Choice Model สำหรับการแบ่งส่วนตลาดและโครงสร้างความยืดหยุ่น) ในวิธีที่พวกเขาสร้างสิ่งที่เหลืออยู่ของโมเดล สำหรับโมเดลตารางฉุกเฉินที่เก่ากว่าเซลล์นับจำนวนโดยธรรมชาติในตารางที่ถูกจัดข้ามอย่างเต็มรูปแบบได้สร้างพื้นฐานสำหรับ "การจำลองแบบ" และดังนั้นความหลากหลายในรูปแบบที่เหลือของโมเดลที่ใช้ในการแบ่งพาร์ติชันเป็นคลาส ในอีกทางหนึ่งรูปแบบการผสมล่าสุดขึ้นอยู่กับมาตรการซ้ำ ๆ ในเรื่องเดียวเป็นพื้นฐานสำหรับการแบ่งความแตกต่างในส่วนที่เหลือ คำตอบนี้ไม่ได้แนะนำการเชื่อมต่อโดยตรงระหว่างโมเดลชั้นแฝงกับแผนผังการตัดสินใจ ความเกี่ยวข้องกับ AID และ CHAID สามารถสรุปได้ในสถิติที่ใช้ในการประเมินแบบจำลอง AID ใช้การแจกแจงแบบ F ต่อเนื่องในขณะที่ CHAID ใช้การแจกแจงแบบไคสแควร์เหมาะสำหรับข้อมูลที่เป็นหมวดหมู่ ในการวิเคราะห์และการสร้างแบบจำลองของพวกเขาในตารางฉุกเฉิน LCMs เป็นความคิดของฉันชิ้นส่วนสำคัญในปริศนาหรือการเล่าเรื่องที่นำไปสู่การพัฒนาต้นไม้ตัดสินใจพร้อมกับนวัตกรรมอื่น ๆ ที่ระบุไว้แล้ว
CHAID ได้รับการพัฒนาในภายหลังโดยเสนอเป็นครั้งแรกในวิทยานิพนธ์ระดับปริญญาเอกปี 1980 โดย Gordon Kass แห่งแอฟริกาใต้ตามที่ระบุไว้ในวิกิพีเดียชิ้นนี้ใน CHAID ( https://en.wikipedia.org/wiki/CHAID ) แน่นอนรถเข็นมาไม่กี่ปีต่อมาในยุค 80 ที่มี Breiman, et al ของตอนนี้หนังสือที่มีชื่อเสียงการจำแนกและการถดถอยต้นไม้
AID, CHAID และ CART ล้วนเป็นโครงสร้างที่มีลำดับชั้นของต้นไม้เพื่อแสดงถึงความเป็นจริงที่ดีที่สุด พวกเขาทำสิ่งนี้โดยใช้อัลกอริธึมและวิธีการต่างกัน สำหรับฉันแล้วขั้นตอนต่อไปในห่วงโซ่แห่งนวัตกรรมที่ก้าวหน้านี้คือการเกิดขึ้นของทฤษฎีเกี่ยวกับโครงสร้างที่แตกต่างกัน ตามที่กำหนดไว้ในบทความ Wiki นี้ heterarchies "เป็นระบบขององค์กรที่องค์ประกอบขององค์กรไม่จัดอันดับ (ไม่เป็นลำดับชั้น) หรือที่พวกเขามีศักยภาพที่จะได้รับการจัดอันดับในรูปแบบต่างๆ" ( https: //en.wikipedia .org / wiki / Heterarchyหรือมุมมองเชิงปรัชญาที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับลำดับความสำคัญดู Kontopoulos, Logics of โครงสร้างทางสังคม) จากมุมมองเชิงประจักษ์การวิเคราะห์และการสร้างแบบจำลองของโครงสร้างเครือข่ายเป็นตัวแทนส่วนใหญ่ของการพัฒนาทางประวัติศาสตร์นี้ในความเข้าใจของโครงสร้าง (เช่นหนังสือของฟรีแมนการพัฒนาของการวิเคราะห์เครือข่ายสังคม ) ในขณะที่นักวิเคราะห์เครือข่ายจำนวนมากจะพยายามและบังคับใช้การจัดลำดับชั้นบนเครือข่ายที่เกิดขึ้นนี่คือการแสดงออกของสมมติฐานที่ฝังแน่นและหมดสติมากกว่าที่เป็นคำแถลงเกี่ยวกับความเป็นจริงเชิงประจักษ์ของโครงสร้างเครือข่ายมัลติเพล็กซ์ในโลกที่ซับซ้อน
การตอบสนองนี้เป็นการแนะนำว่าส่วนโค้งของวิวัฒนาการที่นำไปสู่การพัฒนาต้นไม้การตัดสินใจสร้างคำถามใหม่หรือความไม่พอใจกับวิธีการ "state-of-the-art" ที่มีอยู่ในแต่ละขั้นตอนหรือขั้นตอนในกระบวนการที่ต้องการโซลูชั่นใหม่และโมเดลใหม่ ในกรณีนี้ความไม่พอใจสามารถเห็นได้ในข้อ จำกัด ของการสร้างแบบจำลองสองกลุ่ม (การถดถอยโลจิสติก) และการรับรู้ถึงความจำเป็นที่จะต้องขยายกรอบการทำงานนั้นไปยังมากกว่าสองกลุ่ม ความไม่พอใจกับสมมติฐานที่ไม่เป็นตัวแทนของการแจกแจงแบบปกติพื้นฐาน (การวิเคราะห์จำแนกหรือ AID) เช่นเดียวกับการเปรียบเทียบกับ "เสรีภาพ" สัมพัทธ์ที่พบในการใช้สมมติฐานและแบบจำลองที่ไม่มีพารามิเตอร์การแจกแจงแบบอิสระ (เช่น CHAID และ CART)
ต้นกำเนิดของต้นไม้การตัดสินใจมีประวัติศาสตร์อันยาวนานที่ย้อนกลับไปหลายศตวรรษและแยกย้ายกันไปตามพื้นที่ทางภูมิศาสตร์ ลำธารหลายสายในประวัติศาสตร์ของมนุษย์วิทยาศาสตร์ปรัชญาและความคิดสามารถตรวจสอบได้ในการสรุปการบรรยายที่นำไปสู่การพัฒนารสชาติของต้นไม้การตัดสินใจที่มีอยู่ในทุกวันนี้ ฉันจะเป็นคนแรกที่รับทราบข้อ จำกัด ที่สำคัญของร่างสั้น ๆ ของประวัติศาสตร์นี้
/ ** ภาคผนวก ** /
บทความปี 2014 ในนักวิทยาศาสตร์ใหม่นี้มีชื่อว่าทำไมเราชอบที่จะจัดระเบียบความรู้ลงในต้นไม้ ( https://www.newscientist.com/article/mg22229630-800-why-do-we-love-to-organise-knowledge-into-trees/ ) มันเป็นความคิดเห็นของการสร้างภาพข้อมูลกูรูมานูเอลลิหนังสือของหนังสือ ต้นไม้ที่มีร่องรอยการใช้ต้นไม้เป็นพันปีเป็นภาพและช่วยในการจำสำหรับความรู้ ดูเหมือนจะมีคำถามเล็กน้อย แต่รูปแบบฆราวาสและเชิงประจักษ์และกราฟิกที่ฝังอยู่ในวิธีการเช่น AID, CHAID และ CART แสดงให้เห็นถึงวิวัฒนาการอย่างต่อเนื่องของการจำแนกทางศาสนาดั้งเดิมนี้
ในวิดีโอนี้ (โพสต์ออนไลน์โดย Salford Systems, ผู้พัฒนาซอฟต์แวร์ CART), A Tribute to Leo Breiman , Breiman พูดถึงการพัฒนาความคิดของเขาที่นำไปสู่วิธีการ CART ทุกอย่างเริ่มต้นจากกำแพงฉาบด้วยเงาของเรือรบประจัญบานสมัยสงครามโลกครั้งที่สอง
https://www.salford-systems.com/videos/conferences/cart-founding-fathers/a-tribute-to-leo-breiman?utm_source=linkedin&utm_medium=social&utm_content=3599323
ในการอ่านบทนำของ Denis Konig's 1,936 Theory of Finite และ Infinite Graphsถูกมองอย่างกว้างขวางว่าเป็นการให้พื้นฐานทางคณิตศาสตร์ที่เข้มงวดครั้งแรกกับสนามที่เคยถูกมองว่าเป็นแหล่งความบันเทิงและปริศนาสำหรับเด็ก Tutte notes (หน้า 13) 4 (เริ่มต้นที่หน้า 62) ของหนังสือของ Konig อุทิศให้กับต้นไม้ในทฤษฎีกราฟ คำอธิบายของ Tutte ของคำจำกัดความของ Konig ของต้นไม้คือ "ที่ 'acyclic' กราฟเป็นกราฟที่ไม่มีวงจรต้นไม้เป็นกราฟ acyclic ที่มีขอบเขต จำกัด ... กล่าวอีกนัยหนึ่งในต้นไม้มีเพียงหนึ่งเส้นทางจาก ให้จุดสูงสุดกับอีก ... "สำหรับฉัน (และฉันไม่ใช่นักทฤษฎีกราฟหรือนักคณิตศาสตร์) นี่แสดงให้เห็นว่าทฤษฎีกราฟและสารตั้งต้นใน Poincare's Analysis Situsหรือ Veblen ' การบรรยายเรื่อง combinatorial topology อาจให้ข้อมูลเบื้องต้นเกี่ยวกับคณิตศาสตร์และคณิตศาสตร์สำหรับสิ่งที่ต่อมาได้กลายเป็นหัวข้อสำหรับนักสถิติ
ต้นไม้แห่งความรู้ต้นแรกเกิดขึ้นอย่างกว้างขวางกับ Porphyry นักปราชญ์นีโอพลาโทนิกซึ่งมีประมาณ 270 CE เขียนIntroduction to Logicที่ใช้ต้นไม้เชิงเปรียบเทียบเพื่ออธิบายและจัดการความรู้ ... http://www.historyofinformation.com/expanded.php? id = 3857
เพิ่งค้นพบการอ้างอิงแม้ก่อนหน้านี้ไปยังต้นไม้แห่งความรู้ในพระธรรมปฐมกาลในพระคัมภีร์กล่าวถึงในบทความวิกิพีเดียนี้ ... https://en.wikipedia.org/wiki/Tree_of_life_(biblical) ปฐมกาลอาจย้อนกลับไปถึง 1,400 ปีก่อนคริสตศักราชตามข้อมูลอ้างอิงนี้ ... https://www.biblica.com/bible/bible-faqs/when-was-the-bible-written/ โดยไม่คำนึงถึงหนังสือปฐมกาลมาหลายศตวรรษก่อน ธาตุโปร์ฟิริ
Classification and Regression Trees Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984)
สิ่งที่ไม่เร็วนัก Wei-Yin Loh แห่งมหาวิทยาลัยวิสคอนซินเขียนเกี่ยวกับประวัติของต้นไม้ตัดสินใจ นี่คือกระดาษและสไลด์บางส่วน ในประวัติศาสตร์