สิ่งที่แปลกประหลาดที่สุดที่ฉันค้นพบเมื่ออ่านทฤษฎีความโกลาหลเพื่อตอบคำถามนี้เป็นสิ่งที่น่าประหลาดใจอย่างยิ่งสำหรับงานวิจัยที่ตีพิมพ์ซึ่งการทำเหมืองข้อมูลและญาติของมันใช้ประโยชน์จากทฤษฎีความโกลาหล แม้จะมีความพยายามร่วมกันในการค้นหาพวกเขาโดยการให้คำปรึกษาจากแหล่งข้อมูลต่าง ๆ เช่นทฤษฎีความโกลาหลของ AB Ҫambel: กระบวนทัศน์สำหรับความซับซ้อนและ Alligood และความโกลาหลของ et al.: ความรู้เบื้องต้นเกี่ยวกับระบบพลวัต หัวข้อนี้) และตรวจค้นบรรณานุกรมของพวกเขา หลังจากนั้นฉันเพิ่งจะได้รับการศึกษาเดี่ยวที่อาจมีคุณสมบัติและฉันต้องยืดขอบเขตของ“ data mining” เพียงเพื่อรวมกรณีขอบนี้: ทีมที่มหาวิทยาลัยเท็กซัสทำการวิจัยเกี่ยวกับปฏิกิริยา Belousov-Zhabotinsky (BZ) (ซึ่งเป็นที่รู้กันดีว่ามีแนวโน้มที่จะผิดปกติ) ค้นพบความคลาดเคลื่อนในกรด malonic ที่ใช้ในการทดลองของพวกเขาโดยบังเอิญเนื่องจากรูปแบบวุ่นวาย ผู้จัดจำหน่าย. [1] อาจมีคนอื่น ๆ - ฉันไม่ใช่ผู้เชี่ยวชาญในทฤษฎีความโกลาหลและแทบจะไม่สามารถประเมินวรรณกรรมได้อย่างละเอียดถี่ถ้วน แต่ความแตกต่างอย่างสิ้นเชิงกับการใช้งานทางวิทยาศาสตร์ทั่วไปเช่นปัญหาสามกายจากฟิสิกส์จะไม่เปลี่ยนแปลงมากนักถ้าเรานับพวกมันทั้งหมด ในความเป็นจริงในระหว่างนี้เมื่อคำถามนี้ถูกปิด ฉันพิจารณาเขียนใหม่ภายใต้ชื่อ“ ทำไมจึงมีการใช้ทฤษฎีความโกลาหลไม่กี่ครั้งในการขุดข้อมูลและสาขาที่เกี่ยวข้อง” สิ่งนี้ไม่สอดคล้องกับความเชื่อมั่นที่ไม่ชัดเจน แต่แพร่หลายว่าควรจะมีแอพพลิเคชั่นจำนวนมากในการทำเหมืองข้อมูลและสาขาที่เกี่ยวข้องเช่นอวนประสาทการจดจำรูปแบบการจัดการความไม่แน่นอนชุดฝอย ฯลฯ ท้ายที่สุดทฤษฎีความโกลาหลก็เป็นหัวข้อที่ทันสมัยพร้อมกับการใช้งานที่มีประโยชน์มากมาย ฉันต้องคิดให้ถี่ถ้วนและหนักแน่นว่าเขตแดนระหว่างทุ่งเหล่านี้อยู่ตรงไหนเพื่อที่จะเข้าใจว่าทำไมการค้นหาของฉันจึงไร้ผลและความประทับใจของฉันก็ผิด
The; tldr คำตอบ
คำอธิบายสั้น ๆ เกี่ยวกับความไม่สมดุลของจำนวนการศึกษาและการเบี่ยงเบนจากความคาดหวังนั้นสามารถอธิบายได้ว่าทฤษฎีความโกลาหลและการทำเหมืองข้อมูลเป็นต้นตอบคำถามสองคำถามแยกกันอย่างเป็นระเบียบ การแบ่งแยกขั้วที่เฉียบแหลมระหว่างพวกเขานั้นชัดเจนเมื่อมีการชี้ให้เห็น แต่ยังเป็นพื้นฐานที่จะไม่มีใครสังเกตเหมือนการมองจมูกของตัวเอง อาจมีเหตุผลบางอย่างสำหรับความเชื่อที่ว่าความแปลกใหม่ของทฤษฎีความโกลาหลและทุ่งนาเช่นการขุดข้อมูลอธิบายถึงความขาดแคลนของการใช้งานบางอย่าง แต่เราสามารถคาดหวังความไม่สมดุลเชิงสัมพัทธ์ให้คงอยู่แม้ในขณะที่สาขาเหล่านี้เติบโต เหรียญเดียวกัน เกือบทั้งหมดของการใช้งานจนถึงปัจจุบันได้มีการศึกษาฟังก์ชั่นที่รู้จักด้วยเอาต์พุตที่กำหนดไว้อย่างดีซึ่งเกิดขึ้นเพื่อแสดงความผิดปกติของความสับสนวุ่นวาย ในขณะที่การทำเหมืองข้อมูลและเทคนิคส่วนบุคคลเช่นอวนประสาทและต้นไม้ตัดสินใจทั้งหมดเกี่ยวข้องกับการกำหนดฟังก์ชั่นที่ไม่รู้จักหรือไม่ชัดเจน เขตข้อมูลที่เกี่ยวข้องเช่นการจดจำรูปแบบและการตั้งค่าฟัซซีก็สามารถดูได้เช่นกันในฐานะองค์กรของผลลัพธ์ของฟังก์ชั่นที่มักจะไม่ทราบหรือไม่ชัดเจนเมื่อวิธีการขององค์กรนั้นไม่ชัดเจนเช่นกัน สิ่งนี้สร้างช่องว่างที่ไม่สามารถคาดเดาได้จริงที่สามารถข้ามได้ในบางสถานการณ์ที่หายาก - แต่แม้กระทั่งสิ่งเหล่านี้สามารถจัดกลุ่มเข้าด้วยกันภายใต้รูบริกของกรณีการใช้งานครั้งเดียว: ป้องกันการรบกวนจากอัลกอริธึม เขตข้อมูลที่เกี่ยวข้องเช่นการจดจำรูปแบบและการตั้งค่าฟัซซีก็สามารถดูได้เช่นกันในฐานะองค์กรของผลลัพธ์ของฟังก์ชั่นที่มักจะไม่ทราบหรือไม่ชัดเจนเมื่อวิธีการขององค์กรนั้นไม่ชัดเจนเช่นกัน สิ่งนี้สร้างช่องว่างที่ไม่สามารถคาดเดาได้จริงที่สามารถข้ามได้ในบางสถานการณ์ที่หายาก - แต่แม้กระทั่งสิ่งเหล่านี้สามารถจัดกลุ่มเข้าด้วยกันภายใต้รูบริกของกรณีการใช้งานครั้งเดียว: ป้องกันการรบกวนจากอัลกอริธึม เขตข้อมูลที่เกี่ยวข้องเช่นการจดจำรูปแบบและการตั้งค่าฟัซซีก็สามารถดูได้เช่นกันในฐานะองค์กรของผลลัพธ์ของฟังก์ชั่นที่มักจะไม่ทราบหรือไม่ชัดเจนเมื่อวิธีการขององค์กรนั้นไม่ชัดเจนเช่นกัน สิ่งนี้สร้างช่องว่างที่ไม่สามารถคาดเดาได้จริงที่สามารถข้ามได้ในบางสถานการณ์ที่หายาก - แต่แม้กระทั่งสิ่งเหล่านี้สามารถจัดกลุ่มเข้าด้วยกันภายใต้รูบริกของกรณีใช้งานเพียงครั้งเดียว: ป้องกันการรบกวนจากอัลกอริธึม
ความไม่ลงรอยกันกับกระบวนการทางวิทยาศาสตร์ของความโกลาหล
เวิร์กโฟลว์ทั่วไปใน "วิทยาศาสตร์แห่งความโกลาหล" คือการวิเคราะห์การคำนวณผลลัพธ์ของฟังก์ชั่นที่รู้จักซึ่งมักจะอยู่ข้าง ๆ สื่อโสตทัศนูปกรณ์ของพื้นที่เฟสเช่นไดอะแกรมแฉกแผนที่Hénonส่วนPoincaréแผนภาพเฟสและเส้นทางวิถี ความจริงที่ว่านักวิจัยต้องอาศัยการทดลองทางคอมพิวเตอร์แสดงให้เห็นถึงวิธีการหาผลกระทบที่วุ่นวายอย่างหนัก ไม่ใช่สิ่งที่คุณสามารถกำหนดได้ตามปกติด้วยปากกาและกระดาษ พวกเขายังเกิดขึ้นเฉพาะในฟังก์ชั่นไม่เชิงเส้น เวิร์กโฟลว์นี้ไม่สามารถทำได้เว้นแต่เราจะมีฟังก์ชั่นที่รู้จักใช้งาน การขุดข้อมูลอาจให้สมการถดถอยฟังก์ชันฟัซซี่และสิ่งที่คล้ายกัน แต่พวกเขาทั้งหมดมีข้อ จำกัด ร่วมกัน: พวกเขาเป็นเพียงการประมาณทั่วไปโดยมีหน้าต่างที่กว้างกว่ามากสำหรับข้อผิดพลาด ในทางกลับกันฟังก์ชั่นที่เป็นที่รู้จักภายใต้ความโกลาหลนั้นค่อนข้างหายาก เช่นเดียวกับช่วงของอินพุตที่ให้รูปแบบความวุ่นวายดังนั้นจึงจำเป็นต้องมีความจำเพาะสูงในการทดสอบเอฟเฟกต์ความวุ่นวาย ตัวดึงดูดแปลก ๆ ใด ๆ ที่อยู่ในพื้นที่เฟสของฟังก์ชั่นที่ไม่รู้จักแน่นอนจะเปลี่ยนหรือหายไปโดยสิ้นเชิงเมื่อคำจำกัดความและอินพุตของพวกเขาเปลี่ยนไปทำให้กระบวนการตรวจจับที่ซับซ้อนโดยผู้เขียนอย่าง Alligood และคณะ
ความโกลาหลเป็นสารปนเปื้อนในผลลัพธ์การขุดข้อมูล
ในความเป็นจริงความสัมพันธ์ของ data mining และญาติกับทฤษฎีความโกลาหลนั้นเป็นสิ่งที่ไม่ดี นี่เป็นความจริงถ้าเรามองการเข้ารหัสในวงกว้างว่าเป็นรูปแบบเฉพาะของการทำเหมืองข้อมูลเนื่องจากฉันได้พบกับงานวิจัยอย่างน้อยหนึ่งเรื่องเกี่ยวกับการใช้ประโยชน์จากความโกลาหลในรูปแบบการเข้ารหัส (ฉันไม่พบการอ้างอิงในขณะนี้ มันลงตามคำขอ) สำหรับผู้ขุดข้อมูลนั้นการมีอยู่ของความโกลาหลนั้นเป็นสิ่งที่ไม่ดีเนื่องจากค่าที่ไร้สาระดูเหมือนจะเป็นช่วงที่เอาต์พุตสามารถทำให้กระบวนการที่ยากลำบากของการประมาณฟังก์ชั่นที่ไม่รู้จักมีความซับซ้อน การใช้งานทั่วไปสำหรับความโกลาหลในการขุดข้อมูลและสาขาที่เกี่ยวข้องคือการออกกฎซึ่งไม่ได้หมายถึงความสำเร็จ หากผลกระทบที่วุ่นวายมีอยู่ แต่ไม่ถูกตรวจจับผลกระทบที่เกิดขึ้นกับกิจการเหมืองข้อมูลอาจยากที่จะข้าม แค่คิดว่าเน็ตประสาทธรรมดาหรือแผนผังการตัดสินใจง่ายแค่ไหนที่จะทำให้ผลลัพธ์ที่ดูไร้สาระของตัวดึงดูดความโกลาหลหรือค่าแหลมที่ฉับพลันในค่าอินพุตสามารถทำให้สับสนในการวิเคราะห์การถดถอยและอาจกำหนดตัวอย่างที่ไม่ดีหรือแหล่งอื่น ๆ ความหายากของเอฟเฟกต์วุ่นวายระหว่างฟังก์ชั่นและช่วงการป้อนข้อมูลทั้งหมดหมายถึงการตรวจสอบพวกมันจะถูกทำลายอย่างรุนแรงโดยผู้ทดสอบ
วิธีการตรวจจับความโกลาหลในผลลัพธ์การขุดข้อมูล
มาตรการบางอย่างที่เกี่ยวข้องกับทฤษฎีความโกลาหลมีประโยชน์ในการระบุผลกระทบของระยะเวลาเช่น Kolmogorov Entropy และความต้องการที่พื้นที่เฟสแสดงค่าบวก Lyapunov ทั้งคู่อยู่ในรายการตรวจสอบการตรวจจับความโกลาหล [2] ที่มีให้ในทฤษฎีความโกลาหลประยุกต์ของ AB Ҫambel แต่ส่วนใหญ่ไม่ได้มีประโยชน์สำหรับฟังก์ชั่นที่ประมาณไว้เช่น Lyapunov exponent ซึ่งต้องการฟังก์ชันที่แน่นอนซึ่งมีข้อ จำกัด ที่ทราบ ขั้นตอนทั่วไปที่เค้าร่างอาจจะมีประโยชน์ในสถานการณ์การขุดข้อมูล เป้าหมายของอัมเบลคือโปรแกรม“ การควบคุมความโกลาหล” ในท้ายที่สุดคือการกำจัดเอฟเฟกต์ aperiodic ที่รบกวน [3] วิธีอื่น ๆ เช่นการคำนวณขนาดกล่องนับและความสัมพันธ์สำหรับการตรวจสอบขนาดของเศษส่วนที่นำไปสู่ความโกลาหลอาจนำไปใช้ในการประยุกต์ใช้การขุดข้อมูลมากกว่า Lyapunov และคนอื่น ๆ ในรายการของเขา อีกเรื่องที่บ่งบอกถึงผลกระทบของความโกลาหลคือการปรากฏตัวของรูปแบบเวลาสองเท่า (หรือสามเท่าและเกินกว่า) ในฟังก์ชั่นเอาท์พุทซึ่งมักนำหน้าพฤติกรรมที่ผิดปกติในระยะ aperiodic (เช่น
แอพพลิเคชั่นเสริมที่แตกต่าง
กรณีการใช้งานหลักนี้จะต้องแตกต่างจากแอพพลิเคชั่นแยกต่างหากซึ่งมีความสัมพันธ์เชิงสัมผัสกับทฤษฎีความโกลาหลเท่านั้น ในการตรวจสอบอย่างละเอียดยิ่งขึ้นรายการของ“ การใช้งานที่มีศักยภาพ” ที่ฉันให้ไว้ในคำถามของฉันประกอบด้วยความคิดเกือบทั้งหมดสำหรับแนวคิดการใช้ประโยชน์จากทฤษฎีความโกลาหลขึ้นอยู่กับ แต่สามารถนำไปใช้อย่างอิสระในกรณีที่ไม่มีพฤติกรรม aperiodic เมื่อเร็ว ๆ นี้ฉันคิดถึงการใช้โพรงแบบโพเทนเชียลแบบใหม่สร้างพฤติกรรมแบบ aperiodic เพื่อดึงอวนประสาทออกจากมินิมาท้องถิ่น แต่สิ่งนี้ก็จะอยู่ในรายการแอปพลิเคชันแทนเจนต์ด้วย หลายคนถูกค้นพบหรือถูกทำให้เป็นผลจากการวิจัยด้านวิทยาศาสตร์ความโกลาหล แต่สามารถนำไปใช้กับสาขาอื่นได้ “ แอปพลิเคชั่นแทนเจนต์” เหล่านี้มีการเชื่อมต่อที่คลุมเครือซึ่งกันและกัน แต่ก่อให้เกิดคลาสที่แตกต่างกัน คั่นด้วยขอบเขตที่ยากจากกรณีการใช้งานหลักของทฤษฎีความโกลาหลในการขุดข้อมูล ครั้งแรกยกระดับบางแง่มุมของทฤษฎีความโกลาหลโดยไม่มีรูปแบบ aperiodic ในขณะที่หลังถูกอุทิศให้กับการพิจารณาความโกลาหลเป็นปัจจัยที่ซับซ้อนในผลการขุดข้อมูลบางทีด้วยการใช้สิ่งที่จำเป็นเช่น positivity ของ Lyapunov เลขชี้กำลัง . หากเราแยกความแตกต่างระหว่างทฤษฎีความโกลาหลและแนวคิดอื่น ๆ ที่ใช้อย่างถูกต้องมันเป็นเรื่องง่ายที่จะเห็นว่าการใช้งานของอดีตนั้นถูก จำกัด โดยฟังก์ชันหน้าที่ที่รู้จักกันในการศึกษาทางวิทยาศาสตร์ทั่วไป มีเหตุผลที่ดีที่จะตื่นเต้นเกี่ยวกับการใช้งานที่เป็นไปได้ของแนวคิดรองเหล่านี้ในกรณีที่ไม่มีความสับสนวุ่นวาย แต่ยังมีเหตุผลที่ต้องกังวลเกี่ยวกับผลกระทบที่ปนเปื้อนจากพฤติกรรมที่ไม่คาดคิดต่อการทำเหมืองข้อมูลเมื่อมีอยู่ โอกาสดังกล่าวจะหายาก แต่ความหายากนั้นก็หมายความว่าพวกเขาจะไม่ถูกตรวจพบ วิธีการของҪambelอาจใช้ในการป้องกันปัญหาดังกล่าว
[1] pp. 143-147, Alligood, Kathleen T.; ซาวเออร์, ทิมดีและ Yorke, เจมส์เอ, 2010, ความโกลาหล: การแนะนำระบบพลวัต, สปริงเกอร์: นิวยอร์ก [2] pp. 208-213, Ҫambel, AB, 1993, ทฤษฎีความโกลาหลประยุกต์: กระบวนทัศน์สำหรับความซับซ้อน, สำนักพิมพ์, Inc: บอสตัน [3] หน้า 215, Ҫambel