สิ่งที่เป็นที่รู้จักและใช้งานอยู่ในปัจจุบันของทฤษฎีความโกลาหลในการขุดข้อมูล?


13

ในขณะที่การอ่านตลาดมวลชนบางงานเกี่ยวกับทฤษฎีความโกลาหลในช่วงไม่กี่ปีที่ผ่านมาฉันเริ่มสงสัยว่ามันสามารถนำไปประยุกต์ใช้กับการทำเหมืองข้อมูลและด้านอื่น ๆ ที่เกี่ยวข้องได้อย่างไรเช่นตาข่ายประสาทการจดจำรูปแบบการจัดการความไม่แน่นอน ฯลฯ มีตัวอย่างน้อยมากของแอปพลิเคชั่นดังกล่าวในการวิจัยที่ตีพิมพ์ซึ่งฉันสงสัยว่าก) พวกเขาได้นำไปใช้จริงในการทดลองและโครงการที่เผยแพร่แล้วและข) ถ้าไม่ทำไมพวกเขาถึงใช้น้อยมากในความสัมพันธ์เหล่านี้ สาขา?

การอภิปรายส่วนใหญ่เกี่ยวกับทฤษฎีความโกลาหลที่ฉันเคยเห็นมาในปัจจุบันเกี่ยวข้องกับแอปพลิเคชั่นทางวิทยาศาสตร์ที่มีประโยชน์โดยสิ้นเชิง แต่ไม่ค่อยมีส่วนเกี่ยวข้องกับการทำเหมืองข้อมูล หนึ่งในตัวอย่างต้นแบบคือปัญหาสามตัวจากฟิสิกส์ ฉันต้องการนำการอภิปรายเกี่ยวกับการใช้งานทางวิทยาศาสตร์ทั่วไปประเภทนี้และ จำกัด คำถามเฉพาะแอปพลิเคชันที่เกี่ยวข้องกับการทำเหมืองข้อมูลและสาขาที่เกี่ยวข้องซึ่งเห็นได้ชัดว่ามีอยู่น้อยมากในวรรณกรรม รายการแอปพลิเคชันที่มีศักยภาพด้านล่างนี้สามารถใช้เป็นจุดเริ่มต้นของการค้นหางานวิจัยที่ตีพิมพ์ แต่ฉันสนใจเฉพาะแอปพลิเคชันเหล่านั้นที่ได้นำไปใช้จริง สิ่งที่ฉันกำลังมองหานั้นเป็นที่ทราบกันดีว่าการใช้ทฤษฎีความโกลาหลกับการขุดข้อมูล ขัดแย้งกับรายการแอพพลิเคชั่นที่มีศักยภาพซึ่งกว้างกว่ามาก นี่คือตัวอย่างเล็ก ๆ ของแนวคิดนอกคอกสำหรับแอปพลิเคชันการขุดข้อมูลที่เกิดขึ้นกับฉันขณะอ่าน อาจจะไม่มีพวกมันในทางปฏิบัติบางทีบางคนอาจถูกนำไปใช้จริงในขณะที่เราพูด แต่ไปตามเงื่อนไขที่ฉันยังไม่คุ้นเคย:

  1. การระบุโครงสร้างที่คล้ายกันของตัวเองในการจดจำรูปแบบดังที่ Mandelbrot ทำในทางปฏิบัติในกรณีที่เกิดข้อผิดพลาดเกิดขึ้นในสายโทรศัพท์อะนาล็อกเมื่อสองสามทศวรรษที่แล้ว
  2. การเผชิญหน้ากับผลการขุดของ Feigenbaum อย่างต่อเนื่อง (อาจเป็นในลักษณะที่คล้ายคลึงกับที่นักทฤษฎีสตริงถูกทำให้ตกใจเพื่อดูสมการของ Maxwell ปรากฏขึ้นในสถานที่ที่ไม่คาดคิดในระหว่างการวิจัย)
  3. การระบุความลึกของบิตที่เหมาะสมที่สุดสำหรับตุ้มน้ำหนักโครงข่ายประสาทและการทดสอบการขุดต่างๆ ฉันสงสัยเกี่ยวกับอันนี้เนื่องจากสเกลตัวเลขขนาดเล็กที่หายตัวไปซึ่งความไวต่อเงื่อนไขเริ่มต้นเข้ามามีบทบาทซึ่งบางส่วนมีส่วนรับผิดชอบต่อความไม่แน่นอนของฟังก์ชั่นที่เกี่ยวข้องกับความโกลาหล
  4. การใช้ความคิดของมิติเศษส่วนในรูปแบบอื่น ๆ ที่ไม่จำเป็นต้องเกี่ยวข้องกับความอยากรู้อยากเห็นเศษส่วนที่น่าสนใจเช่น Menger Sponges, Koch Curves หรือ Sierpinski Carpets บางทีแนวคิดนี้สามารถนำไปใช้กับมิติของแบบจำลองการทำเหมืองในบางวิธีที่เป็นประโยชน์โดยการทำให้มันเป็นเศษส่วน?
  5. ได้รับกฎหมายพลังงานเช่นเดียวกับที่เข้ามาเป็นเศษส่วน
  6. เนื่องจากฟังก์ชั่นที่พบในแฟร็กทัลไม่ใช่แบบไม่เชิงเส้นฉันจึงสงสัยว่ามีแอปพลิเคชันบางอย่างในการประยุกต์กับการถดถอยแบบไม่เชิงเส้น
  7. ทฤษฎีความโกลาหลมีความสัมพันธ์วง (และบางครั้งคุยโว) กับเอนโทรปีดังนั้นฉันจึงสงสัยว่ามีวิธีการคำนวณเอนโทรปีของแชนนอน (หรือ จำกัด ขอบเขตมันและญาติ) จากฟังก์ชั่นที่ใช้ในทฤษฎีความโกลาหล
  8. การระบุพฤติกรรมการเพิ่มระยะเวลาเป็นสองเท่าในข้อมูล
  9. การระบุโครงสร้างที่เหมาะสมสำหรับโครงข่ายประสาทด้วยการเลือกโครงสร้างที่น่าจะ "จัดระเบียบตนเอง" ได้อย่างชาญฉลาดในวิธีที่มีประโยชน์
  10. ความโกลาหลและเศษส่วน ฯลฯ มีความสัมพันธ์กันอย่างซับซ้อนกับความซับซ้อนในการคำนวณดังนั้นฉันจึงสงสัยว่าความซับซ้อนจะถูกนำมาใช้เพื่อระบุโครงสร้างที่วุ่นวายหรือในทางกลับกัน
  11. ครั้งแรกที่ฉันได้ยินเกี่ยวกับการยกกำลัง Lyapunov ในแง่ของทฤษฎีความโกลาหลและสังเกตเห็นมันสองสามครั้งตั้งแต่นั้นมาในสูตรสำหรับอวนประสาทที่เฉพาะเจาะจงและการอภิปรายของเอนโทรปี

อาจมีความสัมพันธ์อื่น ๆ อีกมากมายที่ฉันไม่ได้ระบุไว้ที่นี่ ทั้งหมดนี้มาจากส่วนหัวของฉัน ฉันไม่สนใจคำตอบเฉพาะของการคาดเดาเหล่านี้อย่างหวุดหวิด แต่ฉันแค่ทิ้งพวกมันไว้เป็นตัวอย่างของประเภทแอปพลิเคชันที่อาจมีอยู่ในป่า ฉันต้องการเห็นการตอบกลับที่มีตัวอย่างของการวิจัยในปัจจุบันและการใช้งานความคิดที่มีอยู่เช่นนี้ตราบใดที่แอปพลิเคชันสามารถใช้กับการทำเหมืองข้อมูลโดยเฉพาะ

อาจมีการใช้งานอื่น ๆ ที่ยังหลงเหลืออยู่ที่ฉันไม่ได้ตระหนักถึงแม้ในพื้นที่ที่ฉันคุ้นเคยมากกว่า (เช่นทฤษฎีสารสนเทศชุดคลุมเครือและตาข่ายประสาท) และอื่น ๆ ฉันที่ฉันมีความสามารถน้อยลงเช่นเดียวกับการถดถอย ยินดีต้อนรับ จุดประสงค์ในทางปฏิบัติของฉันที่นี่คือการพิจารณาว่าจะลงทุนมากขึ้นในการเรียนรู้เกี่ยวกับแง่มุมต่าง ๆ ของทฤษฎีความโกลาหลหรือไม่ซึ่งฉันจะใช้เครื่องเขียนสำรองหากฉันไม่พบโปรแกรมอรรถประโยชน์ที่ชัดเจน

ผมค้นหาของ CrossValidated แต่ไม่ได้ดูที่หัวข้อใด ๆ ที่อยู่ตรงการใช้งานประโยชน์ของทฤษฎีความโกลาหลในการทำเหมืองข้อมูลอื่น ๆ ที่ใกล้เคียงที่สุดที่ผมได้มาเป็นด้ายทฤษฎีความโกลาหลสร้างแบบจำลองสมฟรีและไม่ใช่ตัวแปรสถิติซึ่งข้อเสนอ ด้วยชุดย่อยเฉพาะ


ความคิดเห็นไม่ได้มีไว้สำหรับการอภิปรายเพิ่มเติม การสนทนานี้ได้รับการย้ายไปแชท
whuber

คำตอบ:


7

การขุดดาต้า (DM) เป็นวิธีการปฏิบัติที่ดูเหมือนจะเกือบจะสมบูรณ์แบบกับวิธีการสร้างแบบจำลองทางคณิตศาสตร์ (MM) และแม้แต่ขัดแย้งกับทฤษฎีความโกลาหล (CT) ฉันจะพูดคุยเกี่ยวกับ DM และ MM ทั่วไปก่อนจากนั้นจึงโฟกัสที่ CT

การสร้างแบบจำลองทางคณิตศาสตร์

ในการสร้างแบบจำลองทางเศรษฐกิจ DM จนกระทั่งเมื่อเร็ว ๆ นี้ได้รับการพิจารณาว่าเกือบจะเป็นข้อห้ามแฮ็กไปหาปลาเพื่อความสัมพันธ์แทนที่จะเรียนรู้เกี่ยวกับสาเหตุและความสัมพันธ์ดูโพสต์นี้ในบล็อก SAS ทัศนคติที่มีการเปลี่ยนแปลง แต่มีข้อผิดพลาดมากมายที่เกี่ยวข้องกับความสัมพันธ์ของปลอม , ขุดลอกข้อมูล , P-แฮ็คฯลฯ

ในบางกรณี DM ดูเหมือนจะเป็นวิธีการที่ถูกต้องตามกฎหมายแม้ในสาขาที่มีแนวทางปฏิบัติ MM ที่จัดตั้งขึ้นแล้ว ตัวอย่างเช่น DM สามารถใช้เพื่อค้นหาการโต้ตอบของอนุภาคในการทดลองทางกายภาพที่สร้างข้อมูลจำนวนมากลองนึกถึงอนุภาคที่มีการชน ในกรณีนี้นักฟิสิกส์อาจมีแนวคิดว่าอนุภาคมีลักษณะอย่างไรและค้นหารูปแบบในชุดข้อมูล

ทฤษฎีความโกลาหล

ระบบความวุ่นวายอาจต้านทานการวิเคราะห์ด้วยเทคนิค DM โดยเฉพาะ พิจารณาคุ้นเคยวิธีการ congruental เชิงเส้น ( LCG ) ที่ใช้ในการร่วมกันpsudo สุ่มกำเนิดจำนวน มันเป็นหลักระบบวุ่นวาย นั่นคือเหตุผลที่ใช้เพื่อสุ่มตัวเลข "ปลอม" ตัวสร้างที่ดีจะแยกไม่ออกจากลำดับตัวเลขสุ่ม ซึ่งหมายความว่าคุณจะไม่สามารถตรวจสอบว่ามันสุ่มหรือไม่โดยใช้วิธีการทางสถิติ ฉันจะรวม data mining ไว้ที่นี่ด้วย ลองค้นหารูปแบบในลำดับ RAND () ที่สร้างด้วย data mining! อีกครั้งมันเป็นลำดับที่กำหนดอย่างสมบูรณ์ตามที่คุณรู้และสมการของมันก็ง่ายมากเช่นกัน

ทฤษฎีความโกลาหลไม่ได้เกี่ยวกับการสุ่มหารูปแบบความคล้ายคลึงกัน ทฤษฎีความโกลาหลเกี่ยวข้องกับการเรียนรู้เกี่ยวกับกระบวนการและความสัมพันธ์แบบไดนามิกเช่นการรบกวนขนาดเล็กที่เพิ่มขึ้นในระบบการสร้างพฤติกรรมที่ไม่เสถียรในขณะที่ในความสับสนวุ่นวายนี้รูปแบบที่มั่นคงปรากฏ สิ่งดีๆทั้งหมดนี้เกิดขึ้นเนื่องจากคุณสมบัติของสมการเอง จากนั้นนักวิจัยศึกษาสมการและระบบเหล่านี้ สิ่งนี้แตกต่างจากชุดข้อมูลการทำเหมืองข้อมูล

ตัวอย่างเช่นคุณสามารถพูดคุยเกี่ยวกับรูปแบบความคล้ายคลึงกันของตัวเองในขณะที่ศึกษาระบบที่วุ่นวาย อย่างไรก็ตามสิ่งเหล่านี้จัดการกับแนวคิด "รูปแบบ" แตกต่างกันมาก ระบบความวุ่นวายจะสร้างรูปแบบเหล่านี้จากสมการ พวกเขาอาจพยายามหาชุดสมการของพวกเขาโดยการสังเกตระบบจริง ฯลฯ แต่พวกเขามักจะจัดการกับสมการในบางจุด ผู้ขุดข้อมูลจะมาจากอีกด้านหนึ่งและไม่ทราบหรือคาดเดามากเกี่ยวกับโครงสร้างภายในของระบบจะพยายามมองหารูปแบบ ฉันไม่คิดว่าทั้งสองกลุ่มจะเคยดูระบบหรือชุดข้อมูลที่เหมือนกัน

อีกตัวอย่างหนึ่งคือแผนที่โลจิสติกส์ที่ง่ายที่สุดที่ Feigenbaum ทำงานด้วยเพื่อสร้างช่วงเวลาที่มีชื่อเสียงของเขาเพิ่มเป็นสองเท่าแฉก

ป้อนคำอธิบายรูปภาพที่นี่

สมการนั้นง่ายมาก: แต่ฉันไม่เห็นว่าใครจะค้นพบมันด้วยเทคนิคการขุดข้อมูล

xn+1=Rxn(1-xn)


(+1) ฉันจะเพิ่มว่าเมื่อคุณสามารถระบุสมการที่กำหนดพฤติกรรมของระบบที่วุ่นวายคุณสามารถทำนายพฤติกรรมนั้นได้อย่างสมบูรณ์หรือใกล้เคียงกับมัน เราไม่ค่อยได้รับ R-squared แม้> .5 ในการทำเหมืองข้อมูล / การสร้างแบบจำลองการทำนาย
rolando2

+1 นี่เป็นส่วนเสริมของคำตอบที่ฉันพร้อมในขณะนี้ซึ่งฉันจะโพสต์ในอีกไม่กี่ชั่วโมง
SQLServerSteve

4

สิ่งที่แปลกประหลาดที่สุดที่ฉันค้นพบเมื่ออ่านทฤษฎีความโกลาหลเพื่อตอบคำถามนี้เป็นสิ่งที่น่าประหลาดใจอย่างยิ่งสำหรับงานวิจัยที่ตีพิมพ์ซึ่งการทำเหมืองข้อมูลและญาติของมันใช้ประโยชน์จากทฤษฎีความโกลาหล แม้จะมีความพยายามร่วมกันในการค้นหาพวกเขาโดยการให้คำปรึกษาจากแหล่งข้อมูลต่าง ๆ เช่นทฤษฎีความโกลาหลของ AB Ҫambel: กระบวนทัศน์สำหรับความซับซ้อนและ Alligood และความโกลาหลของ et al.: ความรู้เบื้องต้นเกี่ยวกับระบบพลวัต หัวข้อนี้) และตรวจค้นบรรณานุกรมของพวกเขา หลังจากนั้นฉันเพิ่งจะได้รับการศึกษาเดี่ยวที่อาจมีคุณสมบัติและฉันต้องยืดขอบเขตของ“ data mining” เพียงเพื่อรวมกรณีขอบนี้: ทีมที่มหาวิทยาลัยเท็กซัสทำการวิจัยเกี่ยวกับปฏิกิริยา Belousov-Zhabotinsky (BZ) (ซึ่งเป็นที่รู้กันดีว่ามีแนวโน้มที่จะผิดปกติ) ค้นพบความคลาดเคลื่อนในกรด malonic ที่ใช้ในการทดลองของพวกเขาโดยบังเอิญเนื่องจากรูปแบบวุ่นวาย ผู้จัดจำหน่าย. [1] อาจมีคนอื่น ๆ - ฉันไม่ใช่ผู้เชี่ยวชาญในทฤษฎีความโกลาหลและแทบจะไม่สามารถประเมินวรรณกรรมได้อย่างละเอียดถี่ถ้วน แต่ความแตกต่างอย่างสิ้นเชิงกับการใช้งานทางวิทยาศาสตร์ทั่วไปเช่นปัญหาสามกายจากฟิสิกส์จะไม่เปลี่ยนแปลงมากนักถ้าเรานับพวกมันทั้งหมด ในความเป็นจริงในระหว่างนี้เมื่อคำถามนี้ถูกปิด ฉันพิจารณาเขียนใหม่ภายใต้ชื่อ“ ทำไมจึงมีการใช้ทฤษฎีความโกลาหลไม่กี่ครั้งในการขุดข้อมูลและสาขาที่เกี่ยวข้อง” สิ่งนี้ไม่สอดคล้องกับความเชื่อมั่นที่ไม่ชัดเจน แต่แพร่หลายว่าควรจะมีแอพพลิเคชั่นจำนวนมากในการทำเหมืองข้อมูลและสาขาที่เกี่ยวข้องเช่นอวนประสาทการจดจำรูปแบบการจัดการความไม่แน่นอนชุดฝอย ฯลฯ ท้ายที่สุดทฤษฎีความโกลาหลก็เป็นหัวข้อที่ทันสมัยพร้อมกับการใช้งานที่มีประโยชน์มากมาย ฉันต้องคิดให้ถี่ถ้วนและหนักแน่นว่าเขตแดนระหว่างทุ่งเหล่านี้อยู่ตรงไหนเพื่อที่จะเข้าใจว่าทำไมการค้นหาของฉันจึงไร้ผลและความประทับใจของฉันก็ผิด

The; tldr คำตอบ

คำอธิบายสั้น ๆ เกี่ยวกับความไม่สมดุลของจำนวนการศึกษาและการเบี่ยงเบนจากความคาดหวังนั้นสามารถอธิบายได้ว่าทฤษฎีความโกลาหลและการทำเหมืองข้อมูลเป็นต้นตอบคำถามสองคำถามแยกกันอย่างเป็นระเบียบ การแบ่งแยกขั้วที่เฉียบแหลมระหว่างพวกเขานั้นชัดเจนเมื่อมีการชี้ให้เห็น แต่ยังเป็นพื้นฐานที่จะไม่มีใครสังเกตเหมือนการมองจมูกของตัวเอง อาจมีเหตุผลบางอย่างสำหรับความเชื่อที่ว่าความแปลกใหม่ของทฤษฎีความโกลาหลและทุ่งนาเช่นการขุดข้อมูลอธิบายถึงความขาดแคลนของการใช้งานบางอย่าง แต่เราสามารถคาดหวังความไม่สมดุลเชิงสัมพัทธ์ให้คงอยู่แม้ในขณะที่สาขาเหล่านี้เติบโต เหรียญเดียวกัน เกือบทั้งหมดของการใช้งานจนถึงปัจจุบันได้มีการศึกษาฟังก์ชั่นที่รู้จักด้วยเอาต์พุตที่กำหนดไว้อย่างดีซึ่งเกิดขึ้นเพื่อแสดงความผิดปกติของความสับสนวุ่นวาย ในขณะที่การทำเหมืองข้อมูลและเทคนิคส่วนบุคคลเช่นอวนประสาทและต้นไม้ตัดสินใจทั้งหมดเกี่ยวข้องกับการกำหนดฟังก์ชั่นที่ไม่รู้จักหรือไม่ชัดเจน เขตข้อมูลที่เกี่ยวข้องเช่นการจดจำรูปแบบและการตั้งค่าฟัซซีก็สามารถดูได้เช่นกันในฐานะองค์กรของผลลัพธ์ของฟังก์ชั่นที่มักจะไม่ทราบหรือไม่ชัดเจนเมื่อวิธีการขององค์กรนั้นไม่ชัดเจนเช่นกัน สิ่งนี้สร้างช่องว่างที่ไม่สามารถคาดเดาได้จริงที่สามารถข้ามได้ในบางสถานการณ์ที่หายาก - แต่แม้กระทั่งสิ่งเหล่านี้สามารถจัดกลุ่มเข้าด้วยกันภายใต้รูบริกของกรณีการใช้งานครั้งเดียว: ป้องกันการรบกวนจากอัลกอริธึม เขตข้อมูลที่เกี่ยวข้องเช่นการจดจำรูปแบบและการตั้งค่าฟัซซีก็สามารถดูได้เช่นกันในฐานะองค์กรของผลลัพธ์ของฟังก์ชั่นที่มักจะไม่ทราบหรือไม่ชัดเจนเมื่อวิธีการขององค์กรนั้นไม่ชัดเจนเช่นกัน สิ่งนี้สร้างช่องว่างที่ไม่สามารถคาดเดาได้จริงที่สามารถข้ามได้ในบางสถานการณ์ที่หายาก - แต่แม้กระทั่งสิ่งเหล่านี้สามารถจัดกลุ่มเข้าด้วยกันภายใต้รูบริกของกรณีการใช้งานครั้งเดียว: ป้องกันการรบกวนจากอัลกอริธึม เขตข้อมูลที่เกี่ยวข้องเช่นการจดจำรูปแบบและการตั้งค่าฟัซซีก็สามารถดูได้เช่นกันในฐานะองค์กรของผลลัพธ์ของฟังก์ชั่นที่มักจะไม่ทราบหรือไม่ชัดเจนเมื่อวิธีการขององค์กรนั้นไม่ชัดเจนเช่นกัน สิ่งนี้สร้างช่องว่างที่ไม่สามารถคาดเดาได้จริงที่สามารถข้ามได้ในบางสถานการณ์ที่หายาก - แต่แม้กระทั่งสิ่งเหล่านี้สามารถจัดกลุ่มเข้าด้วยกันภายใต้รูบริกของกรณีใช้งานเพียงครั้งเดียว: ป้องกันการรบกวนจากอัลกอริธึม

ความไม่ลงรอยกันกับกระบวนการทางวิทยาศาสตร์ของความโกลาหล

เวิร์กโฟลว์ทั่วไปใน "วิทยาศาสตร์แห่งความโกลาหล" คือการวิเคราะห์การคำนวณผลลัพธ์ของฟังก์ชั่นที่รู้จักซึ่งมักจะอยู่ข้าง ๆ สื่อโสตทัศนูปกรณ์ของพื้นที่เฟสเช่นไดอะแกรมแฉกแผนที่Hénonส่วนPoincaréแผนภาพเฟสและเส้นทางวิถี ความจริงที่ว่านักวิจัยต้องอาศัยการทดลองทางคอมพิวเตอร์แสดงให้เห็นถึงวิธีการหาผลกระทบที่วุ่นวายอย่างหนัก ไม่ใช่สิ่งที่คุณสามารถกำหนดได้ตามปกติด้วยปากกาและกระดาษ พวกเขายังเกิดขึ้นเฉพาะในฟังก์ชั่นไม่เชิงเส้น เวิร์กโฟลว์นี้ไม่สามารถทำได้เว้นแต่เราจะมีฟังก์ชั่นที่รู้จักใช้งาน การขุดข้อมูลอาจให้สมการถดถอยฟังก์ชันฟัซซี่และสิ่งที่คล้ายกัน แต่พวกเขาทั้งหมดมีข้อ จำกัด ร่วมกัน: พวกเขาเป็นเพียงการประมาณทั่วไปโดยมีหน้าต่างที่กว้างกว่ามากสำหรับข้อผิดพลาด ในทางกลับกันฟังก์ชั่นที่เป็นที่รู้จักภายใต้ความโกลาหลนั้นค่อนข้างหายาก เช่นเดียวกับช่วงของอินพุตที่ให้รูปแบบความวุ่นวายดังนั้นจึงจำเป็นต้องมีความจำเพาะสูงในการทดสอบเอฟเฟกต์ความวุ่นวาย ตัวดึงดูดแปลก ๆ ใด ๆ ที่อยู่ในพื้นที่เฟสของฟังก์ชั่นที่ไม่รู้จักแน่นอนจะเปลี่ยนหรือหายไปโดยสิ้นเชิงเมื่อคำจำกัดความและอินพุตของพวกเขาเปลี่ยนไปทำให้กระบวนการตรวจจับที่ซับซ้อนโดยผู้เขียนอย่าง Alligood และคณะ

ความโกลาหลเป็นสารปนเปื้อนในผลลัพธ์การขุดข้อมูล

ในความเป็นจริงความสัมพันธ์ของ data mining และญาติกับทฤษฎีความโกลาหลนั้นเป็นสิ่งที่ไม่ดี นี่เป็นความจริงถ้าเรามองการเข้ารหัสในวงกว้างว่าเป็นรูปแบบเฉพาะของการทำเหมืองข้อมูลเนื่องจากฉันได้พบกับงานวิจัยอย่างน้อยหนึ่งเรื่องเกี่ยวกับการใช้ประโยชน์จากความโกลาหลในรูปแบบการเข้ารหัส (ฉันไม่พบการอ้างอิงในขณะนี้ มันลงตามคำขอ) สำหรับผู้ขุดข้อมูลนั้นการมีอยู่ของความโกลาหลนั้นเป็นสิ่งที่ไม่ดีเนื่องจากค่าที่ไร้สาระดูเหมือนจะเป็นช่วงที่เอาต์พุตสามารถทำให้กระบวนการที่ยากลำบากของการประมาณฟังก์ชั่นที่ไม่รู้จักมีความซับซ้อน การใช้งานทั่วไปสำหรับความโกลาหลในการขุดข้อมูลและสาขาที่เกี่ยวข้องคือการออกกฎซึ่งไม่ได้หมายถึงความสำเร็จ หากผลกระทบที่วุ่นวายมีอยู่ แต่ไม่ถูกตรวจจับผลกระทบที่เกิดขึ้นกับกิจการเหมืองข้อมูลอาจยากที่จะข้าม แค่คิดว่าเน็ตประสาทธรรมดาหรือแผนผังการตัดสินใจง่ายแค่ไหนที่จะทำให้ผลลัพธ์ที่ดูไร้สาระของตัวดึงดูดความโกลาหลหรือค่าแหลมที่ฉับพลันในค่าอินพุตสามารถทำให้สับสนในการวิเคราะห์การถดถอยและอาจกำหนดตัวอย่างที่ไม่ดีหรือแหล่งอื่น ๆ ความหายากของเอฟเฟกต์วุ่นวายระหว่างฟังก์ชั่นและช่วงการป้อนข้อมูลทั้งหมดหมายถึงการตรวจสอบพวกมันจะถูกทำลายอย่างรุนแรงโดยผู้ทดสอบ

วิธีการตรวจจับความโกลาหลในผลลัพธ์การขุดข้อมูล

มาตรการบางอย่างที่เกี่ยวข้องกับทฤษฎีความโกลาหลมีประโยชน์ในการระบุผลกระทบของระยะเวลาเช่น Kolmogorov Entropy และความต้องการที่พื้นที่เฟสแสดงค่าบวก Lyapunov ทั้งคู่อยู่ในรายการตรวจสอบการตรวจจับความโกลาหล [2] ที่มีให้ในทฤษฎีความโกลาหลประยุกต์ของ AB Ҫambel แต่ส่วนใหญ่ไม่ได้มีประโยชน์สำหรับฟังก์ชั่นที่ประมาณไว้เช่น Lyapunov exponent ซึ่งต้องการฟังก์ชันที่แน่นอนซึ่งมีข้อ จำกัด ที่ทราบ ขั้นตอนทั่วไปที่เค้าร่างอาจจะมีประโยชน์ในสถานการณ์การขุดข้อมูล เป้าหมายของอัมเบลคือโปรแกรม“ การควบคุมความโกลาหล” ในท้ายที่สุดคือการกำจัดเอฟเฟกต์ aperiodic ที่รบกวน [3] วิธีอื่น ๆ เช่นการคำนวณขนาดกล่องนับและความสัมพันธ์สำหรับการตรวจสอบขนาดของเศษส่วนที่นำไปสู่ความโกลาหลอาจนำไปใช้ในการประยุกต์ใช้การขุดข้อมูลมากกว่า Lyapunov และคนอื่น ๆ ในรายการของเขา อีกเรื่องที่บ่งบอกถึงผลกระทบของความโกลาหลคือการปรากฏตัวของรูปแบบเวลาสองเท่า (หรือสามเท่าและเกินกว่า) ในฟังก์ชั่นเอาท์พุทซึ่งมักนำหน้าพฤติกรรมที่ผิดปกติในระยะ aperiodic (เช่น

แอพพลิเคชั่นเสริมที่แตกต่าง

กรณีการใช้งานหลักนี้จะต้องแตกต่างจากแอพพลิเคชั่นแยกต่างหากซึ่งมีความสัมพันธ์เชิงสัมผัสกับทฤษฎีความโกลาหลเท่านั้น ในการตรวจสอบอย่างละเอียดยิ่งขึ้นรายการของ“ การใช้งานที่มีศักยภาพ” ที่ฉันให้ไว้ในคำถามของฉันประกอบด้วยความคิดเกือบทั้งหมดสำหรับแนวคิดการใช้ประโยชน์จากทฤษฎีความโกลาหลขึ้นอยู่กับ แต่สามารถนำไปใช้อย่างอิสระในกรณีที่ไม่มีพฤติกรรม aperiodic เมื่อเร็ว ๆ นี้ฉันคิดถึงการใช้โพรงแบบโพเทนเชียลแบบใหม่สร้างพฤติกรรมแบบ aperiodic เพื่อดึงอวนประสาทออกจากมินิมาท้องถิ่น แต่สิ่งนี้ก็จะอยู่ในรายการแอปพลิเคชันแทนเจนต์ด้วย หลายคนถูกค้นพบหรือถูกทำให้เป็นผลจากการวิจัยด้านวิทยาศาสตร์ความโกลาหล แต่สามารถนำไปใช้กับสาขาอื่นได้ “ แอปพลิเคชั่นแทนเจนต์” เหล่านี้มีการเชื่อมต่อที่คลุมเครือซึ่งกันและกัน แต่ก่อให้เกิดคลาสที่แตกต่างกัน คั่นด้วยขอบเขตที่ยากจากกรณีการใช้งานหลักของทฤษฎีความโกลาหลในการขุดข้อมูล ครั้งแรกยกระดับบางแง่มุมของทฤษฎีความโกลาหลโดยไม่มีรูปแบบ aperiodic ในขณะที่หลังถูกอุทิศให้กับการพิจารณาความโกลาหลเป็นปัจจัยที่ซับซ้อนในผลการขุดข้อมูลบางทีด้วยการใช้สิ่งที่จำเป็นเช่น positivity ของ Lyapunov เลขชี้กำลัง . หากเราแยกความแตกต่างระหว่างทฤษฎีความโกลาหลและแนวคิดอื่น ๆ ที่ใช้อย่างถูกต้องมันเป็นเรื่องง่ายที่จะเห็นว่าการใช้งานของอดีตนั้นถูก จำกัด โดยฟังก์ชันหน้าที่ที่รู้จักกันในการศึกษาทางวิทยาศาสตร์ทั่วไป มีเหตุผลที่ดีที่จะตื่นเต้นเกี่ยวกับการใช้งานที่เป็นไปได้ของแนวคิดรองเหล่านี้ในกรณีที่ไม่มีความสับสนวุ่นวาย แต่ยังมีเหตุผลที่ต้องกังวลเกี่ยวกับผลกระทบที่ปนเปื้อนจากพฤติกรรมที่ไม่คาดคิดต่อการทำเหมืองข้อมูลเมื่อมีอยู่ โอกาสดังกล่าวจะหายาก แต่ความหายากนั้นก็หมายความว่าพวกเขาจะไม่ถูกตรวจพบ วิธีการของҪambelอาจใช้ในการป้องกันปัญหาดังกล่าว

[1] pp. 143-147, Alligood, Kathleen T.; ซาวเออร์, ทิมดีและ Yorke, เจมส์เอ, 2010, ความโกลาหล: การแนะนำระบบพลวัต, สปริงเกอร์: นิวยอร์ก [2] pp. 208-213, Ҫambel, AB, 1993, ทฤษฎีความโกลาหลประยุกต์: กระบวนทัศน์สำหรับความซับซ้อน, สำนักพิมพ์, Inc: บอสตัน [3] หน้า 215, Ҫambel

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.