อะไรคือความแตกต่างระหว่างกฎการเชื่อมโยงและโครงสร้างการตัดสินใจในการขุดข้อมูล


19

มีคำอธิบายที่ง่ายมากเกี่ยวกับความแตกต่างระหว่างสองเทคนิคนี้หรือไม่?

  • ดูเหมือนว่าทั้งสองจะใช้สำหรับการเรียนรู้แบบมีผู้สอน (แม้ว่ากฎการเชื่อมโยงสามารถจัดการได้โดยไม่ได้รับอนุญาต)

  • ทั้งสองสามารถใช้สำหรับการทำนาย

ที่ใกล้เคียงที่สุดที่ผมเคยพบว่าคำอธิบาย 'ดี' อยู่ห่างจากStatsoft ตำรา พวกเขากล่าวว่ากฎของสมาคมถูกใช้เพื่อ:

... ตรวจสอบความสัมพันธ์หรือการเชื่อมโยงระหว่างค่าเฉพาะของตัวแปรเด็ดขาดในชุดข้อมูลขนาดใหญ่

ขณะที่ตัวแยกประเภทของ Decision Treeนั้นถูกอธิบายว่าใช้เพื่อ:

... ทำนายการเป็นสมาชิกของเคสหรือวัตถุในคลาสของตัวแปรตามหมวดหมู่จากการวัดในตัวแปรตัวทำนายหนึ่งตัวหรือมากกว่า

อย่างไรก็ตามในช่วงที่ R Data Mining พวกเขาให้ตัวอย่างของกฎของสมาคมถูกนำมาใช้กับข้อมูลเป้าหมาย

ดังนั้นทั้งสองสามารถใช้เพื่อทำนายการเป็นสมาชิกกลุ่มความแตกต่างที่สำคัญคือต้นไม้ตัดสินใจสามารถจัดการกับข้อมูลที่ไม่จัดหมวดหมู่ในขณะที่กฎการเชื่อมโยงไม่สามารถทำได้หรือไม่? หรือมีบางสิ่งพื้นฐานมากขึ้น? หนึ่งเว็บไซต์ ( sqlserverdatamining.com ) กล่าวว่าความแตกต่างที่สำคัญคือ:

กฎการตัดสินใจบนพื้นฐานของข้อมูลที่ได้รับในขณะที่กฎของสมาคมขึ้นอยู่กับความนิยมและ / หรือความเชื่อมั่น

ดังนั้น (อาจตอบคำถามของฉันเอง) นั่นหมายความว่ากฎการเชื่อมโยงได้รับการประเมินอย่างละเอียดถี่ถ้วนเกี่ยวกับความถี่ที่ปรากฏในชุดข้อมูล (และความถี่ที่พวกเขาเป็น 'จริง') ในขณะที่ต้นไม้การตัดสินใจพยายามลดความแปรปรวน

หากใครรู้คำอธิบายที่ดีพวกเขายินดีที่จะชี้ให้ฉันไปแล้วนั่นจะดี

คำตอบ:


14

โดยทั่วไปต้นไม้การตัดสินใจเป็นผู้บริสุทธิ์เทคนิคการจัดหมวดหมู่ เทคนิคเหล่านี้มีจุดมุ่งหมายในการติดฉลากบันทึกของชั้นเรียนที่ไม่รู้จักโดยใช้ประโยชน์จากคุณสมบัติของพวกเขา พวกเขาโดยทั่วไปแผนที่ชุดของคุณสมบัติการบันทึก (คุณลักษณะตัวแปร) ลงในแอตทริบิวต์ class (ตัวแปรเป้าหมาย) วัตถุของการจำแนก ความสัมพันธ์ระหว่างและนั้นเรียนรู้โดยใช้ชุดของระเบียนที่มีป้ายกำกับซึ่งกำหนดไว้เป็นชุดฝึกอบรม จุดประสงค์สูงสุดของแบบจำลองการจำแนกประเภทคือการลดข้อผิดพลาดในการจำแนกผิดพลาดในเร็กคอร์ดที่ไม่มีป้ายกำกับซึ่งคลาสที่ทำนายโดยโมเดลนั้นแตกต่างจากของจริง คุณสมบัติสามารถจัดหมวดหมู่หรือต่อเนื่องF=F1,...,Fม.FF

การวิเคราะห์ความสัมพันธ์แอปพลิเคชันแรกนั้นเกี่ยวกับการวิเคราะห์ตะกร้าตลาดในแอปพลิเคชันเหล่านี้คุณสนใจที่จะค้นหาความสัมพันธ์ระหว่างรายการที่ไม่ได้มุ่งเน้นไปที่เป้าหมาย ชุดข้อมูลที่ใช้กันโดยทั่วไปเป็นชุดธุรกรรม: ชุดของธุรกรรมแต่ละชุดมีชุดรายการ ตัวอย่างเช่น: คุณสนใจที่จะค้นหากฎเช่น

เสื้อ1={ผม1,ผม2}เสื้อ2={ผม1,ผม3,ผม4,ผม5}เสื้อ3={ผม2,ผม3,ผม4,ผม5}เสื้อn={ผม2,ผม3,ผม4,ผม5}
{ผม3,ผม5}{ผม4}

ปรากฎว่าคุณสามารถใช้การวิเคราะห์การเชื่อมโยงสำหรับงานการจัดหมวดหมู่ที่เฉพาะเจาะจงเช่นเมื่อคุณสมบัติทั้งหมดของคุณเป็นหมวดหมู่ คุณต้องเห็นรายการเป็นคุณลักษณะ แต่นี่ไม่ใช่สิ่งที่เกิดจากการวิเคราะห์ความสัมพันธ์


3
  • "กฎของสมาคมมีเป้าหมายเพื่อค้นหากฎทั้งหมดเหนือขีด จำกัด ที่กำหนดซึ่งเกี่ยวข้องกับชุดย่อยของระเบียนที่ทับซ้อนกันในขณะที่ต้นไม้ตัดสินใจหาพื้นที่ในพื้นที่ที่ระเบียนส่วนใหญ่อยู่ในระดับเดียวกันในทางกลับกันต้นไม้ตัดสินใจอาจพลาดกฎทำนายหลาย ๆ เพราะพวกเขาแบ่งส่วนย่อย ๆ ย่อย ๆ อย่างต่อเนื่องเมื่อกฎที่พบโดยแผนผังการตัดสินใจไม่พบโดยกฎการเชื่อมโยงอาจเป็นเพราะข้อ จำกัด ตัดพื้นที่การค้นหาหรือเพราะการสนับสนุนหรือความมั่นใจสูงเกินไป "

  • "อัลกอริธึมกฎของสมาคมอาจช้าแม้จะมีการเพิ่มประสิทธิภาพหลายอย่างที่เสนอในวรรณกรรมเพราะพวกเขาทำงานในพื้นที่ combinatorial ในขณะที่ต้นไม้การตัดสินใจจะเร็วกว่ามากเพราะแต่ละแยกจะได้รับชุดย่อยที่เล็กลงอย่างต่อเนื่อง"

  • ปัญหาอื่นคือต้นไม้การตัดสินใจสามารถทำซ้ำคุณลักษณะเดียวกันหลาย ๆ ครั้งสำหรับกฎเดียวกันเนื่องจากคุณลักษณะดังกล่าวเป็นตัวเลือกที่ดี นี่ไม่ใช่ปัญหาใหญ่เนื่องจากกฎเป็นสันธานดังนั้นกฎสามารถทำให้ง่ายขึ้นหนึ่งช่วงเวลาสำหรับแอตทริบิวต์ แต่ช่วงเวลาดังกล่าวโดยทั่วไปจะมีขนาดเล็กและกฎเฉพาะเจาะจงมากเกินไป "

ข้อความที่ตัดตอนมาจาก:

Ordonez, C. , & Zhao, K. (2011) การประเมินกฎการเชื่อมโยงและโครงสร้างการตัดสินใจเพื่อทำนายแอตทริบิวต์เป้าหมายหลายรายการ การวิเคราะห์ข้อมูลอัจฉริยะ, 15 (2), 173–192

บทความที่ดีที่ครอบคลุมหัวข้อนี้คุ้มค่าที่จะอ่าน


2

เราอาจยืนยันว่าทั้งกฎการเชื่อมโยงและต้นไม้การตัดสินใจแนะนำชุดของกฎให้กับผู้ใช้และด้วยเหตุนี้ทั้งสองจะคล้ายกัน แต่เราต้องเข้าใจความแตกต่างทางทฤษฎีระหว่างต้นไม้การตัดสินใจและกฎการสมาคมและเพิ่มเติมว่ากฎที่แนะนำโดยทั้งสอง ในการใช้งาน

อันดับแรกต้นไม้ตัดสินใจเป็นวิธีการที่มีผู้ควบคุมดูแลซึ่งอัลกอริธึมพยายามทำนาย "ผลลัพธ์" ตัวอย่างทั่วไปของ "ผลลัพธ์" ในสถานการณ์ในชีวิตจริงอาจเป็นเช่นปั่นป่วนฉ้อโกงตอบสนองต่อการรณรงค์ ฯลฯ ดังนั้นจึงใช้กฎการตัดสินใจต้นไม้เพื่อคาดการณ์ผลลัพธ์

การเรียนรู้กฎของสมาคมเป็นวิธีที่ไม่ได้รับการสนับสนุนซึ่งอัลกอริทึมพยายามค้นหาความสัมพันธ์ระหว่างรายการต่าง ๆ ซึ่งมักอยู่ในฐานข้อมูลเชิงพาณิชย์ขนาดใหญ่ ตัวอย่างทั่วไปของฐานข้อมูลเชิงพาณิชย์ขนาดใหญ่คือตัวอย่างหนึ่งที่มีธุรกรรมของผู้ค้าปลีกเช่นประวัติการซื้อของลูกค้าในเว็บไซต์อีคอมเมิร์ซ รายการอาจเป็นผลิตภัณฑ์ที่ซื้อจากร้านค้าหรือภาพยนตร์ที่ดูบนแพลตฟอร์มสตรีมมิ่งออนไลน์ การเรียนรู้กฎของสมาคมคือทั้งหมดที่เกี่ยวกับการซื้อผลิตภัณฑ์หนึ่งที่ทำให้เกิดการซื้อผลิตภัณฑ์อื่น

ประการที่สองต้นไม้การตัดสินใจถูกสร้างขึ้นตามตัวชี้วัดความไม่แน่นอน / ความไม่แน่นอนบางอย่างเช่นการได้รับข้อมูลค่าสัมประสิทธิ์ Gini หรือเอนโทรปีในขณะที่กฎการเชื่อมโยงได้มาจากการสนับสนุนความเชื่อมั่นและการยกระดับ

ประการที่สามเนื่องจากต้นไม้การตัดสินใจเป็นวิธีการแบบ "ภายใต้การดูแล" ความแม่นยำของมันนั้นสามารถวัดได้ในขณะที่การเรียนรู้กฎการเชื่อมโยงนั้นเป็นวิธีที่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.