คำถามติดแท็ก association-rules

3
อะไรคือความแตกต่างระหว่างกฎการเชื่อมโยงและโครงสร้างการตัดสินใจในการขุดข้อมูล
มีคำอธิบายที่ง่ายมากเกี่ยวกับความแตกต่างระหว่างสองเทคนิคนี้หรือไม่? ดูเหมือนว่าทั้งสองจะใช้สำหรับการเรียนรู้แบบมีผู้สอน (แม้ว่ากฎการเชื่อมโยงสามารถจัดการได้โดยไม่ได้รับอนุญาต) ทั้งสองสามารถใช้สำหรับการทำนาย ที่ใกล้เคียงที่สุดที่ผมเคยพบว่าคำอธิบาย 'ดี' อยู่ห่างจากStatsoft ตำรา พวกเขากล่าวว่ากฎของสมาคมถูกใช้เพื่อ: ... ตรวจสอบความสัมพันธ์หรือการเชื่อมโยงระหว่างค่าเฉพาะของตัวแปรเด็ดขาดในชุดข้อมูลขนาดใหญ่ ขณะที่ตัวแยกประเภทของ Decision Treeนั้นถูกอธิบายว่าใช้เพื่อ: ... ทำนายการเป็นสมาชิกของเคสหรือวัตถุในคลาสของตัวแปรตามหมวดหมู่จากการวัดในตัวแปรตัวทำนายหนึ่งตัวหรือมากกว่า อย่างไรก็ตามในช่วงที่ R Data Mining พวกเขาให้ตัวอย่างของกฎของสมาคมถูกนำมาใช้กับข้อมูลเป้าหมาย ดังนั้นทั้งสองสามารถใช้เพื่อทำนายการเป็นสมาชิกกลุ่มความแตกต่างที่สำคัญคือต้นไม้ตัดสินใจสามารถจัดการกับข้อมูลที่ไม่จัดหมวดหมู่ในขณะที่กฎการเชื่อมโยงไม่สามารถทำได้หรือไม่? หรือมีบางสิ่งพื้นฐานมากขึ้น? หนึ่งเว็บไซต์ ( sqlserverdatamining.com ) กล่าวว่าความแตกต่างที่สำคัญคือ: กฎการตัดสินใจบนพื้นฐานของข้อมูลที่ได้รับในขณะที่กฎของสมาคมขึ้นอยู่กับความนิยมและ / หรือความเชื่อมั่น ดังนั้น (อาจตอบคำถามของฉันเอง) นั่นหมายความว่ากฎการเชื่อมโยงได้รับการประเมินอย่างละเอียดถี่ถ้วนเกี่ยวกับความถี่ที่ปรากฏในชุดข้อมูล (และความถี่ที่พวกเขาเป็น 'จริง') ในขณะที่ต้นไม้การตัดสินใจพยายามลดความแปรปรวน หากใครรู้คำอธิบายที่ดีพวกเขายินดีที่จะชี้ให้ฉันไปแล้วนั่นจะดี

1
การค้นหากฎที่เหมาะสมสำหรับข้อมูลใหม่โดยใช้ arules
ฉันใช้ R (และแพ็คเกจ arules) เพื่อทำธุรกรรมการขุดสำหรับกฎการเชื่อมโยง สิ่งที่ฉันต้องการทำคือสร้างกฎและนำไปใช้กับข้อมูลใหม่ {Beer=YES} -> {Diapers=YES}ตัวอย่างเช่นสมมติว่าผมมีกฎระเบียบมากแห่งหนึ่งซึ่งเป็นที่ยอมรับ จากนั้นฉันก็มีข้อมูลธุรกรรมใหม่ที่หนึ่งในรายการซื้อเบียร์ แต่ไม่ใช่ผ้าอ้อม ฉันจะระบุกฎที่พบ LHS ได้ แต่ยังไม่มี RHS ได้อย่างไร ตัวอย่าง R: install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) กฎที่สร้างขึ้นคือ: > inspect(rules) lhs rhs support confidence lift 1 {} => …

3
ฉันสามารถใช้วิธีการทางสถิติเพื่อค้นหาชุดค่าผสมที่นิยมหรือร่วมกันของตัวแปรเด็ดขาดได้อย่างไร
ฉันกำลังศึกษาเรื่องการใช้ polydrug ฉันมีชุดข้อมูลของผู้ติดยา 400 คนซึ่งแต่ละคนระบุว่าพวกเขาเสพยา มีมากกว่า 10 ยาเสพติดและด้วยเหตุนี้จึงมีการรวมกันเป็นไปได้ที่มีขนาดใหญ่ ฉันคำนวณส่วนใหญ่ของยาเสพติดที่พวกเขาใช้เป็นตัวแปรไบนารี (เช่นเฮโรอีนคือ 1 หากผู้เสพติดเฮโรอีนเสพติด 0) ฉันต้องการค้นหาชุดยายอดนิยมหรือยาสามัญ 2 หรือ 3 ตัว มีวิธีการทางสถิติที่ฉันสามารถใช้ได้หรือไม่?

2
สูงสุดและปิดบ่อย - คำตอบรวมอยู่ด้วย
My dataset:My dataset:My \ \ dataset: 1:A,B,C,E1:A,B,C,E1: A,B,C,E 2:A,C,D,E2:A,C,D,E2:A,C,D,E 3: B,C,E3: B,C,E3:\ \ \ \ \ B,C,E 4:A,C,D,E4:A,C,D,E4:A,C,D,E 5: C,D,E5: C,D,E5:\ \ \ \ C, D, E 6: A,D,E6: A,D,E6: \ \ \ \ A, D,E ฉันต้องการที่จะหาชุดรายการบ่อยสูงสุดและปิดชุดรายการบ่อย ชุดรายการที่ใช้บ่อย X∈FX∈FX ∈ Fเป็นสูงสุดถ้ามันไม่ได้มี supersets ใด ๆ บ่อย ชุดรายการที่ใช้บ่อย X ∈ F ปิดหากไม่มีชุดซูเปอร์เซ็ตที่มีความถี่เท่ากัน …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.