ยกมาตรการในการขุดข้อมูล


36

ฉันค้นหาเว็บไซต์จำนวนมากเพื่อทราบว่าการยกจะทำอย่างไร ผลลัพธ์ที่ฉันพบทั้งหมดเกี่ยวกับการใช้ในแอปพลิเคชันไม่ใช่ตัวเอง

ฉันรู้เกี่ยวกับฟังก์ชั่นการสนับสนุนและความมั่นใจ จากวิกิพีเดียในการขุดข้อมูลการยกเป็นตัวชี้วัดประสิทธิภาพของแบบจำลองในการทำนายหรือจำแนกกรณีการวัดเทียบกับตัวเลือกแบบสุ่ม แต่อย่างไร การสนับสนุนความเชื่อมั่น * คือค่าของการยกที่ฉันค้นหาสูตรอื่นด้วย แต่ฉันไม่เข้าใจว่าทำไมแผนภูมิของลิฟต์จึงมีความสำคัญในความแม่นยำของค่าที่คาดการณ์ฉันหมายถึงฉันต้องการทราบว่านโยบายและเหตุผลคืออะไร


2
ต้องการบริบทที่นี่ ในด้านการตลาดนี่เป็นแผนภูมิที่บ่งบอกถึงการเพิ่มขึ้นของยอดขายที่คาดว่าจะได้จากกิจกรรมทางการตลาดต่าง ๆ แต่คุณอาจมีบริบทที่แตกต่างออกไป
zbicyclist

คำตอบ:


59

ฉันจะยกตัวอย่างว่า "การยก" มีประโยชน์อย่างไร ...

ลองนึกภาพคุณกำลังเรียกใช้แคมเปญจดหมายโดยตรงที่คุณส่งข้อเสนอให้ลูกค้าด้วยความหวังว่าพวกเขาจะตอบสนอง ข้อมูลประวัติแสดงให้เห็นว่าเมื่อคุณส่งฐานลูกค้าของคุณอย่างสมบูรณ์แบบสุ่มประมาณ 8% ของพวกเขาตอบสนองต่อการส่งจดหมาย (เช่นพวกเขาเข้ามาและซื้อสินค้าพร้อมข้อเสนอ) ดังนั้นหากคุณส่งลูกค้า 1,000 รายคุณสามารถคาดหวังผู้ตอบได้ 80 คน

ตอนนี้คุณตัดสินใจปรับโมเดลการถดถอยโลจิสติกให้สอดคล้องกับข้อมูลประวัติของคุณเพื่อค้นหารูปแบบที่สามารถคาดการณ์ได้ว่าลูกค้ามีแนวโน้มที่จะตอบสนองต่อการส่งจดหมายหรือไม่ การใช้รูปแบบการถดถอยโลจิสติกลูกค้าแต่ละรายได้รับความน่าจะเป็นในการตอบสนองและคุณสามารถประเมินความถูกต้องได้เพราะคุณทราบว่าพวกเขาตอบกลับจริงหรือไม่ เมื่อลูกค้าแต่ละรายได้รับมอบหมายความน่าจะเป็นคุณจะจัดอันดับจากลูกค้าที่มีคะแนนสูงสุดถึงต่ำที่สุด จากนั้นคุณสามารถสร้างกราฟิก "ยก" เช่นนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ไม่ต้องสนใจชาร์ตยอดนิยมตอนนี้ แผนภูมิด้านล่างบอกว่าหลังจากเราจัดเรียงลูกค้าตามความน่าจะเป็นในการตอบสนอง (สูงไปต่ำ) จากนั้นแบ่งพวกเขาออกเป็นสิบถังขยะเท่ากันอัตราการตอบกลับในถัง # 1 (สูงสุด 10% ของลูกค้า) คือ 29 % เทียบกับ 8% ของลูกค้าแบบสุ่มยก 29/8 = 3.63 เมื่อถึงเวลาที่เราทำคะแนนให้กับลูกค้าในถังขยะที่ 4 เราได้บันทึกจำนวนสามรายการก่อนหน้านี้ว่าอัตราการตอบกลับต่ำกว่าที่เราคาดหวังจากการส่งจดหมายแบบสุ่ม

ถ้าเราใช้คะแนนความน่าจะเป็นกับลูกค้าเราจะได้รับ 60% ของผู้ตอบทั้งหมดที่เราได้รับการส่งแบบสุ่มโดยส่งเพียง 30% ของลูกค้าที่ทำคะแนนสูงสุด นั่นคือการใช้แบบจำลองเราสามารถรับกำไร 60% ของกำไรที่คาดว่าจะเป็น 30% ของค่าใช้จ่ายจดหมายโดยการส่งจดหมายลูกค้าที่ได้คะแนนสูงสุด 30% เท่านั้นและนี่คือสิ่งที่ยกระดับจริงๆหมายถึง


คำอธิบายที่ดีขอบคุณมากคุณจะโปรดบอกฉันในแผนภูมิลิฟท์ว่าทำไมเราต้องการตัวอย่างแบบสุ่ม ฉันเข้าใจว่า 8% มาจากการสุ่ม แต่ทำไมต้องติดตามการสุ่ม? ฉันเห็นแผนภูมิอื่นที่ติดตามค่าเฉลี่ยและฉันไม่รู้สาเหตุของการมีอยู่โดยเฉลี่ย
Nickool

สิ่งที่ฉันได้รับคือ lift = 3.63 กำลังบอกว่าจนกว่าคอลัมน์ 4 เราจะมีอัตราการตอบสนองที่ดีกว่า 8% ดีแล้วคุณก็สมมติคอลัมน์ 1 และพิจารณา 29% (30% โดยประมาณ) คุณแค่พิจารณาคอลัมน์ 1 แล้ว 3.63 อะไรที่ทำให้ลิฟต์ขึ้นได้?
Nickool

1
โอ้พระเจ้า! ฉันเข้าใจความผิดพลาดของฉัน 30% ไม่เกี่ยวข้องกับ 29% ที่ 30% หมายถึง 3/10 3 คอลัมน์แรกของข้อมูล! ตอนนี้ฉันเข้าใจแล้วดี: ฉันมีความสุขมาก !!!!! ขอบคุณ>: D <
Nickool

1
1000mailingall1000customersandweexpect8300)thenweexpecttoget601000get80customersvsSpend

1
@ user1700890 แผนภูมิบนสุดมักจะระบุว่าแผนภูมิกำไรสะสมในขณะที่แผนภูมิด้านล่างไม่เหมือนกับแผนภูมิยกแบบสะสม (ซึ่งลิฟต์ไม่สามารถต่ำกว่า 1) แต่แบ่งข้อมูลออกเป็นสิบถังขยะแยก
RobertF

3

แผนภูมิแสดงลิฟท์แสดงอัตราส่วนระหว่างการตอบสนองของโมเดลเทียบกับการไม่มีโมเดลนั้น โดยทั่วไปจะแสดงด้วยเปอร์เซ็นต์ของกรณีใน X และจำนวนครั้งที่การตอบสนองดีกว่าในขวาน Y ตัวอย่างเช่นโมเดลที่มี lift = 2 ที่จุด 10% หมายถึง:

  • หากไม่มีโมเดลใดที่มี 10% ของประชากร (โดยไม่มีคำสั่งเพราะไม่มีโมเดล) สัดส่วนของ y = 1 จะเท่ากับ 10% ของประชากรทั้งหมดที่มี y = 1

  • ด้วยตัวแบบที่เราได้รับ 2 เท่าของสัดส่วนนี้นั่นคือเราคาดว่าจะได้ 20% ของประชากรทั้งหมดที่มี y = 1 ในฉลากตัว X นั้นแสดงถึงลำดับข้อมูลโดยการทำนาย 10% แรกคือการคาดคะเน 10% แรก


3

การยกคืออะไรนอกจากอัตราส่วนของความเชื่อมั่นต่อความเชื่อมั่นที่คาดหวัง ในพื้นที่ของกฎสมาคม - "อัตราส่วนลิฟท์ที่ใหญ่กว่า 1.0 แสดงว่าความสัมพันธ์ระหว่างบุคคลก่อนเกิดและผลที่ตามมามีความสำคัญมากกว่าที่คาดไว้ถ้าทั้งสองชุดมีความเป็นอิสระยิ่งอัตราส่วนลิฟท์ยิ่งใหญ่ " ตัวอย่างเช่น-

ถ้าฐานข้อมูลซุปเปอร์มาร์เก็ตมีธุรกรรม ณ จุดขาย 100,000 รายการซึ่ง 2,000 รวมทั้งรายการ A และ B และ 800 รายการเหล่านี้รวมถึงรายการ C กฎการเชื่อมโยง "ถ้าซื้อ A และ B จะซื้อ C เดียวกัน การเดินทาง "มีการสนับสนุนธุรกรรม 800 รายการ (อีกทางหนึ่งคือ 0.8% = 800 / 100,000) และความมั่นใจ 40% (= 800 / 2,000) วิธีคิดอย่างหนึ่งของการสนับสนุนคือความน่าจะเป็นที่การทำธุรกรรมแบบสุ่มที่เลือกจากฐานข้อมูลจะมีรายการทั้งหมดในรายการก่อนหน้าและผลลัพธ์ในขณะที่ความมั่นใจคือความน่าจะเป็นแบบมีเงื่อนไขที่การทำธุรกรรมแบบสุ่มที่เลือกจะรวมรายการทั้งหมดใน เป็นผลให้ระบุว่าการทำธุรกรรมรวมถึงรายการทั้งหมดในอดีต

การใช้ตัวอย่างข้างต้นความเชื่อมั่นที่คาดหมายในกรณีนี้หมายถึง "ความมั่นใจหากการซื้อ A และ B ไม่ช่วยเพิ่มความน่าจะเป็นในการซื้อ C. " มันเป็นจำนวนการทำธุรกรรมที่มีผลสืบเนื่องหารด้วยจำนวนการทำธุรกรรม สมมติว่าจำนวนการทำธุรกรรมทั้งหมดสำหรับ C คือ 5,000 ดังนั้นความเชื่อมั่นที่คาดหวังคือ 5,000 / 1,00,000 = 5% สำหรับซูเปอร์มาร์เก็ตตัวอย่างลิฟต์ = ความเชื่อมั่น / ความเชื่อมั่นที่คาดหวัง = 40% / 5% = 8 ดังนั้นลิฟท์เป็นค่าที่ให้ข้อมูลเกี่ยวกับการเพิ่มขึ้นของความน่าจะเป็นของส่วนนั้น (สืบเนื่อง) จากนั้น นี่คือลิงค์ไปยังบทความต้นฉบับ


2

ลิฟท์เป็นเพียงมาตรการในการวัดความสำคัญของกฎ

มันเป็นมาตรการในการตรวจสอบว่ากฎนี้อยู่ในรายการโดยการสุ่มโอกาสหรือเราคาดหวัง

Lift = Confidence / Confidence ที่คาดหวัง


0

สมมติว่าเรากำลังใช้ตัวอย่างของร้านขายของชำที่ทดสอบความถูกต้องของกฎการเชื่อมโยงที่มีประวัติก่อนหน้าและที่ตามมา (ตัวอย่างเช่น: "หากลูกค้าซื้อขนมปังพวกเขาก็จะซื้อเนย")

หากคุณดูธุรกรรมทั้งหมดและตรวจสอบแบบสุ่มความน่าจะเป็นที่ธุรกรรมนั้นมีผลลัพธ์นั้นคือ "ความมั่นใจที่คาดหวัง" หากคุณดูธุรกรรมทั้งหมดที่มีรายการก่อนหน้าและเลือกธุรกรรมแบบสุ่มจากสิ่งเหล่านี้ความน่าจะเป็นที่ธุรกรรมนั้นจะมีผลลัพธ์ที่ตามมาคือ "ความมั่นใจ" "ลิฟท์" เป็นหลักความแตกต่างระหว่างสองคนนี้ ด้วยการยกเราสามารถตรวจสอบความสัมพันธ์ระหว่างสองรายการที่มีความเชื่อมั่นสูง (ถ้าความเชื่อมั่นต่ำการยกก็ไม่เกี่ยวข้องเลย)

หากพวกเขามีความมั่นใจสูงและยกตัวต่ำเราก็ยังรู้ว่ามีการซื้อสินค้าบ่อยครั้งด้วยกัน แต่เราไม่ทราบว่าผลที่ตามมานั้นเกิดขึ้นเนื่องจากเหตุการณ์ก่อนหน้าหรือหากเป็นเพียงเรื่องบังเอิญ ทั้งผลิตภัณฑ์ยอดนิยม แต่ไม่มีความสัมพันธ์ใด ๆ กับคนอื่น)

อย่างไรก็ตามหากความเชื่อมั่นและการยกมีสูงทั้งสองเราสามารถสรุปได้อย่างสมเหตุสมผลว่าผลลัพธ์ที่เกิดขึ้นเนื่องจากสิ่งที่เกิดขึ้นก่อนหน้านี้ ยิ่งลิฟต์มีค่าสูงเท่าใดความน่าจะเป็นที่จะลดลงก็คือความสัมพันธ์ระหว่างสองรายการนั้นเป็นเรื่องบังเอิญ ในแง่คณิตศาสตร์:

Lift = Confidence / Confidence ที่คาดหวัง

ในตัวอย่างของเราถ้าความเชื่อมั่นในกฎของเรานั้นสูงและลิฟต์อยู่ในระดับต่ำนั่นหมายความว่าลูกค้าจำนวนมากกำลังซื้อขนมปังและเนย แต่เราไม่ทราบว่าเป็นเพราะความสัมพันธ์พิเศษระหว่างขนมปังกับเนยหรือไม่ ขนมปังและเนยเป็นเพียงรายการยอดนิยมทีละรายการและความจริงที่ว่าพวกเขาปรากฏตัวในรถเข็นขายของชำด้วยกันเป็นเรื่องบังเอิญ หากความเชื่อมั่นในกฎของเราสูงและลิฟท์นั้นสูงแสดงว่าสัมพันธภาพที่มั่นคงระหว่างสิ่งที่เกิดขึ้นก่อนหน้าและต่อเนื่องมาจากความหมายที่ว่าเราสามารถสันนิษฐานได้ว่าลูกค้ากำลังซื้อเนยเพราะพวกเขากำลังซื้อขนมปัง ยิ่งลิฟท์สูงเท่าไหร่เราก็ยิ่งมีความมั่นใจมากขึ้นเท่านั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.