สร้างแผนผังความน่าจะเป็นของเส้นทางสำหรับการเดินทางผ่านเว็บไซต์


10

ขณะนี้ฉันกำลังทำการวิเคราะห์บนเว็บไซต์ที่ต้องการให้ฉันสร้างแผนผังการตัดสินใจแสดงเส้นทางที่เป็นไปได้ที่ผู้คนใช้เมื่อใดก็ตามที่พวกเขามาถึงเว็บไซต์ ฉันกำลังจัดการกับสิ่งdata.frameที่แสดงเส้นทางของลูกค้าทั้งหมดไปยังเว็บไซต์โดยเริ่มจากหน้าแรก ตัวอย่างเช่นลูกค้าสามารถใช้เส้นทางต่อไปนี้:

Homepage - pg 1
Kitchen Items page - pg 2
Pots and Pans page - pg 3

ดังนั้นลูกค้ารายนี้จะมีการเดินทาง 3 หน้า สิ่งที่ฉันต้องการทำใน R คือการรวมพา ธ ของลูกค้าทั้งหมดและกำหนดความน่าจะเป็นให้กับลูกค้าตามเส้นทางที่แน่นอนในไซต์ ตัวอย่างเช่นหากฉันต้องตรวจสอบเส้นทางทั้งหมดฉันจะพบว่า 34% ของผู้ที่มาถึงหน้าแรกให้ไปที่ 'หน้ารายการครัว' R มีสถานที่นี้หรือไม่?

ฉันค้นหาวิธีการต่าง ๆ ผ่านแพ็คเกจ rpartและpartykitแต่ดูเหมือนว่าพวกเขาไม่ได้ช่วยอะไรเลย

ผู้ควบคุมทิศทางที่ถูกต้องสำหรับสิ่งนี้จะได้รับการชื่นชมอย่างมาก!


1
ฉันไม่ค่อยรู้เรื่องนี้มากนัก แต่igraphดูเหมือนว่าแพ็คเกจจะค่อนข้างครอบคลุม
richiemorrisroe

3
yup, igraph เป็นวิธีที่จะไปสำหรับการสร้างภาพ คุณต้องคำนวณความน่าจะเป็นในการเปลี่ยนแปลงล่วงหน้าด้วยตัวคุณเอง โดยทั่วไปแล้วฉันขอแนะนำให้ดูที่มาร์คอฟเชน
เต

1
คุณสามารถโพสต์ข้อมูลตัวอย่างบางส่วนได้หรือไม่ มันช่วยให้เราเข้าใจสถานการณ์ดีขึ้น
อยากรู้อยากเห็น _cat

คำตอบ:


1

ไม่ใช่วิธีหนึ่งในการเริ่มต้นคือการมีเมทริกซ์ (พูด ) โดยที่คือจำนวนหน้า จากนั้นก็ขึ้นอยู่กับองค์ประกอบของข้อมูลที่เพิ่มขึ้นเมทริกซ์ดิบของคุณโดยหนึ่งเมื่อใดก็ตามที่คุณมีการฟ้อนรำผู้ใช้จากหน้าที่หน้าคที่ทำให้คุณมีโอกาสในการเปลี่ยนแปลงM n × n n M R อาร์n×nMn×nnMrcrc

คำถามแรกของคุณมีคำตอบอยู่แล้ว: "เปอร์เซ็นต์ของผู้ใช้ในหน้าแรก (พูดถึงหน้า 1) จะเดินทางถัดจากพูดรายการเครื่องครัว (พูดหน้า 2)"

M12cM1c

หรือว่าง่ายเกินไป?


1
ไม่ถูกต้อง แต่จากที่นี่ - มีวิธีกราฟกราฟแต่ละอันนี้แบบไดนามิกในต้นไม้ใน R หรือไม่? ถ้าไม่มีเครื่องมืออื่นที่ฉันสามารถใช้ได้หรือไม่?
nellington

@ เนลลิงตัน: ​​คุณมีต้นไม้แบบไหนในใจ?
อยากรู้อยากเห็น _

1
ต้นไม้ความน่าจะเป็นโดยเฉพาะอย่างยิ่งกับโหนดรากเป็นหน้าแรก (แต่ถ้าฉันสามารถเปลี่ยนโหนดรูตไปยังหน้าอื่นในเว็บไซต์ - นั่นจะเป็นคุณสมบัติที่ยอดเยี่ยม) แต่ละสาขาจากโหนดรูตจะเป็นตัวแทนของหน้าถัดไป โหนดรูท ตามหลักการแล้วแต่ละสาขาจะมีความน่าจะเป็น% มันจะเป็นแบบไดนามิกในแง่ที่ฉันควรจะสามารถขยายและสัญญาในแต่ละโหนดย่อย คุณรู้หรือไม่ว่าซอฟต์แวร์การสร้างภาพข้อมูลใดที่สามารถรองรับสิ่งนี้ได้?
nellington

@nellington: สำหรับการแสดงภาพอย่างหมดจดคุณสามารถลอง graphviz ต้นไม้นั้นจะเป็นกราฟกำกับและมีเครื่องมือเชิงกราฟกราฟมากมายที่จะจัดการกับมัน
อยากรู้อยากเห็น _cat

0

ดูเหมือนว่าคุณกำลังพยายามสร้างอัลกอริทึม PageRank ของ Google ขึ้นมาใหม่ อัลกอริทึม PageRank ส่วนใหญ่ได้รับการพัฒนาโดยใช้โซ่มาร์คอฟ คุณสามารถค้นหาวิธีการจัดอันดับ PageRank ใน R

igraph.sourceforge.net/doc/R/page.rank.htm


1
เท่าที่ฉันเห็นนี้ไม่เกี่ยวกับ PageRank IMHO สิ่งที่ซ้อนทับกันเพียงอย่างเดียวคือเส้นทางของผู้ใช้มักจะสัมพันธ์กับการออกแบบเว็บไซต์ (ลิงก์) แต่ก็เป็นไปได้ นอกจากนี้ลิงก์ที่ให้ไว้ไม่ทำงาน
steffen

1
ฉันคิดว่าฉันพบลิงค์นั้นอาจเป็นไปได้ว่าในบางหน้าของหน้าเว็บของ igraph เพราะมันดูเหมือนว่าจะใช้งานการเขียนด้วยลายมืออย่างมาก stat.berkeley.edu/users/vigre/undergrad/reports/…
genorama

โอ้ฉันเข้าใจแล้ว ... และ page.rank เป็นฟังก์ชันใน igraph บางเอกสาร: link1 link2 link3
geneorama

หลังจากอ่านรายงานแรกสั้น ๆ แล้วฉันคิดว่านี่เป็นคำตอบที่ดีทีเดียวและฉันก็โหวตขึ้นมา (ถึงแม้ว่ามันจะใช้ความละเอียดมากขึ้น!) ฟังก์ชันการจัดอันดับหน้าดูเหมือนจะเป็นคำตอบ
genorama

0

จากสิ่งที่ฉันเห็นที่นี่ฉันยอมรับว่า igraphs / Markov Chains อาจเป็นวิธีที่จะไปอย่างไรก็ตามคุณสามารถใช้ rpart และ / หรือชุดปาร์ตี้แน่นอน

มันยากสำหรับฉันที่จะให้คำตอบง่ายๆกับตัวอย่างที่มี จำกัด ของคุณ แต่ฉันสามารถอธิบายได้โดยทั่วไปว่าคุณจะทำอย่างไร

คุณต้องการดูว่าผู้ใช้ของคุณเคยเป็นใครและสรุปว่าเป็นสตริงตัวอย่างเช่น

"Home / product4 / product3 / product4 / buynow"
"Home / product3 / buynow"
"Home / product3 / product4"

จากนั้นคุณสามารถแบ่งกลุ่มผู้ใช้ของคุณออกเป็นหมวดหมู่พูดคนที่ลงเอยในหน้า "ซื้อเลย" และคนที่ไม่ได้ จากนั้นคุณสามารถเริ่มต้นทำนายผลของเทอร์มินัลนั้นได้ ในตัวอย่างนี้คุณอาจจะพบว่าคนที่ทำร้านเปรียบเทียบส่วนใหญ่ไม่ได้ซื้ออะไร

คุณสามารถสร้างตัวแปรเพิ่มเติมเช่น "สิ่งที่เป็นหน้าก่อนหน้า buynow" "มีกี่หน้าที่พวกเขาเยี่ยมชมก่อนที่จะซื้อบางอย่าง" หรือ "เมื่อพวกเขาสร้างบัญชีแรกของพวกเขา" และคุณสามารถเพิ่มตัวชี้วัดเหล่านั้นในการวิเคราะห์ของคุณ

มีหลายวิธีที่คุณสามารถไปได้และสิ่งนี้เริ่มตอบคำถามที่แตกต่างกัน แต่ประเด็นของฉันคือคุณสามารถใช้ต้นไม้และสำหรับปัญหาบางอย่างมันอาจเป็นหนทางที่เร็วและง่ายกว่าในการทำความเข้าใจ

โดยวิธีการที่คุณจะต้องทำให้ปัจจัยตัวแปรที่ไม่ใช่ตัวเลขโดยใช้factorหรือas.factorถ้าคุณจะใช้งานปาร์ตี้ ปาร์ตี้มีบทความสั้น ๆ ที่ดีเพื่อให้คุณเริ่มต้น


1
ความจริงแล้วฉันต้องการเพิ่มประสิทธิภาพของหน้าแรกดังนั้นการทำนายว่าผู้คนไปจากหน้าแรกเป็นหน้า 2 จากนั้นหน้า 2 ถึงหน้าสามเป็นส่วนที่สำคัญที่สุดของข้อมูลที่ฉันต้องการ หน้าเทอร์มินัลไม่ค่อยได้รับความสนใจเท่าไหร่ ฉันมี URL หน้าและหมายเลขหน้าในการเดินทางดังนั้นความน่าจะเป็นในการเปลี่ยนแปลงดูเหมือนเป็นวิธีที่ทำได้ อย่างไรก็ตามเรื่องนี้ดูเหมือนว่าคู่มือบิตและฉันแม้ว่า R อาจจะสามารถให้โซลูชั่นที่ซ้ำ ๆ ...
nellington

หลังจากอ่านคำถามและความคิดเห็นล่าสุดของคุณฉันคิดว่าคุณต้องการเพียงแค่ตารางสิ่งที่ผู้คนทำจากหน้าแรก (เพื่อเริ่มต้น)
genorama

สิ่งที่ผู้คนทำจากหน้าแรกและหน้าหลังหน้าแรกนั้นสำคัญที่สุด แต่ความสามารถในการเชื่อมต่อข้อมูลผู้ใช้ทั้งหมดใน r และกำหนดความน่าจะเป็นคือสิ่งที่มันยุ่งยากที่สุด บางที excel เป็นวิธีที่จะไป? ฉันกำลังลงไปตามเส้นทางจุดยอด / ขอบใน igraph แต่ดูเหมือนว่าจะก่อให้เกิดอันตรายมากกว่าความช่วยเหลือ
nellington

ฉันเพิ่มข้อมูลการติดต่อบางอย่างลงในโปรไฟล์ของฉัน บางทีเราสามารถพูดคุยออฟไลน์
geneorama

นั่นจะเป็นประโยชน์มากขอบคุณ - ส่งอีเมล
nellington
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.