การตีความความแตกต่างระหว่างการแจกแจงแบบปกติและกำลังไฟฟ้า (การแจกแจงระดับเครือข่าย)


22

ก่อนอื่นฉันไม่ใช่นักสถิติ อย่างไรก็ตามฉันได้ทำการวิเคราะห์เครือข่ายเชิงสถิติสำหรับปริญญาเอกของฉันแล้ว

เป็นส่วนหนึ่งของการวิเคราะห์เครือข่ายฉันได้วางแผนฟังก์ชันการแจกแจงสะสมแบบสะสม (CCDF) ขององศาเครือข่าย สิ่งที่ฉันพบคือไม่เหมือนกับการกระจายเครือข่ายแบบเดิม (เช่น WWW) การกระจายนั้นเหมาะสมที่สุดโดยการกระจายแบบ lognormal ฉันพยายามปรับให้เข้ากับกฎหมายพลังงานและการใช้สคริปต์ Matlab ของ Clauset et al ฉันพบว่าหางของเส้นโค้งเป็นไปตามกฎหมายพลังงานโดยมีการตัดออก

ป้อนคำอธิบายรูปภาพที่นี่

เส้นประหมายถึงความเหมาะสมของกฏหมายพลังงาน เส้นสีม่วงแสดงถึงการใส่แบบปกติ เส้นสีเขียวแสดงถึงความพอดีแบบเอ็กซ์โปเนนเชียล

สิ่งที่ฉันพยายามจะเข้าใจคือทั้งหมดนี้หมายถึงอะไร ฉันได้อ่านเอกสารนี้โดยนิวแมนซึ่งสัมผัสกับหัวข้อนี้เล็กน้อย: http://arxiv.org/abs/cond-mat/0412004

ด้านล่างนี้เป็นสิ่งที่ฉันคาดเดา:

หากการกระจายการศึกษาระดับปริญญาเป็นไปตามการกระจายของกฎหมายพลังงานฉันเข้าใจว่าหมายถึงมีสิ่งที่แนบมาเป็นพิเศษเชิงเส้นในการกระจายการเชื่อมโยงและระดับเครือข่าย (รวยได้รับผลกระทบยิ่งขึ้นหรือกระบวนการ Yules)

ฉันพูดถูกหรือเปล่าว่าด้วยการแจกแจงแบบปกติที่ฉันเห็นมันมีสิ่งที่แนบมาแบบไม่เชิงเส้นตรงจุดเริ่มต้นของเส้นโค้งและกลายเป็นเส้นตรงไปยังหางที่สามารถใช้กฎหมายพลังงานได้หรือไม่?

นอกจากนี้เนื่องจากการแจกแจงแบบบันทึกปกติเกิดขึ้นเมื่อลอการิทึมของตัวแปรสุ่ม (พูด X) กระจายตามปกติหมายความว่าในการแจกแจงแบบบันทึกปกติมีค่าน้อยกว่า X และค่าน้อยกว่า X ตัวแปรสุ่มที่ตามหลังการกระจายตัวของกฎหมายพลังงานจะมีอะไรบ้าง

ที่สำคัญกว่านั้นเกี่ยวกับการกระจายระดับเครือข่ายไฟล์แนบที่มีสิทธิใช้งานปกติบันทึกยังแนะนำเครือข่ายที่ไม่มีสเกลหรือไม่? สัญชาตญาณของฉันบอกฉันว่าเนื่องจากหางของเส้นโค้งสามารถติดตั้งโดยกฎกำลังได้เครือข่ายจึงยังสามารถสรุปได้ว่าเป็นลักษณะที่แสดงขนาดฟรี


2
ไมค์ฉันคิดว่ามันน่าสนใจมากที่ได้เห็นพล็อตที่คุณกำลังดู คุณต้องการแก้ไขคำตอบเพื่อรวมไว้หรือไม่ สิ่งหนึ่งที่ฉันสังเกตเห็นได้ทันทีคือความหมายเกี่ยวกับกฎหมายพลังงานและสิ่งที่แนบมาเป็นพิเศษจะย้อนกลับ ในขณะที่ (บางส่วน) รูปแบบสิทธิพิเศษที่แนบมาสร้างการแจกแจงระดับกฎหมายพลังงาน แต่ความหมายย้อนกลับไม่เป็นความจริง (กล่าวคือไม่ใช่วิธีเดียว) ข้อมูลบางอย่างเกี่ยวกับประเภทของเครือข่ายที่คุณกำลังดูอาจเป็นประโยชน์ ไชโย
พระคาร์ดินัล

1
ฉันหมายถึงสิ่งที่แนบมาพิเศษเป็นเพียงชื่ออื่นสำหรับผล "รวยได้ยิ่งขึ้น" ใช่มั้ย หากเป็นเช่นนั้นการกระจายระดับเครือข่ายเชิงเส้น (กฎหมายกำลัง) เป็นเพียงหนึ่งในการกระจายระดับที่สามารถแสดงให้เห็นถึงสิ่งที่แนบมาพิเศษได้หรือไม่ กล่าวอีกนัยหนึ่งว่าตราบใดที่การไล่ระดับของเส้นโค้งเป็นลบในพล็อตบันทึกการใช้งานแล้วมีองค์ประกอบบางอย่างของสิ่งที่แนบมาเป็นพิเศษโดยไม่คำนึงถึงการกระจาย? จากนั้นความแตกต่างระหว่างการกระจายระดับ log-normal และ power-law นั้นไม่มากนักว่ามีสิ่งที่แนบมาพิเศษ แต่สัดส่วนของมัน
ไมค์

1
โปรดทราบว่าสิ่งที่แนบมาพิเศษเป็นกระบวนการ (สุ่ม) ซึ่งสร้างการกระจายระดับพลังงาน - กฎหมายสำหรับเครือข่าย ความชันของเส้นจะเปลี่ยนตามเลขชี้กำลังสำหรับกำลัง - กฏหมาย แต่ในกรณีของ lognormal พล็อตจะไม่เป็นเชิงเส้นแม้ในหาง การไล่ระดับสีของการแจกแจงการอยู่รอดจะเป็นค่าลบเสมอไม่ว่าผลกระทบนั้นจะเป็นอย่างไร (ทำไม?)
พระคาร์ดินัล

เป็นการแก้ไขที่ดีมาก ขอบคุณไมเคิล! ความพอดีของท่อนซุงในภูมิภาคที่คุณแสดงนั้นน่าทึ่งมาก ดูเหมือนว่ามันอาจจะพังลงมาเล็กน้อย
พระคาร์ดินัล

ขอบคุณสำหรับการตอบกลับสำคัญอีกครั้ง คุณเห็นด้วยหรือไม่ว่าการแนบไฟล์พิเศษยังคงทำงานอยู่ในเครือข่ายที่ฉันกำลังสังเกตอยู่ คำถามอีกข้อที่นำไปสู่คือเครือข่ายไร้ขอบเขต หากสิ่งที่แนบมาพิเศษทำงานในเครือข่ายและตราบใดที่เครือข่ายรับสมาชิกใหม่เครือข่ายสามารถจัดเป็นแบบไม่ต้องมีสเกลได้แม้ว่าการกระจายระดับเครือข่ายจะไม่เป็นเส้นตรง ที่นี่ฉันไม่แน่ใจ
ไมค์

คำตอบ:


12

ฉันคิดว่ามันจะเป็นประโยชน์ในการแยกคำถามออกเป็นสองส่วน:

  1. รูปแบบการทำงานของการกระจายเชิงประจักษ์ของคุณคืออะไร? และ
  2. รูปแบบการทำงานนั้นหมายถึงอะไรเกี่ยวกับกระบวนการสร้างในเครือข่ายของคุณ

p>0.1x15p<0.1หมายถึงโดยทั่วไปแล้วทำสิ่งเดียวกัน คุณสามารถปฏิเสธแบบจำลองนั้นเป็นกระบวนการสร้างข้อมูลการกระจายระดับที่คุณมีอยู่ได้หรือไม่? ถ้าไม่เช่นนั้นคุณจะได้รับอนุญาตให้ใส่บันทึกปกติลงในหมวดหมู่ "น่าเชื่อถือ"

x1

คำถามที่สองนั้นยากกว่าสำหรับสองคำถามนี้ ขณะที่บางคนชี้ให้เห็นในความคิดเห็นข้างต้นมีกลไกหลายอย่างที่ทำให้เกิดการแจกแจงพลังงานกฎหมายและสิ่งที่แนบมาพิเศษ (ในทุกรูปแบบและรัศมีภาพ) เป็นเพียงหนึ่งในหลาย ๆ ดังนั้นการสังเกตการแจกแจงพลังงานกฎหมายในข้อมูลของคุณ (แม้จะเป็นของแท้ที่ผ่านการทดสอบทางสถิติที่จำเป็น) ก็ยังไม่มีหลักฐานเพียงพอที่จะสรุปได้ว่ากระบวนการสร้างเป็นสิ่งที่แนบมาพิเศษ หรือโดยทั่วไปถ้าคุณมีกลไก A ที่สร้างรูปแบบ X ในข้อมูล (เช่นการกระจายระดับล็อก - ปกติในเครือข่ายของคุณ) การสังเกตรูปแบบ X ในข้อมูลของคุณไม่ใช่หลักฐานที่แสดงว่าข้อมูลของคุณถูกสร้างขึ้นโดยกลไก A ข้อมูลสอดคล้องกับ A แต่นั่นไม่ได้หมายความว่า A เป็นกลไกที่ถูกต้อง

ในการแสดงให้เห็นว่า A คือคำตอบคุณจะต้องทดสอบสมมติฐานเชิงกลไกโดยตรงและแสดงให้เห็นว่าพวกเขามีไว้สำหรับระบบของคุณและแสดงให้เห็นว่าการคาดการณ์อื่น ๆ ของกลไกนั้นยังมีอยู่ในข้อมูลด้วย ตัวอย่างที่ดีจริง ๆ ของส่วนการทดสอบสมมติฐานถูกทำโดย Sid Redner (ดูรูปที่ 4 ของบทความนี้ ) ซึ่งเขาแสดงให้เห็นว่าสำหรับเครือข่ายการอ้างอิง, ข้อสันนิษฐานเกี่ยวกับสิ่งที่แนบเชิงเส้นตรงเชิงเส้นมีอยู่จริงในข้อมูล

ในที่สุดคำว่า "เครือข่ายไร้ขอบเขต" นั้นมีมากเกินไปในวรรณคดีดังนั้นฉันขอแนะนำอย่างยิ่งให้หลีกเลี่ยง ผู้คนใช้เพื่ออ้างถึงเครือข่ายที่มีการแจกแจงระดับกฎหมายพลังงานและไปยังเครือข่ายที่เติบโตโดยสิ่งที่แนบมาพิเศษ (เชิงเส้น) แต่อย่างที่เราเพิ่งอธิบายสองสิ่งนี้ไม่เหมือนกันดังนั้นการใช้คำเดียวเพื่ออ้างถึงทั้งสองอย่างนั้นทำให้สับสน ในกรณีของคุณการกระจายล็อกปกตินั้นไม่สอดคล้องกับกลไกการแนบสิทธิพิเศษเชิงเส้นแบบคลาสสิกอย่างสมบูรณ์ดังนั้นหากคุณตัดสินใจว่าล็อกออฟปกติคือคำตอบของคำถามที่ 1 (ในคำตอบของฉัน) แสดงว่าเครือข่ายของคุณไม่ใช่ ปรับสเกลฟรีในความหมายนั้น ความจริงที่ว่าหางส่วนบนคือ 'โอเค' เนื่องจากการแจกแจงพลังงาน - กฎหมายจะไม่มีความหมายในกรณีนั้นเนื่องจากมีส่วนบนของหางส่วนบนของการแจกแจงเชิงประจักษ์ใด ๆ ที่จะผ่านการทดสอบนั้นเสมอ (และจะผ่านเพราะการทดสอบ สูญเสียพลังงานเมื่อไม่มีข้อมูลมากมายให้ดำเนินการซึ่งเป็นสิ่งที่เกิดขึ้นในส่วนบนสุดของหาง)


คุณผสม <และ> เมื่อพูดถึงการแข่งขัน p-value ของส่วนท้ายพอดีหรือไม่?
David Nathan

เงื่อนไข p-value ในความคิดเห็นนี้ถูกต้อง ค่า p ที่อ้างถึงที่นี่มาจากส่วน 4.1 ของarxiv.org/abs/0706.1062ซึ่งค่าขนาดใหญ่เป็นตัวแทนที่ดีและค่าขนาดเล็กแสดงถึงความไม่เหมาะสม ดูเชิงอรรถ 8 ที่ด้านล่างของหน้า 17
Jonathan S.

3

เป็นคำถามที่ยอดเยี่ยม ฉันมีการสนทนาที่เกี่ยวข้องกับสิ่งที่เกี่ยวข้องกับคำถามที่ฉันถามที่อื่นใน CrossValidated. ที่นั่นฉันถามว่าการแจกแจงแกมม่าเป็นการแจกแจงที่ดีที่จะใช้ในการจำลองเครือข่ายสังคมออนไลน์หรือไม่ซึ่งความน่าจะเป็นของความสัมพันธ์นั้นมีลักษณะภายนอกที่เป็น "ความนิยม" อย่างต่อเนื่องของโหนด @NickCox แนะนำว่าฉันใช้การแจกแจงแบบปกติแทน ฉันตอบว่าการกระจาย lognormal มีเหตุผลทางทฤษฎีเป็นกระบวนการพื้นฐานที่อธิบายความนิยมเพราะความนิยมสามารถตีความได้ว่าเป็นผลิตภัณฑ์ของตัวแปรสุ่มที่มีมูลค่าเป็นบวกจำนวนมาก (เช่นความมั่งคั่งรายได้ความสูงความกล้าหาญทางเพศการต่อสู้ฤทธิ์ IQ) สิ่งนี้สมเหตุสมผลสำหรับฉันมากกว่าการให้เหตุผลเชิงทฤษฎีสำหรับกฏหมายพลังงานและมันก็กระทบกับข้อมูลเชิงประจักษ์ซึ่งแสดงให้เห็นว่ารูปร่างของกฏหมายพลังงานนั้นไม่ยืดหยุ่นเกินไปที่จะอธิบายการเปลี่ยนแปลงข้ามเครือข่ายในการกระจายระดับ lognormal โดยการเปรียบเทียบมีรูปร่างที่ยืดหยุ่นมากโดยที่โหมดเข้าใกล้ศูนย์สำหรับความแปรปรวนสูง นอกจากนี้มันทำให้รู้สึกว่าความเบ้ของการกระจายระดับควรเพิ่มขึ้นกับความแปรปรวนเนื่องจากผลของสิ่งที่แนบมาพิเศษ

โดยรวมแล้วฉันคิดว่าการกระจาย lognormal เหมาะกับข้อมูลของคุณดีที่สุดเพราะการกระจาย lognormal อธิบายกระบวนการพื้นฐานของการก่อตัวการกระจายระดับดีกว่ากฎกำลังไฟฟ้าหรือการแจกแจงแบบเอ็กซ์โพเนนเชียล


2

มาที่ไซต์นี้หลังจากนับการกระจายฟองสบู่ของฉันและใช้กฎกำลังสำหรับข้อมูลความหนืด

อ่านผ่านชุดข้อมูลตัวอย่างในเอกสารกฎหมายพลังงานโดย Clauset และคณะ พวกเขาสร้างชุดข้อมูลที่น่ากลัวจริง ๆ ห่างจากชุดข้อมูลกฎหมายพลังงานเพื่อสนับสนุนการโต้แย้งของพวกเขา จากสามัญสำนึกฉันคงไม่ได้พยายามปรับฟังก์ชั่นกฎหมายพลังงานให้เหมาะสมกับช่วงข้อมูลทั้งหมดสำหรับส่วนใหญ่ อย่างไรก็ตามพฤติกรรมการปรับขนาดด้วยตนเองในโลกแห่งความเป็นจริงอาจใช้ได้ทั่วทั้งส่วนของระบบที่สังเกต แต่จะพังทลายลงเมื่อคุณสมบัติของระบบบางอย่างถึงขีด จำกัด ทางกายภาพหรือหน้าที่

เอกสารที่สามารถอ่านได้ด้านล่างอ้างถึงการปรับเส้นโค้งการเจริญเติบโตสำหรับนักนิเวศวิทยาพร้อมการอภิปรายที่ดีเกี่ยวกับกฎหมายพลังงานและการแจกแจงที่เกี่ยวข้องโดยยึดตามรูปแบบการสังเกตพฤติกรรมของประชากร

ผู้เขียนนั้นสามารถใช้งานได้ดีกว่า Clauset และคณะ การอ้างถึง: "... หากจุดมุ่งหมายเป็นเพียงสิ่งที่ดีที่สุดและปรับขนาดนอกหน้าต่างสเกลของชุดข้อมูลที่ไม่ได้กล่าวถึงรูปแบบใด ๆ ที่อาจเกิดขึ้นเนื่องจากมันให้ผลที่ดีและไม่สร้าง maxima หรือ minima ภายในหน้าต่างขนาดที่ศึกษา ." "มักจะถูกบังคับให้ต้องใช้โมเดลเดียวกันเช่นเดียวกับนักวิจัยคนอื่น ๆ ที่ใช้ข้อมูลของพวกเขาเพื่อที่จะสามารถเปรียบเทียบค่าพารามิเตอร์ได้ แต่เราสามารถทำได้นอกจากการประยุกต์ใช้โมเดลหรือโมเดลที่ดีกว่าที่คาดไว้ รูปร่างหรือทั้งสองอย่าง " คำพูดที่สงบ

Tjørve, E. (2003) รูปร่างและฟังก์ชั่นของส่วนโค้งพื้นที่สปีชีส์: การตรวจสอบโมเดลที่เป็นไปได้ วารสารชีวภูมิศาสตร์, 30 (6), 827-835

Tjørve, E. (2009) รูปร่างและฟังก์ชั่นของส่วนโค้งพื้นที่สปีชีส์ (ii): การตรวจสอบรุ่นใหม่และการกำหนดพารามิเตอร์ วารสารชีวภูมิศาสตร์, 36 (8), 1435-1445


1

ผลลัพธ์ข้างต้นแสดงให้เห็นว่าการกระจายระดับนั้นอาจเป็นได้ทั้งกฎหมายพลังงานและ lognormal ซึ่งอาจชี้ให้เห็นว่าโลกเล็ก ๆ และคุณสมบัติอิสระขนาดอยู่ร่วมกันในเครือข่ายที่ศึกษา ในการตรวจสอบว่าเครือข่ายนั้นว่างหรือไม่ (พร้อมพารามิเตอร์มาตราส่วนคงที่) ที่มีสิ่งที่แนบมาพิเศษการออกแบบทดลองมักจะต้องใช้ ในบทความของ Sid Redner ที่กล่าวถึงข้างต้นอัตราการเติบโตจะถูกใช้เพื่อทำความเข้าใจกลไกการเติบโต ในขณะที่ Gallos, Song และ Makse ใช้กล่องเพื่อครอบคลุมเครือข่ายและสรุปว่าการกระจายระดับเครือข่ายเป็นไปตามการแจกแจงกฎหมายพลังงานหาก NB (lB) ~ lB ^ -dB หรือออกความสัมพันธ์ระหว่างค่าสัมประสิทธิ์คลัสเตอร์และระดับ (ไม่ว่าจะเป็นความสัมพันธ์ที่เป็นไปตามกฎหมายพลังงาน) มิฉะนั้นจะกล่าวถึงว่าเครือข่ายเชิงลำดับชั้นมีทั้งโลกเล็กและเครือข่ายอิสระคุณสมบัติ (พิมพ์ฟรีขนาดเศษส่วน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.