คำถามติดแท็ก data-streams

5
ลดการใช้พื้นที่ของการเชื่อมต่อ st ด้วยหลายรอบหรือไม่
สมมติว่ากราฟมีจุดยอดแสดงเป็นสตรีมของขอบแต่อนุญาตให้ผ่านได้หลายครั้งผ่านกระแสn เมตรGGGnnnม.mm Monika Rauch Henzinger, Prabhakar Raghavan และ Sridar Rajagopalanตั้งข้อสังเกตว่ามีความจำเป็นที่จะต้องพิจารณาว่ามีช่องว่างระหว่างจุดสองจุดที่กำหนดในหรือไม่ถ้าอนุญาตผ่านข้อมูล (ดูที่เวอร์ชันรายงานทางเทคนิคด้วย) อย่างไรก็ตามจะไม่มีการจัดทำอัลกอริทึมเพื่อให้บรรลุข้อผูกพันนี้ ฉันคิดว่าอัลกอริทึมที่ดีที่สุดจริงจะใช้เวลาพื้นที่ในแบบจำลองคอมพิวเตอร์ที่สมจริงตั้งแต่หนึ่งที่มีการแยกแยะความแตกต่างจุดที่แตกต่างกันหากไม่สามารถหน่วยความจำดัชนีโดยใช้ตัวชี้ขนาดคงที่G k O ( ( nΩ(n/k)Ω(n/k)\Omega(n/k)GGGkkknO((nlogn)/k)O((nlogn)/k)O((n\, \log\, n)/k)nnn เราจะตัดสินใจเลือกการเชื่อมต่อกราฟที่มีผ่านโดยใช้พื้นที่อย่างไรO ( ( nkkkO((nlogn)/k)O((nlogn)/k)O((n\, \log\, n)/k) หากอนุญาตให้ส่งผ่านได้เพียงครั้งเดียวข้อมูลอินพุตสามารถจัดเก็บเป็นพาร์ติชันของชุดจุดยอดรวมชุดถ้าขอบถูกมองเห็นระหว่างจุดยอดในชุดต่าง ๆ ที่สอง สิ่งนี้ต้องมีพื้นที่มากที่สุดอย่างชัดเจน คำถามของฉันเกี่ยวกับ : เราจะใช้บัตรผ่านเพิ่มเติมเพื่อลดพื้นที่ที่ต้องการได้อย่างไรk > 1O(nlogn)O(nlogn)O(n\, \log\, n)k>1k>1k > 1 (เพื่อหลีกเลี่ยงเรื่องไร้สาระเป็นพารามิเตอร์ที่ไม่สามารถ จำกัด ขอบเขตนิรนัยได้โดยค่าคงที่และขอบเขตของพื้นที่เป็นนิพจน์ที่เกี่ยวข้องกับฟังก์ชันของทั้งและ )n kkkknnnkkk อัปเดต: แม้แต่สำหรับมันจะมีประโยชน์มากที่จะมีวิธีเก็บเฉพาะจุดยอดหรือมีขอบเขตต่ำกว่าที่แข็งแกร่งกว่าสำหรับค่าคงที่โดยไม่คำนึงถึง ?n / 2 c …

2
อัลกอริทึมสำหรับ 'k' 'ตัวเลขที่เกิดขึ้นบ่อยที่สุด
ฉันค้นหาอัลกอริธึมที่มีประสิทธิภาพมากที่สุด (การสตรีมมิ่ง ??) ที่บอกองค์ประกอบที่เกิดขึ้นบ่อยที่สุด 'k' ในสตรีมข้อมูล ณ จุดใดก็ได้ โพสต์นี้: อัลกอริทึมสตรีมข้อมูล "หารและพิชิต"ทำให้ฉันสนใจ ตัวอย่างเช่นสมมติว่ามีตัวเลข: (4,3,5,1,6,2,4,3,8,9,1) และฉันค้นหาหมายเลข 3 ที่เกิดขึ้นบ่อยที่สุด (พูด) แล้วฉันควร รับ (3,4,1) เป็นคำตอบ ฉันพยายามค้นหาออนไลน์ แต่ไม่สามารถหาสถานที่ที่ให้แนวทางและบอกว่าดีที่สุด วิธีแก้ปัญหาเล็ก ๆ น้อย ๆ ก็คือการใช้กองหรือต้นไม้ไบนารีแบบสมดุล แต่ฉันคิดว่ามันมีวิธีที่ดีกว่าและฉันอยากรู้ว่ามันมีการบันทึกไว้ที่ใดที่หนึ่งหรือไม่ แก้ไข: ฉันกำลังมองหาอัลกอริทึมที่ให้คำตอบที่ถูกต้องเสมอเมื่อเทียบกับอัลกอริธึม appromixation (ซึ่งหลายอันปรากฏขึ้นในผลการค้นหา) ซึ่งขึ้นอยู่กับการกระจายของข้อมูลไม่ทางใดก็ทางหนึ่ง

2
ข้อกำหนดการจัดเก็บสำหรับการเลือกค่ามัธยฐาน (อัลกอริทึมผ่านสอง)
ในกระดาษคลาสสิกมันโรและแพ็ตเตอร์สันศึกษาปัญหาว่าต้องใช้พื้นที่เก็บข้อมูลเท่าไรสำหรับอัลกอริทึมในการค้นหาค่ามัธยฐานในอาร์เรย์ที่เรียงแบบสุ่ม โดยเฉพาะอย่างยิ่งพวกเขามุ่งเน้นไปที่รูปแบบต่อไปนี้: อินพุตถูกอ่านจากซ้ายไปขวาเป็นจำนวนครั้ง P แสดงว่าเซลล์หน่วยความจำเพียงพอ แต่ขอบเขตล่างที่สอดคล้องกันเท่านั้นที่รู้จักสำหรับ P = 1 ฉันไม่เห็นผลลัพธ์ใด ๆ สำหรับ P> 1 มีใครตระหนักถึงขอบเขตที่ต่ำกว่าเช่นนี้หรือไม่ O ( n12 P)O(n12P)O(n^{\frac{1}{2P}}) ขอให้สังเกตว่าปัญหาหลักที่นี่คือที่ผ่านที่สองการป้อนข้อมูลจะไม่สั่งแบบสุ่มอีกต่อไป

5
ขีด จำกัด ของข้อมูลการบีบอัดแบบไม่สูญเสียคือเท่าใด (หากมีข้อ จำกัด ดังกล่าว)
เมื่อเร็ว ๆ นี้ฉันได้รับการจัดการกับอัลกอริทึมที่เกี่ยวข้องกับการบีบอัดและฉันสงสัยว่าเป็นอัตราส่วนการบีบอัดที่ดีที่สุดที่สามารถทำได้โดยการบีบอัดข้อมูลแบบไม่สูญเสีย จนถึงตอนนี้แหล่งเดียวที่ฉันสามารถหาได้ในหัวข้อนี้คือ Wikipedia: การบีบอัดข้อมูลแบบดิจิทัลที่ไม่สูญเสียข้อมูลเช่นวิดีโอภาพยนตร์ดิจิทัลและเสียงรักษาข้อมูลทั้งหมด แต่ไม่ค่อยสามารถทำได้ดีกว่าการบีบอัด 1: 2เนื่องจากเอนโทรปีของข้อมูลที่แท้จริง น่าเสียดายที่บทความของ Wikipediaไม่มีข้อมูลอ้างอิงหรือข้อมูลอ้างอิงเพื่อสนับสนุนการอ้างสิทธิ์นี้ ฉันไม่ใช่ผู้เชี่ยวชาญด้านการบีบอัดข้อมูลดังนั้นฉันขอขอบคุณข้อมูลใด ๆ ที่คุณสามารถให้ในหัวข้อนี้หรือถ้าคุณสามารถชี้ให้ฉันไปยังแหล่งที่เชื่อถือได้มากกว่า Wikipedia

6
อัลกอริทึมสตรีมข้อมูล“ หารและพิชิต”
มีอัลกอริธึมที่เป็นประโยชน์อะไรบ้างที่มีอยู่ที่ทำงานบนสตรีมข้อมูลขนาดใหญ่และผลลัพธ์ของมันมีขนาดค่อนข้างเล็กและหนึ่งสามารถคำนวณผลลัพธ์สำหรับการผสมผสานของสตรีมทั้งสองโดยการรวมผลลัพธ์เข้าด้วยกัน ฉันชื่อไม่กี่: สิ่งที่ชัดเจนเช่นผลรวม, นาที, สูงสุด, นับ, ยอด -K ฯลฯ อัลกอริธึมที่เรียกว่า "แบบร่างภาพ" โดยประมาณสำหรับฮิสโตแกรมการนับรายการที่แตกต่างหรือการคำนวณควอนไทล์ มีคนอื่นอะไรอีกบ้าง? (ฉันสนใจเพราะฉันเขียนโครงการงานอดิเรกเพื่อตรวจสอบระบบกระจายที่มีประโยชน์ถูกกำหนดโดยตรงโดยประโยชน์ของอัลกอริทึมดังกล่าว)

3
ขอบเขตของช่วงเวลาความถี่โดยประมาณ
ให้เป็นลำดับของจำนวนเต็มซึ่งแต่ละ\} สำหรับให้. TH ขณะความถี่ถูกกำหนดให้เป็นเจ ∈ { 1 , 2 , ... , n } ฉัน∈ { 1 , 2 , ... , n } m ฉัน = | { j : a j = i } | ka1,a2,…,ama1,a2,…,ama_1, a_2,\dotsc, a_maj∈{1,2,…,n}aj∈{1,2,…,n}a_j \in \{1,2,\dotsc,n\}ฉัน∈ { 1 , 2 , … , n …

4
การจัดกลุ่มอย่างต่อเนื่อง
ดังนั้นฉันมีปัญหาที่ฉันกำลังเผชิญกับการจัดกลุ่มกับข้อมูลสดสตรีมมิ่งอย่างต่อเนื่อง เนื่องจากฉันมีชุดข้อมูลที่เติบโตขึ้นเรื่อย ๆ ฉันไม่แน่ใจว่าวิธีใดที่ดีที่สุดในการจัดกลุ่มที่มีประสิทธิภาพและประสิทธิผล ฉันคิดวิธีแก้ปัญหาที่เป็นไปได้สองสามประการ ได้แก่ : การตั้งค่าขีด จำกัด จำนวนจุดข้อมูลที่จะอนุญาตดังนั้นเมื่อใดก็ตามที่ถึงขีด จำกัด เมื่อจุดข้อมูลอื่นเข้ามาในจุดที่เก่าที่สุดจะถูกลบออก โดยพื้นฐานแล้วสิ่งนี้จะแนะนำว่าข้อมูลที่เก่ากว่านั้นไม่เกี่ยวข้องกับเราอีกต่อไปเพื่อดูแลสิ่งที่เรากำลังสูญเสียโดยการโยนทิ้ง เมื่อมีข้อมูลเพียงพอที่จะทำการจัดกลุ่มที่ดีให้พิจารณา "การตั้งค่า" นี้และเมื่อมีจุดใหม่มาแทนที่การจัดกลุ่มข้อมูลทั้งหมดใหม่เพียงแค่คิดว่าการจัดกลุ่มศูนย์กลางใดที่จุดใหม่อยู่ใกล้ที่สุดและเพิ่มเข้าไป ประโยชน์ที่นี่คือคุณสามารถหลีกเลี่ยงการจัดกลุ่มใหม่ในทุกจุดใหม่และคุณไม่จำเป็นต้องจัดเก็บจุดอื่น ๆ ทั้งหมดเพียงแค่ศูนย์คลัสเตอร์โดยพิจารณาจากการจัดกลุ่มนี้ "ดีพอ" ข้อเสียคือการเรียกใช้อัลกอริทึมใหม่กับจุดข้อมูลทั้งหมดตั้งแต่ต้นอาจมีความแม่นยำมากขึ้น ในขณะที่เหล่านั้นเป็นวิธีแก้ปัญหาที่อาจเกิดขึ้นฉันระดมสมองฉันอยากจะรู้ว่ามีเทคนิคที่รู้จักกันดีกว่าที่จะเผชิญกับปัญหานี้ ฉันคิดว่าไซต์อย่าง Google ต้องจัดการกับมันอย่างใด (และฉันหวังว่า "เพิ่ม ram, เซิร์ฟเวอร์และโปรเซสเซอร์" หรือ "ขยายศูนย์ข้อมูลของคุณอย่างต่อเนื่อง" ไม่ใช่คำตอบเดียวที่มี)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.