วิทยาศาสตร์ข้อมูล bigdata

8

ผมอ่านในโพสต์นี้คือภาษา R ที่เหมาะสมสำหรับข้อมูลขนาดใหญ่ที่ถือว่าข้อมูลขนาดใหญ่5TBและในขณะที่มันไม่ได้งานที่ดีในการให้ข้อมูลเกี่ยวกับความเป็นไปได้ของการทำงานกับชนิดของข้อมูลในนี้ก็มีข้อมูลน้อยมากเกี่ยวกับR Pythonฉันสงสัยว่าPythonสามารถทำงานกับข้อมูลจำนวนมากเช่นนี้ได้หรือไม่

14 bigdata python

1

เมื่อฐานข้อมูลเชิงสัมพันธ์มีประสิทธิภาพดีกว่าไม่มีความสัมพันธ์

เมื่อฐานข้อมูลเชิงสัมพันธ์เช่น MySQL มีประสิทธิภาพที่ดีกว่าไม่มีความสัมพันธ์เช่น MongoDB? ฉันเห็นคำถามเกี่ยวกับ Quora เมื่อวันก่อนเกี่ยวกับสาเหตุที่ Quora ยังคงใช้ MySQL เป็นแบ็กเอนด์และประสิทธิภาพยังคงดี

13 bigdata performance databases nosql

4

กรณีศึกษา Big Data หรือใช้กรณีตัวอย่าง

ฉันได้อ่านบล็อก \ article มากมายเกี่ยวกับความแตกต่างของประเภทอุตสาหกรรมที่ใช้การวิเคราะห์ข้อมูลขนาดใหญ่ แต่บทความส่วนใหญ่ไม่ได้กล่าวถึง บริษัท เหล่านี้ใช้ข้อมูลอะไรกัน ขนาดของข้อมูลคืออะไร เทคโนโลยีเครื่องมือชนิดใดที่พวกเขาใช้ในการประมวลผลข้อมูล ปัญหาที่พวกเขาเผชิญคืออะไรและข้อมูลเชิงลึกที่พวกเขาได้รับช่วยให้พวกเขาแก้ไขปัญหาได้อย่างไร วิธีที่พวกเขาเลือกเครื่องมือ \ technology เพื่อให้เหมาะกับความต้องการของพวกเขา พวกเขาระบุรูปแบบอะไรจากข้อมูล & พวกเขามองหารูปแบบใดจากข้อมูล ฉันสงสัยว่าใครบางคนสามารถให้คำตอบสำหรับคำถามเหล่านี้ทั้งหมดหรือลิงก์ที่ตอบคำถามอย่างน้อย ฉันกำลังมองหาตัวอย่างในโลกแห่งความจริง มันจะดีถ้ามีคนแบ่งปันว่าอุตสาหกรรมการเงินกำลังใช้ประโยชน์จากการวิเคราะห์ข้อมูลขนาดใหญ่อย่างไร

13 data-mining bigdata usecase

4

เราสามารถใช้ประโยชน์จากการใช้การเรียนรู้การถ่ายโอนในขณะฝึกรูปแบบ word2vec ได้หรือไม่?

ฉันกำลังมองหาน้ำหนักของรุ่นที่ผ่านการฝึกอบรมมาแล้วเช่นข้อมูล Google Newsเป็นต้นฉันพบว่ามันยากที่จะฝึกฝนโมเดลใหม่ด้วยจำนวนข้อมูลที่เพียงพอ (10 GB เป็นต้น) สำหรับตัวฉันเอง ดังนั้นฉันต้องการได้รับประโยชน์จากการเรียนรู้การถ่ายโอนซึ่งฉันสามารถรับน้ำหนักของเลเยอร์ที่ได้รับการฝึกอบรมมาล่วงหน้าและฝึกฝนน้ำหนักเหล่านั้นใหม่ด้วยคำศัพท์เฉพาะโดเมนของฉัน ดังนั้นแน่นอนว่าจะใช้เวลาค่อนข้างน้อยในการฝึกอบรม ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก ขอบคุณล่วงหน้า :)

13 machine-learning bigdata word2vec

7

'ชื่อเก่า' ของนักวิทยาศาสตร์ข้อมูลคืออะไร

คำศัพท์เช่น 'วิทยาศาสตร์ข้อมูล' และ 'นักวิทยาศาสตร์ข้อมูล' มีการใช้กันมากขึ้นทุกวันนี้ หลาย บริษัท กำลังจ้าง 'นักวิทยาศาสตร์ข้อมูล' แต่ฉันไม่คิดว่ามันเป็นงานใหม่ที่สมบูรณ์แบบ ข้อมูลมีอยู่ในอดีตและบางคนต้องจัดการกับข้อมูล ฉันเดาว่าคำว่า 'นักวิทยาศาสตร์ข้อมูล' ได้รับความนิยมมากขึ้นเพราะฟังดูแปลกและ 'เซ็กซี่' นักวิทยาศาสตร์ด้านข้อมูลเรียกในอดีตอย่างไร

12 bigdata

2

อัลกอริทึมการจับคู่การตั้งค่า

มีโครงการด้านนี้ที่ฉันกำลังทำงานในที่ที่ฉันต้องการจัดโครงสร้างวิธีแก้ไขปัญหาต่อไปนี้ ฉันมีคนสองกลุ่ม (ลูกค้า) กลุ่มAตั้งใจที่จะซื้อและกลุ่มตั้งใจที่จะขายสินค้าที่มีความมุ่งมั่นB Xผลิตภัณฑ์มีชุดของคุณลักษณะx_iและวัตถุประสงค์ของฉันคือเพื่ออำนวยความสะดวกในการทำธุรกรรมระหว่างAและBโดยการจับคู่การตั้งค่าของพวกเขา แนวคิดหลักคือการชี้ให้สมาชิกแต่ละคนของAผลิตภัณฑ์ที่ตรงBกับความต้องการของเขาและในทางกลับกัน ปัญหาที่ซับซ้อนบางประการของปัญหา: รายการคุณลักษณะไม่ จำกัด ผู้ซื้ออาจสนใจในลักษณะเฉพาะหรือการออกแบบบางอย่างซึ่งหาได้ยากในหมู่ประชากรและฉันไม่สามารถคาดเดาได้ ก่อนหน้านี้ไม่สามารถแสดงรายการคุณลักษณะทั้งหมด แอตทริบิวต์อาจเป็นแบบต่อเนื่องแบบไบนารีหรือไม่สามารถวัดได้ (เช่นราคาฟังก์ชันการทำงานการออกแบบ); ข้อเสนอแนะใด ๆ เกี่ยวกับวิธีการแก้ไขปัญหานี้และแก้ปัญหาด้วยวิธีอัตโนมัติ? ฉันจะขอบคุณอ้างอิงบางอย่างเกี่ยวกับปัญหาที่คล้ายกันอื่น ๆ ถ้าเป็นไปได้ คำแนะนำยอดเยี่ยม! ความคล้ายคลึงกันหลายอย่างในวิธีที่ฉันคิดว่าจะเข้าใกล้ปัญหา ประเด็นหลักในการทำแผนที่คุณลักษณะคือระดับของรายละเอียดที่ควรอธิบายผลิตภัณฑ์ขึ้นอยู่กับผู้ซื้อแต่ละราย ลองยกตัวอย่างรถยนต์ ผลิตภัณฑ์“ รถยนต์” มีคุณสมบัติมากมายตั้งแต่ประสิทธิภาพการทำงานโครงสร้างเครื่องจักรกลราคาและอื่น ๆ สมมติว่าฉันต้องการรถราคาถูกหรือรถยนต์ไฟฟ้า ตกลงนั่นเป็นเรื่องง่ายที่จะทำแผนที่เพราะมันเป็นคุณสมบัติหลักของผลิตภัณฑ์นี้ แต่ตัวอย่างเช่นฉันต้องการรถที่มีระบบส่งกำลังแบบ Dual-Clutch หรือไฟหน้าซีนอน อาจมีรถยนต์จำนวนมากในฐานข้อมูลที่มีคุณลักษณะนี้ แต่ฉันจะไม่ขอให้ผู้ขายกรอกรายละเอียดในระดับนี้ลงในผลิตภัณฑ์ของพวกเขาก่อนข้อมูลที่มีคนมองอยู่ ขั้นตอนดังกล่าวจะกำหนดให้ผู้ขายทุกรายกรอกแบบฟอร์มที่มีความซับซ้อนและละเอียดมากเพียงพยายามขายรถของเขาบนแพลตฟอร์ม แค่จะไม่ทำงาน แต่ถึงกระนั้นความท้าทายของฉันคือการพยายามให้รายละเอียดเท่าที่จำเป็นในการค้นหาเพื่อให้ตรงกับที่ดี วิธีที่ฉันคิดคือการทำแผนที่ประเด็นสำคัญของผลิตภัณฑ์ซึ่งอาจเกี่ยวข้องกับทุกคนเพื่อ จำกัด กลุ่มผู้ขายที่มีศักยภาพ ขั้นตอนต่อไปจะเป็น "การค้นหาที่ละเอียดอ่อน" เพื่อหลีกเลี่ยงการสร้างแบบฟอร์มที่มีรายละเอียดมากเกินไปฉันอาจขอให้ผู้ซื้อและผู้ขายเขียนข้อความฟรีของข้อกำหนดของพวกเขา จากนั้นใช้อัลกอริทึมการจับคู่คำเพื่อค้นหาการจับคู่ที่เป็นไปได้ แม้ว่าฉันเข้าใจว่านี่ไม่ใช่วิธีแก้ปัญหาที่เหมาะสมเนื่องจากผู้ขายไม่สามารถ“ เดา” สิ่งที่ผู้ซื้อต้องการได้ แต่อาจทำให้ฉันเข้าใกล้ เกณฑ์การถ่วงน้ำหนักที่แนะนำนั้นยอดเยี่ยม มันช่วยให้ฉันสามารถวัดระดับที่ผู้ขายตรงกับความต้องการของผู้ซื้อ …

12 bigdata text-mining recommender-system

2

การแลกเปลี่ยนระหว่าง Storm และ Hadoop (MapReduce)

ใครบางคนกรุณาบอกฉันเกี่ยวกับการแลกเปลี่ยนที่เกี่ยวข้องเมื่อเลือกระหว่าง Storm และ MapReduce ใน Hadoop Cluster สำหรับการประมวลผลข้อมูล แน่นอนนอกเหนือจากที่เห็นได้ชัดว่า Hadoop (การประมวลผลผ่าน MapReduce ใน Hadoop Cluster) เป็นระบบการประมวลผลแบบชุดและ Storm เป็นระบบการประมวลผลแบบเรียลไทม์ ฉันทำงานกับ Hadoop Eco System แล้ว แต่ฉันไม่ได้ทำงานกับ Storm หลังจากดูงานนำเสนอและบทความมากมายฉันยังไม่สามารถหาคำตอบที่น่าพอใจและครอบคลุมได้ หมายเหตุ: คำว่าการแลกเปลี่ยนที่นี่ไม่ได้หมายถึงการเปรียบเทียบกับสิ่งที่คล้ายกัน มันมีไว้เพื่อแสดงถึงผลที่ตามมาของการรับผลลัพธ์แบบเรียลไทม์ที่ขาดหายไปจากระบบประมวลผลแบบแบทช์

12 bigdata efficiency apache-hadoop distributed

3

การสืบค้นในฐานข้อมูลขนาดใหญ่ส่งคืนอย่างไรโดยมีความหน่วงแฝงเล็กน้อย

ตัวอย่างเช่นเมื่อค้นหาบางสิ่งใน Google ผลลัพธ์จะส่งคืนทันที ฉันเข้าใจว่า Google เรียงลำดับและจัดทำดัชนีหน้าเว็บด้วยอัลกอริธึมเป็นต้น แต่ฉันคิดว่ามันเป็นไปไม่ได้ที่ผลลัพธ์ของการสืบค้นที่เป็นไปได้ทุกครั้งที่จะจัดทำดัชนี (และผลลัพธ์เป็นแบบส่วนบุคคล ยิ่งกว่านั้นเวลาแฝงของฮาร์ดแวร์ในฮาร์ดแวร์ของ Google จะไม่ใหญ่โตใช่ไหม แม้ว่าข้อมูลใน Google ทั้งหมดจะถูกเก็บไว้ใน TB / s SSD ฉันคิดว่าเวลาในการตอบสนองของฮาร์ดแวร์มีขนาดใหญ่มากเนื่องจากได้รับข้อมูลจำนวนมากในการประมวลผล MapReduce ช่วยแก้ปัญหานี้หรือไม่? แก้ไข: ตกลงดังนั้นฉันเข้าใจว่าการค้นหายอดนิยมสามารถถูกเก็บไว้ในหน่วยความจำ แต่การค้นหาที่ไม่เป็นที่นิยม แม้แต่การค้นหาที่คลุมเครือที่สุดที่ฉันได้ทำฉันไม่คิดว่าการค้นหานั้นจะมีขนาดใหญ่กว่า 5 วินาที เป็นไปได้อย่างไร?

12 bigdata google search

1

ฉันควรใช้เซลล์ LSTM กี่เซลล์

มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

FPGrowth ยังถือว่าเป็น“ สถานะของศิลปะ” ในการขุดแบบบ่อยๆหรือไม่?

เท่าที่ฉันรู้การพัฒนาอัลกอริทึมเพื่อแก้ปัญหาการทำเหมืองบ่อยรูปแบบ (FPM) ถนนของการปรับปรุงมีจุดตรวจหลักบางอย่าง ประการแรกอัลกอริทึมAprioriถูกเสนอในปี 1993 โดยAgrawal และคณะ พร้อมกับการทำให้เป็นทางการของปัญหา อัลกอริทึมก็สามารถที่จะดึงบางชุดออกมาจาก2^n - 1ชุด (powerset) โดยใช้ตาข่ายเพื่อรักษาข้อมูล ข้อเสียเปรียบของวิธีการคือต้องอ่านฐานข้อมูลใหม่เพื่อคำนวณความถี่ของแต่ละชุดที่ขยาย ต่อมาในปี 1997 Zaki และคณะ เสนออัลกอริทึมEclatซึ่งแทรกความถี่ผลลัพธ์ของแต่ละชุดไว้ในโครงตาข่าย สิ่งนี้กระทำโดยการเพิ่มที่แต่ละโหนดของโครงตาข่ายชุดของ transaction-id ที่มีไอเท็มจากรูทไปยังโหนดที่อ้างถึง การสนับสนุนหลักคือเราไม่จำเป็นต้องอ่านชุดข้อมูลทั้งหมดอีกครั้งเพื่อทราบความถี่ของแต่ละชุด แต่หน่วยความจำที่จำเป็นในการรักษาโครงสร้างข้อมูลดังกล่าวอาจมีขนาดเกินขนาดของชุดข้อมูลเอง ในปี 2000 ฮันและคณะ เสนออัลกอริทึมที่ชื่อว่าFPGrowthพร้อมกับโครงสร้างข้อมูลแบบต้นไม้คำนำหน้าชื่อ FPTree อัลกอริทึมสามารถให้การบีบอัดข้อมูลที่สำคัญในขณะเดียวกันก็อนุญาตว่าจะให้เฉพาะชุดไอเท็มที่ใช้บ่อยเท่านั้น (โดยไม่มีการสร้างชุดไอเท็มผู้สมัคร) สิ่งนี้ทำได้โดยการจัดเรียงรายการของแต่ละธุรกรรมในลำดับที่ลดลงเพื่อให้รายการที่พบบ่อยที่สุดคือรายการที่มีการซ้ำซ้อนน้อยที่สุดในโครงสร้างข้อมูลทรี เนื่องจากความถี่ลดลงเท่านั้นขณะที่สำรวจต้นไม้ในเชิงลึกอัลกอริทึมจึงสามารถตัดชุดรายการที่ไม่ได้ใช้บ่อย แก้ไข : เท่าที่ฉันรู้นี่อาจถือได้ว่าเป็นอัลกอริทึมที่ล้ำสมัย แต่ฉันอยากรู้เกี่ยวกับวิธีแก้ปัญหาอื่น ๆ มีอัลกอริธึมอื่นสำหรับ FPM ที่ถูกพิจารณาว่าเป็น "state-of-the-art" หรือไม่? อะไรคือสิ่งที่สัญชาตญาณ / หลักผลงานของอัลกอริทึมดังกล่าวหรือไม่ อัลกอริทึม FPGrowth ยังถือว่าเป็น "สถานะของศิลปะ" …

12 bigdata data-mining efficiency state-of-the-art

4

ทำงานกับกลุ่ม HPC

ในมหาวิทยาลัยของฉันเรามีกลุ่มคอมพิวเตอร์ HPC ฉันใช้คลัสเตอร์เพื่อฝึกตัวแยกประเภทและอื่น ๆ ดังนั้นโดยปกติจะส่งงานให้กับคลัสเตอร์ (เช่นงูหลาม scikit เรียนรู้สคริปต์) ผมต้องเขียนสคริปต์ทุบตีที่มี (อื่น) qsub script.pyคำสั่งเช่น อย่างไรก็ตามฉันพบว่ากระบวนการนี้น่าผิดหวังมาก โดยปกติสิ่งที่เกิดขึ้นคือฉันเขียนสคริปต์หลามบนแล็ปท็อปของฉันจากนั้นฉันลงชื่อเข้าใช้เซิร์ฟเวอร์และอัปเดตที่เก็บ SVN ดังนั้นฉันจึงได้รับสคริปต์หลามเดียวกัน จากนั้นฉันเขียนสคริปต์ Bash นั้นหรือแก้ไขเพื่อให้ฉันสามารถเรียกใช้สคริปต์ทุบตีได้ อย่างที่คุณเห็นสิ่งนี้น่าผิดหวังจริง ๆ สำหรับทุก ๆ การอัพเดทเล็กน้อยสำหรับสคริปต์ไพ ธ อนฉันต้องทำหลายขั้นตอนเพื่อให้มันทำงานที่คลัสเตอร์คอมพิวเตอร์ แน่นอนว่างานจะยิ่งซับซ้อนมากขึ้นเมื่อฉันต้องวางข้อมูลบนเซิร์ฟเวอร์และใช้เส้นทางของชุดข้อมูลบนเซิร์ฟเวอร์ ฉันแน่ใจว่าผู้คนจำนวนมากที่นี่กำลังใช้คอมพิวเตอร์คำนวณสำหรับงานด้านข้อมูล ฉันแค่อยากรู้ว่าพวกคุณจัดการส่งงานไปยังกลุ่มได้อย่างไร?

11 bigdata data-mining

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

สิ่งใดเร็วกว่า: PostgreSQL vs MongoDB บนชุดข้อมูล JSON ขนาดใหญ่

ฉันมีชุดข้อมูลขนาดใหญ่ที่มีวัตถุ JSON ขนาด 9m ที่แต่ละอันมีขนาดประมาณ 300 ไบต์ ข้อความเหล่านี้เป็นบทความจากตัวรวบรวมลิงก์: โดยทั่วไปลิงก์ (URL, ชื่อและรหัสผู้แต่ง) และความคิดเห็น (ข้อความและ ID ผู้เขียน) + ข้อมูลเมตา พวกเขาอาจเป็นระเบียนเชิงสัมพันธ์ได้ดีในตารางยกเว้นข้อเท็จจริงที่ว่าพวกเขามีเขตข้อมูลแถวเดียวที่มีรหัสที่ชี้ไปยังระเบียนลูก การใช้งานแบบใดที่ดูแข็งแกร่งกว่านี้? วัตถุ JSON ในฐานข้อมูล PostgreSQL (เพียงหนึ่งตารางขนาดใหญ่ที่มีหนึ่งคอลัมน์คือวัตถุ JSON) วัตถุ JSON บน MongoDB ระเบิดวัตถุ JSON เป็นคอลัมน์และใช้อาร์เรย์ใน PostgreSQL ฉันต้องการเพิ่มประสิทธิภาพการรวมสูงสุดดังนั้นฉันสามารถนวดข้อมูลและสำรวจจนกว่าฉันจะพบการวิเคราะห์ที่น่าสนใจ ณ จุดนี้ฉันคิดว่ามันจะเป็นการดีกว่าที่จะแปลงข้อมูลให้เป็นรูปแบบเฉพาะสำหรับการวิเคราะห์แต่ละครั้ง

10 data-mining bigdata databases sql mongodb

2

Scalable Outlier / Anomaly Detection

ฉันกำลังพยายามติดตั้งโครงสร้างพื้นฐานข้อมูลขนาดใหญ่โดยใช้ Hadoop, Hive, Elastic Search (รวมถึงอื่น ๆ ) และฉันต้องการเรียกใช้อัลกอริทึมบางอย่างกับชุดข้อมูลบางชุด ฉันต้องการอัลกอริทึมที่สามารถปรับขนาดได้ดังนั้นสิ่งนี้ไม่รวมการใช้เครื่องมือเช่น Weka, R หรือ RHadoop ควาญช้างห้องสมุด Apacheน่าจะเป็นตัวเลือกที่ดีและมันมีขั้นตอนวิธีการสำหรับงานที่ถดถอยและการจัดกลุ่ม สิ่งที่ฉันดิ้นรนเพื่อค้นหาเป็นวิธีการตรวจหาความผิดปกติหรือผิดปกติ เนื่องจาก Mahout นำเสนอ Hidden Markov Models และเทคนิคการจัดกลุ่มที่หลากหลาย (รวมถึง K-Means) ฉันสงสัยว่ามันจะเป็นไปได้ไหมที่จะสร้างแบบจำลองเพื่อตรวจจับค่าผิดปกติในอนุกรมเวลาโดยใช้สิ่งนี้ ฉันจะขอบคุณถ้าใครมีประสบการณ์เกี่ยวกับเรื่องนี้สามารถแนะนำฉัน ถ้าเป็นไปได้และในกรณีที่เป็น วิธีการทำรวมทั้ง การประเมินความพยายามที่เกี่ยวข้องและ ความแม่นยำ / ปัญหาของวิธีนี้

10 data-mining bigdata algorithms outlier

3

สเกลเทคนิคทางสถิติต่างๆ (การถดถอย PCA และอื่น ๆ ) มีขนาดตัวอย่างและมิติอย่างไร

มีตารางทั่วไปของเทคนิคทางสถิติที่อธิบายวิธีการวัดด้วยขนาดตัวอย่างและมิติหรือไม่ ตัวอย่างเช่นเพื่อนของฉันบอกฉันเมื่อวันก่อนว่าเวลาการคำนวณของการเรียงลำดับข้อมูลขนาดมิติหนึ่งไปอย่างรวดเร็วเป็น n * log (n) ตัวอย่างเช่นถ้าเราถอยหลัง y เทียบกับ X โดยที่ X เป็นตัวแปร d-dimension มันจะเป็น O (n ^ 2 * d) หรือไม่? มันจะขยายขนาดได้อย่างไรถ้าฉันต้องการหาวิธีแก้ปัญหาด้วยวิธี Gauss-Markov ที่แน่นอนเทียบกับกำลังสองน้อยที่สุดด้วยวิธีนิวตัน? หรือเพียงแค่หาวิธีแก้ปัญหาเทียบกับการใช้การทดสอบนัยสำคัญ? ฉันเดาว่าฉันต้องการแหล่งคำตอบที่ดีกว่า (เช่นกระดาษที่สรุปการปรับขนาดของเทคนิคทางสถิติต่าง ๆ ) มากกว่าคำตอบที่ดีที่นี่ เช่นพูดรายการที่มีการปรับสเกลของการถดถอยหลายครั้งการถดถอยโลจิสติก PCA การถดถอยอันตรายตามสัดส่วนของคอกซ์ K-หมายถึงการจัดกลุ่มเป็นต้น

10 bigdata statistics efficiency scalability

คำถามติดแท็ก bigdata