คำถามติดแท็ก bigdata

Big data เป็นคำศัพท์สำหรับการรวบรวมชุดข้อมูลที่มีขนาดใหญ่และซับซ้อนจนยากที่จะประมวลผลโดยใช้เครื่องมือการจัดการฐานข้อมูลหรือแอปพลิเคชันการประมวลผลข้อมูลแบบดั้งเดิม ความท้าทายรวมถึงการจับ, การจัดการ, การจัดเก็บ, การค้นหา, การแบ่งปัน, การถ่ายโอน, การวิเคราะห์และการสร้างภาพ

8
Python เหมาะสำหรับข้อมูลขนาดใหญ่หรือไม่
ผมอ่านในโพสต์นี้คือภาษา R ที่เหมาะสมสำหรับข้อมูลขนาดใหญ่ที่ถือว่าข้อมูลขนาดใหญ่5TBและในขณะที่มันไม่ได้งานที่ดีในการให้ข้อมูลเกี่ยวกับความเป็นไปได้ของการทำงานกับชนิดของข้อมูลในนี้ก็มีข้อมูลน้อยมากเกี่ยวกับR Pythonฉันสงสัยว่าPythonสามารถทำงานกับข้อมูลจำนวนมากเช่นนี้ได้หรือไม่
14 bigdata  python 

1
เมื่อฐานข้อมูลเชิงสัมพันธ์มีประสิทธิภาพดีกว่าไม่มีความสัมพันธ์
เมื่อฐานข้อมูลเชิงสัมพันธ์เช่น MySQL มีประสิทธิภาพที่ดีกว่าไม่มีความสัมพันธ์เช่น MongoDB? ฉันเห็นคำถามเกี่ยวกับ Quora เมื่อวันก่อนเกี่ยวกับสาเหตุที่ Quora ยังคงใช้ MySQL เป็นแบ็กเอนด์และประสิทธิภาพยังคงดี

4
กรณีศึกษา Big Data หรือใช้กรณีตัวอย่าง
ฉันได้อ่านบล็อก \ article มากมายเกี่ยวกับความแตกต่างของประเภทอุตสาหกรรมที่ใช้การวิเคราะห์ข้อมูลขนาดใหญ่ แต่บทความส่วนใหญ่ไม่ได้กล่าวถึง บริษัท เหล่านี้ใช้ข้อมูลอะไรกัน ขนาดของข้อมูลคืออะไร เทคโนโลยีเครื่องมือชนิดใดที่พวกเขาใช้ในการประมวลผลข้อมูล ปัญหาที่พวกเขาเผชิญคืออะไรและข้อมูลเชิงลึกที่พวกเขาได้รับช่วยให้พวกเขาแก้ไขปัญหาได้อย่างไร วิธีที่พวกเขาเลือกเครื่องมือ \ technology เพื่อให้เหมาะกับความต้องการของพวกเขา พวกเขาระบุรูปแบบอะไรจากข้อมูล & พวกเขามองหารูปแบบใดจากข้อมูล ฉันสงสัยว่าใครบางคนสามารถให้คำตอบสำหรับคำถามเหล่านี้ทั้งหมดหรือลิงก์ที่ตอบคำถามอย่างน้อย ฉันกำลังมองหาตัวอย่างในโลกแห่งความจริง มันจะดีถ้ามีคนแบ่งปันว่าอุตสาหกรรมการเงินกำลังใช้ประโยชน์จากการวิเคราะห์ข้อมูลขนาดใหญ่อย่างไร

4
เราสามารถใช้ประโยชน์จากการใช้การเรียนรู้การถ่ายโอนในขณะฝึกรูปแบบ word2vec ได้หรือไม่?
ฉันกำลังมองหาน้ำหนักของรุ่นที่ผ่านการฝึกอบรมมาแล้วเช่นข้อมูล Google Newsเป็นต้นฉันพบว่ามันยากที่จะฝึกฝนโมเดลใหม่ด้วยจำนวนข้อมูลที่เพียงพอ (10 GB เป็นต้น) สำหรับตัวฉันเอง ดังนั้นฉันต้องการได้รับประโยชน์จากการเรียนรู้การถ่ายโอนซึ่งฉันสามารถรับน้ำหนักของเลเยอร์ที่ได้รับการฝึกอบรมมาล่วงหน้าและฝึกฝนน้ำหนักเหล่านั้นใหม่ด้วยคำศัพท์เฉพาะโดเมนของฉัน ดังนั้นแน่นอนว่าจะใช้เวลาค่อนข้างน้อยในการฝึกอบรม ความช่วยเหลือใด ๆ จะได้รับการชื่นชมอย่างมาก ขอบคุณล่วงหน้า :)

7
'ชื่อเก่า' ของนักวิทยาศาสตร์ข้อมูลคืออะไร
คำศัพท์เช่น 'วิทยาศาสตร์ข้อมูล' และ 'นักวิทยาศาสตร์ข้อมูล' มีการใช้กันมากขึ้นทุกวันนี้ หลาย บริษัท กำลังจ้าง 'นักวิทยาศาสตร์ข้อมูล' แต่ฉันไม่คิดว่ามันเป็นงานใหม่ที่สมบูรณ์แบบ ข้อมูลมีอยู่ในอดีตและบางคนต้องจัดการกับข้อมูล ฉันเดาว่าคำว่า 'นักวิทยาศาสตร์ข้อมูล' ได้รับความนิยมมากขึ้นเพราะฟังดูแปลกและ 'เซ็กซี่' นักวิทยาศาสตร์ด้านข้อมูลเรียกในอดีตอย่างไร
12 bigdata 

2
อัลกอริทึมการจับคู่การตั้งค่า
มีโครงการด้านนี้ที่ฉันกำลังทำงานในที่ที่ฉันต้องการจัดโครงสร้างวิธีแก้ไขปัญหาต่อไปนี้ ฉันมีคนสองกลุ่ม (ลูกค้า) กลุ่มAตั้งใจที่จะซื้อและกลุ่มตั้งใจที่จะขายสินค้าที่มีความมุ่งมั่นB Xผลิตภัณฑ์มีชุดของคุณลักษณะx_iและวัตถุประสงค์ของฉันคือเพื่ออำนวยความสะดวกในการทำธุรกรรมระหว่างAและBโดยการจับคู่การตั้งค่าของพวกเขา แนวคิดหลักคือการชี้ให้สมาชิกแต่ละคนของAผลิตภัณฑ์ที่ตรงBกับความต้องการของเขาและในทางกลับกัน ปัญหาที่ซับซ้อนบางประการของปัญหา: รายการคุณลักษณะไม่ จำกัด ผู้ซื้ออาจสนใจในลักษณะเฉพาะหรือการออกแบบบางอย่างซึ่งหาได้ยากในหมู่ประชากรและฉันไม่สามารถคาดเดาได้ ก่อนหน้านี้ไม่สามารถแสดงรายการคุณลักษณะทั้งหมด แอตทริบิวต์อาจเป็นแบบต่อเนื่องแบบไบนารีหรือไม่สามารถวัดได้ (เช่นราคาฟังก์ชันการทำงานการออกแบบ); ข้อเสนอแนะใด ๆ เกี่ยวกับวิธีการแก้ไขปัญหานี้และแก้ปัญหาด้วยวิธีอัตโนมัติ? ฉันจะขอบคุณอ้างอิงบางอย่างเกี่ยวกับปัญหาที่คล้ายกันอื่น ๆ ถ้าเป็นไปได้ คำแนะนำยอดเยี่ยม! ความคล้ายคลึงกันหลายอย่างในวิธีที่ฉันคิดว่าจะเข้าใกล้ปัญหา ประเด็นหลักในการทำแผนที่คุณลักษณะคือระดับของรายละเอียดที่ควรอธิบายผลิตภัณฑ์ขึ้นอยู่กับผู้ซื้อแต่ละราย ลองยกตัวอย่างรถยนต์ ผลิตภัณฑ์“ รถยนต์” มีคุณสมบัติมากมายตั้งแต่ประสิทธิภาพการทำงานโครงสร้างเครื่องจักรกลราคาและอื่น ๆ สมมติว่าฉันต้องการรถราคาถูกหรือรถยนต์ไฟฟ้า ตกลงนั่นเป็นเรื่องง่ายที่จะทำแผนที่เพราะมันเป็นคุณสมบัติหลักของผลิตภัณฑ์นี้ แต่ตัวอย่างเช่นฉันต้องการรถที่มีระบบส่งกำลังแบบ Dual-Clutch หรือไฟหน้าซีนอน อาจมีรถยนต์จำนวนมากในฐานข้อมูลที่มีคุณลักษณะนี้ แต่ฉันจะไม่ขอให้ผู้ขายกรอกรายละเอียดในระดับนี้ลงในผลิตภัณฑ์ของพวกเขาก่อนข้อมูลที่มีคนมองอยู่ ขั้นตอนดังกล่าวจะกำหนดให้ผู้ขายทุกรายกรอกแบบฟอร์มที่มีความซับซ้อนและละเอียดมากเพียงพยายามขายรถของเขาบนแพลตฟอร์ม แค่จะไม่ทำงาน แต่ถึงกระนั้นความท้าทายของฉันคือการพยายามให้รายละเอียดเท่าที่จำเป็นในการค้นหาเพื่อให้ตรงกับที่ดี วิธีที่ฉันคิดคือการทำแผนที่ประเด็นสำคัญของผลิตภัณฑ์ซึ่งอาจเกี่ยวข้องกับทุกคนเพื่อ จำกัด กลุ่มผู้ขายที่มีศักยภาพ ขั้นตอนต่อไปจะเป็น "การค้นหาที่ละเอียดอ่อน" เพื่อหลีกเลี่ยงการสร้างแบบฟอร์มที่มีรายละเอียดมากเกินไปฉันอาจขอให้ผู้ซื้อและผู้ขายเขียนข้อความฟรีของข้อกำหนดของพวกเขา จากนั้นใช้อัลกอริทึมการจับคู่คำเพื่อค้นหาการจับคู่ที่เป็นไปได้ แม้ว่าฉันเข้าใจว่านี่ไม่ใช่วิธีแก้ปัญหาที่เหมาะสมเนื่องจากผู้ขายไม่สามารถ“ เดา” สิ่งที่ผู้ซื้อต้องการได้ แต่อาจทำให้ฉันเข้าใกล้ เกณฑ์การถ่วงน้ำหนักที่แนะนำนั้นยอดเยี่ยม มันช่วยให้ฉันสามารถวัดระดับที่ผู้ขายตรงกับความต้องการของผู้ซื้อ …

2
การแลกเปลี่ยนระหว่าง Storm และ Hadoop (MapReduce)
ใครบางคนกรุณาบอกฉันเกี่ยวกับการแลกเปลี่ยนที่เกี่ยวข้องเมื่อเลือกระหว่าง Storm และ MapReduce ใน Hadoop Cluster สำหรับการประมวลผลข้อมูล แน่นอนนอกเหนือจากที่เห็นได้ชัดว่า Hadoop (การประมวลผลผ่าน MapReduce ใน Hadoop Cluster) เป็นระบบการประมวลผลแบบชุดและ Storm เป็นระบบการประมวลผลแบบเรียลไทม์ ฉันทำงานกับ Hadoop Eco System แล้ว แต่ฉันไม่ได้ทำงานกับ Storm หลังจากดูงานนำเสนอและบทความมากมายฉันยังไม่สามารถหาคำตอบที่น่าพอใจและครอบคลุมได้ หมายเหตุ: คำว่าการแลกเปลี่ยนที่นี่ไม่ได้หมายถึงการเปรียบเทียบกับสิ่งที่คล้ายกัน มันมีไว้เพื่อแสดงถึงผลที่ตามมาของการรับผลลัพธ์แบบเรียลไทม์ที่ขาดหายไปจากระบบประมวลผลแบบแบทช์

3
การสืบค้นในฐานข้อมูลขนาดใหญ่ส่งคืนอย่างไรโดยมีความหน่วงแฝงเล็กน้อย
ตัวอย่างเช่นเมื่อค้นหาบางสิ่งใน Google ผลลัพธ์จะส่งคืนทันที ฉันเข้าใจว่า Google เรียงลำดับและจัดทำดัชนีหน้าเว็บด้วยอัลกอริธึมเป็นต้น แต่ฉันคิดว่ามันเป็นไปไม่ได้ที่ผลลัพธ์ของการสืบค้นที่เป็นไปได้ทุกครั้งที่จะจัดทำดัชนี (และผลลัพธ์เป็นแบบส่วนบุคคล ยิ่งกว่านั้นเวลาแฝงของฮาร์ดแวร์ในฮาร์ดแวร์ของ Google จะไม่ใหญ่โตใช่ไหม แม้ว่าข้อมูลใน Google ทั้งหมดจะถูกเก็บไว้ใน TB / s SSD ฉันคิดว่าเวลาในการตอบสนองของฮาร์ดแวร์มีขนาดใหญ่มากเนื่องจากได้รับข้อมูลจำนวนมากในการประมวลผล MapReduce ช่วยแก้ปัญหานี้หรือไม่? แก้ไข: ตกลงดังนั้นฉันเข้าใจว่าการค้นหายอดนิยมสามารถถูกเก็บไว้ในหน่วยความจำ แต่การค้นหาที่ไม่เป็นที่นิยม แม้แต่การค้นหาที่คลุมเครือที่สุดที่ฉันได้ทำฉันไม่คิดว่าการค้นหานั้นจะมีขนาดใหญ่กว่า 5 วินาที เป็นไปได้อย่างไร?
12 bigdata  google  search 

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
FPGrowth ยังถือว่าเป็น“ สถานะของศิลปะ” ในการขุดแบบบ่อยๆหรือไม่?
เท่าที่ฉันรู้การพัฒนาอัลกอริทึมเพื่อแก้ปัญหาการทำเหมืองบ่อยรูปแบบ (FPM) ถนนของการปรับปรุงมีจุดตรวจหลักบางอย่าง ประการแรกอัลกอริทึมAprioriถูกเสนอในปี 1993 โดยAgrawal และคณะ พร้อมกับการทำให้เป็นทางการของปัญหา อัลกอริทึมก็สามารถที่จะดึงบางชุดออกมาจาก2^n - 1ชุด (powerset) โดยใช้ตาข่ายเพื่อรักษาข้อมูล ข้อเสียเปรียบของวิธีการคือต้องอ่านฐานข้อมูลใหม่เพื่อคำนวณความถี่ของแต่ละชุดที่ขยาย ต่อมาในปี 1997 Zaki และคณะ เสนออัลกอริทึมEclatซึ่งแทรกความถี่ผลลัพธ์ของแต่ละชุดไว้ในโครงตาข่าย สิ่งนี้กระทำโดยการเพิ่มที่แต่ละโหนดของโครงตาข่ายชุดของ transaction-id ที่มีไอเท็มจากรูทไปยังโหนดที่อ้างถึง การสนับสนุนหลักคือเราไม่จำเป็นต้องอ่านชุดข้อมูลทั้งหมดอีกครั้งเพื่อทราบความถี่ของแต่ละชุด แต่หน่วยความจำที่จำเป็นในการรักษาโครงสร้างข้อมูลดังกล่าวอาจมีขนาดเกินขนาดของชุดข้อมูลเอง ในปี 2000 ฮันและคณะ เสนออัลกอริทึมที่ชื่อว่าFPGrowthพร้อมกับโครงสร้างข้อมูลแบบต้นไม้คำนำหน้าชื่อ FPTree อัลกอริทึมสามารถให้การบีบอัดข้อมูลที่สำคัญในขณะเดียวกันก็อนุญาตว่าจะให้เฉพาะชุดไอเท็มที่ใช้บ่อยเท่านั้น (โดยไม่มีการสร้างชุดไอเท็มผู้สมัคร) สิ่งนี้ทำได้โดยการจัดเรียงรายการของแต่ละธุรกรรมในลำดับที่ลดลงเพื่อให้รายการที่พบบ่อยที่สุดคือรายการที่มีการซ้ำซ้อนน้อยที่สุดในโครงสร้างข้อมูลทรี เนื่องจากความถี่ลดลงเท่านั้นขณะที่สำรวจต้นไม้ในเชิงลึกอัลกอริทึมจึงสามารถตัดชุดรายการที่ไม่ได้ใช้บ่อย แก้ไข : เท่าที่ฉันรู้นี่อาจถือได้ว่าเป็นอัลกอริทึมที่ล้ำสมัย แต่ฉันอยากรู้เกี่ยวกับวิธีแก้ปัญหาอื่น ๆ มีอัลกอริธึมอื่นสำหรับ FPM ที่ถูกพิจารณาว่าเป็น "state-of-the-art" หรือไม่? อะไรคือสิ่งที่สัญชาตญาณ / หลักผลงานของอัลกอริทึมดังกล่าวหรือไม่ อัลกอริทึม FPGrowth ยังถือว่าเป็น "สถานะของศิลปะ" …

4
ทำงานกับกลุ่ม HPC
ในมหาวิทยาลัยของฉันเรามีกลุ่มคอมพิวเตอร์ HPC ฉันใช้คลัสเตอร์เพื่อฝึกตัวแยกประเภทและอื่น ๆ ดังนั้นโดยปกติจะส่งงานให้กับคลัสเตอร์ (เช่นงูหลาม scikit เรียนรู้สคริปต์) ผมต้องเขียนสคริปต์ทุบตีที่มี (อื่น) qsub script.pyคำสั่งเช่น อย่างไรก็ตามฉันพบว่ากระบวนการนี้น่าผิดหวังมาก โดยปกติสิ่งที่เกิดขึ้นคือฉันเขียนสคริปต์หลามบนแล็ปท็อปของฉันจากนั้นฉันลงชื่อเข้าใช้เซิร์ฟเวอร์และอัปเดตที่เก็บ SVN ดังนั้นฉันจึงได้รับสคริปต์หลามเดียวกัน จากนั้นฉันเขียนสคริปต์ Bash นั้นหรือแก้ไขเพื่อให้ฉันสามารถเรียกใช้สคริปต์ทุบตีได้ อย่างที่คุณเห็นสิ่งนี้น่าผิดหวังจริง ๆ สำหรับทุก ๆ การอัพเดทเล็กน้อยสำหรับสคริปต์ไพ ธ อนฉันต้องทำหลายขั้นตอนเพื่อให้มันทำงานที่คลัสเตอร์คอมพิวเตอร์ แน่นอนว่างานจะยิ่งซับซ้อนมากขึ้นเมื่อฉันต้องวางข้อมูลบนเซิร์ฟเวอร์และใช้เส้นทางของชุดข้อมูลบนเซิร์ฟเวอร์ ฉันแน่ใจว่าผู้คนจำนวนมากที่นี่กำลังใช้คอมพิวเตอร์คำนวณสำหรับงานด้านข้อมูล ฉันแค่อยากรู้ว่าพวกคุณจัดการส่งงานไปยังกลุ่มได้อย่างไร?

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
สิ่งใดเร็วกว่า: PostgreSQL vs MongoDB บนชุดข้อมูล JSON ขนาดใหญ่
ฉันมีชุดข้อมูลขนาดใหญ่ที่มีวัตถุ JSON ขนาด 9m ที่แต่ละอันมีขนาดประมาณ 300 ไบต์ ข้อความเหล่านี้เป็นบทความจากตัวรวบรวมลิงก์: โดยทั่วไปลิงก์ (URL, ชื่อและรหัสผู้แต่ง) และความคิดเห็น (ข้อความและ ID ผู้เขียน) + ข้อมูลเมตา พวกเขาอาจเป็นระเบียนเชิงสัมพันธ์ได้ดีในตารางยกเว้นข้อเท็จจริงที่ว่าพวกเขามีเขตข้อมูลแถวเดียวที่มีรหัสที่ชี้ไปยังระเบียนลูก การใช้งานแบบใดที่ดูแข็งแกร่งกว่านี้? วัตถุ JSON ในฐานข้อมูล PostgreSQL (เพียงหนึ่งตารางขนาดใหญ่ที่มีหนึ่งคอลัมน์คือวัตถุ JSON) วัตถุ JSON บน MongoDB ระเบิดวัตถุ JSON เป็นคอลัมน์และใช้อาร์เรย์ใน PostgreSQL ฉันต้องการเพิ่มประสิทธิภาพการรวมสูงสุดดังนั้นฉันสามารถนวดข้อมูลและสำรวจจนกว่าฉันจะพบการวิเคราะห์ที่น่าสนใจ ณ จุดนี้ฉันคิดว่ามันจะเป็นการดีกว่าที่จะแปลงข้อมูลให้เป็นรูปแบบเฉพาะสำหรับการวิเคราะห์แต่ละครั้ง

2
Scalable Outlier / Anomaly Detection
ฉันกำลังพยายามติดตั้งโครงสร้างพื้นฐานข้อมูลขนาดใหญ่โดยใช้ Hadoop, Hive, Elastic Search (รวมถึงอื่น ๆ ) และฉันต้องการเรียกใช้อัลกอริทึมบางอย่างกับชุดข้อมูลบางชุด ฉันต้องการอัลกอริทึมที่สามารถปรับขนาดได้ดังนั้นสิ่งนี้ไม่รวมการใช้เครื่องมือเช่น Weka, R หรือ RHadoop ควาญช้างห้องสมุด Apacheน่าจะเป็นตัวเลือกที่ดีและมันมีขั้นตอนวิธีการสำหรับงานที่ถดถอยและการจัดกลุ่ม สิ่งที่ฉันดิ้นรนเพื่อค้นหาเป็นวิธีการตรวจหาความผิดปกติหรือผิดปกติ เนื่องจาก Mahout นำเสนอ Hidden Markov Models และเทคนิคการจัดกลุ่มที่หลากหลาย (รวมถึง K-Means) ฉันสงสัยว่ามันจะเป็นไปได้ไหมที่จะสร้างแบบจำลองเพื่อตรวจจับค่าผิดปกติในอนุกรมเวลาโดยใช้สิ่งนี้ ฉันจะขอบคุณถ้าใครมีประสบการณ์เกี่ยวกับเรื่องนี้สามารถแนะนำฉัน ถ้าเป็นไปได้และในกรณีที่เป็น วิธีการทำรวมทั้ง การประเมินความพยายามที่เกี่ยวข้องและ ความแม่นยำ / ปัญหาของวิธีนี้

3
สเกลเทคนิคทางสถิติต่างๆ (การถดถอย PCA และอื่น ๆ ) มีขนาดตัวอย่างและมิติอย่างไร
มีตารางทั่วไปของเทคนิคทางสถิติที่อธิบายวิธีการวัดด้วยขนาดตัวอย่างและมิติหรือไม่ ตัวอย่างเช่นเพื่อนของฉันบอกฉันเมื่อวันก่อนว่าเวลาการคำนวณของการเรียงลำดับข้อมูลขนาดมิติหนึ่งไปอย่างรวดเร็วเป็น n * log (n) ตัวอย่างเช่นถ้าเราถอยหลัง y เทียบกับ X โดยที่ X เป็นตัวแปร d-dimension มันจะเป็น O (n ^ 2 * d) หรือไม่? มันจะขยายขนาดได้อย่างไรถ้าฉันต้องการหาวิธีแก้ปัญหาด้วยวิธี Gauss-Markov ที่แน่นอนเทียบกับกำลังสองน้อยที่สุดด้วยวิธีนิวตัน? หรือเพียงแค่หาวิธีแก้ปัญหาเทียบกับการใช้การทดสอบนัยสำคัญ? ฉันเดาว่าฉันต้องการแหล่งคำตอบที่ดีกว่า (เช่นกระดาษที่สรุปการปรับขนาดของเทคนิคทางสถิติต่าง ๆ ) มากกว่าคำตอบที่ดีที่นี่ เช่นพูดรายการที่มีการปรับสเกลของการถดถอยหลายครั้งการถดถอยโลจิสติก PCA การถดถอยอันตรายตามสัดส่วนของคอกซ์ K-หมายถึงการจัดกลุ่มเป็นต้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.