สถิติและข้อมูลขนาดใหญ่ algorithms

3

ฉันกำลังจะแนะนำตารางมาตรฐานมาตรฐานในชั้นเรียนสถิติเบื้องต้นของฉันและนั่นทำให้ฉันสงสัยว่า: ใครเป็นผู้สร้างตารางมาตรฐานมาตรฐานแรก พวกเขาทำมันอย่างไรก่อนที่คอมพิวเตอร์จะเข้ามา? ฉันตัวสั่นที่คิดว่าใครบางคนกำลังบังคับให้คำนวณผลรวมของ Riemann หนึ่งพันด้วยมือ

61 normal-distribution algorithms history tables

7

สุดยอดอัลกอริธึม PCA สำหรับฟีเจอร์มากมาย (> 10K)?

ก่อนหน้านี้ฉันเคยถามเรื่องนี้ใน StackOverflow แต่ดูเหมือนว่าอาจเหมาะสมกว่าที่นี่เนื่องจากไม่ได้รับคำตอบใด ๆ เกี่ยวกับ SO มันเป็นจุดตัดระหว่างสถิติกับการเขียนโปรแกรม ฉันต้องเขียนโค้ดบางอย่างเพื่อทำ PCA (การวิเคราะห์ส่วนประกอบหลัก) ฉันเรียกดูผ่านอัลกอริทึมที่รู้จักกันดีและใช้สิ่งนี้ซึ่งเท่าที่ฉันสามารถบอกได้เท่ากับอัลกอริทึม NIPALS มันใช้งานได้ดีสำหรับการค้นหาส่วนประกอบหลัก 2-3 ชิ้นแรก แต่ดูเหมือนจะช้ามากที่จะรวมกัน (ตามลำดับการทำซ้ำหลายร้อยถึงหลายพัน) นี่คือรายละเอียดของสิ่งที่ฉันต้องการ: อัลกอริทึมจะต้องมีประสิทธิภาพเมื่อจัดการกับคุณสมบัติจำนวนมาก (สั่ง 10,000 ถึง 20,000) และขนาดตัวอย่างตามลำดับไม่กี่ร้อย มันจะต้องสามารถนำไปใช้อย่างสมเหตุสมผลโดยไม่มีไลบรารี่พีชคณิตเชิงเส้น / เมทริกซ์ที่เหมาะสมเนื่องจากภาษาเป้าหมายคือ D ซึ่งยังไม่มีและแม้ว่ามันจะเป็นเช่นนั้นฉันก็ไม่ต้องการที่จะเพิ่มมันเป็นการพึ่งพาโครงการที่เป็นปัญหา . เป็นหมายเหตุด้านบนชุดข้อมูลเดียวกัน R ดูเหมือนว่าจะพบส่วนประกอบหลักทั้งหมดอย่างรวดเร็ว แต่ใช้การสลายตัวค่าเอกพจน์ซึ่งไม่ใช่สิ่งที่ฉันต้องการรหัสตัวเอง

54 pca algorithms model-evaluation high-dimensional

6

การถดถอยเชิงเส้นออนไลน์ที่มีประสิทธิภาพ

ฉันกำลังวิเคราะห์ข้อมูลบางอย่างที่ฉันต้องการทำการถดถอยเชิงเส้นปกติ แต่เป็นไปไม่ได้เมื่อฉันจัดการกับการตั้งค่าออนไลน์ด้วยการป้อนข้อมูลต่อเนื่อง (ซึ่งจะใหญ่เกินไปสำหรับหน่วยความจำ) และต้องการ เพื่ออัปเดตการประมาณการพารามิเตอร์ขณะนี้กำลังถูกใช้ไป เช่นฉันไม่สามารถโหลดทั้งหมดลงในหน่วยความจำและทำการถดถอยเชิงเส้นในชุดข้อมูลทั้งหมด ฉันสมมติว่าตัวแบบการถดถอยเชิงเส้นหลายตัวแปรเชิงเส้นคือ y=Ax+b+ey=Ax+b+e\mathbf y = \mathbf A\mathbf x + \mathbf b + \mathbf e อัลกอริทึมที่ดีที่สุดสำหรับการสร้างการประเมินการอัปเดตอย่างต่อเนื่องของพารามิเตอร์การถดถอยเชิงเส้นและคืออะไร?ขAA\mathbf Abb\mathbf b จะเป็นการดี: ฉันต้องการอัลกอริทึมที่มีพื้นที่ว่างและเวลามากที่สุดต่อการอัปเดตโดยที่คือขนาดของตัวแปรอิสระ ( ) และคือขนาดของตัวแปรตาม ( )N x M yO(N⋅M)O(N⋅M)\mathcal O(N\cdot M)NNNxx\mathbf xMMMyy\mathbf y ฉันต้องการที่จะสามารถระบุพารามิเตอร์บางอย่างเพื่อกำหนดจำนวนพารามิเตอร์ที่มีการปรับปรุงโดยตัวอย่างใหม่แต่ละตัวอย่างเช่น 0.000001 จะหมายความว่าตัวอย่างต่อไปจะให้หนึ่งในล้านของการประมาณค่าพารามิเตอร์ สิ่งนี้จะทำให้การสลายตัวแบบเลขชี้กำลังสำหรับผลกระทบของกลุ่มตัวอย่างในอดีตอันไกลโพ้น

53 time-series regression algorithms real-time

9

การวัดเอนโทรปี / ข้อมูล / รูปแบบของเมทริกซ์ไบนารี 2d

ฉันต้องการวัดความหนาแน่นของข้อมูลเอนโทรปี / ข้อมูล / รูปแบบความคล้ายคลึงของเมทริกซ์ไบนารีสองมิติ ให้ฉันแสดงภาพเพื่อความกระจ่าง: จอแสดงผลนี้ควรมีเอนโทรปีค่อนข้างสูง: A) สิ่งนี้ควรมีเอนโทรปีปานกลาง: B) ในที่สุดภาพเหล่านี้ทั้งหมดควรมีค่าใกล้ศูนย์ - เอนโทรปี: C) D) E) มีดัชนีที่จับเอนโทรปีหรือไม่ "รูปแบบเหมือนกัน" ของจอแสดงผลเหล่านี้คืออะไร? แน่นอนว่าอัลกอริทึมแต่ละตัว (เช่นอัลกอริธึมการบีบอัดหรืออัลกอริทึมการหมุนที่เสนอโดย ttnphns ) นั้นไวต่อคุณสมบัติอื่น ๆ ของจอแสดงผล ฉันกำลังมองหาอัลกอริทึมที่พยายามจับภาพคุณสมบัติต่อไปนี้: สมมาตรการหมุนและแกน ปริมาณของการทำคลัสเตอร์ ซ้ำ อาจจะซับซ้อนกว่านี้อัลกอริทึมอาจมีความอ่อนไหวต่อคุณสมบัติของจิตวิทยา " หลักการเกสตัลต์ " โดยเฉพาะ: กฎหมายของความใกล้ชิด: กฎแห่งความสมมาตร: ภาพสมมาตรถูกรับรู้ร่วมกันแม้จะอยู่ในระยะไกล: แสดงด้วยคุณสมบัติเหล่านี้ควรได้รับการกำหนด "ค่าเอนโทรปีต่ำ"; จอแสดงผลที่มีคะแนนค่อนข้างสุ่ม / ไม่มีโครงสร้างควรได้รับการกำหนด "ค่าเอนโทรปีสูง" ฉันทราบว่าอาจไม่มีอัลกอริทึมเดียวที่จะจับภาพคุณลักษณะเหล่านี้ทั้งหมด ดังนั้นคำแนะนำสำหรับอัลกอริทึมที่กล่าวถึงเพียงคุณลักษณะบางอย่างหรือแม้แต่คุณสมบัติเดียวก็ยินดีต้อนรับเช่นกัน โดยเฉพาะอย่างยิ่งฉันกำลังมองหาที่เป็นรูปธรรมอัลกอริทึมที่มีอยู่หรือความคิดที่นำไปใช้เฉพาะ (และฉันจะให้รางวัลตามเกณฑ์เหล่านี้)

53 algorithms binary-data entropy pattern-recognition information

7

การตรวจหาช่วงเวลาของอนุกรมเวลาทั่วไป

โพสต์นี้เป็นความต่อเนื่องของโพสต์อื่นที่เกี่ยวข้องกับการเป็นวิธีการทั่วไปสำหรับการตรวจสอบค่าผิดปกติในอนุกรมเวลา โดยทั่วไป ณ จุดนี้ฉันสนใจวิธีที่มีประสิทธิภาพในการค้นพบช่วงเวลา / ฤดูกาลของซีรีย์เวลาทั่วไปที่ได้รับผลกระทบจากเสียงรบกวนมากมาย จากมุมมองของนักพัฒนาฉันต้องการอินเทอร์เฟซที่เรียบง่ายเช่น: unsigned int discover_period(vector<double> v); vอาร์เรย์ที่มีตัวอย่างอยู่ที่ไหนและค่าส่งคืนคือช่วงเวลาของสัญญาณ ประเด็นหลักคืออีกครั้งฉันไม่สามารถทำการสันนิษฐานเกี่ยวกับสัญญาณที่วิเคราะห์ได้ ฉันลองใช้วิธีการโดยอิงตามสัญญาณอัตโนมัติ (การตรวจจับจุดยอดของ correlogram) แล้ว แต่ก็ไม่แข็งแกร่งเท่าที่ฉันต้องการ

53 time-series algorithms frequency real-time

10

อัลกอริทึมที่ดีสำหรับการประมาณค่ามัธยฐานของชุดข้อมูลที่อ่านครั้งเดียวขนาดใหญ่คืออะไร?

ฉันกำลังมองหาอัลกอริทึมที่ดี (หมายถึงการคำนวณขั้นต่ำสุดข้อกำหนดด้านการจัดเก็บขั้นต่ำ) เพื่อประมาณค่ามัธยฐานของชุดข้อมูลที่ใหญ่เกินกว่าจะจัดเก็บได้เช่นว่าแต่ละค่าสามารถอ่านได้ครั้งเดียวเท่านั้น ไม่มีขอบเขตของข้อมูลที่สามารถสันนิษฐานได้ การประมาณนั้นดีตราบใดที่ทราบความแม่นยำ ตัวชี้ใด ๆ

47 algorithms median large-data

5

การใช้งานที่เพิ่มประสิทธิภาพของอัลกอริทึมป่าสุ่ม

ฉันได้สังเกตเห็นว่ามีการใช้งานไม่กี่ของป่าสุ่มเช่น ALGLIB, วาฟเฟิลและบางส่วนแพคเกจ R randomForestเช่น ใครช่วยบอกฉันได้ไหมว่าห้องสมุดเหล่านี้ได้รับการปรับให้เหมาะสมที่สุดหรือไม่? โดยพื้นฐานแล้วพวกเขาเทียบเท่ากับป่าสุ่มตามรายละเอียดในองค์ประกอบของการเรียนรู้ทางสถิติหรือมีเทคนิคพิเศษมากมายหรือไม่? ฉันหวังว่าคำถามนี้เฉพาะเจาะจงเพียงพอ เป็นตัวอย่างของประเภทของคำตอบที่ฉันกำลังมองหาถ้ามีคนถามฉันว่าแพคเกจพีชคณิตเชิงเส้น BLAS ได้รับการปรับให้เหมาะสมที่สุดฉันจะบอกว่ามันได้รับการปรับปรุงอย่างมากและส่วนใหญ่ไม่คุ้มค่าที่จะพยายามปรับปรุง

44 random-forest algorithms model-evaluation

5

ความแตกต่างระหว่างอัลกอริทึมไปข้างหน้าถอยหลังและ Viterbi คืออะไร

ฉันต้องการทราบว่าความแตกต่างระหว่างอัลกอริทึมไปข้างหน้าถอยหลังและอัลกอริทึม Viterbiสำหรับการอนุมานในโมเดล Markov ที่ซ่อนอยู่ (HMM) คืออะไร

44 algorithms hidden-markov-model viterbi-algorithm forward-backward

6

ขั้นตอนวิธีใดที่ใช้ในการถดถอยเชิงเส้น

ฉันมักจะได้ยินเกี่ยวกับ "กำลังสองน้อยที่สุดธรรมดา" นั่นเป็นอัลกอริทึมที่ใช้กันอย่างแพร่หลายที่สุดสำหรับการถดถอยเชิงเส้นหรือไม่? มีเหตุผลที่จะใช้อันอื่นหรือไม่?

42 regression least-squares algorithms computational-statistics numerics

3

อะไรคือความแตกต่างระหว่างโมเดลมาร์คอฟที่ซ่อนอยู่กับเครือข่ายประสาทเทียม

ฉันแค่ทำให้เท้าของฉันเปียกในสถิติดังนั้นฉันขอโทษถ้าคำถามนี้ไม่สมเหตุสมผล ฉันใช้โมเดลของมาร์คอฟเพื่อทำนายสถานะที่ซ่อนอยู่ (คาสิโนที่ไม่เป็นธรรมลูกเต๋าทอย ฯลฯ ) และเครือข่ายประสาทเทียมเพื่อศึกษาการคลิกของผู้ใช้ในเครื่องมือค้นหา ทั้งสองมีสถานะซ่อนเร้นที่เราพยายามคิดโดยใช้การสังเกต เพื่อความเข้าใจของฉันพวกเขาทั้งคู่ทำนายสถานะซ่อนเร้นดังนั้นฉันสงสัยว่าเมื่อไหร่จะใช้โมเดลมาร์คอฟผ่านเครือข่ายประสาท พวกเขามีวิธีการที่แตกต่างกันสำหรับปัญหาที่คล้ายกันหรือไม่ (ฉันสนใจที่จะเรียนรู้ แต่ฉันก็มีแรงจูงใจอีกอย่างฉันมีปัญหาที่ฉันพยายามแก้ไขโดยใช้โมเดลของมาร์คอฟที่ซ่อนอยู่ แต่มันทำให้ฉันเป็นบ้า

40 data-mining algorithms neural-networks markov-process

6

ประมาณ

ฉันได้ดูการจำลอง Monte Carlo เมื่อเร็ว ๆ นี้และได้ใช้มันกับค่าคงที่โดยประมาณเช่นππ\pi (วงกลมภายในสี่เหลี่ยมมุมฉากสัดส่วนตามสัดส่วน) อย่างไรก็ตามฉันไม่สามารถคิดถึงวิธีการที่สอดคล้องกันในการประมาณค่าของeee [หมายเลขของออยเลอร์] โดยใช้การรวม Monte Carlo คุณมีพอยน์เตอร์เกี่ยวกับวิธีการนี้สามารถทำได้หรือไม่?

35 simulation monte-carlo algorithms random-generation numerical-integration

6

การขุดข้อมูล: ฉันจะหารูปแบบการใช้งานได้อย่างไร?

ฉันอยากรู้เกี่ยวกับขั้นตอนการทำซ้ำที่สามารถใช้เพื่อค้นหารูปแบบการทำงานของฟังก์ชัน y = f(A, B, C) + error_termที่การป้อนข้อมูลของฉันเท่านั้นเป็นชุดของการสังเกต ( y, A, BและC) โปรดทราบว่ารูปแบบการทำงานของfไม่เป็นที่รู้จัก พิจารณาชุดข้อมูลต่อไปนี้: AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 …

34 regression machine-learning algorithms model-selection data-mining

1

ความแตกต่างระหว่างอัลกอริธึมมาตรฐานและทรงกลม k-mean

ฉันต้องการเข้าใจว่าอะไรคือความแตกต่างที่สำคัญในการใช้งานระหว่างอัลกอริธึมการจัดกลุ่ม k-Mean แบบมาตรฐานและทรงกลม ในแต่ละขั้นตอน k-หมายถึงคำนวณระยะทางระหว่างเวกเตอร์องค์ประกอบและเซนทรอยด์ของคลัสเตอร์และกำหนดเอกสารให้กับคลัสเตอร์นี้อีกครั้งซึ่งเซนทรอยด์อยู่ใกล้ที่สุด จากนั้นเซนทรอยด์ทั้งหมดจะถูกคำนวณใหม่ ในรูป k k- หมายถึงเวกเตอร์ทั้งหมดจะถูกทำให้เป็นมาตรฐานและการวัดระยะทางเป็นความแตกต่างของโคไซน์ นั่นคือทั้งหมดหรือมีอย่างอื่นหรือไม่

28 clustering data-mining algorithms k-means

3

ขั้นตอนวิธีโจรที่ดีที่สุด?

อัลกอริทึมโจรที่รู้จักกันดีที่สุดคือขอบเขตความเชื่อมั่นสูงสุด (UCB) ซึ่งเป็นที่นิยมของอัลกอริทึมระดับนี้ ตั้งแต่นั้นมาฉันคิดว่าตอนนี้มีอัลกอริทึมที่ดีกว่า อัลกอริทึมที่ดีที่สุดในปัจจุบันคืออะไร (ในแง่ของประสิทธิภาพเชิงประจักษ์หรือขอบเขตทางทฤษฎี) อัลกอริทึมนี้เหมาะสมที่สุดในแง่หนึ่งหรือไม่?

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

1

จะกำหนดเงื่อนไขการยกเลิกสำหรับการไล่ระดับสีได้อย่างไร

ที่จริงแล้วฉันอยากถามคุณว่าฉันจะกำหนดเงื่อนไขการยุติสำหรับการไล่ระดับสีได้อย่างไร ฉันสามารถหยุดมันตามจำนวนการวนซ้ำได้หรือไม่เช่นการพิจารณาค่าพารามิเตอร์สำหรับการพูดการวนซ้ำ 100 ครั้ง หรือฉันควรรอดังกล่าวที่แตกต่างกันในค่าพารามิเตอร์ที่สอง 'ใหม่' และ 'เก่า' ที่มีขนาดเล็กมากที่จะสั่งของให้พูด ? นี้จะใช้เวลาแน่นอน10- 610-610^{-6} วิธีที่ดีที่สุดคืออะไร? ในกรณีของฉันการทำซ้ำแม้แต่ครั้งเดียวก็ใช้เวลามาก ในสถานการณ์เช่นนี้หากฉันรอเงื่อนไขที่ 2 อาจต้องใช้เวลาหลายสัปดาห์กว่าที่ฉันจะเดาได้ ดังนั้นฉันควรใช้วิธีใด วิธีจัดการกับสถานการณ์นี้

24 algorithms optimization gradient-descent

คำถามติดแท็ก algorithms