สถิติและข้อมูลขนาดใหญ่ machine-learning

3

วิธีการเลือกตัวแปรที่สำคัญอย่างรวดเร็วจากชุดข้อมูลที่มีขนาดใหญ่มาก?

ฉันมีชุดข้อมูลที่มีตัวแปรไบนารีประมาณ 2,000 ตัว / 200,000 แถวและฉันพยายามที่จะทำนายตัวแปรไบนารีที่ขึ้นต่อกันเพียงตัวเดียว เป้าหมายหลักของฉันในขั้นตอนนี้ไม่ได้รับความแม่นยำในการทำนาย แต่เพื่อระบุว่าตัวแปรใดเป็นตัวทำนายที่สำคัญ ฉันอยากจะลดจำนวนตัวแปรในตัวแบบสุดท้ายของฉันลงไปประมาณ 100 มีวิธีที่รวดเร็วในการรับตัวแปรที่สำคัญที่สุดหรือไม่? ป่าสุ่มดูเหมือนจะใช้เวลานาน ฉันไม่ต้องใช้การสังเกตทั้งหมด 200,000 ครั้งดังนั้นการสุ่มตัวอย่างจึงเป็นตัวเลือกบนโต๊ะ

9 machine-learning data-mining large-data

6

การทดสอบความเสถียรในอนุกรมเวลา

มีวิธีมาตรฐาน (หรือดีที่สุด) สำหรับการทดสอบเมื่ออนุกรมเวลาที่กำหนดมีความเสถียรหรือไม่? แรงจูงใจบางอย่าง ฉันมีระบบแบบไดนามิกสุ่มที่ผลค่าในแต่ละขั้นตอนเวลา{N} ระบบนี้มีพฤติกรรมชั่วคราวจนกว่าจะถึงขั้นตอนแล้วทำให้ค่าเฉลี่ยโดยมีข้อผิดพลาด ฉันไม่ทราบว่าเป็น ,หรือข้อผิดพลาดใด ๆ ฉันยินดีที่จะตั้งสมมติฐาน (เช่นข้อผิดพลาดแบบเกาส์รอบxเสื้อxเสื้อx_tt ∈ Nเสื้อ∈ยังไม่มีข้อความt \in \mathbb{N}เสื้อ* * * *เสื้อ* * * *t^*x* * * *x* * * *x^*เสื้อ* * * *เสื้อ* * * *t^*x* * * *x* * * *x^*x* * * *x* * * *x^*ตัวอย่างเช่น) แต่หากฉันต้องการสมมติฐานที่น้อยกว่าก็ยิ่งดี สิ่งเดียวที่ฉันรู้แน่นอนคือมีเพียงจุดเดียวที่ระบบเข้าหากันและความผันผวนรอบจุดคงที่นั้นเล็กกว่าความผันผวนในช่วงเวลาชั่วคราว กระบวนการนี้เป็นแบบ monotonic-ish ด้วยฉันสามารถสันนิษฐานได้ว่าเริ่มต้นใกล้และปีนขึ้นไปทาง …

9 time-series machine-learning

1

การถดถอยมุมน้อยทำให้ค่าสหสัมพันธ์ลดลงและโยงกัน?

ฉันพยายามที่จะแก้ปัญหาอย่างน้อยการถดถอยมุม (LAR) นี่เป็นปัญหา3.23ในหน้า97ของHastie et al., องค์ประกอบของการเรียนรู้ทางสถิติ, อันดับที่ 2 เอ็ด (พิมพ์ครั้งที่ 5) พิจารณาปัญหาการถดถอยกับตัวแปรทั้งหมดและการตอบสนองที่มีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานหนึ่ง สมมติว่าตัวแปรแต่ละตัวมีความสัมพันธ์แบบสัมบูรณ์เหมือนกันกับการตอบสนอง: 1ยังไม่มีข้อความ| ⟨xJ, y ⟩ | = λ , J = 1 , . . , p1N|⟨xj,y⟩|=λ,j=1,...,p \frac{1}{N} | \left \langle \bf{x}_j, \bf{y} \right \rangle | = \lambda, j = 1, ..., p ปล่อยเป็นสัมประสิทธิ์กำลังสองน้อยที่สุดของใน\ mathbf {X}และปล่อยให้\ mathbf {u} …

9 regression machine-learning correlation self-study

2

คำนวณ ROC curve สำหรับข้อมูล

ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

การเรียนรู้โครงสร้างของงานเสริมกำลังตามลำดับชั้น

ฉันได้เรียนรู้ปัญหาการเรียนรู้การเสริมแรงแบบลำดับชั้นและในขณะที่เอกสารจำนวนมากเสนออัลกอริทึมสำหรับการเรียนรู้นโยบายพวกเขาทั้งหมดดูเหมือนว่าพวกเขารู้ล่วงหน้าเกี่ยวกับโครงสร้างกราฟที่อธิบายลำดับชั้นของการกระทำในโดเมน ตัวอย่างเช่นวิธี MAXQ สำหรับการเรียนรู้การเสริมแรงแบบลำดับชั้นโดย Dietterich อธิบายกราฟของการกระทำและงานย่อยสำหรับโดเมนแท็กซี่ที่เรียบง่าย แต่ไม่ใช่วิธีการค้นพบกราฟนี้ คุณจะเรียนรู้ลำดับชั้นของกราฟนี้อย่างไรไม่ใช่แค่นโยบาย กล่าวอีกนัยหนึ่งโดยใช้ตัวอย่างของเอกสารหากรถแท็กซี่วิ่งไปรอบ ๆ อย่างไร้จุดหมายโดยที่มีความรู้มาก่อนเล็กน้อยเกี่ยวกับโลกและมีเพียงการกระทำแบบดั้งเดิมย้ายซ้าย / ขวา - ขวา / ฯลฯ ที่จะทำอย่างไร ไปรับส่งผู้โดยสาร? หากฉันเข้าใจกระดาษอย่างถูกต้อง (และฉันอาจไม่ใช่) มันจะเสนอวิธีการอัปเดตนโยบายสำหรับการดำเนินการระดับสูงเหล่านี้ แต่ไม่ใช่วิธีการที่พวกเขาเริ่มก่อตัวขึ้น

9 machine-learning

4

การคำนวณอัตราส่วนของข้อมูลตัวอย่างที่ใช้สำหรับการปรับแบบจำลอง / การฝึกอบรมและการตรวจสอบความถูกต้อง

ระบุขนาดตัวอย่าง "N" ที่ฉันวางแผนจะใช้ในการคาดการณ์ข้อมูล มีวิธีใดบ้างในการแบ่งข้อมูลเพื่อให้ฉันใช้บางวิธีเพื่อสร้างแบบจำลองและข้อมูลส่วนที่เหลือเพื่อตรวจสอบความถูกต้องของแบบจำลอง ฉันรู้ว่าไม่มีคำตอบขาวดำสำหรับเรื่องนี้ แต่มันน่าสนใจที่จะรู้ "กฎง่ายๆ" หรืออัตราส่วนที่ใช้ ฉันรู้จักมหาวิทยาลัยอีกครั้งหนึ่งในอาจารย์ของเราเคยพูดแบบจำลอง 60% และตรวจสอบความถูกต้อง 40%

9 machine-learning modeling sample validation

2

การใช้การตรวจสอบข้ามมีผลต่อผลลัพธ์หรือไม่

อย่างที่คุณทราบมีการตรวจสอบข้ามแบบนิยมสองประเภท K-fold และการสุ่มตัวอย่างแบบสุ่ม (ดังอธิบายในWikipedia ) อย่างไรก็ตามฉันรู้ว่านักวิจัยบางคนกำลังสร้างและตีพิมพ์เอกสารที่บางสิ่งที่อธิบายไว้ในฐานะ K-fold CV นั้นเป็นตัวอย่างย่อยแบบสุ่มดังนั้นในทางปฏิบัติคุณไม่เคยรู้ว่าจริงๆแล้วคืออะไรในบทความที่คุณกำลังอ่าน โดยปกติแล้วความแตกต่างนั้นไม่สามารถสังเกตเห็นได้และคำถามของฉันก็เป็นไปได้ไหม - คุณลองนึกถึงตัวอย่างเมื่อผลลัพธ์ของประเภทหนึ่งแตกต่างกันอย่างมีนัยสำคัญหรือไม่

9 machine-learning cross-validation

1

ความแตกต่างระหว่าง Naive Bayes กับ Recurrent Neural Network (LSTM)

ฉันต้องการที่จะทำการวิเคราะห์ความเชื่อมั่นในข้อความได้ผ่านหลายบทความบางคนกำลังใช้"Naive Bayes"และอื่น ๆ คือ"Recurrent Neural Network (LSTM)"ในทางกลับกันฉันได้เห็นห้องสมุดหลามสำหรับการวิเคราะห์ความเชื่อมั่นว่า คือ nltk มันใช้"Naive Bayes"ทุกคนสามารถอธิบายความแตกต่างระหว่างการใช้สองคนนี้ได้อย่างไร ฉันได้ผ่านโพสต์นี้ไปแล้ว แต่ไม่ชัดเจนเกี่ยวกับพวกเขาทั้งคู่ .. ความแตกต่างระหว่างเครือข่าย Bayes, โครงข่ายประสาทเทียม, ต้นไม้ตัดสินใจและมุ้ง Petri

8 machine-learning neural-networks python natural-language

คำถามติดแท็ก machine-learning