สถิติและข้อมูลขนาดใหญ่

1

ตัวอย่างทีละขั้นตอนของการสร้างความแตกต่างโดยอัตโนมัติในโหมดย้อนกลับ

ไม่แน่ใจว่าคำถามนี้อยู่ที่นี่หรือไม่ แต่เป็นเรื่องที่เกี่ยวข้องกับวิธีการไล่ระดับสีในการปรับให้เหมาะสมซึ่งดูเหมือนจะอยู่ในหัวข้อที่นี่ อย่างไรก็ตามคุณสามารถโยกย้ายได้ถ้าคุณคิดว่าชุมชนอื่นมีความเชี่ยวชาญในหัวข้อนี้มากกว่า ในระยะสั้นฉันกำลังมองหาตัวอย่างขั้นตอนโดยขั้นตอนของโหมดกลับแตกต่างอัตโนมัติ มีวรรณกรรมไม่มากในหัวข้อที่มีและการใช้งานที่มีอยู่ (เช่นใน TensorFlow ) ยากที่จะเข้าใจโดยไม่ทราบทฤษฎีที่อยู่เบื้องหลัง ดังนั้นฉันจะขอบคุณมากถ้ามีคนสามารถแสดงรายละเอียดสิ่งที่เราส่งผ่านวิธีที่เราดำเนินการและสิ่งที่เรานำออกจากกราฟการคำนวณ สองคำถามที่ฉันมีปัญหากับ: เมล็ด - ทำไมเราต้องการพวกเขาทั้งหมด ย้อนกลับกฎความแตกต่าง - ฉันรู้วิธีสร้างความแตกต่างไปข้างหน้า แต่เราจะย้อนกลับได้อย่างไร เช่นในตัวอย่างจากส่วนนี้อย่างไรเรารู้ว่าw2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1 ? เราจะทำงานกับสัญลักษณ์เท่านั้นหรือส่งผ่านค่าจริงหรือไม่ เช่นในตัวอย่างเดียวกันเป็นwiwiw_iและwi¯wi¯\bar{w_i}สัญลักษณ์หรือค่า?

27 optimization derivative tensorflow automatic-differentiation

5

ฟังก์ชั่นการคูณโดยประมาณของโครงข่ายใยประสาทเทียมโดยที่ไม่สามารถทำให้เป็นมาตรฐานได้หรือไม่?

สมมติว่าเราต้องการถดถอยอย่างง่ายf = x * yโดยใช้เครือข่ายโครงข่ายประสาทในระดับลึก ฉันจำได้ว่ามี reseraches ที่บอกว่า NN ที่มีหนึ่ง hiden layer สามารถ apoximate ฟังก์ชั่นใด ๆ ได้ แต่ฉันได้ลองและไม่มี normalization NN ก็ไม่สามารถประมาณได้แม้แต่การคูณง่าย ๆ นี้ บันทึกการทำข้อมูลให้เป็นมาตรฐานเท่านั้นช่วยm = x*y => ln(m) = ln(x) + ln(y). แต่ดูเหมือนว่าโกง NN สามารถทำสิ่งนี้โดยไม่ใช้บันทึกการทำให้เป็นมาตรฐานได้หรือไม่? เห็นได้ชัดว่า unswer (สำหรับฉัน) - ใช่แล้วดังนั้นคำถามคือสิ่งที่ควรเป็นประเภท / การกำหนดค่า / รูปแบบของ NN เช่นนั้น?

27 regression machine-learning neural-networks deep-learning

4

วิธีการกำหนดเกณฑ์ที่เหมาะสมที่สุดสำหรับลักษณนามและสร้างเส้นโค้ง ROC?

สมมติว่าเรามีตัวจําแนก SVM เราจะสร้าง ROC curve ได้อย่างไร (เหมือนในทางทฤษฎี) (เพราะเราสร้าง TPR และ FPR ด้วยแต่ละเกณฑ์) และเราจะกำหนดเกณฑ์ที่เหมาะสมที่สุดสำหรับตัวจําแนก SVM นี้ได้อย่างไร

27 machine-learning svm

1

การศึกษาระเหยคืออะไร? และมีวิธีที่เป็นระบบในการแสดงหรือไม่?

การศึกษาระเหยคืออะไร? และมีวิธีที่เป็นระบบในการแสดงหรือไม่? ตัวอย่างเช่นฉันมีตัวทำนายในการถดถอยเชิงเส้นซึ่งฉันจะเรียกว่าเป็นแบบจำลองของฉันnnn ฉันจะทำการศึกษาระเหยด้วยวิธีนี้ได้อย่างไร? ฉันควรใช้การวัดใด แหล่งที่มาที่ครอบคลุมหรือตำราเรียนจะได้รับการชื่นชม

27 regression machine-learning neural-networks

1

เหตุใด PCA จึงไวต่อผู้ผิด

มีโพสต์มากมายใน SE นี้ที่กล่าวถึงวิธีการที่แข็งแกร่งในการวิเคราะห์องค์ประกอบหลัก (PCA) แต่ฉันไม่สามารถหาคำอธิบายที่ดีเพียงข้อเดียวว่าทำไม PCA จึงไวต่อผู้ผิดกฎหมายในตอนแรก

26 machine-learning pca outliers

7

ลูกเต๋าสองลูกหมุน - หมายเลขเดียวกันตามลำดับ

ฉันกำลังเรียนสถิติอนุมานบน Coursera หนึ่งในการมอบหมายคำถามต่อไปนี้เกิดขึ้น | Suppose you rolled the fair die twice. What is the probability of rolling the same number two times in a row? 1: 2/6 2: 1/36 3: 0 4: 1/6 Selection: 2 | You're close...I can feel it! Try it again. | Since we don't care what …

26 probability self-study conditional-probability

1

สัญลักษณ์คลาสสิคในสถิติพีชคณิตเชิงเส้นและการเรียนรู้ของเครื่องคืออะไร และการเชื่อมต่อระหว่างสัญลักษณ์เหล่านี้คืออะไร?

เมื่อเราอ่านหนังสือการทำความเข้าใจสัญลักษณ์มีบทบาทสำคัญในการทำความเข้าใจเนื้อหา น่าเสียดายที่ชุมชนต่าง ๆ มีระเบียบแบบสัญกรณ์ต่างกันสำหรับการกำหนดสูตรในแบบจำลองและปัญหาการปรับให้เหมาะสม คนใดคนหนึ่งสามารถสรุปการกำหนดสูตรบางอย่างที่นี่และให้เหตุผลที่เป็นไปได้? ฉันจะให้ตัวอย่างที่นี่: ในวรรณคดีพีชคณิตเชิงเส้นหนังสือคลาสสิกแปลกเบื้องต้นเกี่ยวกับพีชคณิตเชิงเส้น สัญกรณ์ที่ใช้มากที่สุดในหนังสือเล่มนี้คือ Ax=bAx=b A x=b ที่ไหนเป็นเมทริกซ์ค่าสัมประสิทธิ์ ,เป็นตัวแปรที่จะแก้ไขและเป็นเวกเตอร์บนด้านขวาของสมการ เหตุผลหนังสือเลือกสัญกรณ์นี้เป็นเป้าหมายหลักของพีชคณิตเชิงเส้นคือการแก้ระบบเชิงเส้นและคิดออกว่าเป็นเวกเตอร์xด้วยการกำหนดสูตรดังกล่าวปัญหาการเพิ่มประสิทธิภาพของ OLS คือAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 ในสถิติหรือการเรียนรู้ด้วยเครื่อง (จากองค์ประกอบของหนังสือของการเรียนรู้ทางสถิติ ) ผู้คนใช้สัญลักษณ์ที่แตกต่างกันเพื่อแสดงสิ่งเดียวกัน: Xβ=yXβ=yX \beta= y ที่ไหนXXXเป็นเมทริกซ์ข้อมูล , ββ\betaเป็นค่าสัมประสิทธิ์หรือน้ำหนักที่จะเรียนรู้การเรียนรู้ , yyyคือการตอบสนอง เหตุผลที่คนใช้นี้เป็นเพราะคนที่อยู่ในสถิติหรือชุมชนการเรียนรู้เครื่องข้อมูลการขับเคลื่อนเพื่อให้ข้อมูลและตอบสนองเป็นสิ่งที่น่าสนใจที่สุดสำหรับพวกเขาที่พวกเขาใช้XXXและyyyที่จะเป็นตัวแทน ตอนนี้เราสามารถเห็นความสับสนที่เป็นไปได้ทั้งหมด: AAAในสมการแรกเหมือนกับXXXในสมการที่สอง และในสมการที่สองXXXไม่จำเป็นต้องมีการแก้ไข สำหรับข้อกำหนด: AAAคือเมทริกซ์สัมประสิทธิ์ในพีชคณิตเชิงเส้น แต่เป็นข้อมูลในสถิติ ββ\betaถูกเรียกว่า "สัมประสิทธิ์" นอกจากนี้ฉันพูดถึงXβ=yXβ=yX \beta=yไม่ใช่สิ่งที่ผู้คนใช้กันอย่างแพร่หลายในการเรียนรู้ของเครื่องจักรคนใช้เวอร์ชันเวกเตอร์ครึ่งหนึ่งที่สรุปจุดข้อมูลทั้งหมด เช่น min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) …

26 machine-learning probability self-study optimization

3

ทำไม Beta / Dirichlet Regression ไม่ถือว่าเป็นแบบจำลองเชิงเส้นทั่วไป

หลักฐานเป็นคำพูดนี้จากบทความของแพคเกจ R 1betareg ยิ่งไปกว่านั้นโมเดลยังมีคุณสมบัติบางอย่าง (เช่นตัวทำนายเชิงเส้นฟังก์ชันลิงก์พารามิเตอร์การกระจาย) กับโมเดลเชิงเส้นทั่วไป (GLMs; McCullagh และ Nelder 1989) แต่มันไม่ใช่กรณีพิเศษของกรอบนี้ ) คำตอบนี้ยังพูดพาดพิงถึงความจริง: [... ] นี่คือรูปแบบการถดถอยที่เหมาะสมเมื่อตัวแปรการตอบสนองถูกแจกจ่ายเป็นเบต้า คุณสามารถคิดว่ามัน คล้ายกับโมเดลเชิงเส้นทั่วไป มันคือสิ่งที่คุณกำลังมองหา [... ] (เน้นที่เหมือง) ชื่อคำถามบอกว่ามันทั้งหมด: ทำไม Beta / Dirichlet Regression ไม่ถือเป็นแบบจำลองเชิงเส้นแบบทั่วไป (ไม่ใช่แบบ) เท่าที่ฉันรู้เจนเนอรัลลิสโมเดลเชิงเส้นกำหนดโมเดลที่สร้างขึ้นจากความคาดหวังของตัวแปรตามที่พวกเขามีเงื่อนไขในแบบอิสระ fffคือฟังก์ชันลิงก์ที่จับคู่ความคาดหวัง,คือการแจกแจงความน่าจะเป็น,ผลลัพธ์และการทำนาย,คือพารามิเตอร์เชิงเส้นและความแปรปรวนY X บีตาσ 2gggYYYXXXββ\betaσ2σ2\sigma^2 f(E(Y∣X))∼g(βX,Iσ2)f(E(Y∣X))∼g(βX,Iσ2)f\left(\mathbb E\left(Y\mid X\right)\right) \sim g(\beta X, I\sigma^2) GLM ที่แตกต่างกันกำหนด (หรือผ่อนคลาย) ความสัมพันธ์ระหว่างค่าเฉลี่ยและความแปรปรวน แต่ต้องเป็นการกระจายความน่าจะเป็นในตระกูลเลขชี้กำลังซึ่งเป็นสมบัติที่พึงประสงค์ซึ่งควรปรับปรุงความทนทานของการประมาณค่าหากฉันจำได้ถูกต้อง การแจกแจงรุ่นเบต้าและดิริชเล็ตเป็นส่วนหนึ่งของตระกูลเอ็กซ์โพเนนเชียลggg [1] …

26 generalized-linear-model beta-regression dirichlet-regression

5

ทำไมเราถึงต้องใช้สแควร์รูทของความแปรปรวนเพื่อสร้างความเบี่ยงเบนมาตรฐาน

ขออภัยหากมีการตอบที่อื่นฉันไม่สามารถหาได้ ฉันสงสัยว่าทำไมเราถึงใช้สแควร์รูทโดยเฉพาะความแปรปรวนเพื่อสร้างส่วนเบี่ยงเบนมาตรฐาน มันเกี่ยวกับการรากที่สองที่สร้างมูลค่าที่มีประโยชน์คืออะไร?

26 variance standard-deviation

1

เหตุใดการเปิดใช้งานที่ไม่อยู่กึ่งกลางจึงไม่เกิดปัญหาในการกระจายข้อความ?

ฉันอ่านที่นี่ต่อไปนี้: เอาท์พุท sigmoid จะไม่เป็นศูนย์เป็นศูนย์กลาง สิ่งนี้ไม่เป็นที่พึงปรารถนาเนื่องจากเซลล์ประสาทในชั้นถัดไปของการประมวลผลในเครือข่ายประสาท (เพิ่มเติมในเร็ว ๆ นี้) จะได้รับข้อมูลที่ไม่ได้อยู่กึ่งกลาง เรื่องนี้มีผลกระทบต่อการเปลี่ยนแปลงในระหว่างการสืบเชื้อสายการไล่ระดับสีเพราะถ้าข้อมูลที่เข้ามาในเซลล์ประสาทเป็นบวกเสมอ (เช่นx > 0x>0x > 0 elementwise ใน )) จากนั้นการไล่ระดับน้ำหนักที่ จะระหว่าง backpropagation ทั้งหมดเป็นบวกหรือลบทั้งหมด (ขึ้นอยู่กับความชันของการแสดงออกทั้งหมด ฉ= wTx + bฉ=WTx+ขf = w^Tx + bWWwฉฉf) สิ่งนี้สามารถแนะนำพลวัตซิกซิกซิกที่ไม่พึงประสงค์ในการปรับปรุงการไล่ระดับสีสำหรับตุ้มน้ำหนัก อย่างไรก็ตามโปรดสังเกตว่าเมื่อมีการเพิ่มการไล่ระดับสีเหล่านี้ข้ามชุดข้อมูลการปรับปรุงขั้นสุดท้ายสำหรับตุ้มน้ำหนักอาจมีสัญญาณตัวแปรซึ่งจะช่วยบรรเทาปัญหานี้ได้บ้าง ดังนั้นนี่เป็นความไม่สะดวก แต่มีผลกระทบรุนแรงน้อยกว่าเมื่อเทียบกับปัญหาการเปิดใช้งานอิ่มตัวด้านบน ทำไมจะมีทั้งหมด (elementwise) นำไปสู่การบวกทั้งหมดหรือการไล่ระดับสีทั้งหมดในทางลบต่อ ?x > 0x>0x>0WWw

26 neural-networks deep-learning backpropagation

3

เหตุผลของ Bayesian สำหรับการวิเคราะห์สิทธิพิเศษดำเนินการเร็วกว่าการวิเคราะห์อื่น ๆ

พื้นหลังและตัวอย่างเชิงประจักษ์ ฉันมีสองการศึกษา ฉันทำการทดลอง (การศึกษา 1) แล้วทำซ้ำ (การศึกษา 2) ในการศึกษา 1 ฉันพบปฏิสัมพันธ์ระหว่างสองตัวแปร ในการศึกษา 2 ปฏิสัมพันธ์นี้เป็นไปในทิศทางเดียวกัน แต่ไม่มีนัยสำคัญ นี่คือบทสรุปสำหรับโมเดลของ Study 1: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.75882 0.26368 21.840 < 2e-16 *** condSuppression -1.69598 0.34549 -4.909 1.94e-06 *** prej -0.01981 0.08474 -0.234 0.81542 condSuppression:prej 0.36342 0.11513 3.157 0.00185 ** และรูปแบบการศึกษา …

26 bayesian

6

จะเลือกระหว่างคะแนน ROC AUC และ F1 ได้อย่างไร

ฉันเพิ่งเสร็จสิ้นการแข่งขัน Kaggle ซึ่งใช้คะแนน roc auc ตามข้อกำหนดการแข่งขัน ก่อนหน้าโครงการนี้ปกติฉันใช้คะแนน f1 เป็นตัวชี้วัดเพื่อวัดประสิทธิภาพของแบบจำลอง ก้าวไปข้างหน้าฉันสงสัยว่าฉันควรเลือกระหว่างสองเมตริกเหล่านี้อย่างไร เมื่อใดควรใช้สิ่งไหนและข้อดีและข้อเสียของพวกเขาคืออะไร แต่ฉันอ่านบทความที่นี่อะไรคือความแตกต่างระหว่างคะแนน AUC และ F1 แต่มันไม่ได้บอกฉันว่าจะใช้เมื่อไหร่ ขอบคุณล่วงหน้าสำหรับความช่วยเหลือใด ๆ !

26 machine-learning modeling roc scoring-rules

5

ทฤษฎีความน่าจะเป็นเป็นการศึกษาฟังก์ชั่นที่ไม่เป็นลบซึ่งรวม / รวมเป็นหนึ่งหรือไม่?

นี่อาจเป็นคำถามที่โง่ แต่ทฤษฎีความน่าจะเป็นคือการศึกษาฟังก์ชั่นที่รวม / รวมเข้ากับหนึ่งหรือไม่? แก้ไข ฉันลืมว่าไม่ได้ปฏิเสธ ทฤษฎีความน่าจะเป็นดังนั้นการศึกษาฟังก์ชั่นที่ไม่ใช่ลบที่รวมเข้ากับผลรวมเป็นหนึ่ง

26 probability mathematical-statistics measure-theory

2

อัลฟาในการแจกแจงดิริชเลตคืออะไร?

ฉันค่อนข้างใหม่กับสถิติแบบเบย์และฉันได้พบกับการวัดความสัมพันธ์ที่ถูกต้องคือSparCCที่ใช้กระบวนการ Dirichlet ในส่วนหลังของอัลกอริทึม ฉันได้ลองใช้อัลกอริทึมทีละขั้นตอนเพื่อเข้าใจสิ่งที่เกิดขึ้นจริง ๆ แต่ฉันไม่แน่ใจว่าสิ่งที่alphaพารามิเตอร์เวกเตอร์ในการแจกแจง Dirichlet และวิธีการปกติalphaเวกเตอร์พารามิเตอร์? การดำเนินการอยู่ในPythonการใช้NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html เอกสารบอกว่า: alpha: array พารามิเตอร์ของการแจกแจง (k มิติสำหรับตัวอย่างของมิติ k) คำถามของฉัน: การalphasกระจายมีผลกระทบอย่างไร?; การเป็นalphasปกติได้อย่างไร?; และ จะเกิดอะไรขึ้นเมื่อalphasไม่ใช่จำนวนเต็ม? import numpy as np import pandas as pd import matplotlib.pyplot as plt # Reproducibility np.random.seed(0) # Integer values for alphas alphas = np.arange(10) # array([0, 1, 2, 3, …

26 distributions bayesian dirichlet-distribution

3

R caret และ NAs

ฉันชอบคาเร็ตมากสำหรับความสามารถในการปรับแต่งพารามิเตอร์และอินเทอร์เฟซที่เหมือนกัน แต่ฉันสังเกตว่ามันต้องการชุดข้อมูลที่สมบูรณ์เสมอ (เช่นไม่มี NA) แม้ว่าโมเดล "เปลือยกาย" ที่ใช้จะอนุญาต NA นั่นเป็นเรื่องที่น่ารำคาญอย่างมากเกี่ยวกับวิธีการที่ควรใช้วิธีการใส่ร้ายที่ไม่จำเป็นในตอนแรก วิธีการหนึ่งที่สามารถหลบเลี่ยงการใส่ร้ายและยังคงใช้ข้อได้เปรียบคาเร็ต?

26 r missing-data data-imputation caret