สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
สมมติฐาน LASSO
ในสถานการณ์การถดถอย LASSO ที่ ,y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon และการประเมิน LASSO นั้นมาจากปัญหาการปรับให้เหมาะสมต่อไปนี้ นาทีβ| | Y- Xβ| | +τ| | β| |1นาทีβ||Y-Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 มีสมมติฐานการกระจายใด ๆ เกี่ยวกับการ ?εε\epsilon ในสถานการณ์ OLS ใครจะคาดหวังว่ามีความเป็นอิสระและกระจายตามปกติεε\epsilon มันสมเหตุสมผลหรือไม่ที่จะวิเคราะห์ส่วนที่เหลือในการถดถอยแบบ LASSO? ฉันรู้ว่าประมาณการ Lasso สามารถรับเป็นโหมดหลังภายใต้อิสระไพรเออร์ดับเบิลชี้แจงสำหรับเจ แต่ฉันไม่พบ "การตรวจสอบสมมติฐานขั้นตอน" มาตรฐานใด ๆβJβJ\beta_j ขอบคุณล่วงหน้า (:

1
อ่างครัวแบบสุ่มทำงานอย่างไร
เมื่อปีที่แล้วที่ NIPS 2017 Ali Rahimi และ Ben Recht ได้รับรางวัลการทดสอบเวลาสำหรับกระดาษของพวกเขา"คุณสมบัติการสุ่มสำหรับเคอร์เนลขนาดใหญ่"ที่พวกเขาแนะนำคุณสมบัติแบบสุ่มประมวลผลในภายหลังเป็นอัลกอริทึม sinks ครัวแบบสุ่ม ในฐานะที่เป็นส่วนหนึ่งของการเผยแพร่รายงานของพวกเขาพวกเขาแสดงให้เห็นว่าแบบจำลองของพวกเขาสามารถนำไปใช้ใน 5 บรรทัดของ matlab % Approximates Gaussian Process regression % with Gaussian kernel of variance gamma^2 % lambda: regularization parameter % dataset: X is dxN, y is 1xN % test: xtest is dx1 % D: dimensionality of random feature …

4
เกี่ยวกับซีเอ็นเอ็นเมล็ดและความแปรปรวนของสเกล / การหมุน
ฉันมีคำถามสองสามข้อที่ทำให้ฉันสับสนเกี่ยวกับ CNN 1) ฟีเจอร์ที่สกัดโดยใช้ CNN คือค่าคงที่และการหมุน? 2) เมล็ดที่เราใช้ในการโน้มน้าวใจกับข้อมูลของเราได้ถูกกำหนดไว้แล้วในวรรณคดี? เมล็ดเหล่านี้เป็นอะไร? แตกต่างกันสำหรับทุกแอปพลิเคชันหรือไม่

4
สูตร ACF และ PACF
ฉันต้องการสร้างรหัสสำหรับการลงจุด ACF และ PACF จากข้อมูลอนุกรมเวลา เช่นเดียวกับพล็อตที่สร้างจาก minitab (ด้านล่าง) ฉันพยายามค้นหาสูตรแล้ว แต่ฉันยังไม่เข้าใจ คุณจะบอกสูตรและวิธีการใช้ให้ฉันได้ไหม เส้นสีแดงแนวนอนของพล็อต ACF และ PACF ด้านบนคืออะไร สูตรคืออะไร? ขอขอบคุณ,

2
เราควรทำซ้ำ K-fold CV กี่ครั้ง?
ฉันได้พบกับเธรดนี้เพื่อดูความแตกต่างระหว่างการบูตสแตรปกับการตรวจสอบไขว้ - คำตอบที่ดีและการอ้างอิงตามวิธี สิ่งที่ผมสงสัยว่าในขณะนี้คือถ้าผมจะดำเนินการซ้ำ CV พูด 10 เท่าในการคำนวณความถูกต้องลักษณนามของกี่ครั้งnฉันควรทำซ้ำได้หรือไม่ ไม่nขึ้นอยู่กับจำนวนเท่า? เกี่ยวกับขนาดตัวอย่าง? มีกฎสำหรับสิ่งนี้หรือไม่? (ในกรณีของฉันฉันมีตัวอย่างใหญ่ถึง 5,000 และถ้าฉันเลือกสิ่งที่มีขนาดใหญ่กว่าn = 20คอมพิวเตอร์ของฉันใช้เวลาในการคำนวณนานเกินไป)

1
ทำไม KL แตกต่างกันจึงไม่เป็นลบ
ทำไม KL แตกต่างกันจึงไม่เป็นลบ จากมุมมองของทฤษฎีสารสนเทศฉันมีความเข้าใจที่เข้าใจง่าย: บอกว่ามีสองตระการตาและBซึ่งจะประกอบด้วยชุดเดียวกันขององค์ประกอบที่โดดเด่นด้วยx p ( x )และq ( x )คือการแจกแจงความน่าจะเป็นที่แตกต่างกันมากกว่าชุดAและBตามลำดับAAABBBxxxp(x)p(x)p(x)q(x)q(x)q(x)AAABBB จากมุมมองของทฤษฎีข้อมูลlog2(P(x))log2⁡(P(x))\log_{2}(P(x))เป็นจำนวนเงินที่น้อยที่สุดของบิตที่จำเป็นต้องใช้สำหรับการบันทึกเป็นองค์ประกอบxxxทั้งมวล ดังนั้นความคาดหวัง ∑ x ∈ e n s e m b l e - p ( x ) ln ( p ( x ) ) สามารถตีความได้ว่าอย่างน้อยจำนวนบิตที่เราต้องการสำหรับบันทึกองค์ประกอบในAโดยเฉลี่ยAAA∑x∈ensemble−p(x)ln(p(x))∑x∈ensemble−p(x)ln⁡(p(x))\sum_{x \in ensemble}-p(x)\ln(p(x))AAA เนื่องจากสูตรนี้ให้ขอบเขตที่ต่ำกว่าบนบิตที่เราต้องการโดยเฉลี่ยดังนั้นสำหรับกลุ่มที่แตกต่างกันซึ่งทำให้มีการกระจายความน่าจะเป็นที่ต่างกันq ( x )ขอบเขตที่ให้สำหรับแต่ละองค์ประกอบxจะไม่ใช่บิตที่แน่นอน มอบให้โดยp ( x )ซึ่งหมายถึงการคาดหวัง∑ x ∈ …

3
จะลบตัวแปร collinear ใน Python อย่างเป็นระบบได้อย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ป่านนี้ฉันได้ลบตัวแปร collinear เป็นส่วนหนึ่งของกระบวนการเตรียมข้อมูลโดยดูที่ตารางสหสัมพันธ์และกำจัดตัวแปรที่อยู่เหนือขีด จำกัด ที่แน่นอน มีวิธีที่ยอมรับมากขึ้นในการทำเช่นนี้? นอกจากนี้ฉันทราบว่าการดูความสัมพันธ์ระหว่างตัวแปร 2 ตัวต่อครั้งนั้นไม่เหมาะการวัดเช่น VIF คำนึงถึงความสัมพันธ์ที่อาจเกิดขึ้นกับตัวแปรหลายตัว เราจะเลือกชุดค่าผสมของตัวแปรที่ไม่แสดงความหลากหลายทางชีวภาพได้อย่างไร ฉันมีข้อมูลของฉันภายในกรอบข้อมูลแพนด้าและฉันใช้โมเดลของ sklearn

1
เคอร์เนล PCA มีข้อดีเหนือกว่า PCA มาตรฐานอย่างไร
ฉันต้องการใช้อัลกอริทึมในกระดาษซึ่งใช้เคอร์เนล SVD เพื่อแยกเมทริกซ์ข้อมูล ดังนั้นฉันได้อ่านเนื้อหาเกี่ยวกับวิธีเคอร์เนลและเคอร์เนล PCA เป็นต้น แต่มันก็ยังคลุมเครือสำหรับฉันโดยเฉพาะเมื่อพูดถึงรายละเอียดทางคณิตศาสตร์และฉันมีคำถามสองสามข้อ ทำไมวิธีเคอร์เนล หรือประโยชน์ของวิธีการเคอร์เนลคืออะไร? จุดประสงค์ที่เข้าใจง่ายคืออะไร? มันสมมติว่าพื้นที่มิติที่สูงขึ้นมากเป็นจริงในปัญหาโลกแห่งความจริงและสามารถเปิดเผยความสัมพันธ์ที่ไม่เชิงเส้นในข้อมูลเมื่อเทียบกับวิธีการที่ไม่ใช่เคอร์เนล? ตามวัสดุวิธีการเคอร์เนลฉายข้อมูลลงในพื้นที่คุณลักษณะมิติสูง แต่พวกเขาไม่จำเป็นต้องคำนวณพื้นที่คุณลักษณะใหม่อย่างชัดเจน แต่ก็เพียงพอที่จะคำนวณเฉพาะผลิตภัณฑ์ภายในระหว่างรูปภาพของจุดข้อมูลทั้งหมดในพื้นที่คุณลักษณะ เหตุใดจึงต้องฉายลงในพื้นที่มิติที่สูงขึ้น ในทางตรงกันข้าม SVD ลดพื้นที่คุณสมบัติ ทำไมพวกเขาทำมันในทิศทางที่แตกต่างกัน? วิธีการเคอร์เนลค้นหาขนาดที่สูงขึ้นในขณะที่ SVD แสวงหามิติที่ต่ำกว่า สำหรับฉันมันฟังดูแปลก ๆ ที่จะรวมมันเข้าด้วยกัน จากบทความที่ฉันกำลังอ่าน ( Symeonidis et al. 2010 ) การแนะนำ Kernel SVD แทน SVD สามารถแก้ไขปัญหาการกระจัดกระจายในข้อมูลและปรับปรุงผลลัพธ์ จากการเปรียบเทียบในรูปเราจะเห็นว่า KPCA ได้รับ eigenvector ที่มีความแปรปรวนสูงกว่า (eigenvalue) มากกว่า PCA ฉันคิดว่า? เนื่องจากความแตกต่างที่ใหญ่ที่สุดของการประมาณค่าของจุดบน eigenvector (พิกัดใหม่) …
18 pca  svd  kernel-trick 

3
ROC vs Curve ความแม่นยำในการจำบนชุดข้อมูลที่ไม่สมดุล
ฉันเพิ่งอ่านการสนทนานี้เสร็จแล้ว พวกเขายืนยันว่า PR AUC นั้นดีกว่า ROC AUC ในชุดข้อมูลที่ไม่สมดุล ตัวอย่างเช่นเรามี 10 ตัวอย่างในชุดข้อมูลทดสอบ 9 ตัวอย่างเป็นค่าบวกและ 1 เป็นค่าลบ เรามีโมเดลที่น่ากลัวซึ่งทำนายทุกอย่างในเชิงบวก ดังนั้นเราจะมีการวัดที่ TP = 9, FP = 1, TN = 0, FN = 0 จากนั้นความแม่นยำ = 0.9, เรียกคืน = 1.0 ความแม่นยำและการเรียกคืนมีทั้งสูงมาก แต่เรามีลักษณนามไม่ดี ในทางกลับกัน TPR = TP / (TP + FN) = 1.0, FPR = FP …

2
อะไรทำให้หยดอย่างกะทันหันในข้อผิดพลาดการฝึกอบรม / ทดสอบเมื่อฝึกเครือข่ายประสาท
ฉันเคยเห็นข้อผิดพลาดของการทดสอบ / การฝึกอบรมเกิดขึ้นในบางครั้งในระหว่างการฝึกอบรมโครงข่ายประสาทเทียมและฉันสงสัยว่าอะไรเป็นสาเหตุของการกระโดดเหล่านี้: ภาพนี้นำมาจาก Kaiming เขา Github แต่แปลงที่คล้ายกันปรากฏขึ้นในเอกสารจำนวนมาก

3
การทดสอบข้อมูลที่สร้างแบบสุ่มกับการกระจายที่ต้องการ
ฉันได้เขียนโปรแกรมที่สร้างข้อมูลแบบสุ่ม หากโปรแกรมทำงานอย่างถูกต้องข้อมูลนั้นควรเป็นไปตามการแจกแจงความน่าจะเป็นที่ทราบ ฉันต้องการรันโปรแกรมทำการคำนวณผลและคิดค่า p ก่อนใครบอกว่า: ฉันเข้าใจว่าการทดสอบสมมติฐานไม่สามารถตรวจพบเมื่อโปรแกรมทำงานอย่างถูกต้อง สามารถตรวจพบได้เมื่อทำงานไม่ถูกต้องในวิธีเฉพาะ (และถึงตอนนั้นการทดสอบ "ควร" ล้มเหลว X% ของเวลาขึ้นอยู่กับระดับความสำคัญที่คุณเลือก ... ) ดังนั้นฉันพยายามทำความเข้าใจว่าเครื่องมือใดที่เหมาะสม โดยเฉพาะอย่างยิ่ง: ฉันสามารถสร้างข้อมูลสุ่มได้มากเท่าที่ต้องการ สิ่งที่ฉันต้องทำก็คือปล่อยให้โปรแกรมทำงานนานพอ ดังนั้นฉันจึงไม่ จำกัด ขนาดตัวอย่างเฉพาะใด ๆ ฉันสนใจในเทคนิคที่สร้างค่า p ดังนั้นการจ้องมองที่กราฟและพูดว่า "ใช่ที่ดูเหมือนเชิงเส้นเชิงเส้น" ไม่ใช่ตัวเลือกที่น่าสนใจ เว้นแต่จะมีวิธีการใส่ตัวเลขจำนวนมากลงใน "ความไร้ประโยชน์" ของกราฟ ;-) สิ่งที่ฉันรู้จนถึงตอนนี้: ฉันได้เห็นสามประเภทหลักของการทดสอบที่กล่าวถึงซึ่งดูเหมือนว่าพวกเขาจะสามารถใช้งานได้: [เพียร์สัน] การทดสอบไคสแควร์, การทดสอบ Kolmogorov-Smirnov และการทดสอบ Anderson-Darling ปรากฏว่าการทดสอบไคสแควร์เป็นที่เหมาะสมสำหรับต่อเนื่องกระจายในขณะที่อีกสองคนที่มีความเหมาะสมมากขึ้นสำหรับการอย่างต่อเนื่องกระจาย (?) แหล่งข้อมูลหลายแห่งระบุว่าการทดสอบโฆษณานั้น "ดีกว่า" กว่าการทดสอบ KS แต่ไม่สามารถระบุรายละเอียดเพิ่มเติมได้ ในที่สุดการทดสอบทั้งหมดเหล่านี้น่าจะตรวจพบ "วิธีที่แตกต่าง" ของการเบี่ยงเบนจากการแจกแจงโมฆะที่ระบุ แต่ฉันไม่รู้จริง …

2
การจัดประเภทตัวแปรจะเปลี่ยนจากไม่มีนัยสำคัญเป็นสำคัญ
ฉันมีตัวแปรที่เป็นตัวเลขซึ่งไม่มีนัยสำคัญในแบบจำลองการถดถอยโลจิสติกหลายตัวแปร อย่างไรก็ตามเมื่อฉันจัดหมวดหมู่เป็นกลุ่มทันใดนั้นมันก็กลายเป็นสิ่งสำคัญ สิ่งนี้ตอบโต้ฉันได้ง่ายมาก: เมื่อจัดหมวดหมู่ตัวแปรเราจะให้ข้อมูลบางอย่าง สิ่งนี้จะเป็นอย่างไร

1
ในตัวอย่างโรงเรียน 8 แห่งของเจลแมนเหตุใดจึงมีข้อผิดพลาดมาตรฐานของการประมาณการส่วนบุคคลที่สันนิษฐาน
บริบท: ในตัวอย่างของโรงเรียน 8 แห่งของ Gelman (การวิเคราะห์ข้อมูลแบบเบย์, รุ่นที่ 3, Ch 5.5) มีการทดลองแบบขนานแปดครั้งใน 8 โรงเรียนที่ทำการทดสอบผลของการฝึก การทดสอบแต่ละครั้งให้ผลลัพธ์โดยประมาณสำหรับประสิทธิภาพของการฝึกและข้อผิดพลาดมาตรฐานที่เกี่ยวข้อง ผู้เขียนสร้างแบบจำลองลำดับชั้นสำหรับจุดข้อมูล 8 จุดของลักษณะพิเศษการฝึกดังนี้: yi∼N(θi,sei)θi∼N(μ,τ)yi∼N(θi,sei)θi∼N(μ,τ) y_i \sim N(\theta_i, se_i) \\ \theta_i \sim N(\mu, \tau) คำถาม ในรูปแบบนี้พวกเขาคิดว่าseiseise_iเป็นที่รู้จักกัน ฉันไม่เข้าใจสมมติฐานนี้ - ถ้าเรารู้สึกว่าเรามีรูปแบบθiθi\theta_iทำไมเราไม่ทำเช่นเดียวกันสำหรับseiseise_i ? ฉันได้ตรวจสอบกระดาษต้นฉบับของ Rubinแนะนำตัวอย่างโรงเรียน 8 แห่งแล้วและที่นั่นผู้เขียนก็บอกเช่นนั้น (หน้า 382): ข้อสันนิษฐานของความเป็นมาตรฐานและข้อผิดพลาดมาตรฐานที่รู้จักนั้นเกิดขึ้นเป็นประจำเมื่อเราสรุปการศึกษาโดยมีผลกระทบโดยประมาณและข้อผิดพลาดมาตรฐานและเราจะไม่ถามคำถามการใช้งานที่นี่ เพื่อสรุปทำไมเราไม่รูปแบบseiseise_i ? ทำไมเราปฏิบัติต่อมันอย่างที่รู้กัน?

1
Stepwise AIC - มีข้อโต้แย้งรอบ ๆ หัวข้อนี้หรือไม่?
ฉันได้อ่านโพสต์นับไม่ถ้วนในเว็บไซต์นี้ซึ่งต่อต้านการเลือกตัวแปรแบบขั้นตอนโดยใช้เกณฑ์ใด ๆ ไม่ว่าจะเป็นค่า p ตาม AIC, BIC เป็นต้น ฉันเข้าใจว่าทำไมขั้นตอนเหล่านี้โดยทั่วไปค่อนข้างยากจนสำหรับการเลือกตัวแปร โพสต์ที่มีชื่อเสียงอาจเป็นของ gung ที่นี่แสดงให้เห็นอย่างชัดเจนว่าทำไม; ท้ายที่สุดเรากำลังตรวจสอบสมมติฐานบนชุดข้อมูลเดียวกับที่เราเคยทำกับสมมติฐานซึ่งเป็นเพียงการขุดลอกข้อมูล นอกจากนี้ค่า p จะได้รับผลกระทบจากปริมาณเช่น collinearity และค่าผิดปกติซึ่งทำให้ผลลัพธ์เบ้หนักเป็นต้น แต่ผมได้รับการศึกษาการพยากรณ์อนุกรมเวลาไม่น้อยเมื่อเร็ว ๆ นี้และได้เจอตำรานับหน้าถือตา Hyndman ของที่เขากล่าวถึงที่นี่ใช้ตัวเลือกแบบขั้นตอนที่จะหาคำสั่งซื้อที่เหมาะสมของแบบจำลอง ARIMA โดยเฉพาะอย่างยิ่ง ในความเป็นจริงในforecastแพคเกจใน R อัลกอริทึมที่รู้จักกันดีที่รู้จักกันเป็นauto.arimaค่าเริ่มต้นใช้การเลือกแบบขั้นตอน (กับ AIC ไม่ใช่ค่า p) นอกจากนี้เขายังวิจารณ์การเลือกคุณสมบัติตามค่า p ซึ่งสอดคล้องกับโพสต์หลายรายการในเว็บไซต์นี้ ในที่สุดเราควรข้ามการตรวจสอบในบางวิธีในตอนท้ายถ้าเป้าหมายคือการพัฒนาแบบจำลองที่ดีสำหรับการพยากรณ์ / การทำนาย อย่างไรก็ตามแน่นอนว่านี่เป็นสิ่งที่ไม่เห็นด้วยที่นี่เมื่อพูดถึงขั้นตอนการประเมินตัวชี้วัดอื่น ๆ นอกเหนือจากค่า p ไม่มีใครมีความคิดเห็นใด ๆ เกี่ยวกับการใช้ AIC แบบขั้นตอนในบริบทนี้ แต่โดยทั่วไปยังอยู่นอกบริบทนี้ด้วย ฉันได้รับการสอนให้เชื่อว่าการเลือกตามขั้นตอนใด ๆ …

2
เหตุใดจึงเลือกตัวอักษร Q ในการเรียนรู้ Q
เหตุใดจึงเลือกตัวอักษร Q ในชื่อของ Q-learning ตัวอักษรส่วนใหญ่จะถูกเลือกเป็นตัวย่อเช่นหมายถึงนโยบายและหมายถึงคุณค่า แต่ฉันไม่คิดว่า Q เป็นคำย่อของคำใด ๆππ\pivvv

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.