สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

12
อะไรคือความเข้าใจผิดที่พบบ่อยที่สุดเกี่ยวกับการถดถอยเชิงเส้น?
ฉันอยากรู้อยากเห็นสำหรับพวกคุณที่มีประสบการณ์มากมายที่ร่วมมือกับนักวิจัยคนอื่น ๆ อะไรคือความเข้าใจผิดที่พบบ่อยที่สุดเกี่ยวกับการถดถอยเชิงเส้นที่คุณพบ ฉันคิดว่าเป็นแบบฝึกหัดที่มีประโยชน์ที่จะคิดเกี่ยวกับความเข้าใจผิดที่พบบ่อยล่วงหน้าเพื่อ คาดการณ์ความผิดพลาดของผู้คนและสามารถบอกกล่าวความสำเร็จได้ว่าทำไมความเข้าใจผิดบางอย่างไม่ถูกต้อง ตระหนักดีว่าถ้าฉันปิดบังความเข้าใจผิดบางอย่างด้วยตัวเอง! พื้นฐานสองสามข้อที่ฉันนึกได้: ตัวแปรอิสระ / ขึ้นอยู่กับต้องกระจายตามปกติ ตัวแปรจะต้องเป็นมาตรฐานสำหรับการตีความที่ถูกต้อง อื่น ๆ ? คำตอบทั้งหมดยินดีต้อนรับ

4
ทำอย่างไรจึงจะเห็นภาพการวิเคราะห์ความสัมพันธ์แบบบัญญัติ (เปรียบเทียบกับการวิเคราะห์องค์ประกอบหลัก)
Canonical correlation analysis (CCA) เป็นเทคนิคที่เกี่ยวข้องกับการวิเคราะห์องค์ประกอบหลัก (PCA) ในขณะที่มันง่ายที่จะสอน PCA หรือการถดถอยเชิงเส้นโดยใช้พล็อตกระจาย (ดูตัวอย่างสองสามพันตัวอย่างจากการค้นหารูปภาพของ Google) ฉันไม่เคยเห็นตัวอย่างสองมิติที่ใช้งานง่ายของ CCA จะอธิบายได้อย่างไรว่า CCA เชิงเส้นทำอะไรได้บ้าง

10
จำเป็นต้องมีขนาดตัวอย่างขั้นต่ำเพื่อให้การทดสอบ t ถูกต้องหรือไม่
ขณะนี้ฉันกำลังศึกษาบทความวิจัยกึ่งทดลองอยู่ ฉันมีขนาดตัวอย่างเพียง 15 เนื่องจากประชากรต่ำในพื้นที่ที่เลือกและที่เพียง 15 เหมาะสมกับเกณฑ์ของฉัน ขนาดตัวอย่างขั้นต่ำ 15 รายการสำหรับการทดสอบ t-test และ F-test คืออะไร ถ้าเป็นเช่นนั้นฉันจะหาบทความหรือหนังสือสนับสนุนตัวอย่างขนาดเล็กนี้ได้ที่ไหน กระดาษนี้ได้รับการปกป้องแล้วเมื่อวันจันทร์ที่ผ่านมาและหนึ่งในแผงควบคุมขอให้มีการอ้างอิงสนับสนุนเนื่องจากขนาดตัวอย่างของฉันต่ำเกินไป เขาบอกว่ามันควรจะเป็นอย่างน้อย 40 ผู้ตอบแบบสอบถาม

9
อะไรคือความแตกต่างทางปรัชญาที่สำคัญวิธีการและคำศัพท์ระหว่างสาขาเศรษฐศาสตร์และสาขาสถิติอื่น ๆ
เศรษฐมิติซ้อนทับกันอย่างมากกับสถิติแบบดั้งเดิม แต่มักใช้ศัพท์แสงของตนเองเกี่ยวกับหัวข้อที่หลากหลาย ("การระบุ" "ภายนอก" ฯลฯ ) ฉันเคยได้ยินอาจารย์สถิติที่นำไปใช้ในการแสดงความคิดเห็นในฟิลด์อื่นว่าบ่อยครั้งคำศัพท์ที่แตกต่างกัน แต่แนวคิดเหมือนกัน แต่มันก็มีวิธีการของตัวเองและความแตกต่างทางปรัชญา (เรียงความที่โด่งดังของ Heckman อยู่ในใจ) คำศัพท์ใดที่มีความแตกต่างระหว่างเศรษฐมิติและสถิติกระแสหลักและสาขาต่าง ๆ แตกต่างกันมากไปกว่าคำศัพท์เพียงใด?

5
การใช้การตรวจสอบความถูกต้องข้ามของ k-fold สำหรับการเลือกรุ่นของอนุกรมเวลา
คำถาม: ฉันต้องการความมั่นใจในบางสิ่งบางอย่างการใช้การตรวจสอบความถูกต้องข้ามของ k-fold กับอนุกรมเวลานั้นตรงไปตรงมาหรือไม่หรือเราจำเป็นต้องให้ความสนใจเป็นพิเศษก่อนใช้งานหรือไม่ แบ็คกราวน์: ฉันกำลังสร้างโมเดลอนุกรมเวลา 6 ปี (ที่มีลูกโซ่กึ่งมาร์คอฟ) โดยมีตัวอย่างข้อมูลทุก 5 นาที ในการเปรียบเทียบหลายรุ่นฉันใช้การตรวจสอบข้ามแบบ 6 เท่าโดยแยกข้อมูลใน 6 ปีดังนั้นชุดฝึกอบรมของฉัน (เพื่อคำนวณพารามิเตอร์) มีความยาว 5 ปีและชุดทดสอบมีความยาว 1 ปี. ฉันไม่ได้คำนึงถึงลำดับเวลาดังนั้นชุดที่แตกต่างของฉันคือ: พับ 1: ฝึก [1 2 3 4 5] ทดสอบ [6] เท่าที่ 2: การฝึก [1 2 3 4 6] ทดสอบ [5] เท่า 3: การฝึก [1 2 3 …

9
ทำไมจึงเป็นไปได้ที่จะได้รับสถิติ F อย่างมีนัยสำคัญ (p <.001) แต่การทดสอบ t regressor ไม่สำคัญ?
ในการถดถอยเชิงเส้นแบบหลายเหตุใดจึงเป็นไปได้ที่จะมีสถิติ F ที่มีความสำคัญสูง (p &lt;.001) แต่มีค่า p สูงมากในการทดสอบ t ของ regressor ทั้งหมด? ในแบบจำลองของฉันมีผู้ลงทะเบียน 10 ราย หนึ่งมีค่า p-0.1 และส่วนที่เหลืออยู่สูงกว่า 0.9 สำหรับการรับมือกับปัญหานี้ดูคำถามที่ติดตาม

15
ความคิดที่เป็นประโยชน์เกี่ยวกับแบบจำลองการอธิบายและการทำนาย
ย้อนกลับไปในเดือนเมษายนฉันได้เข้าร่วมการสัมมนาในชุดสัมมนากลุ่มสถิติภาควิชาคณิตศาสตร์ของ UMD ชื่อ "เพื่ออธิบายหรือทำนาย" คำปราศรัยนี้ได้รับจากศาสตราจารย์ Galit Shmueliผู้สอนที่โรงเรียนธุรกิจ Smith ของ UMD คำปราศรัยของเธอขึ้นอยู่กับการวิจัยที่เธอทำกับกระดาษที่มีชื่อว่า"Predictive vs. Explanatory Modeling in IS Research"และบทความเกี่ยวกับการทำงานติดตามเรื่อง"To Explain or To Predict?" . ข้อโต้แย้งของดร. Shmueli ก็คือคำที่ใช้ในการทำนายและอธิบายในบริบทการสร้างแบบจำลองทางสถิติได้เกิดการสับสน ในกระดาษเธอแตกต่างทั้งสองและพูดคุยเกี่ยวกับความหมายในทางปฏิบัติของพวกเขา ฉันแนะนำให้คุณอ่านเอกสาร คำถามที่ฉันต้องการโพสต์ในชุมชนผู้ประกอบการคือ: คุณกำหนดแบบฝึกหัดทำนายผลได้อย่างไรกับแบบอธิบาย / อธิบาย มันจะมีประโยชน์ถ้าคุณสามารถพูดคุยเกี่ยวกับการใช้งานเฉพาะ คุณเคยตกหลุมพรางของการใช้อันใดอันหนึ่งเมื่อหมายถึงการใช้อันอื่นหรือไม่? ฉันมี คุณรู้ได้อย่างไรว่าจะใช้อันไหน

2
เลเยอร์ Keras 'การฝัง' ทำงานอย่างไร
จำเป็นต้องเข้าใจการทำงานของเลเยอร์ 'การฝัง' ในไลบรารี Keras ฉันรันโค้ดต่อไปนี้ใน Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) ซึ่งให้ผลลัพธ์ต่อไปนี้ input_array = [[4 1 3 3 3]] output_array = [[[ 0.03126476 0.00527241] [-0.02369716 -0.02856163] [ …

3
เหตุใดนักวิจัยเครือข่ายประสาทจึงสนใจเกี่ยวกับยุค
ยุคในโคตรลาดไล่ระดับถูกกำหนดเป็นผ่านเดียวผ่านข้อมูล สำหรับมินิบัสของ SGD แต่ละอันจะมีการสุ่มตัวอย่างkkkการคำนวณการไล่ระดับสีและพารามิเตอร์จะได้รับการอัพเดต ในการตั้งค่ายุคตัวอย่างจะถูกวาดโดยไม่ต้องเปลี่ยน แต่ดูเหมือนว่าไม่จำเป็น ทำไมไม่ดึงมินิบัสของ SGD แต่ละอันมาเป็นสุ่มจากข้อมูลทั้งหมดในแต่ละรอบ จากยุคจำนวนมากความเบี่ยงเบนเล็ก ๆ ที่กลุ่มตัวอย่างเห็นมากหรือน้อยมักจะดูเหมือนไม่สำคัญkkk

9
ฉันควรใช้อัลกอริทึมใดในการตรวจจับความผิดปกติในอนุกรมเวลา
พื้นหลัง ฉันทำงานในศูนย์ปฏิบัติการเครือข่ายเราตรวจสอบระบบคอมพิวเตอร์และประสิทธิภาพของระบบ หนึ่งในตัวชี้วัดหลักในการตรวจสอบคือจำนวนผู้เยี่ยมชม \ ลูกค้าที่เชื่อมต่อกับเซิร์ฟเวอร์ของเราในปัจจุบัน เพื่อให้มองเห็นได้เรา (ทีม Ops) รวบรวมตัวชี้วัดเช่นข้อมูลอนุกรมเวลาและวาดกราฟ กราไฟต์ช่วยให้เราสามารถทำมันได้มี API ที่สวยงามซึ่งฉันใช้ในการสร้างระบบการแจ้งเตือนเพื่อแจ้งทีมของเราหากมีการลดลงอย่างกะทันหัน (ส่วนใหญ่) และการเปลี่ยนแปลงอื่น ๆ เกิดขึ้น สำหรับตอนนี้ฉันได้ตั้งค่าสแตติกแบบคงที่ตามค่าเฉลี่ยของ AVG แต่มันใช้งานไม่ได้ดี (มีจำนวนบวกเท็จ) เนื่องจากการโหลดที่แตกต่างกันในระหว่างวันและสัปดาห์ (ปัจจัยด้านฤดูกาล) ดูเหมือนว่านี้: ข้อมูลจริง (ตัวอย่างสำหรับหนึ่งตัวชี้วัด, ช่วงเวลา 15 นาที, หมายเลขแรกคือจำนวนผู้ใช้, การประทับครั้งที่สอง): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, …

2
รูปร่างของช่วงความมั่นใจสำหรับค่าที่คาดการณ์ไว้ในการถดถอยเชิงเส้น
ฉันสังเกตเห็นว่าช่วงความมั่นใจสำหรับค่าที่ทำนายในการถดถอยเชิงเส้นมีแนวโน้มแคบลงรอบค่าเฉลี่ยของตัวทำนายและไขมันรอบค่าต่ำสุดและค่าสูงสุดของตัวทำนาย สิ่งนี้สามารถเห็นได้ในพล็อตของการถดถอยเชิงเส้น 4 แบบนี้: ตอนแรกฉันคิดว่าเป็นเพราะค่านิยมของผู้ทำนายส่วนใหญ่กระจุกตัวอยู่กับค่าเฉลี่ยของผู้ทำนาย อย่างไรก็ตามฉันสังเกตเห็นว่าช่วงกลางที่แคบของช่วงความมั่นใจจะเกิดขึ้นแม้ว่าค่าจำนวนมากจะกระจุกตัวอยู่รอบสุดขั้วของตัวทำนายเช่นเดียวกับในการถดถอยเชิงเส้นด้านล่างซ้ายซึ่งค่าของตัวทำนายจำนวนมากนั้นมีสมาธิ ผู้ทำนาย ไม่มีใครสามารถอธิบายได้ว่าทำไมช่วงเวลาความเชื่อมั่นสำหรับค่าที่ทำนายไว้ในการถดถอยเชิงเส้นมีแนวโน้มที่จะแคบลงตรงกลางและไขมันที่สุดขั้ว?

1
วิธีการแยกชุดข้อมูลสำหรับการตรวจสอบข้ามการเรียนรู้และการประเมินขั้นสุดท้าย?
กลยุทธ์ที่เหมาะสมสำหรับการแยกชุดข้อมูลคืออะไร? ผมขอให้ความคิดเห็นเกี่ยวกับวิธีการดังต่อไปนี้ (ไม่ได้อยู่ในแต่ละพารามิเตอร์เหมือนtest_sizeหรือn_iterแต่ถ้าผมใช้X, y, X_train, y_train, X_testและy_testเหมาะสมและถ้าลำดับทำให้รู้สึก): (ขยายตัวอย่างนี้จากเอกสาร scikit-Learn) 1. โหลดชุดข้อมูล from sklearn.datasets import load_digits digits = load_digits() X, y = digits.data, digits.target 2. แบ่งออกเป็นชุดฝึกอบรมและทดสอบ (เช่น 80/20) from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) 3. เลือกเครื่องมือประมาณ from sklearn.svm import SVC estimator = SVC(kernel='linear') 4. …

4
สัมประสิทธิ์สหสัมพันธ์ต่างจากความชันถดถอยอย่างไร
ฉันคาดว่าค่าสัมประสิทธิ์สหสัมพันธ์จะเหมือนกับความชันถดถอย (เบต้า) แต่เมื่อเปรียบเทียบกับทั้งสองมันต่างกัน พวกเขาต่างกันอย่างไร - พวกเขาให้ข้อมูลที่แตกต่างกันอย่างไร

4
ความแตกต่างระหว่างฟังก์ชั่น R prcomp และ princomp คืออะไร?
ฉันเปรียบเทียบ?prcompและ?princompพบบางสิ่งเกี่ยวกับการวิเคราะห์องค์ประกอบหลักของ Q-mode และ R-mode (PCA) แต่อย่างสุจริต - ฉันไม่เข้าใจ ใครสามารถอธิบายความแตกต่างได้และอาจอธิบายได้ว่าจะใช้เมื่อไร
69 r  pca 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.