สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
CDFs เป็นพื้นฐานมากกว่า PDF หรือไม่?
สถิติของฉันโดยทั่วไปกล่าวว่าหากได้รับหนึ่งในสามต่อไปนี้คุณสามารถค้นหาอีกสอง: ฟังก์ชันการแจกแจงสะสม ฟังก์ชั่นการสร้างช่วงเวลา ฟังก์ชั่นความหนาแน่นของความน่าจะเป็น แต่อาจารย์เศรษฐศาสตร์ของฉันกล่าวว่า CDFs เป็นพื้นฐานมากกว่า PDF เพราะมีตัวอย่างที่คุณสามารถมี CDF แต่ PDF ไม่ได้ถูกกำหนดไว้ CDFs เป็นพื้นฐานมากกว่า PDF หรือไม่? ฉันจะรู้ได้อย่างไรว่า PDF หรือ MGF สามารถมาจาก CDF ได้หรือไม่
43 probability  pdf  cdf  mgf 

5
เราจะพูดอะไรเกี่ยวกับค่าเฉลี่ยประชากรจากขนาดตัวอย่าง 1
ฉันสงสัยในสิ่งที่เราสามารถพูดได้ถ้ามีอะไรเกี่ยวกับค่าเฉลี่ยประชากรเมื่อทั้งหมดที่ฉันมีคือการวัดหนึ่ง (ขนาดตัวอย่าง 1) เห็นได้ชัดว่าเราชอบที่จะมีการวัดมากขึ้น แต่เราไม่สามารถรับได้y 1μμ\muy1y1y_1 มันดูเหมือนว่าฉันว่าตั้งแต่ค่าเฉลี่ยตัวอย่างเป็นนิด ๆ เท่ากับแล้วEอย่างไรก็ตามด้วยขนาดตัวอย่าง 1 ความแปรปรวนตัวอย่างไม่ได้ถูกกำหนดและทำให้เรามั่นใจในการใช้เนื่องจากตัวประมาณยังไม่ได้กำหนดเช่นกันถูกต้องหรือไม่ มีวิธีใดที่จะ จำกัด การประมาณการของเราหรือไม่? Y1E[ ˉ Y ]=E[Y1]=μ ˉ Y μμy¯y¯\bar{y}y1y1y_1E[y¯]=E[y1]=μE[y¯]=E[y1]=μE[\bar{y}]=E[y_1]=\muy¯y¯\bar{y}μμ\muμμ\mu

3
Softmax layer ในเครือข่ายประสาท
ฉันพยายามที่จะเพิ่มเลเยอร์ softmax ให้กับเครือข่ายประสาทที่ได้รับการฝึกอบรมเกี่ยวกับ backpropagation ดังนั้นฉันจึงพยายามคำนวณการไล่ระดับสี เอาต์พุต softmax คือโดยที่คือหมายเลขเซลล์ประสาทเอาท์พุท jhj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj ถ้าฉันได้มันมาฉันก็จะได้ ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) คล้ายกับการถดถอยโลจิสติก อย่างไรก็ตามนี่เป็นสิ่งที่ผิดเนื่องจากการตรวจสอบการไล่ระดับสีของฉันล้มเหลว ผมทำอะไรผิดหรือเปล่า? ฉันคิดว่าฉันต้องคำนวณ cross cross เช่นกัน (เช่น ) แต่ฉันไม่แน่ใจว่าจะทำอย่างไรและรักษามิติการไล่ระดับสีไว้ เหมือนกันดังนั้นจึงจะเหมาะสำหรับกระบวนการเผยแพร่กลับ∂hj∂zk∂hj∂zk\frac{\partial{h_j}}{\partial{z_k}}

2
สมมติฐานป่าสุ่ม
ฉันเป็นคนใหม่ในป่าสุ่มดังนั้นฉันยังคงดิ้นรนกับแนวคิดพื้นฐานบางอย่าง ในการถดถอยเชิงเส้นเราถือว่าการสังเกตอย่างอิสระความแปรปรวนคงที่ ... อะไรคือสมมติฐาน / สมมติฐานพื้นฐานที่เราทำเมื่อเราใช้ฟอเรสต์แบบสุ่ม? อะไรคือความแตกต่างที่สำคัญระหว่างป่าสุ่มและอ่าวไร้เดียงสาในแง่ของสมมติฐานแบบจำลอง?

5
“ endogeneity” และ“ exogeneity” หมายถึงอะไรอย่างมาก?
ฉันเข้าใจว่าคำจำกัดความพื้นฐานของ endogeneity คือ ไม่พอใจ แต่สิ่งนี้มีความหมายอย่างไรในโลกแห่งความจริง? ฉันอ่านบทความ Wikipedia พร้อมตัวอย่างอุปสงค์และอุปทานพยายามทำความเข้าใจ แต่ไม่ได้ช่วยอะไรจริงๆ ฉันเคยได้ยินคำอธิบายอื่น ๆ เกี่ยวกับภายนอกและภายนอกว่าอยู่ในระบบและอยู่นอกระบบและนั่นก็ไม่สมเหตุสมผลสำหรับฉันX′ϵ=0X′ϵ=0 X'\epsilon=0

6
คุณสมบัติสำหรับการจำแนกอนุกรมเวลา
ฉันพิจารณาปัญหาของการจัดประเภทตามอนุกรมเวลาของความยาวผันแปรนั่นคือเพื่อค้นหาฟังก์ชัน ผ่านการแสดงทั่วโลกของชุดเวลาโดยชุดของคุณสมบัติที่เลือกขนาดคงที่เป็นอิสระจาก , จากนั้นใช้วิธีการจำแนกมาตรฐานในชุดคุณสมบัตินี้ ฉันไม่สนใจการคาดการณ์เช่นการทำนายf ( X T ) = y ∈ [ 1 .. K ]TTTv ฉัน D T ϕ ( X T ) = v 1 , … , v D ∈ R , x T + 1f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(XT)=y∈[1..K]for XT=(x1,…,xT)with xt∈Rd ,f(X_T) = y \in [1..K]\\ …

5
การถดถอยเมื่อส่วนที่เหลือ OLS จะไม่กระจายตามปกติ
มีหลายเธรดในไซต์นี้ที่กล่าวถึงวิธีการตรวจสอบว่ามีการแจกแจงOLS แบบกระจายตามปกติหรือไม่ อีกวิธีหนึ่งในการประเมินความเป็นไปได้ของการใช้รหัส R ในคำตอบที่ยอดเยี่ยมนี้ นี่คือการอภิปรายเกี่ยวกับความแตกต่างในทางปฏิบัติระหว่างมาตรฐานและสารตกค้างที่สังเกตได้ แต่สมมุติว่าส่วนที่เหลือไม่ได้กระจายตามปกติอย่างในตัวอย่างนี้ ที่นี่เรามีการสังเกตหลายพันครั้งและชัดเจนว่าเราต้องปฏิเสธสมมติฐานที่กระจายตัวตามปกติ วิธีหนึ่งในการแก้ไขปัญหาคือการใช้ตัวประมาณค่าที่คาดเดายากบางรูปแบบตามที่อธิบายไว้ในคำตอบ อย่างไรก็ตามฉันไม่ได้ จำกัด เพียง OLS และในความเป็นจริงฉันต้องการเข้าใจประโยชน์ของวิธีการ glm อื่น ๆ หรือไม่ใช่เชิงเส้น วิธีที่มีประสิทธิภาพมากที่สุดในการสร้างแบบจำลองข้อมูลที่ละเมิดกฎเกณฑ์ OLS ของการคิดค่าคงที่คืออะไร หรืออย่างน้อยสิ่งที่ควรเป็นขั้นตอนแรกในการพัฒนาวิธีการวิเคราะห์การถดถอยที่ดี?

5
ตัวเลขสุ่มชุดปลอม: กระจายอย่างเท่าเทียมกันมากกว่าข้อมูลชุดที่แท้จริง
ฉันกำลังมองหาวิธีการสร้างตัวเลขสุ่มที่ปรากฏจะได้รับเครื่องแบบกระจาย - และทุกการทดสอบจะแสดงให้พวกเขาเป็นเครื่องแบบ - ยกเว้นว่าพวกเขาจะกระจายกว่าข้อมูลเครื่องแบบจริงอย่างสม่ำเสมอมากขึ้น ปัญหาที่ฉันมีกับเครื่องแบบ "จริง" คือพวกเขาจะจัดกลุ่มเป็นครั้งคราว เอฟเฟกต์นี้แข็งแกร่งกว่าขนาดตัวอย่างที่ต่ำ Roughly พูดว่า: เมื่อฉันวาด randoms Uniform สองตัวใน U [0; 1] โอกาสอยู่ที่ประมาณ 10% ซึ่งอยู่ในช่วง 0.1 และ 1% ที่อยู่ภายใน 0.01 ดังนั้นฉันกำลังมองหาวิธีที่ดีในการสร้างตัวเลขสุ่มที่มีการกระจายกว่า randoms ใช้ตัวอย่างกรณี: บอกว่าฉันทำเกมคอมพิวเตอร์และฉันต้องการวางสมบัติแบบสุ่มบนแผนที่ (ไม่สนใจสิ่งอื่นใด) ฉันไม่ต้องการให้สมบัติอยู่ในที่เดียวมันควรอยู่ทั่วแผนที่ ถ้าผมใส่พูดว่าแรนดอมเครื่องแบบ 10 ชิ้นโอกาสที่จะไม่ต่ำมากที่มี 5 หรือใกล้เคียงกันมาก นี่อาจทำให้ผู้เล่นคนหนึ่งได้เปรียบกว่าผู้เล่นคนอื่น นึกถึงเรือกวาดทุ่นระเบิดโอกาส (แม้ว่าจะต่ำถ้ามีเหมืองมากพอ) คุณคิดว่าคุณโชคดีมากและชนะด้วยการคลิกเพียงครั้งเดียว แนวทางที่ไร้เดียงสามากสำหรับปัญหาของฉันคือการแบ่งข้อมูลออกเป็นกริด ตราบใดที่จำนวนมีขนาดใหญ่พอ (และมีปัจจัย) ก็สามารถบังคับใช้ความสม่ำเสมอเป็นพิเศษได้ด้วยวิธีนี้ ดังนั้นแทนที่จะวาด 12 ตัวแปรสุ่มจาก U [0; …

4
วิธีการเปรียบเทียบอนุกรมเวลาสองวิธี
ฉันมีสองชุดเวลาแสดงในโครงเรื่องด้านล่าง: เนื้อเรื่องแสดงรายละเอียดทั้งหมดของอนุกรมเวลาทั้งสอง แต่ฉันสามารถลดมันลงไปในการสังเกตการณ์แบบบังเอิญได้ถ้าต้องการ คำถามของฉันคือ: ฉันสามารถใช้วิธีการทางสถิติเพื่อประเมินความแตกต่างระหว่างอนุกรมเวลาได้อย่างไร ฉันรู้ว่านี่เป็นคำถามที่ค่อนข้างกว้างและคลุมเครือ แต่ฉันไม่สามารถหาข้อมูลเบื้องต้นได้จากทุกที่ อย่างที่ฉันเห็นมันมีสองสิ่งที่แตกต่างในการประเมิน: 1. ค่าเหมือนกันหรือไม่? 2. แนวโน้มเหมือนกันหรือไม่ การทดสอบทางสถิติแบบใดที่คุณแนะนำให้ดูเพื่อประเมินคำถามเหล่านี้ สำหรับคำถามที่ 1 ฉันสามารถประเมินความหมายของชุดข้อมูลที่แตกต่างกันและมองหาความแตกต่างอย่างมีนัยสำคัญในการแจกแจง แต่มีวิธีการทำสิ่งนี้ที่คำนึงถึงลักษณะอนุกรมเวลาของข้อมูลหรือไม่ สำหรับคำถามที่ 2 - มีบางอย่างเหมือนกับการทดสอบ Mann-Kendall ที่มองหาความคล้ายคลึงกันระหว่างสองแนวโน้มหรือไม่ ฉันสามารถทำการทดสอบ Mann-Kendall สำหรับทั้งชุดข้อมูลและเปรียบเทียบ แต่ไม่รู้ว่าเป็นวิธีที่ถูกต้องในการทำสิ่งต่าง ๆ หรือว่ามีวิธีที่ดีกว่า ฉันทำทั้งหมดนี้ใน R ดังนั้นหากการทดสอบที่คุณแนะนำมีแพ็คเกจ R แล้วโปรดแจ้งให้เราทราบ
43 r  time-series 

4
บทสรุปของเทคนิคการตรวจสอบข้าม
ฉันสงสัยว่าถ้าใครรู้ถึงบทสรุปของเทคนิคการตรวจสอบข้ามกับการอภิปรายของความแตกต่างระหว่างพวกเขาและคำแนะนำเกี่ยวกับเวลาที่จะใช้แต่ละคน Wikipedia มีรายการของเทคนิคที่พบบ่อยที่สุด แต่ฉันอยากรู้ว่ามีเทคนิคอื่น ๆ หรือไม่และหากมี taxonomies สำหรับพวกเขา ตัวอย่างเช่นฉันเพิ่งเจอไลบรารีที่ให้ฉันเลือกหนึ่งในกลยุทธ์ต่อไปนี้: ถือเอาไว้ เงินทุน K การตรวจสอบข้าม ปล่อยให้หนึ่งออก การตรวจสอบข้ามแบบแบ่งชั้น การตรวจสอบความถูกต้องของโครงสร้างแบบแบ่งชั้นสมดุล แบ่งออกเป็นชั้น ๆ แบ่งชั้น Bootstrap และฉันกำลังพยายามที่จะเข้าใจว่าค่าเฉลี่ยของการแบ่งชั้นและสมดุลในการบูตสเตรท นอกจากนี้เรายังสามารถเปลี่ยนโพสต์นี้เป็นวิกิชุมชนถ้าผู้คนต้องการและรวบรวมการอภิปรายของเทคนิคหรือ taxonomies ที่นี่

9
ชุดข้อมูลจิ๋ว (ของจริง) สำหรับยกตัวอย่างในชั้นเรียน
เมื่อสอนชั้นเรียนระดับเบื้องต้นครูที่ฉันรู้จักมักจะประดิษฐ์ตัวเลขและเรื่องราวเพื่อเป็นตัวอย่างวิธีการสอนของพวกเขา สิ่งที่ฉันต้องการคือการบอกเรื่องจริงกับตัวเลขจริง อย่างไรก็ตามเรื่องราวเหล่านี้จำเป็นต้องเกี่ยวข้องกับชุดข้อมูลขนาดเล็กมากซึ่งช่วยให้การคำนวณด้วยตนเอง ข้อเสนอแนะสำหรับชุดข้อมูลดังกล่าวจะได้รับการต้อนรับมาก ตัวอย่างหัวข้อบางหัวข้อสำหรับชุดข้อมูลขนาดเล็ก: สหสัมพันธ์ / การถดถอย (พื้นฐาน) ANOVA (1/2 วิธี) การทดสอบ z / t - หนึ่ง / สองตัวอย่าง un / จับคู่ การเปรียบเทียบสัดส่วน - ตารางสองทาง / หลายทาง

3
การตรวจสอบสถิติในเอกสาร
สำหรับพวกเราบางคนเอกสารการตัดสินเป็นส่วนหนึ่งของงาน เมื่อผู้ตัดสินเอกสารวิธีการทางสถิติที่ผมคิดว่าคำแนะนำจากสาขาวิชาอื่น ๆ ที่เป็นประโยชน์อย่างเป็นธรรมเช่นวิทยาศาสตร์คอมพิวเตอร์และคณิตศาสตร์ คำถามนี้เกี่ยวข้องกับการตรวจสอบเอกสารทางสถิติที่มีการใช้มากขึ้น โดยสิ่งนี้ฉันหมายความว่ากระดาษถูกส่งไปยังวารสารที่ไม่ใช่สถิติ / คณิตศาสตร์และสถิติที่กล่าวถึงเพียงในส่วน "วิธีการ" บางคำถาม: เราควรพยายามทำความเข้าใจเกี่ยวกับพื้นที่การสมัครมากแค่ไหน? ฉันควรใช้เวลาในการรายงานนานเท่าใด คุณจู้จี้จุกจิกแค่ไหนเมื่อดูรูป / ตาราง คุณรับมือกับข้อมูลที่ไม่มีอยู่ได้อย่างไร คุณลองและรันการวิเคราะห์ที่ใช้อีกครั้ง จำนวนเอกสารสูงสุดที่คุณจะตรวจสอบในหนึ่งปีคือเท่าใด มีคำถามที่พลาดไปหรือไม่? รู้สึกอิสระที่จะแก้ไขหรือเพิ่มความคิดเห็น แก้ไข ฉันมาถึงคำถามนี้ในฐานะนักสถิติทบทวนบทความทางชีววิทยา แต่ฉันสนใจในการตรวจสอบทางสถิติเกี่ยวกับวินัยที่ไม่ใช่คณิตศาสตร์ ฉันไม่แน่ใจว่าควรเป็น CW หรือไม่ ในอีกด้านหนึ่งมันเปิดเล็กน้อย แต่อีกด้านหนึ่งฉันเห็นว่าตัวเองยอมรับคำตอบ นอกจากนี้คำตอบอาจจะค่อนข้างยาว
43 journals  referee 

4
ความแตกต่างในความแตกต่างคืออะไร?
ความแตกต่างในความแตกต่างได้รับความนิยมในฐานะเครื่องมือที่ไม่ได้ทดลองโดยเฉพาะอย่างยิ่งในด้านเศรษฐศาสตร์ ใครช่วยกรุณาให้คำตอบที่ชัดเจนและไม่ใช่เทคนิคคำถามต่อไปนี้เกี่ยวกับความแตกต่างในความแตกต่าง ตัวประมาณความแตกต่างคืออะไร เหตุใดเครื่องมือประมาณการความแตกต่างในการใช้งานจึงเป็นสิ่งใด เราสามารถเชื่อถือการประมาณการที่แตกต่างกันได้หรือไม่?

9
เหตุใดผู้คนจึงใช้ค่า p แทนการคำนวณความน่าจะเป็นของแบบจำลองที่ให้ข้อมูล
การพูดค่า p-value โดยประมาณให้ความน่าจะเป็นของผลลัพธ์ที่สังเกตได้ของการทดลองที่กำหนดสมมติฐาน (model) การมีความน่าจะเป็นนี้ (p-value) เราต้องการตัดสินสมมติฐานของเรา แต่มันจะไม่เป็นธรรมชาติหรือที่จะคำนวณความน่าจะเป็นของสมมติฐานที่ได้จากผลลัพธ์ที่สังเกตได้หรือไม่ ในรายละเอียดเพิ่มเติม เรามีเหรียญ เราพลิกมัน 20 ครั้งและเราได้ 14 หัว (14 จาก 20 คือสิ่งที่ฉันเรียกว่า "ผลลัพธ์ของการทดสอบ") ทีนี้สมมุติฐานของเราคือว่าเหรียญมีความยุติธรรม (ความน่าจะเป็นของหัวและหางมีค่าเท่ากัน) ตอนนี้เราคำนวณค่า p ซึ่งเท่ากับความน่าจะเป็นที่จะได้ 14 หรือมากกว่าใน 20 เหรียญ ตกลงตอนนี้เรามีความน่าจะเป็นนี้ (0.058) และเราต้องการใช้ความน่าจะเป็นนี้ในการตัดสินแบบจำลองของเรา (เป็นไปได้อย่างไรที่เรามีเหรียญที่ยุติธรรม) แต่ถ้าเราต้องการประเมินความน่าจะเป็นของโมเดลทำไมเราไม่คำนวณความน่าจะเป็นของโมเดลที่ได้รับจากการทดสอบ ทำไมเราจึงคำนวณความน่าจะเป็นของการทดสอบที่ได้รับจากแบบจำลอง (p-value)

3
ทำความเข้าใจเกี่ยวกับบทบาทของปัจจัยส่วนลดในการเรียนรู้การเสริมแรง
ฉันสอนตัวเองเกี่ยวกับการเรียนรู้การเสริมแรงและพยายามทำความเข้าใจแนวคิดของรางวัลที่ได้รับส่วนลด ดังนั้นรางวัลจึงมีความจำเป็นที่จะต้องบอกระบบว่าคู่กรรมของรัฐนั้นดีและอะไรไม่ดี แต่สิ่งที่ฉันไม่เข้าใจคือเหตุผลว่าทำไมจึงจำเป็นต้องให้รางวัลส่วนลด เหตุใดจึงสำคัญว่ารัฐที่มีฐานะดีจะมาถึงในไม่ช้าแทนที่จะเป็นในภายหลังหรือไม่ ฉันเข้าใจว่านี่เกี่ยวข้องในบางกรณี ตัวอย่างเช่นหากคุณใช้การเรียนรู้การเสริมแรงเพื่อแลกเปลี่ยนในตลาดหุ้นมันจะมีประโยชน์มากขึ้นในการทำกำไรได้เร็วกว่าแทนที่จะทำภายหลัง นี่เป็นเพราะการมีเงินในตอนนี้ช่วยให้คุณสามารถทำสิ่งต่าง ๆ ด้วยเงินในตอนนี้ซึ่งเป็นที่ต้องการมากกว่าทำเงินด้วยเงินในภายหลัง แต่ในกรณีส่วนใหญ่ฉันไม่เห็นว่าทำไมการลดราคาจึงมีประโยชน์ ตัวอย่างเช่นสมมติว่าคุณต้องการให้หุ่นยนต์เรียนรู้วิธีนำทางไปรอบ ๆ ห้องเพื่อไปถึงอีกด้านหนึ่งซึ่งมีบทลงโทษหากมันชนกับสิ่งกีดขวาง หากไม่มีปัจจัยส่วนลดแล้วมันจะเรียนรู้ที่จะไปถึงอีกด้านอย่างสมบูรณ์แบบโดยไม่ชนกับสิ่งกีดขวางใด ๆ อาจใช้เวลานานในการไปถึงที่นั่น แต่มันจะไปถึงที่นั่นในที่สุด แต่ถ้าเรามอบส่วนลดให้กับรางวัลหุ่นยนต์จะได้รับการกระตุ้นให้ไปถึงอีกด้านหนึ่งของห้องได้อย่างรวดเร็วแม้ว่ามันจะต้องชนกับวัตถุตามทาง เห็นได้ชัดว่าไม่ใช่ผลลัพธ์ที่ต้องการ แน่นอนว่าคุณต้องการให้หุ่นยนต์ไปด้านอื่น ๆ อย่างรวดเร็ว แต่ไม่ใช่ถ้านี่หมายความว่ามันจะต้องชนกับวัตถุระหว่างทาง ดังนั้นสัญชาตญาณของฉันคือปัจจัยรูปแบบส่วนลดใด ๆ ที่จริงจะนำไปสู่การแก้ปัญหาย่อยที่ดีที่สุด และตัวเลือกของตัวลดราคามักจะเป็นแบบสุ่ม - หลายวิธีที่ฉันได้เห็นเพียงตั้งค่าเป็น 0.9 สิ่งนี้ดูเหมือนจะไร้เดียงสามากสำหรับฉันและดูเหมือนจะเป็นการแลกเปลี่ยนโดยพลระหว่างวิธีการแก้ปัญหาที่เหมาะสมที่สุดและวิธีแก้ปัญหาที่เร็วที่สุด แต่ในความเป็นจริงการแลกเปลี่ยนนี้มีความสำคัญมาก กรุณามีใครช่วยให้ฉันเข้าใจทั้งหมดนี้ไหม ขอขอบคุณ :)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.