สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การประมาณค่าพารามิเตอร์การกระจายแกมมาโดยใช้ค่าเฉลี่ยตัวอย่างและค่ามาตรฐาน
ฉันพยายามประเมินพารามิเตอร์ของการแจกแจงแกมม่าที่เหมาะที่สุดกับตัวอย่างข้อมูลของฉัน ฉันต้องการใช้ค่าเฉลี่ย , std (และความแปรปรวน ) จากตัวอย่างข้อมูลไม่ใช่ค่าจริง - เนื่องจากสิ่งเหล่านี้จะไม่สามารถใช้ได้ในแอปพลิเคชันของฉัน ตามนี้เอกสารสูตรต่อไปนี้สามารถนำมาใช้ในการประมาณรูปร่างและขนาด: ฉันลองสิ่งนี้กับข้อมูลของฉันอย่างไรก็ตามผลลัพธ์แตกต่างกันมากเมื่อเทียบกับการกระจายแกมม่าที่เหมาะสมกับข้อมูลจริงโดยใช้ไลบรารีการเขียนโปรแกรมหลาม ฉันแนบข้อมูล / รหัสของฉันเพื่อแสดงปัญหาในมือ: import matplotlib.pyplot as plt import numpy as np from scipy.stats import gamma data = [91.81, 10.02, 27.61, 50.48, 3.34, 26.35, 21.0, 79.27, 31.04, 8.85, 109.2, 15.52, 11.03, 41.09, 10.75, 96.43, 109.52, 33.28, 7.66, 65.44, 52.43, 19.25, …

1
การสร้างคุณสมบัติที่ดีที่สุดของกลางวันในโครงข่ายประสาทเทียม
ทำงานเกี่ยวกับปัญหาการถดถอยฉันเริ่มคิดเกี่ยวกับการเป็นตัวแทนของคุณสมบัติ "วันของสัปดาห์" ฉันสงสัยว่าวิธีการใดที่จะทำงานได้ดีกว่า: คุณสมบัติเดียว; ค่า 1/7 สำหรับวันจันทร์; 2/7 ในวันอังคาร ... 7 คุณสมบัติ: (1, 0, 0, 0, 0, 0, 0) สำหรับวันจันทร์; (0, 1, 0, 0, 0, 0, 0) สำหรับวันอังคาร ... เป็นการยากที่จะวัดเนื่องจากความแตกต่างของการกำหนดค่าเครือข่าย (ควรมีฟีเจอร์หกอย่างเพิ่มเติมที่สะท้อนให้เห็นในจำนวนโหนดที่ซ่อนอยู่ที่ฉันเชื่อ) จำนวนคุณสมบัติทั้งหมดคือประมาณ 20 ฉันใช้ backprop ง่าย ๆ เพื่อเรียนรู้เครือข่ายนิวรัลไปข้างหน้าแบบธรรมดา

3
โคตรการไล่ระดับสีแบบสุ่มสามารถหลีกเลี่ยงปัญหาระดับต่ำสุดในพื้นที่ได้อย่างไร
ฉันรู้ว่าการไล่ระดับสีแบบสุ่มมีพฤติกรรมแบบสุ่ม แต่ฉันไม่รู้ว่าทำไม มีคำอธิบายเกี่ยวกับเรื่องนี้หรือไม่?

1
ปรับเทียบลักษณนามเพิ่มหลายคลาส
ฉันได้อ่านอเล็กซาน Niculescu-Mizil และรวย Caruana กระดาษ " ได้รับการสอบเทียบความน่าจะเป็นจากการส่งเสริม " และการอภิปรายในนี้ด้าย อย่างไรก็ตามฉันยังคงมีปัญหาในการทำความเข้าใจและใช้งานโลจิสติกส์หรือการปรับขนาดของแพลตต์เพื่อปรับเทียบผลลัพธ์ของตัวแยกประเภทการเพิ่มคลาสหลายระดับของฉัน ฉันค่อนข้างคุ้นเคยกับโมเดลเชิงเส้นทั่วไปและฉันคิดว่าฉันเข้าใจว่าวิธีการสอบเทียบของโลจิสติกและแพลตทำงานอย่างไรในกรณีไบนารี แต่ฉันไม่แน่ใจว่าฉันรู้วิธีขยายวิธีที่อธิบายไว้ในกระดาษไปยังกรณีหลายระดับ ตัวจําแนกฉันใช้ผลลัพธ์ต่อไปนี้: = จำนวนคะแนนโหวตที่ลักษณนามใช้สำหรับคลาส jสำหรับตัวอย่าง iที่ถูกจัดประเภทฉฉันเจฉผมJf_{ij}JJjผมผมi YผมYผมy_i = คลาสโดยประมาณ ณ จุดนี้ฉันมีคำถามต่อไปนี้: คำถามที่ 1:ฉันจำเป็นต้องใช้ logom หลายค่าเพื่อประมาณความน่าจะเป็นหรือไม่? หรือฉันยังสามารถทำได้ด้วยการถดถอยโลจิสติก (เช่นใน 1-vs-all )? Q2:ฉันจะกำหนดตัวแปรเป้าหมายระดับกลางได้อย่างไร (เช่นในการปรับขนาดของแพลต) สำหรับกรณีที่มีหลายระดับ คำถามที่3:ฉันเข้าใจว่าอาจเป็นเรื่องที่ถามบ่อย แต่ทุกคนจะยินดีที่จะร่างรหัสหลอกสำหรับปัญหานี้หรือไม่? (ในระดับปฏิบัติมากขึ้นฉันสนใจในโซลูชันใน Matlab)

5
'การเรียนรู้การถ่ายโอน' กับ 'การปรับโดเมน' ต่างกันอย่างไร
มี 'ความแตกต่างระหว่างการเรียนรู้การถ่ายโอน' และ 'การปรับโดเมน' หรือไม่? ฉันไม่รู้เกี่ยวกับบริบท แต่ความเข้าใจของฉันคือเรามีชุดข้อมูล 1 และฝึกอบรมหลังจากนั้นเรามีชุดข้อมูลอีก 2 ชุดที่เราต้องการปรับโมเดลของเราโดยไม่ต้องฝึกอบรมใหม่ตั้งแต่เริ่มต้นซึ่ง 'ถ่ายโอนการเรียนรู้' และ 'การปรับโดเมน' ช่วยแก้ปัญหานี้ได้ ตามข้อมูลของ Convolutional Neural Networks: โดย 'โอนการเรียนรู้' ฉันหมายถึง 'finetuning' [1] ในกรณีนี้[2]ไม่มีการสำรอง แต่ควรมีการยกเลิกการปรับโดเมน

3
ควรใช้เอฟเฟกต์คงที่เมื่อใดกับการใช้คลัสเตอร์ SE
สมมติว่าคุณมีข้อมูลข้ามส่วนเดียวที่บุคคลตั้งอยู่ภายในกลุ่ม (เช่นนักเรียนในโรงเรียน) และคุณต้องการประเมินแบบจำลองของแบบฟอร์มY_i = a + B*X_iที่Xเป็นเวกเตอร์ของลักษณะระดับบุคคลและaค่าคงที่ ในกรณีนี้สมมติว่าไม่มีความแตกต่างระหว่างกลุ่มที่แตกต่างกันทำให้ลำเอียงประเมินจุดของคุณBและ SEs ของพวกเขาเนื่องจากมีความสัมพันธ์กับตัวแปรอิสระที่คุณสนใจ ทางเลือกหนึ่งคือการจัดกลุ่ม SE ของคุณตามกลุ่ม (โรงเรียน) อีกประการหนึ่งคือการรวมกลุ่ม FE อีกอย่างคือให้ใช้ทั้ง สิ่งที่ควรพิจารณาเมื่อเลือกระหว่างตัวเลือกเหล่านี้ ไม่ชัดเจนว่าทำไมกลุ่มหนึ่งอาจรวมกลุ่ม SE ตามกลุ่มและใช้กลุ่ม FE ในกรณีเฉพาะของฉันฉันมี 35 กลุ่มและ 5,000 คนซ้อนกันภายในแต่ละกลุ่ม ฉันได้ติดตามการสนทนาในไฟล์ PDF นี้แต่ไม่ชัดเจนว่าทำไมและเมื่อใดจึงอาจใช้ทั้ง SEs แบบคลัสเตอร์และเอฟเฟกต์คงที่ (โปรดอภิปรายข้อดีและข้อเสียของ SEs เทียบกับ FE แทนการแนะนำฉันพอดีกับโมเดลหลายระดับ)

1
“ ฟีเจอร์สเปซ” คืออะไร
คำจำกัดความของ "ฟีเจอร์สเปซ" คืออะไร? ตัวอย่างเช่นเมื่ออ่านเกี่ยวกับ SVM ฉันอ่านเกี่ยวกับ "การแมปไปยังพื้นที่ของฟีเจอร์" เมื่ออ่านเกี่ยวกับรถเข็นฉันอ่านเกี่ยวกับ "การแบ่งพาร์ติชันเพื่อใช้พื้นที่" ฉันเข้าใจว่าเกิดอะไรขึ้นโดยเฉพาะกับรถเข็น แต่ฉันคิดว่ามีคำจำกัดความที่ฉันพลาดไป มีคำจำกัดความทั่วไปของ "ฟีเจอร์สเปซ" หรือไม่? มีคำจำกัดความที่จะให้ข้อมูลเชิงลึกแก่ฉันเกี่ยวกับเมล็ด SVM และ / หรือรถเข็นมากขึ้นหรือไม่

3
เครือข่ายประสาทเทียมเรียนรู้ฟังก์ชันหรือฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่?
คำถามอาจฟังดูแปลก ๆ เพราะฉันใหม่กับการอนุมานเชิงสถิติและเครือข่ายประสาท เมื่ออยู่ในปัญหาการจำแนกประเภทโดยใช้โครงข่ายประสาทเราบอกว่าเราต้องการเรียนรู้ฟังก์ชั่นที่แมปพื้นที่ของอินพุตเข้ากับพื้นที่ของเอาต์พุต :f∗f∗f^*xxxyyy f∗(x;θ)=yf∗(x;θ)=yf^*(x; \theta) = y เราปรับพารามิเตอร์ ( ) ให้เหมาะกับฟังก์ชันที่ไม่ใช่เชิงเส้นหรือเพื่อจำลองฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่?θθ\theta ฉันไม่รู้วิธีการเขียนคำถามด้วยวิธีที่ดีกว่า ฉันได้อ่านมาแล้วหลายครั้งทั้งสองอย่าง (ฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือฟังก์ชันแบบนั้น) ดังนั้นความสับสนของฉัน

1
เมื่อใดที่ต้องเลือก SARSA เทียบกับการเรียนรู้ Q
SARSA และ Q Learning เป็นทั้งอัลกอริทึมการเรียนรู้เสริมที่ทำงานในลักษณะเดียวกัน ความแตกต่างที่โดดเด่นที่สุดคือ SARSA อยู่ในนโยบายขณะที่ Q Learning ปิดนโยบาย กฎการอัพเดทมีดังนี้: การเรียนรู้ Q: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] ซาร์ซา: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] โดยที่st,atst,ats_t,\,a_tและrtrtr_tเป็นสถานะการกระทำและรางวัล ณ ขั้นตอนtttและγγ\gammaเป็นปัจจัยลดราคา พวกเขาส่วนใหญ่มีลักษณะเดียวกันยกเว้นใน SARSA เราดำเนินการจริงและในการเรียนรู้ Q เราดำเนินการด้วยรางวัลสูงสุด มีการตั้งค่าทางทฤษฎีหรือภาคปฏิบัติที่ควรเลือกอย่างใดอย่างหนึ่งมากกว่าอีกอันหนึ่งหรือไม่? ฉันเห็นได้ว่าการใช้ Q สูงสุดในการเรียนรู้นั้นมีค่าใช้จ่ายสูงและมากขึ้นเรื่อย ๆ ในพื้นที่ปฏิบัติการต่อเนื่อง แต่มีอะไรอีกบ้าง?

3
การถดถอยแบบลอจิสติกใช้การกระจายแบบทวินามอย่างไร
ฉันพยายามที่จะเข้าใจว่าการถดถอยโลจิสติกใช้การกระจายตัวแบบทวินามอย่างไร สมมติว่าฉันกำลังศึกษาความสำเร็จของรังนกในนก ความน่าจะเป็นของรังที่สำเร็จคือ 0.6 ด้วยการแจกแจงทวินามฉันสามารถคำนวณความน่าจะเป็นของความสำเร็จ r ที่ได้รับจากการทดลอง n (จำนวนรังที่ศึกษา) แต่การกระจายแบบทวินามใช้ในบริบทการสร้างแบบจำลองอย่างไร สมมติว่าฉันต้องการทราบว่าอุณหภูมิเฉลี่ยต่อวันมีผลต่อความสำเร็จของรังอย่างไรและฉันใช้การถดถอยโลจิสติกส์เพื่อสำรวจคำถามนี้ ภายในบริบทที่ฉันอธิบายไว้การถดถอยโลจิสติกใช้การแจกแจงทวินามเป็นอย่างไร ฉันกำลังมองหาคำตอบที่ใช้งานง่ายดังนั้นคำตอบที่ไม่มีสมการ! ฉันคิดว่าสมการจะมีประโยชน์ก็ต่อเมื่อมีความเข้าใจในระดับที่เข้าใจง่าย

4
Conv1D และ Conv2D แตกต่างกันอย่างไร?
ฉันกำลังดำเนินการเอกสารการแปลงแบบ keras และพบ Convivuion Conv1 สองประเภทและ Conv2D สองประเภท ฉันค้นหาเว็บและนี่คือสิ่งที่ฉันเข้าใจเกี่ยวกับ Conv1D และ Conv2D; Conv1D ใช้สำหรับซีเควนซ์และ Conv2D ใช้สำหรับอิมเมจ ฉันมักจะคิดว่าเครือข่ายที่ใช้ร่วมกันของ convolution นั้นใช้สำหรับรูปภาพและซีเอ็นเอ็นด้วยวิธีนี้เท่านั้น ภาพนั้นถือเป็นเมทริกซ์ขนาดใหญ่จากนั้นฟิลเตอร์จะเลื่อนผ่านเมทริกซ์นี้และคำนวณผลคูณของจุด ฉันเชื่อว่าสิ่งที่ keras กล่าวถึงในฐานะ Conv2D ถ้า Conv2D ทำงานในลักษณะนี้แล้วกลไกของ Conv1D คืออะไรและเราจะจินตนาการกลไกของมันได้อย่างไร

4
เหตุใดการใช้การติดป้ายกำกับโดยไม่ส่งผลกระทบต่อผลลัพธ์เล็กน้อย
ฉันได้ดูวิธีการเรียนรู้แบบกึ่งภายใต้การดูแลและได้พบกับแนวคิดของ "การติดฉลากหลอก" ตามที่ฉันเข้าใจแล้วด้วยการติดฉลากหลอกคุณมีชุดของข้อมูลที่มีป้ายกำกับรวมถึงชุดของข้อมูลที่ไม่มีป้ายกำกับ คุณฝึกอบรมโมเดลโดยใช้ข้อมูลที่มีป้ายกำกับเท่านั้น จากนั้นคุณใช้ข้อมูลเริ่มต้นนั้นเพื่อจัดประเภท (แนบป้ายกำกับชั่วคราว) กับข้อมูลที่ไม่มีป้ายกำกับ จากนั้นคุณป้อนทั้งข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับกลับสู่การฝึกอบรมแบบจำลองของคุณ (อีกครั้ง) ปรับให้เหมาะสมกับทั้งป้ายกำกับที่รู้จักและป้ายกำกับที่คาดการณ์ (ทำซ้ำกระบวนการนี้ติดฉลากใหม่ด้วยรุ่นที่อัปเดตแล้ว) ผลประโยชน์ที่อ้างสิทธิ์คือคุณสามารถใช้ข้อมูลเกี่ยวกับโครงสร้างของข้อมูลที่ไม่มีป้ายกำกับเพื่อปรับปรุงแบบจำลอง การเปลี่ยนแปลงของรูปต่อไปนี้มักจะแสดง "แสดงให้เห็น" ว่ากระบวนการสามารถทำให้ขอบเขตการตัดสินใจที่ซับซ้อนมากขึ้นตามที่ข้อมูล (ไม่มีป้ายกำกับ) อยู่ ภาพจากWikimedia Commonsโดย Techerin CC BY-SA 3.0 อย่างไรก็ตามฉันไม่ค่อยซื้อคำอธิบายแบบง่ายๆ อย่างไร้เดียงสาถ้าผลการฝึกอย่างเดียวที่มีป้ายกำกับดั้งเดิมคือขอบเขตการตัดสินใจระดับสูงจะมีการกำหนดป้ายหลอกโดยขึ้นอยู่กับขอบเขตการตัดสินใจนั้น ซึ่งจะกล่าวว่ามือซ้ายของเส้นโค้งส่วนบนจะเป็นป้ายขาวหลอกและมือขวาของเส้นโค้งล่างจะเป็นป้ายดำหลอก คุณจะไม่ได้รับขอบเขตการตัดสินใจโค้งที่ดีหลังจากการฝึกอบรมซ้ำเนื่องจากป้ายหลอกใหม่จะช่วยเสริมขอบเขตการตัดสินใจปัจจุบัน หรือกล่าวอีกนัยหนึ่งขอบเขตการตัดสินใจที่มีป้ายกำกับเท่านั้นในปัจจุบันจะมีความแม่นยำในการทำนายที่สมบูรณ์แบบสำหรับข้อมูลที่ไม่มีชื่อ (นั่นคือสิ่งที่เราใช้ในการสร้าง) ไม่มีแรงผลักดัน (ไม่มีการไล่ระดับสี) ซึ่งจะทำให้เราเปลี่ยนที่ตั้งของขอบเขตการตัดสินใจเพียงแค่เพิ่มข้อมูลที่ติดฉลากหลอก ฉันถูกต้องในการคิดว่าคำอธิบายที่เป็นตัวเป็นตนโดยแผนภาพขาด หรือมีบางอย่างที่ฉันขาดหายไป? ถ้าไม่ได้ประโยชน์ของป้ายกำกับหลอกคืออะไรเนื่องจากขอบเขตการตัดสินใจสั่งสอนขึ้นใหม่มีความแม่นยำที่สมบูรณ์แบบเหนือป้ายกำกับหลอก?

3
ฟอเรสต์แบบสุ่มสำหรับการถดถอยนั้นเป็น "การถดถอย" ที่แท้จริงหรือไม่?
สุ่มป่าใช้สำหรับการถดถอย อย่างไรก็ตามจากสิ่งที่ฉันเข้าใจพวกเขากำหนดค่าเป้าหมายเฉลี่ยในแต่ละใบ เนื่องจากมีใบที่ จำกัด ในแต่ละต้นเท่านั้นจึงมีค่าเฉพาะที่เป้าหมายสามารถบรรลุได้จากโมเดลการถดถอยของเรา ดังนั้นมันไม่ใช่แค่การถดถอยแบบ 'ไม่ต่อเนื่อง' (เช่นฟังก์ชันขั้นตอน) และไม่เหมือนกับการถดถอยเชิงเส้นซึ่งเป็น 'ต่อเนื่อง'? ฉันเข้าใจสิ่งนี้ถูกต้องหรือไม่ ถ้าใช่ข้อได้เปรียบของป่าสุ่มในการถดถอยคืออะไร

1
คำจำกัดความทางคณิตศาสตร์ / อัลกอริทึมสำหรับ overfitting
มีคำจำกัดความทางคณิตศาสตร์หรืออัลกอริธึมเกี่ยวกับการบรรจุมากเกินไปหรือไม่? คำจำกัดความที่มีให้บ่อยครั้งคือพล็อต 2-D แบบคลาสสิกของจุดที่มีเส้นที่ผ่านทุกจุดและเส้นโค้งการสูญเสียการตรวจสอบจะขึ้นไป แต่มีนิยามที่เข้มงวดทางคณิตศาสตร์หรือไม่?

2
LASSO ประสบปัญหาการถดถอยแบบขั้นตอนเหมือนกันหรือไม่?
วิธีการเลือกตัวแปรแบบอัลกอริธึมแบบขั้นตอนมีแนวโน้มที่จะเลือกแบบจำลองที่มีอคติมากกว่าหรือน้อยกว่าทุกการประมาณค่าในตัวแบบการถดถอย ( ββ\beta s และ SEs, p-ค่า, สถิติF , ฯลฯ ) ตัวพยากรณ์เท็จตามวรรณกรรมจำลองที่สมเหตุสมผล LASSO ประสบปัญหาในลักษณะที่เหมือนกันเมื่อใช้เพื่อเลือกตัวแปรหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.