สถิติและข้อมูลขนาดใหญ่

2

การประมาณค่าพารามิเตอร์การกระจายแกมมาโดยใช้ค่าเฉลี่ยตัวอย่างและค่ามาตรฐาน

ฉันพยายามประเมินพารามิเตอร์ของการแจกแจงแกมม่าที่เหมาะที่สุดกับตัวอย่างข้อมูลของฉัน ฉันต้องการใช้ค่าเฉลี่ย , std (และความแปรปรวน ) จากตัวอย่างข้อมูลไม่ใช่ค่าจริง - เนื่องจากสิ่งเหล่านี้จะไม่สามารถใช้ได้ในแอปพลิเคชันของฉัน ตามนี้เอกสารสูตรต่อไปนี้สามารถนำมาใช้ในการประมาณรูปร่างและขนาด: ฉันลองสิ่งนี้กับข้อมูลของฉันอย่างไรก็ตามผลลัพธ์แตกต่างกันมากเมื่อเทียบกับการกระจายแกมม่าที่เหมาะสมกับข้อมูลจริงโดยใช้ไลบรารีการเขียนโปรแกรมหลาม ฉันแนบข้อมูล / รหัสของฉันเพื่อแสดงปัญหาในมือ: import matplotlib.pyplot as plt import numpy as np from scipy.stats import gamma data = [91.81, 10.02, 27.61, 50.48, 3.34, 26.35, 21.0, 79.27, 31.04, 8.85, 109.2, 15.52, 11.03, 41.09, 10.75, 96.43, 109.52, 33.28, 7.66, 65.44, 52.43, 19.25, …

19 distributions estimation gamma-distribution

1

การสร้างคุณสมบัติที่ดีที่สุดของกลางวันในโครงข่ายประสาทเทียม

ทำงานเกี่ยวกับปัญหาการถดถอยฉันเริ่มคิดเกี่ยวกับการเป็นตัวแทนของคุณสมบัติ "วันของสัปดาห์" ฉันสงสัยว่าวิธีการใดที่จะทำงานได้ดีกว่า: คุณสมบัติเดียว; ค่า 1/7 สำหรับวันจันทร์; 2/7 ในวันอังคาร ... 7 คุณสมบัติ: (1, 0, 0, 0, 0, 0, 0) สำหรับวันจันทร์; (0, 1, 0, 0, 0, 0, 0) สำหรับวันอังคาร ... เป็นการยากที่จะวัดเนื่องจากความแตกต่างของการกำหนดค่าเครือข่าย (ควรมีฟีเจอร์หกอย่างเพิ่มเติมที่สะท้อนให้เห็นในจำนวนโหนดที่ซ่อนอยู่ที่ฉันเชื่อ) จำนวนคุณสมบัติทั้งหมดคือประมาณ 20 ฉันใช้ backprop ง่าย ๆ เพื่อเรียนรู้เครือข่ายนิวรัลไปข้างหน้าแบบธรรมดา

19 machine-learning neural-networks feature-construction

3

โคตรการไล่ระดับสีแบบสุ่มสามารถหลีกเลี่ยงปัญหาระดับต่ำสุดในพื้นที่ได้อย่างไร

ฉันรู้ว่าการไล่ระดับสีแบบสุ่มมีพฤติกรรมแบบสุ่ม แต่ฉันไม่รู้ว่าทำไม มีคำอธิบายเกี่ยวกับเรื่องนี้หรือไม่?

19 machine-learning random-variable gradient-descent

1

ปรับเทียบลักษณนามเพิ่มหลายคลาส

ฉันได้อ่านอเล็กซาน Niculescu-Mizil และรวย Caruana กระดาษ " ได้รับการสอบเทียบความน่าจะเป็นจากการส่งเสริม " และการอภิปรายในนี้ด้าย อย่างไรก็ตามฉันยังคงมีปัญหาในการทำความเข้าใจและใช้งานโลจิสติกส์หรือการปรับขนาดของแพลตต์เพื่อปรับเทียบผลลัพธ์ของตัวแยกประเภทการเพิ่มคลาสหลายระดับของฉัน ฉันค่อนข้างคุ้นเคยกับโมเดลเชิงเส้นทั่วไปและฉันคิดว่าฉันเข้าใจว่าวิธีการสอบเทียบของโลจิสติกและแพลตทำงานอย่างไรในกรณีไบนารี แต่ฉันไม่แน่ใจว่าฉันรู้วิธีขยายวิธีที่อธิบายไว้ในกระดาษไปยังกรณีหลายระดับ ตัวจําแนกฉันใช้ผลลัพธ์ต่อไปนี้: = จำนวนคะแนนโหวตที่ลักษณนามใช้สำหรับคลาส jสำหรับตัวอย่าง iที่ถูกจัดประเภทฉฉันเจฉผมJf_{ij}JJjผมผมi YผมYผมy_i = คลาสโดยประมาณ ณ จุดนี้ฉันมีคำถามต่อไปนี้: คำถามที่ 1:ฉันจำเป็นต้องใช้ logom หลายค่าเพื่อประมาณความน่าจะเป็นหรือไม่? หรือฉันยังสามารถทำได้ด้วยการถดถอยโลจิสติก (เช่นใน 1-vs-all )? Q2:ฉันจะกำหนดตัวแปรเป้าหมายระดับกลางได้อย่างไร (เช่นในการปรับขนาดของแพลต) สำหรับกรณีที่มีหลายระดับ คำถามที่3:ฉันเข้าใจว่าอาจเป็นเรื่องที่ถามบ่อย แต่ทุกคนจะยินดีที่จะร่างรหัสหลอกสำหรับปัญหานี้หรือไม่? (ในระดับปฏิบัติมากขึ้นฉันสนใจในโซลูชันใน Matlab)

19 machine-learning boosting

5

'การเรียนรู้การถ่ายโอน' กับ 'การปรับโดเมน' ต่างกันอย่างไร

มี 'ความแตกต่างระหว่างการเรียนรู้การถ่ายโอน' และ 'การปรับโดเมน' หรือไม่? ฉันไม่รู้เกี่ยวกับบริบท แต่ความเข้าใจของฉันคือเรามีชุดข้อมูล 1 และฝึกอบรมหลังจากนั้นเรามีชุดข้อมูลอีก 2 ชุดที่เราต้องการปรับโมเดลของเราโดยไม่ต้องฝึกอบรมใหม่ตั้งแต่เริ่มต้นซึ่ง 'ถ่ายโอนการเรียนรู้' และ 'การปรับโดเมน' ช่วยแก้ปัญหานี้ได้ ตามข้อมูลของ Convolutional Neural Networks: โดย 'โอนการเรียนรู้' ฉันหมายถึง 'finetuning' [1] ในกรณีนี้[2]ไม่มีการสำรอง แต่ควรมีการยกเลิกการปรับโดเมน

19 deep-learning terminology conv-neural-network transfer-learning domain-adaptation

3

ควรใช้เอฟเฟกต์คงที่เมื่อใดกับการใช้คลัสเตอร์ SE

สมมติว่าคุณมีข้อมูลข้ามส่วนเดียวที่บุคคลตั้งอยู่ภายในกลุ่ม (เช่นนักเรียนในโรงเรียน) และคุณต้องการประเมินแบบจำลองของแบบฟอร์มY_i = a + B*X_iที่Xเป็นเวกเตอร์ของลักษณะระดับบุคคลและaค่าคงที่ ในกรณีนี้สมมติว่าไม่มีความแตกต่างระหว่างกลุ่มที่แตกต่างกันทำให้ลำเอียงประเมินจุดของคุณBและ SEs ของพวกเขาเนื่องจากมีความสัมพันธ์กับตัวแปรอิสระที่คุณสนใจ ทางเลือกหนึ่งคือการจัดกลุ่ม SE ของคุณตามกลุ่ม (โรงเรียน) อีกประการหนึ่งคือการรวมกลุ่ม FE อีกอย่างคือให้ใช้ทั้ง สิ่งที่ควรพิจารณาเมื่อเลือกระหว่างตัวเลือกเหล่านี้ ไม่ชัดเจนว่าทำไมกลุ่มหนึ่งอาจรวมกลุ่ม SE ตามกลุ่มและใช้กลุ่ม FE ในกรณีเฉพาะของฉันฉันมี 35 กลุ่มและ 5,000 คนซ้อนกันภายในแต่ละกลุ่ม ฉันได้ติดตามการสนทนาในไฟล์ PDF นี้แต่ไม่ชัดเจนว่าทำไมและเมื่อใดจึงอาจใช้ทั้ง SEs แบบคลัสเตอร์และเอฟเฟกต์คงที่ (โปรดอภิปรายข้อดีและข้อเสียของ SEs เทียบกับ FE แทนการแนะนำฉันพอดีกับโมเดลหลายระดับ)

19 econometrics multilevel-analysis fixed-effects-model endogeneity clustered-standard-errors

1

“ ฟีเจอร์สเปซ” คืออะไร

คำจำกัดความของ "ฟีเจอร์สเปซ" คืออะไร? ตัวอย่างเช่นเมื่ออ่านเกี่ยวกับ SVM ฉันอ่านเกี่ยวกับ "การแมปไปยังพื้นที่ของฟีเจอร์" เมื่ออ่านเกี่ยวกับรถเข็นฉันอ่านเกี่ยวกับ "การแบ่งพาร์ติชันเพื่อใช้พื้นที่" ฉันเข้าใจว่าเกิดอะไรขึ้นโดยเฉพาะกับรถเข็น แต่ฉันคิดว่ามีคำจำกัดความที่ฉันพลาดไป มีคำจำกัดความทั่วไปของ "ฟีเจอร์สเปซ" หรือไม่? มีคำจำกัดความที่จะให้ข้อมูลเชิงลึกแก่ฉันเกี่ยวกับเมล็ด SVM และ / หรือรถเข็นมากขึ้นหรือไม่

19 machine-learning svm feature-selection cart feature-construction

3

เครือข่ายประสาทเทียมเรียนรู้ฟังก์ชันหรือฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่?

คำถามอาจฟังดูแปลก ๆ เพราะฉันใหม่กับการอนุมานเชิงสถิติและเครือข่ายประสาท เมื่ออยู่ในปัญหาการจำแนกประเภทโดยใช้โครงข่ายประสาทเราบอกว่าเราต้องการเรียนรู้ฟังก์ชั่นที่แมปพื้นที่ของอินพุตเข้ากับพื้นที่ของเอาต์พุต :f∗f∗f^*xxxyyy f∗(x;θ)=yf∗(x;θ)=yf^*(x; \theta) = y เราปรับพารามิเตอร์ ( ) ให้เหมาะกับฟังก์ชันที่ไม่ใช่เชิงเส้นหรือเพื่อจำลองฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่?θθ\theta ฉันไม่รู้วิธีการเขียนคำถามด้วยวิธีที่ดีกว่า ฉันได้อ่านมาแล้วหลายครั้งทั้งสองอย่าง (ฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือฟังก์ชันแบบนั้น) ดังนั้นความสับสนของฉัน

19 machine-learning neural-networks

1

เมื่อใดที่ต้องเลือก SARSA เทียบกับการเรียนรู้ Q

SARSA และ Q Learning เป็นทั้งอัลกอริทึมการเรียนรู้เสริมที่ทำงานในลักษณะเดียวกัน ความแตกต่างที่โดดเด่นที่สุดคือ SARSA อยู่ในนโยบายขณะที่ Q Learning ปิดนโยบาย กฎการอัพเดทมีดังนี้: การเรียนรู้ Q: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] ซาร์ซา: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] โดยที่st,atst,ats_t,\,a_tและrtrtr_tเป็นสถานะการกระทำและรางวัล ณ ขั้นตอนtttและγγ\gammaเป็นปัจจัยลดราคา พวกเขาส่วนใหญ่มีลักษณะเดียวกันยกเว้นใน SARSA เราดำเนินการจริงและในการเรียนรู้ Q เราดำเนินการด้วยรางวัลสูงสุด มีการตั้งค่าทางทฤษฎีหรือภาคปฏิบัติที่ควรเลือกอย่างใดอย่างหนึ่งมากกว่าอีกอันหนึ่งหรือไม่? ฉันเห็นได้ว่าการใช้ Q สูงสุดในการเรียนรู้นั้นมีค่าใช้จ่ายสูงและมากขึ้นเรื่อย ๆ ในพื้นที่ปฏิบัติการต่อเนื่อง แต่มีอะไรอีกบ้าง?

19 reinforcement-learning

3

การถดถอยแบบลอจิสติกใช้การกระจายแบบทวินามอย่างไร

ฉันพยายามที่จะเข้าใจว่าการถดถอยโลจิสติกใช้การกระจายตัวแบบทวินามอย่างไร สมมติว่าฉันกำลังศึกษาความสำเร็จของรังนกในนก ความน่าจะเป็นของรังที่สำเร็จคือ 0.6 ด้วยการแจกแจงทวินามฉันสามารถคำนวณความน่าจะเป็นของความสำเร็จ r ที่ได้รับจากการทดลอง n (จำนวนรังที่ศึกษา) แต่การกระจายแบบทวินามใช้ในบริบทการสร้างแบบจำลองอย่างไร สมมติว่าฉันต้องการทราบว่าอุณหภูมิเฉลี่ยต่อวันมีผลต่อความสำเร็จของรังอย่างไรและฉันใช้การถดถอยโลจิสติกส์เพื่อสำรวจคำถามนี้ ภายในบริบทที่ฉันอธิบายไว้การถดถอยโลจิสติกใช้การแจกแจงทวินามเป็นอย่างไร ฉันกำลังมองหาคำตอบที่ใช้งานง่ายดังนั้นคำตอบที่ไม่มีสมการ! ฉันคิดว่าสมการจะมีประโยชน์ก็ต่อเมื่อมีความเข้าใจในระดับที่เข้าใจง่าย

19 logistic binomial

4

Conv1D และ Conv2D แตกต่างกันอย่างไร?

ฉันกำลังดำเนินการเอกสารการแปลงแบบ keras และพบ Convivuion Conv1 สองประเภทและ Conv2D สองประเภท ฉันค้นหาเว็บและนี่คือสิ่งที่ฉันเข้าใจเกี่ยวกับ Conv1D และ Conv2D; Conv1D ใช้สำหรับซีเควนซ์และ Conv2D ใช้สำหรับอิมเมจ ฉันมักจะคิดว่าเครือข่ายที่ใช้ร่วมกันของ convolution นั้นใช้สำหรับรูปภาพและซีเอ็นเอ็นด้วยวิธีนี้เท่านั้น ภาพนั้นถือเป็นเมทริกซ์ขนาดใหญ่จากนั้นฟิลเตอร์จะเลื่อนผ่านเมทริกซ์นี้และคำนวณผลคูณของจุด ฉันเชื่อว่าสิ่งที่ keras กล่าวถึงในฐานะ Conv2D ถ้า Conv2D ทำงานในลักษณะนี้แล้วกลไกของ Conv1D คืออะไรและเราจะจินตนาการกลไกของมันได้อย่างไร

19 machine-learning neural-networks conv-neural-network keras

4

เหตุใดการใช้การติดป้ายกำกับโดยไม่ส่งผลกระทบต่อผลลัพธ์เล็กน้อย

ฉันได้ดูวิธีการเรียนรู้แบบกึ่งภายใต้การดูแลและได้พบกับแนวคิดของ "การติดฉลากหลอก" ตามที่ฉันเข้าใจแล้วด้วยการติดฉลากหลอกคุณมีชุดของข้อมูลที่มีป้ายกำกับรวมถึงชุดของข้อมูลที่ไม่มีป้ายกำกับ คุณฝึกอบรมโมเดลโดยใช้ข้อมูลที่มีป้ายกำกับเท่านั้น จากนั้นคุณใช้ข้อมูลเริ่มต้นนั้นเพื่อจัดประเภท (แนบป้ายกำกับชั่วคราว) กับข้อมูลที่ไม่มีป้ายกำกับ จากนั้นคุณป้อนทั้งข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับกลับสู่การฝึกอบรมแบบจำลองของคุณ (อีกครั้ง) ปรับให้เหมาะสมกับทั้งป้ายกำกับที่รู้จักและป้ายกำกับที่คาดการณ์ (ทำซ้ำกระบวนการนี้ติดฉลากใหม่ด้วยรุ่นที่อัปเดตแล้ว) ผลประโยชน์ที่อ้างสิทธิ์คือคุณสามารถใช้ข้อมูลเกี่ยวกับโครงสร้างของข้อมูลที่ไม่มีป้ายกำกับเพื่อปรับปรุงแบบจำลอง การเปลี่ยนแปลงของรูปต่อไปนี้มักจะแสดง "แสดงให้เห็น" ว่ากระบวนการสามารถทำให้ขอบเขตการตัดสินใจที่ซับซ้อนมากขึ้นตามที่ข้อมูล (ไม่มีป้ายกำกับ) อยู่ ภาพจากWikimedia Commonsโดย Techerin CC BY-SA 3.0 อย่างไรก็ตามฉันไม่ค่อยซื้อคำอธิบายแบบง่ายๆ อย่างไร้เดียงสาถ้าผลการฝึกอย่างเดียวที่มีป้ายกำกับดั้งเดิมคือขอบเขตการตัดสินใจระดับสูงจะมีการกำหนดป้ายหลอกโดยขึ้นอยู่กับขอบเขตการตัดสินใจนั้น ซึ่งจะกล่าวว่ามือซ้ายของเส้นโค้งส่วนบนจะเป็นป้ายขาวหลอกและมือขวาของเส้นโค้งล่างจะเป็นป้ายดำหลอก คุณจะไม่ได้รับขอบเขตการตัดสินใจโค้งที่ดีหลังจากการฝึกอบรมซ้ำเนื่องจากป้ายหลอกใหม่จะช่วยเสริมขอบเขตการตัดสินใจปัจจุบัน หรือกล่าวอีกนัยหนึ่งขอบเขตการตัดสินใจที่มีป้ายกำกับเท่านั้นในปัจจุบันจะมีความแม่นยำในการทำนายที่สมบูรณ์แบบสำหรับข้อมูลที่ไม่มีชื่อ (นั่นคือสิ่งที่เราใช้ในการสร้าง) ไม่มีแรงผลักดัน (ไม่มีการไล่ระดับสี) ซึ่งจะทำให้เราเปลี่ยนที่ตั้งของขอบเขตการตัดสินใจเพียงแค่เพิ่มข้อมูลที่ติดฉลากหลอก ฉันถูกต้องในการคิดว่าคำอธิบายที่เป็นตัวเป็นตนโดยแผนภาพขาด หรือมีบางอย่างที่ฉันขาดหายไป? ถ้าไม่ได้ประโยชน์ของป้ายกำกับหลอกคืออะไรเนื่องจากขอบเขตการตัดสินใจสั่งสอนขึ้นใหม่มีความแม่นยำที่สมบูรณ์แบบเหนือป้ายกำกับหลอก?

19 machine-learning semi-supervised

3

ฟอเรสต์แบบสุ่มสำหรับการถดถอยนั้นเป็น "การถดถอย" ที่แท้จริงหรือไม่?

สุ่มป่าใช้สำหรับการถดถอย อย่างไรก็ตามจากสิ่งที่ฉันเข้าใจพวกเขากำหนดค่าเป้าหมายเฉลี่ยในแต่ละใบ เนื่องจากมีใบที่ จำกัด ในแต่ละต้นเท่านั้นจึงมีค่าเฉพาะที่เป้าหมายสามารถบรรลุได้จากโมเดลการถดถอยของเรา ดังนั้นมันไม่ใช่แค่การถดถอยแบบ 'ไม่ต่อเนื่อง' (เช่นฟังก์ชันขั้นตอน) และไม่เหมือนกับการถดถอยเชิงเส้นซึ่งเป็น 'ต่อเนื่อง'? ฉันเข้าใจสิ่งนี้ถูกต้องหรือไม่ ถ้าใช่ข้อได้เปรียบของป่าสุ่มในการถดถอยคืออะไร

18 regression random-forest cart

1

คำจำกัดความทางคณิตศาสตร์ / อัลกอริทึมสำหรับ overfitting

มีคำจำกัดความทางคณิตศาสตร์หรืออัลกอริธึมเกี่ยวกับการบรรจุมากเกินไปหรือไม่? คำจำกัดความที่มีให้บ่อยครั้งคือพล็อต 2-D แบบคลาสสิกของจุดที่มีเส้นที่ผ่านทุกจุดและเส้นโค้งการสูญเสียการตรวจสอบจะขึ้นไป แต่มีนิยามที่เข้มงวดทางคณิตศาสตร์หรือไม่?

18 mathematical-statistics optimization overfitting

2

LASSO ประสบปัญหาการถดถอยแบบขั้นตอนเหมือนกันหรือไม่?

วิธีการเลือกตัวแปรแบบอัลกอริธึมแบบขั้นตอนมีแนวโน้มที่จะเลือกแบบจำลองที่มีอคติมากกว่าหรือน้อยกว่าทุกการประมาณค่าในตัวแบบการถดถอย ( ββ\beta s และ SEs, p-ค่า, สถิติF , ฯลฯ ) ตัวพยากรณ์เท็จตามวรรณกรรมจำลองที่สมเหตุสมผล LASSO ประสบปัญหาในลักษณะที่เหมือนกันเมื่อใช้เพื่อเลือกตัวแปรหรือไม่?

18 regression feature-selection lasso regression-strategies stepwise-regression