สถิติและข้อมูลขนาดใหญ่ machine-learning

3

เหตุใดสถิติของช่องว่างสำหรับ k-mean จึงแนะนำหนึ่งคลัสเตอร์แม้ว่าจะมีอยู่สองกลุ่มก็ตาม

ฉันกำลังใช้ K- หมายถึงการจัดกลุ่มข้อมูลของฉันและกำลังมองหาวิธีการแนะนำหมายเลขคลัสเตอร์ "ดีที่สุด" สถิติ Gap น่าจะเป็นวิธีการทั่วไปในการค้นหาหมายเลขคลัสเตอร์ที่ดี ด้วยเหตุผลบางอย่างมันคืนค่า 1 เป็นหมายเลขคลัสเตอร์ที่ดีที่สุด แต่เมื่อฉันดูข้อมูลมันชัดเจนว่ามี 2 คลัสเตอร์: นี่คือวิธีที่ฉันเรียกช่องว่างใน R: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) ชุดผลลัพธ์: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 …

19 r machine-learning clustering k-means

5

วิธีการ Recode ตัวแปรเด็ดขาดเป็นตัวแปรตัวเลขเมื่อใช้ SVM หรือ Neural Network

หากต้องการใช้ SVM หรือ Neural Network จะต้องแปลง (เข้ารหัส) ตัวแปรหมวดหมู่เป็นตัวแปรตัวเลขวิธีปกติในกรณีนี้คือใช้ค่าไบนารี 0-1 กับค่าหมวดหมู่ k-th ที่แปลงเป็น (0,0, .. ., 1,0, ... 0) (1 อยู่ในตำแหน่ง k-th) มีวิธีการอื่นในการทำเช่นนี้หรือไม่โดยเฉพาะอย่างยิ่งเมื่อมีค่าหมวดหมู่จำนวนมาก (เช่น 100,000) เช่นนั้นการเป็นตัวแทน 0-1 จะแนะนำมิติเพิ่มเติมเพิ่มเติมจำนวนมาก (อินพุตยูนิต) ใน Neural Network ซึ่งไม่ต้องการหรือคาดหวัง ? ฉันถามเกี่ยวกับกลยุทธ์ทั่วไป

19 machine-learning neural-networks categorical-data svm categorical-encoding

2

ความหมายของโครงข่ายประสาทเทียมเป็นกล่องดำ?

ฉันมักจะได้ยินคนพูดถึงเครือข่ายประสาทเป็นสิ่งที่เป็นกล่องดำที่คุณไม่เข้าใจว่ามันทำอะไรหรือสิ่งที่พวกเขาหมายถึง จริง ๆ แล้วฉันไม่เข้าใจว่าพวกเขาหมายถึงอะไร! หากคุณเข้าใจว่าการขยายพันธุ์กลับทำงานได้อย่างไรมันเป็นกล่องดำอย่างไร พวกเขาหมายความว่าเราไม่เข้าใจว่าน้ำหนักที่คำนวณหรืออะไร

19 machine-learning neural-networks

2

แบบฝึกหัดสำหรับวิศวกรรมฟีเจอร์

วิศวกรรมคุณสมบัติเป็นสิ่งสำคัญอย่างยิ่งต่อการเรียนรู้ของเครื่อง แต่ฉันพบวัสดุบางอย่างที่เกี่ยวข้องกับเรื่องนี้ ฉันเข้าร่วมการแข่งขันหลายรายการในKaggleและเชื่อว่าคุณสมบัติที่ดีอาจมีความสำคัญมากกว่าตัวจําแนกที่ดีในบางกรณี ไม่มีใครรู้บทเรียนเกี่ยวกับวิศวกรรมฟีเจอร์หรือเป็นประสบการณ์ที่แท้จริง

19 machine-learning references feature-construction

2

การปรับปรุงความน่าจะเป็นในการจำแนกประเภทในการถดถอยโลจิสติกตลอดเวลา

ฉันกำลังสร้างแบบจำลองการทำนายที่คาดการณ์ความน่าจะเป็นของความสำเร็จของนักเรียนเมื่อสิ้นสุดภาคการศึกษา ฉันสนใจเป็นพิเศษว่านักเรียนจะประสบความสำเร็จหรือล้มเหลวโดยที่ความสำเร็จมักจะถูกกำหนดให้เป็นการสำเร็จหลักสูตรและบรรลุคะแนน 70% หรือมากกว่านั้นจากคะแนนทั้งหมดที่เป็นไปได้ เมื่อฉันปรับใช้แบบจำลองการประมาณความน่าจะเป็นความสำเร็จจะต้องได้รับการอัปเดตตลอดเวลาเนื่องจากมีข้อมูลเพิ่มเติม - โดยทันทีหลังจากมีบางสิ่งเกิดขึ้นเช่นเมื่อนักเรียนส่งการบ้านหรือได้เกรดหนึ่ง การอัปเดตนี้ฟังดูคล้ายกับ Bayesian สำหรับฉัน แต่เมื่อฉันได้รับการฝึกอบรมด้านสถิติการศึกษาซึ่งอยู่นอกเขตความสะดวกสบายของฉัน ฉันได้ใช้การถดถอยโลจิสติก (จริง ๆ lasso) กับชุดข้อมูลในอดีตที่มีสแนปชอตตามสัปดาห์ ข้อมูลชุดนี้มีข้อสังเกตความสัมพันธ์ตั้งแต่นักเรียนแต่ละคนมีTe r m L e n gt h / 7TอีRม.Lอีnก.เสื้อชั่วโมง/7TermLength/7สังเกต; การสังเกตสำหรับนักเรียนหนึ่งคนนั้นมีความสัมพันธ์กัน ฉันไม่ได้เป็นแบบอย่างเฉพาะความสัมพันธ์ภายในการสังเกตรายสัปดาห์ของนักเรียนโดยเฉพาะ ฉันเชื่อว่าฉันเพียงแค่ต้องพิจารณาว่าในการตั้งค่ารองเนื่องจากข้อผิดพลาดมาตรฐานจะมีขนาดเล็กเกินไป ฉันคิดว่า - แต่ไม่แน่ใจในเรื่องนี้ - ปัญหาเดียวที่เกิดขึ้นจากการสังเกตที่สัมพันธ์กันคือฉันต้องระวังเมื่อฉันตรวจสอบความถูกต้องเพื่อให้การสังเกตแบบคลัสเตอร์เป็นส่วนหนึ่งของข้อมูลเพื่อที่ฉันจะไม่ได้รับ อัตราความผิดพลาดนอกตัวอย่างต่ำโดยไม่ได้ตั้งใจจากการคาดการณ์เกี่ยวกับบุคคลที่โมเดลได้เห็นแล้ว ฉันใช้แพ็คเกจ glmnet ของ Rเพื่อทำ lasso ด้วย model logistic เพื่อสร้างความน่าจะเป็นที่จะประสบความสำเร็จ / ล้มเหลวและเลือกตัวทำนายสำหรับหลักสูตรใดหลักสูตรหนึ่งโดยอัตโนมัติ ฉันใช้ตัวแปรสัปดาห์เป็นปัจจัยโต้ตอบกับตัวทำนายอื่น ๆ ทั้งหมด ฉันไม่คิดว่าสิ่งนี้แตกต่างกันโดยทั่วไปจากการประเมินแบบจำลองแต่ละสัปดาห์ยกเว้นว่าจะให้ความเห็นว่าอาจมีรูปแบบทั่วไปบางอย่างที่ถือตลอดระยะเวลาที่ปรับผ่านปัจจัยการปรับความเสี่ยงต่าง …

19 time-series machine-learning logistic

3

การเรียนแบบกึ่งมีผู้เรียน, การเรียนแบบกระตือรือร้นและการเรียนรู้ลึกเพื่อการจำแนกประเภท

การแก้ไขครั้งสุดท้ายพร้อมการอัปเดตทรัพยากรทั้งหมด: สำหรับโครงการฉันกำลังใช้อัลกอริธึมการเรียนรู้ของเครื่องเพื่อจัดหมวดหมู่ ถาม:ข้อมูลที่มีป้ายกำกับค่อนข้าง จำกัด และข้อมูลที่ไม่มีป้ายกำกับอีกมากมาย เป้าหมาย: ใช้การจำแนกประเภทภายใต้การดูแล ใช้กระบวนการการติดฉลากแบบกึ่งกำกับอย่างใด (ที่รู้จักกันว่าการเรียนรู้ที่ใช้งานอยู่) ฉันได้พบข้อมูลจำนวนมากจากงานวิจัยเช่นการใช้ EM, Transductive SVM หรือ S3VM (Semi Supervised SVM) หรือใช้ LDA อย่างอื่นเป็นต้นแม้จะมีหนังสือไม่กี่เล่มในหัวข้อนี้ คำถาม: การใช้งานและแหล่งข้อมูลที่เป็นประโยชน์อยู่ที่ไหน? อัปเดตครั้งสุดท้าย (ขึ้นอยู่กับความช่วยเหลือที่จัดทำโดย mpiktas, bayer และ Dikran Marsupial) การเรียนรู้แบบกึ่งภายใต้การดูแล: TSVM: ในSVMligthและSVMlin EM Naive Bayes ใน Python EM ในโครงการ LinePipe การเรียนรู้ที่ใช้งานอยู่: Dualist : การใช้งานการเรียนรู้อย่างคล่องแคล่วด้วยซอร์สโค้ดในการจำแนกข้อความ หน้าเว็บนี้ให้ภาพรวมที่ยอดเยี่ยมของการเรียนรู้ที่กระตือรือร้น การประชุมเชิงปฏิบัติการการออกแบบการทดลอง: ที่นี่ การเรียนรู้ลึก: วิดีโอแนะนำที่นี่ …

19 machine-learning classification software svm text-mining

3

การประมาณคุณสมบัติที่สำคัญที่สุดในพาร์ติชันคลัสเตอร์ k-mean

มีวิธีในการพิจารณาว่าคุณสมบัติ / ตัวแปรของชุดข้อมูลใดที่มีความสำคัญที่สุด / เด่นที่สุดภายในโซลูชันคลัสเตอร์ k-mean?

19 machine-learning clustering k-means importance

2

อัลกอริทึมการแพร่กระจายกลับ

ฉันมีความสับสนเล็กน้อยเกี่ยวกับอัลกอริทึมbackpropagation ที่ใช้ในMultilayer Perceptron (MLP) ข้อผิดพลาดจะถูกปรับโดยฟังก์ชั่นค่าใช้จ่าย ในการแพร่กระจายย้อนกลับเรากำลังพยายามปรับน้ำหนักของเลเยอร์ที่ซ่อนอยู่ ข้อผิดพลาดของผลลัพธ์ที่ฉันสามารถเข้าใจได้นั่นคือe = d - y[ไม่มีตัวห้อย] คำถามคือ: เราจะได้รับข้อผิดพลาดของเลเยอร์ที่ซ่อนอยู่ได้อย่างไร คนเราคำนวณมันได้อย่างไร ถ้าฉัน backpropagate ฉันควรใช้มันเป็นฟังก์ชั่นต้นทุนของตัวกรองแบบปรับตัวหรือฉันควรใช้ตัวชี้การเขียนโปรแกรม (ใน C / C ++) เพื่อปรับปรุงน้ำหนักหรือไม่

19 machine-learning neural-networks backpropagation

3

คำอธิบายฟังก์ชั่นการสูญเสีย 0-1

ฉันพยายามเข้าใจว่าจุดประสงค์ของฟังก์ชั่นการสูญเสียคืออะไรและฉันก็ไม่เข้าใจ ดังนั้นเท่าที่ฉันเข้าใจฟังก์ชันการสูญเสียมีไว้สำหรับแนะนำตัวชี้วัดบางอย่างที่เราสามารถวัด "ต้นทุน" ของการตัดสินใจที่ไม่ถูกต้องด้วย สมมุติว่าฉันมีชุดข้อมูล 30 ชิ้นฉันแบ่งพวกมันเป็นชุดฝึกอบรม / ทดสอบเช่น 20/10 ฉันจะใช้ฟังก์ชันสูญเสีย 0-1 ดังนั้นสมมติว่าชุดฉลากระดับของฉันคือMและฟังก์ชั่นมีลักษณะเช่นนี้ : L ( i , j ) = { 0i = j1ฉัน≠ jฉัน, เจ∈ ML(ผม,J)={0ผม=J1ผม≠Jผม,J∈M L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M ดังนั้นฉันจึงสร้างแบบจำลองบางอย่างบนข้อมูลการฝึกอบรมของฉันสมมติว่าฉันใช้ตัวจําแนก Naive …

19 machine-learning loss-functions

1

การสร้างคุณสมบัติที่ดีที่สุดของกลางวันในโครงข่ายประสาทเทียม

ทำงานเกี่ยวกับปัญหาการถดถอยฉันเริ่มคิดเกี่ยวกับการเป็นตัวแทนของคุณสมบัติ "วันของสัปดาห์" ฉันสงสัยว่าวิธีการใดที่จะทำงานได้ดีกว่า: คุณสมบัติเดียว; ค่า 1/7 สำหรับวันจันทร์; 2/7 ในวันอังคาร ... 7 คุณสมบัติ: (1, 0, 0, 0, 0, 0, 0) สำหรับวันจันทร์; (0, 1, 0, 0, 0, 0, 0) สำหรับวันอังคาร ... เป็นการยากที่จะวัดเนื่องจากความแตกต่างของการกำหนดค่าเครือข่าย (ควรมีฟีเจอร์หกอย่างเพิ่มเติมที่สะท้อนให้เห็นในจำนวนโหนดที่ซ่อนอยู่ที่ฉันเชื่อ) จำนวนคุณสมบัติทั้งหมดคือประมาณ 20 ฉันใช้ backprop ง่าย ๆ เพื่อเรียนรู้เครือข่ายนิวรัลไปข้างหน้าแบบธรรมดา

19 machine-learning neural-networks feature-construction

3

โคตรการไล่ระดับสีแบบสุ่มสามารถหลีกเลี่ยงปัญหาระดับต่ำสุดในพื้นที่ได้อย่างไร

ฉันรู้ว่าการไล่ระดับสีแบบสุ่มมีพฤติกรรมแบบสุ่ม แต่ฉันไม่รู้ว่าทำไม มีคำอธิบายเกี่ยวกับเรื่องนี้หรือไม่?

19 machine-learning random-variable gradient-descent

1

ปรับเทียบลักษณนามเพิ่มหลายคลาส

ฉันได้อ่านอเล็กซาน Niculescu-Mizil และรวย Caruana กระดาษ " ได้รับการสอบเทียบความน่าจะเป็นจากการส่งเสริม " และการอภิปรายในนี้ด้าย อย่างไรก็ตามฉันยังคงมีปัญหาในการทำความเข้าใจและใช้งานโลจิสติกส์หรือการปรับขนาดของแพลตต์เพื่อปรับเทียบผลลัพธ์ของตัวแยกประเภทการเพิ่มคลาสหลายระดับของฉัน ฉันค่อนข้างคุ้นเคยกับโมเดลเชิงเส้นทั่วไปและฉันคิดว่าฉันเข้าใจว่าวิธีการสอบเทียบของโลจิสติกและแพลตทำงานอย่างไรในกรณีไบนารี แต่ฉันไม่แน่ใจว่าฉันรู้วิธีขยายวิธีที่อธิบายไว้ในกระดาษไปยังกรณีหลายระดับ ตัวจําแนกฉันใช้ผลลัพธ์ต่อไปนี้: = จำนวนคะแนนโหวตที่ลักษณนามใช้สำหรับคลาส jสำหรับตัวอย่าง iที่ถูกจัดประเภทฉฉันเจฉผมJf_{ij}JJjผมผมi YผมYผมy_i = คลาสโดยประมาณ ณ จุดนี้ฉันมีคำถามต่อไปนี้: คำถามที่ 1:ฉันจำเป็นต้องใช้ logom หลายค่าเพื่อประมาณความน่าจะเป็นหรือไม่? หรือฉันยังสามารถทำได้ด้วยการถดถอยโลจิสติก (เช่นใน 1-vs-all )? Q2:ฉันจะกำหนดตัวแปรเป้าหมายระดับกลางได้อย่างไร (เช่นในการปรับขนาดของแพลต) สำหรับกรณีที่มีหลายระดับ คำถามที่3:ฉันเข้าใจว่าอาจเป็นเรื่องที่ถามบ่อย แต่ทุกคนจะยินดีที่จะร่างรหัสหลอกสำหรับปัญหานี้หรือไม่? (ในระดับปฏิบัติมากขึ้นฉันสนใจในโซลูชันใน Matlab)

19 machine-learning boosting

1

“ ฟีเจอร์สเปซ” คืออะไร

คำจำกัดความของ "ฟีเจอร์สเปซ" คืออะไร? ตัวอย่างเช่นเมื่ออ่านเกี่ยวกับ SVM ฉันอ่านเกี่ยวกับ "การแมปไปยังพื้นที่ของฟีเจอร์" เมื่ออ่านเกี่ยวกับรถเข็นฉันอ่านเกี่ยวกับ "การแบ่งพาร์ติชันเพื่อใช้พื้นที่" ฉันเข้าใจว่าเกิดอะไรขึ้นโดยเฉพาะกับรถเข็น แต่ฉันคิดว่ามีคำจำกัดความที่ฉันพลาดไป มีคำจำกัดความทั่วไปของ "ฟีเจอร์สเปซ" หรือไม่? มีคำจำกัดความที่จะให้ข้อมูลเชิงลึกแก่ฉันเกี่ยวกับเมล็ด SVM และ / หรือรถเข็นมากขึ้นหรือไม่

19 machine-learning svm feature-selection cart feature-construction

3

เครือข่ายประสาทเทียมเรียนรู้ฟังก์ชันหรือฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่?

คำถามอาจฟังดูแปลก ๆ เพราะฉันใหม่กับการอนุมานเชิงสถิติและเครือข่ายประสาท เมื่ออยู่ในปัญหาการจำแนกประเภทโดยใช้โครงข่ายประสาทเราบอกว่าเราต้องการเรียนรู้ฟังก์ชั่นที่แมปพื้นที่ของอินพุตเข้ากับพื้นที่ของเอาต์พุต :f∗f∗f^*xxxyyy f∗(x;θ)=yf∗(x;θ)=yf^*(x; \theta) = y เราปรับพารามิเตอร์ ( ) ให้เหมาะกับฟังก์ชันที่ไม่ใช่เชิงเส้นหรือเพื่อจำลองฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือไม่?θθ\theta ฉันไม่รู้วิธีการเขียนคำถามด้วยวิธีที่ดีกว่า ฉันได้อ่านมาแล้วหลายครั้งทั้งสองอย่าง (ฟังก์ชันความหนาแน่นของความน่าจะเป็นหรือฟังก์ชันแบบนั้น) ดังนั้นความสับสนของฉัน

19 machine-learning neural-networks

4

Conv1D และ Conv2D แตกต่างกันอย่างไร?

ฉันกำลังดำเนินการเอกสารการแปลงแบบ keras และพบ Convivuion Conv1 สองประเภทและ Conv2D สองประเภท ฉันค้นหาเว็บและนี่คือสิ่งที่ฉันเข้าใจเกี่ยวกับ Conv1D และ Conv2D; Conv1D ใช้สำหรับซีเควนซ์และ Conv2D ใช้สำหรับอิมเมจ ฉันมักจะคิดว่าเครือข่ายที่ใช้ร่วมกันของ convolution นั้นใช้สำหรับรูปภาพและซีเอ็นเอ็นด้วยวิธีนี้เท่านั้น ภาพนั้นถือเป็นเมทริกซ์ขนาดใหญ่จากนั้นฟิลเตอร์จะเลื่อนผ่านเมทริกซ์นี้และคำนวณผลคูณของจุด ฉันเชื่อว่าสิ่งที่ keras กล่าวถึงในฐานะ Conv2D ถ้า Conv2D ทำงานในลักษณะนี้แล้วกลไกของ Conv1D คืออะไรและเราจะจินตนาการกลไกของมันได้อย่างไร

19 machine-learning neural-networks conv-neural-network keras

คำถามติดแท็ก machine-learning