คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

2
ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันเป็นเป้าหมายการเพิ่มประสิทธิภาพในการเรียนรู้ของเครื่อง
ในการเรียนรู้ของเครื่อง (สำหรับปัญหาการถดถอย) ฉันมักจะเห็นค่าเฉลี่ย - กำลังสอง - ข้อผิดพลาด (MSE) หรือค่าเฉลี่ย - ข้อผิดพลาด (แม่) ที่ใช้เป็นฟังก์ชันข้อผิดพลาดเพื่อลด (บวกกับข้อกำหนดการทำให้เป็นปกติ) ฉันสงสัยว่ามีสถานการณ์ที่การใช้สัมประสิทธิ์สหสัมพันธ์จะเหมาะสมกว่าหรือไม่ หากสถานการณ์ดังกล่าวมีอยู่แล้ว: ค่าสัมประสิทธิ์สหสัมพันธ์ภายใต้สถานการณ์ใดเป็นตัวชี้วัดที่ดีกว่าเมื่อเทียบกับ MSE / MAE ในสถานการณ์เหล่านี้ MSE / MAE ยังคงเป็นฟังก์ชั่นต้นทุนพร็อกซีที่ดีที่จะใช้หรือไม่? สัมประสิทธิ์สหสัมพันธ์เป็นไปได้สูงสุดหรือไม่ นี่เป็นฟังก์ชั่นวัตถุประสงค์ที่มั่นคงที่จะใช้หรือไม่? ฉันไม่พบกรณีที่มีการใช้สัมประสิทธิ์สหสัมพันธ์โดยตรงเป็นฟังก์ชันวัตถุประสงค์ในการปรับให้เหมาะสม ฉันจะขอบคุณถ้าคนสามารถชี้ให้ฉันข้อมูลในพื้นที่นี้

1
ไล่ระดับสีสำหรับฟังก์ชั่นการสูญเสียโลจิสติก
ฉันจะถามคำถามที่เกี่ยวข้องกับคนนี้ ฉันพบตัวอย่างของการเขียนฟังก์ชันการสูญเสียที่กำหนดเองสำหรับ xgboost ที่นี่ : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute the 1st and 2nd gradient, as grad and hess preds <- 1/(1 + exp(-preds)) …

1
เหตุใดการวิเคราะห์อนุกรมเวลาจึงไม่ถือว่าเป็นอัลกอริทึมการเรียนรู้ของเครื่อง
เหตุใดการวิเคราะห์อนุกรมเวลาจึงไม่ถือว่าเป็นอัลกอริทึมการเรียนรู้ของเครื่อง (ต่างจากการถดถอยเชิงเส้น) การวิเคราะห์การถดถอยและอนุกรมเวลาเป็นวิธีการพยากรณ์ เหตุใดคนหนึ่งจึงคิดว่าเป็นอัลกอริธึมการเรียนรู้ แต่ไม่ใช่อีกข้อหนึ่ง

2
มิติ VC ของตัวแบบการถดถอย
ในชุดการเรียนรู้การบรรยายจากข้อมูลอาจารย์กล่าวว่ามิติ VC วัดความซับซ้อนของแบบจำลองว่ามีจุดแตกต่างกันอย่างไร ดังนั้นวิธีนี้ใช้งานได้ดีอย่างสมบูรณ์แบบสำหรับการจำแนกประเภทที่เราสามารถบอกได้ว่าไม่มีคะแนน N หากตัวแยกประเภทสามารถจำแนกคะแนน k ได้อย่างมีประสิทธิภาพการวัดขนาด VC จะเป็น K แต่ก็ไม่ชัดเจนสำหรับฉัน ?

4
หนังสือเรียนเสริมการเรียนรู้
ฉันกำลังมองหาหนังสือเรียน / บันทึกการบรรยายในการเสริมแรงการเรียนรู้ ฉันชอบ"รู้เบื้องต้นเกี่ยวกับสถิติการเรียนรู้"แต่น่าเสียดายที่พวกเขาไม่ครอบคลุมหัวข้อนี้ ฉันรู้ว่าหนังสือของ Sutton และ Bartoเป็นหนังสืออ้างอิงมาตรฐานและบางทีNDPก็ดีเช่นกัน แต่พวกเขาก็ลงวันที่ 1997-98 และฉันหวังว่าจะพบงานนิทรรศการที่ทันสมัยมากขึ้นเนื่องจากสาขานี้น่าจะมีการพัฒนาค่อนข้างเร็ว เวลา.

2
อัลกอริทึมการเรียนรู้ของเครื่องสำหรับข้อมูลพาเนล
ในคำถามนี้ - มีวิธีการสร้างต้นไม้การตัดสินใจที่คำนึงถึงตัวทำนายที่มีโครงสร้าง / ลำดับชั้น / หลายระดับหรือไม่? - พวกเขาพูดถึงวิธีการข้อมูลแผงสำหรับต้นไม้ มีวิธีข้อมูลพาเนลเฉพาะสำหรับการสนับสนุน Vector Machines และ Neural Networks หรือไม่? ถ้าเป็นเช่นนั้นคุณสามารถอ้างอิงเอกสารสำหรับอัลกอริทึมและ (ถ้ามี) แพ็คเกจ R ที่ใช้งานได้หรือไม่

2
วิธีเปรียบเทียบอัลกอริทึมการจัดอันดับสองรายการ
ฉันต้องการเปรียบเทียบอัลกอริทึมการจัดอันดับสองรายการ ในอัลกอริทึมเหล่านี้ลูกค้าระบุเงื่อนไขบางอย่างในการค้นหาของเขา / เธอ ตามความต้องการของลูกค้าอัลกอริทึมเหล่านี้ควรกำหนดคะแนนสำหรับแต่ละรายการในฐานข้อมูลและดึงรายการที่มีคะแนนสูงสุด ฉันได้อ่านหัวข้อต่าง ๆ ที่เกี่ยวข้องกับคำถามของฉันในเว็บไซต์นี้และค้นหาสุทธิ จากการค้นหาของฉันบทความที่เกี่ยวข้องที่สุดซึ่งอธิบายเกี่ยวกับตัวชี้วัดบางอย่างสำหรับการเปรียบเทียบอัลกอริทึมการจัดอันดับคือ: Brian McFee และ Gert RG Lanckriet, Metric Learning to Rank, ICML 2010 ( https://bmcfee.github.io/papers/mlr) .pdf ) ฉันคิดว่า prec @ k, MAP, MRR และ NDCG เป็นตัวชี้วัดที่ดีที่จะใช้ แต่ฉันมีปัญหา: อัลกอริทึมของฉันเรียงลำดับผลลัพธ์ดังนั้นรายการแรกในรายการผลลัพธ์ของฉันคือรายการที่ดีที่สุดที่มีคะแนนสูงสุดผลที่สองมีคะแนนสูงสุดอันดับสองและอื่น ๆ ฉัน จำกัด อัลกอริทึมการค้นหาของฉันไว้ที่ตัวอย่างเช่นค้นหา 5 ผลลัพธ์ที่ดีที่สุดผลลัพธ์คือรายการที่ติดอันดับสูงสุด 5 ดังนั้นความแม่นยำจะเป็น 1 เมื่อฉัน จำกัด การค้นหาของฉันเพื่อค้นหาผลลัพธ์ที่ดีที่สุดมันจะพบสิ่งที่ดีที่สุด อีกครั้งความแม่นยำจะเป็น 1. …

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

2
การตีความผลลัพธ์ของ k-หมายถึงการจัดกลุ่มใน R
ฉันใช้kmeansคำสั่งของ R ในการดำเนินการอัลกอริธึม k-mean บนชุดข้อมูล iris ของ Anderson ฉันมีคำถามเกี่ยวกับพารามิเตอร์บางอย่างที่ฉันได้รับ ผลลัพธ์ที่ได้คือ: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 ในกรณีนี้ "คลัสเตอร์หมายถึง" หมายถึงอะไร มันหมายถึงระยะทางของวัตถุทั้งหมดในกลุ่มหรือไม่ นอกจากนี้ในส่วนสุดท้ายฉันมี: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) ค่านั้น 88.4% สิ่งที่สามารถตีความได้?

1
คุณจะตรวจพบได้อย่างไรว่ากระบวนการแบบเกาส์เซียนนั้นเกินความเหมาะสม
ฉันกำลังฝึกอบรมกระบวนการเกาส์เซียนด้วยเคอร์เนล ARD ที่มีพารามิเตอร์จำนวนมากโดยการเพิ่มความเป็นไปได้ของข้อมูลให้น้อยที่สุดแทนที่จะเป็นการตรวจสอบข้าม ฉันสงสัยว่ามันกระชับเกินไป ฉันจะทดสอบข้อสงสัยนี้ได้อย่างไรในบริบทของเบย์

2
วิธีการรวมผลลัพธ์ของการถดถอยโลจิสติกและฟอเรสต์แบบสุ่ม
ฉันยังใหม่กับการเรียนรู้ของเครื่อง ฉันใช้การถดถอยโลจิสติกและฟอเรสต์แบบสุ่มบนชุดข้อมูลเดียวกัน ดังนั้นฉันจึงได้รับความสำคัญของตัวแปร (สัมประสิทธิ์สัมบูรณ์สำหรับการถดถอยโลจิสติกและความสำคัญของตัวแปรสำหรับฟอเรสต์แบบสุ่ม) ฉันกำลังคิดที่จะรวมสองสิ่งนี้เข้าด้วยกันเพื่อให้ได้ตัวแปรที่มีความสำคัญขั้นสุดท้าย ใครสามารถแบ่งปันประสบการณ์ของเขา / เธอ? ฉันได้ตรวจสอบการบรรจุถุงการส่งเสริมการสร้างแบบจำลองชุด แต่ไม่ใช่สิ่งที่ฉันต้องการ พวกเขารวมข้อมูลสำหรับรุ่นเดียวกันในแบบจำลองมากกว่า สิ่งที่ฉันกำลังมองหาคือการรวมผลของหลายรุ่น

1
เคอร์เนล k เพื่อนบ้านที่ใกล้ที่สุด
ฉันใหม่กับเมล็ดและมีอุปสรรคในขณะที่พยายาม kernelise kNN รอบคัดเลือกโซน ฉันใช้เคอร์เนลพหุนาม: K(x,y)=(1+⟨x,y⟩)dK(x,y)=(1+⟨x,y⟩)dK(\mathbf{x},\mathbf{y}) = (1 + \langle \mathbf{x},\mathbf{y} \rangle)^d Euclidean ทั่วไปของคุณใช้ตัวชี้วัดระยะทางต่อไปนี้: d(x,y)=||x−y||d(x,y)=||x−y||d(\mathbf{x}, \mathbf{y}) = \vert\vert \mathbf{x} - \mathbf{y} \vert\vert ปล่อยให้f(x)f(x)f(\mathbf{x})แม็พxx\mathbf{x}ลงในฟีเจอร์มิติที่สูงขึ้น จากนั้นสแควร์ของตัวชี้วัดระยะทางด้านบนในพื้นที่ฮิลแบร์ตสามารถแสดงได้ด้วยผลิตภัณฑ์ภายใน: d2(f(x),f(y))=K(x,x)−2K(x,y)+K(y,y)d2(f(x),f(y))=K(x,x)−2K(x,y)+K(y,y)d^2(f(x), f(y)) = K(\mathbf{x},\mathbf{x}) - 2K(\mathbf{x}, \mathbf{y}) + K(\mathbf{y} ,\mathbf{y}) โปรดทราบว่าถ้าเราปล่อยให้d=1d=1d = 1ข้างต้นจะทำให้ระยะทางแบบยุคลิดลดลง คำถาม ปัญหาหลักที่ฉันมีคือฉันไม่สามารถดูว่า kernelising kNN ให้ผลลัพธ์ที่ดีขึ้นตามที่แสดงโดยการทดลองเช่นบทความนี้ (คำเตือนลิงค์ PDF โดยตรง!)

1
การแบ่งประเภทแบ่งชั้นด้วยป่าสุ่ม (หรือตัวแยกประเภทอื่น)
ดังนั้นฉันจึงมีเมทริกซ์ประมาณ 60 x 1,000 ฉันมองว่ามันเป็นวัตถุ 60 ชิ้นที่มีคุณสมบัติ 1,000 รายการ วัตถุ 60 ชิ้นถูกจัดกลุ่มเป็น 3 คลาส (a, b, c) วัตถุ 20 ชิ้นในแต่ละชั้นและเรารู้การจำแนกที่แท้จริง ฉันต้องการทำการเรียนรู้ภายใต้การดูแลในชุดตัวอย่างการฝึกอบรม 60 ชุดนี้และฉันสนใจทั้งความแม่นยำของตัวจําแนก (และตัวชี้วัดที่เกี่ยวข้อง) รวมถึงการเลือกคุณสมบัติของคุณสมบัติ 1,000 รายการ ก่อนชื่อของฉันเป็นอย่างไร ตอนนี้คำถามจริง: ฉันสามารถโยนฟอเรสต์แบบสุ่มตามที่ระบุไว้หรือตัวแยกประเภทอื่น ๆ แต่มีความละเอียดอ่อน - ฉันสนใจเฉพาะความแตกต่างของคลาส c จากคลาส a และ b เท่านั้น ฉันสามารถเรียนสระว่ายน้ำ a และ b แต่มีวิธีที่ดีในการใช้ความรู้เบื้องต้นว่าวัตถุที่ไม่ใช่ c ทั้งหมดน่าจะสร้างกลุ่มที่แตกต่างกันสองกลุ่มหรือไม่? ฉันต้องการใช้ฟอเรสต์แบบสุ่มหรือตัวแปรเนื่องจากมันแสดงให้เห็นว่ามีประสิทธิภาพสำหรับข้อมูลที่คล้ายกับของฉัน แต่ฉันมั่นใจได้ว่าจะลองวิธีอื่น

1
บรรทัดฐานคืออะไรและเกี่ยวข้องกับการทำให้เป็นมาตรฐานหรือไม่
ฉันได้เห็นเอกสารจำนวนมากเกี่ยวกับการนำเสนอที่กระจัดกระจายเมื่อเร็ว ๆ นี้และส่วนใหญ่ใช้บรรทัดฐานและทำการย่อเล็กสุด คำถามของฉันคืออะไรบรรทัดฐานและบรรทัดฐานแบบผสมคืออะไร และเกี่ยวข้องกับการทำให้เป็นมาตรฐานได้อย่างไรℓ p ℓ p , qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} ขอบคุณ


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.