สถิติและข้อมูลขนาดใหญ่ data-mining

2

วิธีการสรุปที่ถูกต้องจาก "ข้อมูลขนาดใหญ่"?

"ข้อมูลขนาดใหญ่" มีอยู่ทุกหนทุกแห่งในสื่อ ทุกคนบอกว่า "ข้อมูลขนาดใหญ่" เป็นสิ่งที่ยิ่งใหญ่สำหรับปี 2012 เช่นKDNuggets การสำรวจความคิดเห็นในหัวข้อที่ร้อนสำหรับปี 2012 อย่างไรก็ตามฉันมีความกังวลอย่างลึกซึ้งที่นี่ ด้วยข้อมูลขนาดใหญ่ทุกคนดูเหมือนจะมีความสุขที่จะได้รับอะไรเลย แต่เราไม่ได้ละเมิดหลักการทางสถิติแบบคลาสสิกทั้งหมดเช่นการทดสอบสมมติฐานและการสุ่มตัวอย่างตัวแทน? ตราบใดที่เราคาดการณ์เฉพาะชุดข้อมูลเดียวกันสิ่งนี้ควรจะดี ดังนั้นถ้าฉันใช้ข้อมูล Twitter เพื่อทำนายพฤติกรรมของผู้ใช้ Twitter นั่นอาจไม่เป็นไร อย่างไรก็ตามการใช้ข้อมูล Twitter เพื่อคาดการณ์เช่นการเลือกตั้งละเลยความจริงที่ว่าผู้ใช้ Twitter ไม่ใช่ตัวอย่างตัวอย่างสำหรับประชากรทั้งหมด นอกจากนี้วิธีการส่วนใหญ่จะไม่สามารถแยกความแตกต่างระหว่างอารมณ์ "รากหญ้า" ที่แท้จริงและการรณรงค์ และทวิตเตอร์เต็มไปด้วยแคมเปญ ดังนั้นเมื่อวิเคราะห์ Twitter คุณจะจบลงอย่างรวดเร็วเพียงวัดการรณรงค์และบอท (ดูตัวอย่าง"Yahoo คาดการณ์ผู้ชนะทางการเมืองของอเมริกา"ซึ่งเต็มไปด้วยการสำรวจความคิดเห็นทุบตีและ "การวิเคราะห์ความเชื่อมั่นดีกว่ามาก" พวกเขาทำนายว่า "รอมนีย์มีโอกาสชนะการเสนอชื่อมากกว่า 90% และชนะเซาท์แคโรไลนาหลัก" (เขามี 28% ในขณะที่ Gingrich มี 40% ในปฐมภูมินี้) คุณรู้หรือไม่ว่าข้อมูลขนาดใหญ่อื่น ๆล้มเหลว ? ฉันจำได้คร่าวๆว่านักวิทยาศาสตร์คนหนึ่งทำนายว่าคุณไม่สามารถรักษามิตรภาพมากกว่า 150 คนได้ …

40 data-mining dataset large-data validation

5

ยกมาตรการในการขุดข้อมูล

ฉันค้นหาเว็บไซต์จำนวนมากเพื่อทราบว่าการยกจะทำอย่างไร ผลลัพธ์ที่ฉันพบทั้งหมดเกี่ยวกับการใช้ในแอปพลิเคชันไม่ใช่ตัวเอง ฉันรู้เกี่ยวกับฟังก์ชั่นการสนับสนุนและความมั่นใจ จากวิกิพีเดียในการขุดข้อมูลการยกเป็นตัวชี้วัดประสิทธิภาพของแบบจำลองในการทำนายหรือจำแนกกรณีการวัดเทียบกับตัวเลือกแบบสุ่ม แต่อย่างไร การสนับสนุนความเชื่อมั่น * คือค่าของการยกที่ฉันค้นหาสูตรอื่นด้วย แต่ฉันไม่เข้าใจว่าทำไมแผนภูมิของลิฟต์จึงมีความสำคัญในความแม่นยำของค่าที่คาดการณ์ฉันหมายถึงฉันต้องการทราบว่านโยบายและเหตุผลคืออะไร

36 data-mining

5

ลองคิดเหมือนเบย์เซียนลองดูบ่อยครั้ง: นั่นหมายความว่ายังไง?

ฉันกำลังดูสไลด์บรรยายในหลักสูตรวิทยาศาสตร์ข้อมูลที่สามารถพบได้ที่นี่: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf ฉันโชคไม่ดีที่ไม่สามารถดูวิดีโอสำหรับการบรรยายนี้และ ณ จุดหนึ่งบนสไลด์พรีเซนเตอร์มีข้อความต่อไปนี้: หลักการสำคัญบางประการ คิดเหมือนชาว Bayesian ทำเครื่องหมายเหมือนเป็นผู้ใช้บ่อย (การกระทบยอด) ไม่มีใครรู้ว่าสิ่งที่จริงหมายถึงอะไร ฉันมีความรู้สึกว่ามีความเข้าใจที่ดีเกี่ยวกับโรงเรียนแห่งความคิดสองแห่งที่จะรวบรวมจากสิ่งนี้

35 bayesian data-mining frequentist

3

เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R

เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

6

การขุดข้อมูล: ฉันจะหารูปแบบการใช้งานได้อย่างไร?

ฉันอยากรู้เกี่ยวกับขั้นตอนการทำซ้ำที่สามารถใช้เพื่อค้นหารูปแบบการทำงานของฟังก์ชัน y = f(A, B, C) + error_termที่การป้อนข้อมูลของฉันเท่านั้นเป็นชุดของการสังเกต ( y, A, BและC) โปรดทราบว่ารูปแบบการทำงานของfไม่เป็นที่รู้จัก พิจารณาชุดข้อมูลต่อไปนี้: AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 …

34 regression machine-learning algorithms model-selection data-mining

1

ความสำคัญของตัวแปรเชิงสัมพันธ์สำหรับการส่งเสริม

ฉันกำลังมองหาคำอธิบายว่าวิธีคำนวณความสำคัญของตัวแปรแบบสัมพันธ์ในต้นไม้ที่เพิ่มขึ้นแบบไล่ระดับสีซึ่งไม่ธรรมดา / ง่ายเกินไป: มาตรการจะขึ้นอยู่กับจำนวนครั้งที่ตัวแปรถูกเลือกสำหรับการแยกถ่วงน้ำหนักด้วยการปรับปรุงยกกำลังสองกับรูปแบบเป็นผลของแต่ละแยกและเฉลี่ยมากกว่าต้นไม้ทั้งหมด [ Elith และคณะ 2008, คู่มือการทำงานเพื่อเพิ่มความแข็งแกร่งให้กับต้นไม้ถดถอย ] และนั่นก็เป็นนามธรรมน้อยกว่า: ผม2J^( T) = ∑t = 1J- 1ผม2เสื้อ^1 ( vเสื้อ= j )ผมJ2^(T)=Σเสื้อ=1J-1ผมเสื้อ2^1(โวลต์เสื้อ=J)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) โดยที่การรวมอยู่เหนือโหนดที่ไม่ใช่เทอร์มินัลของโหนดทรี ,คือตัวแปรการแยกที่เชื่อมโยงกับโหนดและเป็นการปรับปรุงเชิงประจักษ์ในข้อผิดพลาดกำลังสอง เป็นผลมาจากการแยกหมายถึงโดยที่คือการตอบสนองของลูกสาวด้านซ้ายและขวาตามลำดับและเป็นจำนวนเงินที่สอดคล้องกันของน้ำหนัก J T v t t ^ i 2 t i 2 ( R l , R r ) = w l w rเสื้อเสื้อtJJJTTTโวลต์เสื้อโวลต์เสื้อv_{t}เสื้อเสื้อtผม2เสื้อ^ผมเสื้อ2^\hat{i_{t}^2}ผม2( …

33 machine-learning data-mining predictive-models cart boosting

1

มีบทเรียนทางสถิติจากตอน "รหัสพระคัมภีร์"

แม้ว่าคำถามนี้ค่อนข้างอัตนัยผมหวังว่ามันจะมีคุณสมบัติเป็นคำถามอัตนัยที่ดีตามแนวทางคำถามที่พบบ่อย มันขึ้นอยู่กับคำถามที่ Olle Häggströmถามฉันเมื่อหนึ่งปีก่อนและแม้ว่าฉันจะมีความคิดบางอย่างเกี่ยวกับเรื่องนี้ฉันไม่มีคำตอบที่ชัดเจนและฉันขอขอบคุณความช่วยเหลือจากผู้อื่น พื้นหลัง: กระดาษชื่อ "ลำดับตัวอักษรที่เท่ากันในหนังสือปฐมกาล" โดย D. Witztum, E. Rips และ Y. Rosenberg ได้กล่าวอ้างพิเศษว่าข้อความภาษาฮีบรูของพระธรรมปฐมกาลเข้ารหัสเหตุการณ์ที่ไม่ได้เกิดขึ้นจนกระทั่งนับพันปีหลังจากข้อความ เขียน. กระดาษถูกตีพิมพ์โดย "สถิติวิทยาศาสตร์" ในปี 1994 (ฉบับที่ 9 429-438) และได้รับการเสนอเป็น "ปริศนาที่ท้าทาย" ซึ่งการแก้ปัญหาอาจนำไปสู่สาขาสถิติ ในการตอบกลับบทความอื่นที่มีชื่อว่า "การไขปริศนารหัสพระคัมภีร์" โดย B. McKay, D. Bar-Natan, M. Bar-Hillel และ G. Kalai ปรากฏในวิทยาศาสตร์ทางสถิติในปี 1999 (ฉบับที่ 14 (1999) 150-173) . กระดาษใหม่ระบุว่ากรณีของ Witztum, Rips และ …

31 hypothesis-testing data-mining

8

วิชาคณิตศาสตร์ใดที่คุณแนะนำให้เตรียมตัวสำหรับการขุดข้อมูลและการเรียนรู้ของเครื่อง

ฉันพยายามรวบรวมหลักสูตรคณิตศาสตร์ที่กำกับตนเองเพื่อเตรียมการเรียนรู้การขุดข้อมูลและการเรียนรู้ของเครื่อง นี่คือแรงบันดาลใจจากการเริ่มเรียนการเรียนรู้ด้วยเครื่องจักรของ Andrew Ngบน Coursera และรู้สึกว่าก่อนที่จะดำเนินการต่อฉันต้องพัฒนาทักษะคณิตศาสตร์ของฉัน ฉันเรียนจบวิทยาลัยมานานแล้วดังนั้นพีชคณิตและสถิติของฉัน (โดยเฉพาะจากวิชารัฐศาสตร์ / จิตวิทยา) เป็นสนิม คำตอบในเธรดพื้นหลังที่แข็งแกร่งในวิชาคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับ ML หรือไม่? แนะนำเฉพาะหนังสือหรือชั้นเรียนที่เกี่ยวข้องโดยตรงกับการเรียนรู้ของเครื่อง ฉันได้ดูในชั้นเรียนและหนังสือเหล่านั้นแล้วและไม่ทราบแน่ชัดว่าวิชาคณิตศาสตร์จะต้องเรียนอะไร (เช่น: เขตที่อยู่ทางคณิตศาสตร์ที่ได้รับสมการเพื่อ "ลดฟังก์ชั่นต้นทุน") หัวข้ออื่น ๆ ที่แนะนำ ( ทักษะและหลักสูตรที่จำเป็นในการเป็นนักวิเคราะห์ข้อมูล ) กล่าวถึงเฉพาะหมวดหมู่ทักษะที่จำเป็นสำหรับการวิเคราะห์ข้อมูลเท่านั้น ความรู้เบื้องต้นเกี่ยวกับสถิติสำหรับนักคณิตศาสตร์ไม่ได้ใช้เพราะฉันยังไม่มีวุฒิทางคณิตศาสตร์ หัวข้อที่คล้ายกันนักคณิตศาสตร์ต้องการความรู้ที่เทียบเท่ากับระดับสถิติที่มีคุณภาพ มีรายการสถิติหนังสือที่น่าเหลือเชื่อ แต่อีกครั้งฉันกำลังดูคณิตศาสตร์เริ่มต้นจากการจำพีชคณิตและสนิมขึ้นจากที่นั่น ดังนั้นสำหรับผู้ที่ทำงานในการเรียนรู้ของเครื่องจักรและการขุดข้อมูลคุณต้องใช้วิชาคณิตศาสตร์ในสาขาใด วิชาคณิตศาสตร์ใดที่คุณแนะนำให้เตรียมตัวสำหรับการขุดข้อมูลและการเรียนรู้ของเครื่องและในลำดับใด นี่คือรายการและคำสั่งที่ฉันมี: พีชคณิต Pre-แคลคูลัส แคลคูลัส พีชคณิตเชิงเส้น ความน่าจะเป็น สถิติ (ฟิลด์ย่อยต่าง ๆ มากมายที่นี่ แต่ไม่ทราบวิธีแบ่งย่อย) สำหรับการขุดข้อมูลและการเรียนรู้ของเครื่องจักรผ่านงานปัจจุบันของฉันฉันสามารถเข้าถึงบันทึกบนเว็บไซต์ / กิจกรรมแอพธุรกรรมลูกค้า / การสมัครสมาชิกและข้อมูลอสังหาริมทรัพย์ (ทั้งแบบคงที่และอนุกรมเวลา) ฉันหวังว่าจะใช้การขุดข้อมูลและการเรียนรู้เครื่องกับชุดข้อมูลเหล่านี้ …

30 machine-learning references data-mining

2

เหตุใดค่า p จึงทำให้เข้าใจผิดหลังจากทำการเลือกตามลำดับขั้นตอน

ลองพิจารณาตัวอย่างเช่นโมเดลการถดถอยเชิงเส้น ฉันได้ยินมาว่าในการขุดข้อมูลหลังจากทำการเลือกตามขั้นตอนตามเกณฑ์ AIC มันทำให้เข้าใจผิดว่าการดูค่า p เพื่อทดสอบสมมติฐานว่างว่าสัมประสิทธิ์การถดถอยจริงแต่ละตัวมีค่าเป็นศูนย์ ฉันได้ยินมาว่าควรพิจารณาตัวแปรทั้งหมดที่เหลือในตัวแบบว่ามีสัมประสิทธิ์การถดถอยที่แท้จริงแตกต่างจากศูนย์แทน มีใครอธิบายได้ไหม ขอขอบคุณ.

28 multiple-regression predictive-models data-mining stepwise-regression

1

ความแตกต่างระหว่างอัลกอริธึมมาตรฐานและทรงกลม k-mean

ฉันต้องการเข้าใจว่าอะไรคือความแตกต่างที่สำคัญในการใช้งานระหว่างอัลกอริธึมการจัดกลุ่ม k-Mean แบบมาตรฐานและทรงกลม ในแต่ละขั้นตอน k-หมายถึงคำนวณระยะทางระหว่างเวกเตอร์องค์ประกอบและเซนทรอยด์ของคลัสเตอร์และกำหนดเอกสารให้กับคลัสเตอร์นี้อีกครั้งซึ่งเซนทรอยด์อยู่ใกล้ที่สุด จากนั้นเซนทรอยด์ทั้งหมดจะถูกคำนวณใหม่ ในรูป k k- หมายถึงเวกเตอร์ทั้งหมดจะถูกทำให้เป็นมาตรฐานและการวัดระยะทางเป็นความแตกต่างของโคไซน์ นั่นคือทั้งหมดหรือมีอย่างอื่นหรือไม่

28 clustering data-mining algorithms k-means

9

เครื่องมือซอฟต์แวร์สถิติและการขุดข้อมูลสำหรับการจัดการกับชุดข้อมูลขนาดใหญ่

ปัจจุบันฉันต้องวิเคราะห์ระเบียนประมาณ 20 ล้านรายการและสร้างแบบจำลองการทำนาย จนถึงตอนนี้ฉันได้ลอง Statistica, SPSS, RapidMiner และ R ในบรรดา Statistica เหล่านี้ดูเหมือนจะเหมาะสมที่สุดในการจัดการกับ data mining และส่วนต่อประสานผู้ใช้ RapidMiner นั้นมีประโยชน์มาก แต่ดูเหมือนว่า Statistica, RapidMiner และ SPSS นั้นเหมาะสำหรับชุดข้อมูลขนาดเล็ก . ใครช่วยแนะนำเครื่องมือที่ดีสำหรับชุดข้อมูลขนาดใหญ่? ขอบคุณ!

27 large-data software data-mining

7

งานประจำประจำวันของนักวิทยาศาสตร์การเรียนรู้ด้วยเครื่องคืออะไร?

ตอนนี้ฉันเป็นนักศึกษาปริญญาโท CS ในมหาวิทยาลัยเยอรมันที่เขียนวิทยานิพนธ์ของฉัน ฉันจะทำเสร็จภายในสองเดือนฉันต้องตัดสินใจอย่างหนักถ้าฉันควรจะเรียนต่อระดับปริญญาเอกหรือหางานในอุตสาหกรรม เหตุผลของฉันสำหรับการทำปริญญาเอก: ฉันเป็นคนที่อยากรู้อยากเห็นมากและฉันรู้สึกว่าฉันยังขาดความรู้มากเกินไป ฉันต้องการเรียนรู้มากมายและปริญญาเอกจะช่วยฉันในเรื่องนั้นเนื่องจากฉันสามารถทำหลักสูตรที่ดีขึ้นและอ่านเอกสารจำนวนมากและเป็นผู้เชี่ยวชาญในการทำเหมืองข้อมูลและการเรียนรู้ของเครื่อง ฉันรักคณิตศาสตร์ แต่ไม่เก่งในระดับปริญญาตรีของฉัน (uni ที่ไม่ดี) ตอนนี้ใน Uni สัญชาติเยอรมันฉันรู้สึกว่าฉันได้พัฒนาทักษะทางคณิตศาสตร์ที่ยอดเยี่ยมมากมายและฉันต้องการปรับปรุงมันเพราะฉันรักคณิตศาสตร์จริง ๆ ! (ฉันแย่จริง ๆ ในวิชาคณิตศาสตร์ในระดับปริญญาตรีและในช่วงชีวิตของฉัน แต่ตอนนี้ฉันเห็นว่าฉันสามารถทำคณิตศาสตร์ได้ดี!) ฉันจะทำงานกับสิ่งที่ท้าทายทางปัญญา ฉันต้องซื่อสัตย์และพูดว่าฉันเกลียดที่จะเห็นคนอื่นที่มีระดับสูงกว่าฉัน ดังนั้นถ้าฉันเดินไปตามถนนและเห็นคนที่มีปริญญาเอกฉันไม่ต้องพูดว่า "โอ้ว้าวคนนี้ฉลาดกว่าฉัน" ฉันชอบที่จะอยู่อีกด้านหนึ่ง ;) เหตุผลของฉันที่ไม่ได้ทำปริญญาเอก: ฉันอ่านทางอินเทอร์เน็ตเกี่ยวกับการทำปริญญาเอกหรือไม่ทำ ฉันพบว่าในกรณีส่วนใหญ่และตามปกติผู้ที่มีปริญญาเอกจะทำงานประเภทเดียวกันกับผู้ที่มีปริญญาโท (นั่นเป็นการสังเกตทั่วไปทางวิทยาศาสตร์คอมพิวเตอร์ไม่ใช่เกี่ยวกับ ML / DM) ฉันสามารถเริ่มต้นอาชีพและสร้างรายได้เป็นจำนวนมากใน 1 หรือ 2 ปีจากนั้นฉันอาจเริ่มต้น บริษัท ของตัวเอง ยังไม่ชัดเจน: ฉันยังไม่รู้ว่าเป้าหมายสูงสุดของฉันคืออะไรในตอนท้าย มันจะมี บริษัท เล็ก ๆ ที่มีชื่อเสียงหรือไม่? หรือว่าจะเป็นนักวิทยาศาสตร์ที่มีชื่อเสียง? ฉันยังไม่มีคำตอบสำหรับคำถามนี้ เพื่อช่วยในการตัดสินใจฉันต้องการทราบสองสิ่ง: …

25 machine-learning data-mining careers

3

LSA กับ PCA (การจัดกลุ่มเอกสาร)

ฉันกำลังตรวจสอบเทคนิคต่าง ๆ ที่ใช้ในการจัดกลุ่มเอกสารและฉันต้องการที่จะขจัดข้อสงสัยเกี่ยวกับ PCA (การวิเคราะห์องค์ประกอบหลัก) และ LSA (การวิเคราะห์ความหมายแฝง) สิ่งแรก - อะไรคือความแตกต่างระหว่างพวกเขา? ฉันรู้ว่าใน PCA การสลายตัว SVD ถูกนำไปใช้กับเมทริกซ์ความแปรปรวนร่วมในขณะที่ LSA เป็นเมทริกซ์เอกสารระยะ มีอะไรอีกไหม? สอง - บทบาทของพวกเขาในขั้นตอนการจัดกลุ่มเอกสารคืออะไร จากสิ่งที่ฉันได้อ่านจนถึงตอนนี้ฉันอนุมานได้ว่าจุดประสงค์ของพวกเขาคือการลดมิติการลดเสียงรบกวนและการรวมความสัมพันธ์ระหว่างคำต่างๆเข้าด้วยกัน หลังจากดำเนินการ PCA หรือ LSA อัลกอริธึมแบบดั้งเดิมเช่นวิธี k- หมายถึงหรือ agglomerative ถูกนำมาใช้ในพื้นที่ระยะลดลงและการวัดความคล้ายคลึงกันทั่วไปเช่นระยะทางโคไซน์ถูกนำมาใช้ โปรดแก้ไขฉันหากฉันผิด ประการที่สาม - เป็นเรื่องสำคัญหรือไม่หากเวกเตอร์คำศัพท์ TF / IDF ถูกทำให้เป็นมาตรฐานก่อนใช้ PCA / LSA หรือไม่ และพวกเขาควรจะกลับสู่ภาวะปกติอีกครั้งหลังจากนั้น? ข้อที่สี่ - สมมติว่าฉันได้ทำการจัดกลุ่มบางส่วนเกี่ยวกับพื้นที่คำที่ลดลงโดย LSA / …

25 clustering pca data-mining svd lsa

3

การวัดความถูกต้องของข้อมูลมัลติมิเตอร์มีอะไรบ้าง

พิจารณาสถานการณ์ที่คุณได้รับเมทริกซ์ KnownLabel และเมทริกซ์ PredictedLabel ฉันต้องการวัดความดีของเมทริกซ์ PredictedLabel เทียบกับเมทริกซ์ KnownLabel แต่ความท้าทายในที่นี้คือ KnownLabel Matrix มีเพียงไม่กี่แถวเท่านั้นที่มี 1 แถวและอีกสองสามแถวที่มีจำนวนมาก 1 แถว (อินสแตนซ์เหล่านั้นมีป้ายกำกับหลายรายการ) ตัวอย่างของ KnownLabel Matrix ได้รับด้านล่าง A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] ในเมทริกซ์ข้างต้นอินสแตนซ์ข้อมูล 1 และ 2 เป็นข้อมูลเลเบลเดียวอินสแตนซ์ข้อมูล 3 และ 4 …

25 machine-learning data-mining multilabel

2

อะไรคือความแตกต่างระหว่างฟังก์ชั่นการสูญเสียและฟังก์ชั่นการตัดสินใจ?

ฉันเห็นว่าทั้งสองฟังก์ชั่นเป็นส่วนหนึ่งของวิธีการขุดข้อมูลเช่นตัวเร่งการเลื่อนสีไล่ระดับสี ฉันเห็นว่ามันเป็นวัตถุแยกกันเช่นกัน ความสัมพันธ์ระหว่างทั้งสองเป็นอย่างไร

23 regression classification data-mining decision-theory

คำถามติดแท็ก data-mining