การคัดลอกตาราง html ลงในเฟรมข้อมูล R โดยใช้แพ็คเกจ XML


153

ฉันจะขูดตาราง html โดยใช้แพ็คเกจ XML ได้อย่างไร

ใช้ตัวอย่างเช่นหน้าวิกิพีเดียนี้ในทีมฟุตบอลบราซิล ฉันต้องการอ่านใน R และรับ "รายการการแข่งขันทั้งหมดของบราซิลที่ได้เล่นกับ FIFA รู้จักทีม" ตารางเป็น data.frame ฉันจะทำสิ่งนี้ได้อย่างไร


11
เพื่อหาตัวเลือก xpath ให้ตรวจสอบ selectorgadget.com/ - มันยอดเยี่ยม
hadley

คำตอบ:


144

... หรือลองสั้นลง:

library(XML)
library(RCurl)
library(rlist)
theurl <- getURL("https://en.wikipedia.org/wiki/Brazil_national_football_team",.opts = list(ssl.verifypeer = FALSE) )
tables <- readHTMLTable(theurl)
tables <- list.clean(tables, fun = is.null, recursive = FALSE)
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))

ตารางที่เลือกคือตารางที่ยาวที่สุดในหน้า

tables[[which.max(n.rows)]]

ความช่วยเหลือ readHTMLTable ยังมีตัวอย่างของการอ่านตารางข้อความธรรมดาจากองค์ประกอบ HTML PRE โดยใช้ htmlParse (), getNodeSet (), textConnection () และ read.table ()
Dave X

48
library(RCurl)
library(XML)

# Download page using RCurl
# You may need to set proxy details, etc.,  in the call to getURL
theurl <- "http://en.wikipedia.org/wiki/Brazil_national_football_team"
webpage <- getURL(theurl)
# Process escape characters
webpage <- readLines(tc <- textConnection(webpage)); close(tc)

# Parse the html tree, ignoring errors on the page
pagetree <- htmlTreeParse(webpage, error=function(...){})

# Navigate your way through the tree. It may be possible to do this more efficiently using getNodeSet
body <- pagetree$children$html$children$body 
divbodyContent <- body$children$div$children[[1]]$children$div$children[[4]]
tables <- divbodyContent$children[names(divbodyContent)=="table"]

#In this case, the required table is the only one with class "wikitable sortable"  
tableclasses <- sapply(tables, function(x) x$attributes["class"])
thetable  <- tables[which(tableclasses=="wikitable sortable")]$table

#Get columns headers
headers <- thetable$children[[1]]$children
columnnames <- unname(sapply(headers, function(x) x$children$text$value))

# Get rows from table
content <- c()
for(i in 2:length(thetable$children))
{
   tablerow <- thetable$children[[i]]$children
   opponent <- tablerow[[1]]$children[[2]]$children$text$value
   others <- unname(sapply(tablerow[-1], function(x) x$children$text$value)) 
   content <- rbind(content, c(opponent, others))
}

# Convert to data frame
colnames(content) <- columnnames
as.data.frame(content)

แก้ไขเพื่อเพิ่ม:

ตัวอย่างผลลัพธ์

                     Opponent Played Won Drawn Lost Goals for Goals against  % Won
    1               Argentina     94  36    24   34       148           150  38.3%
    2                Paraguay     72  44    17   11       160            61  61.1%
    3                 Uruguay     72  33    19   20       127            93  45.8%
    ...

7
สำหรับผู้อื่นที่โชคดีพอที่จะพบโพสต์นี้สคริปต์นี้จะไม่ทำงานจนกว่าผู้ใช้จะเพิ่มข้อมูล "ตัวแทนผู้ใช้" ตามที่อธิบายไว้ในโพสต์ที่เป็นประโยชน์อื่น ๆ นี้: stackoverflow.com/questions/9056705/…
Rguy

26

ตัวเลือกอื่นโดยใช้ Xpath

library(RCurl)
library(XML)

theurl <- "http://en.wikipedia.org/wiki/Brazil_national_football_team"
webpage <- getURL(theurl)
webpage <- readLines(tc <- textConnection(webpage)); close(tc)

pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE)

# Extract table header and contents
tablehead <- xpathSApply(pagetree, "//*/table[@class='wikitable sortable']/tr/th", xmlValue)
results <- xpathSApply(pagetree, "//*/table[@class='wikitable sortable']/tr/td", xmlValue)

# Convert character vector to dataframe
content <- as.data.frame(matrix(results, ncol = 8, byrow = TRUE))

# Clean up the results
content[,1] <- gsub(" ", "", content[,1])
tablehead <- gsub(" ", "", tablehead)
names(content) <- tablehead

สร้างผลลัพธ์นี้

> head(content)
   Opponent Played Won Drawn Lost Goals for Goals against % Won
1 Argentina     94  36    24   34       148           150 38.3%
2  Paraguay     72  44    17   11       160            61 61.1%
3   Uruguay     72  33    19   20       127            93 45.8%
4     Chile     64  45    12    7       147            53 70.3%
5      Peru     39  27     9    3        83            27 69.2%
6    Mexico     36  21     6    9        69            34 58.3%

เรียกใช้ xpath ได้อย่างยอดเยี่ยม จุดรอง: คุณสามารถทำให้อาร์กิวเมนต์อาร์กิวเมนต์ง่ายขึ้นเล็กน้อยโดยเปลี่ยน // * / to // เช่น "// table [@ class = 'wikitable sortable'] / tr / th"
Richie Cotton

ฉันได้รับข้อผิดพลาด "สคริปต์ควรใช้สตริงตัวแทนผู้ใช้ที่ให้ข้อมูลพร้อมข้อมูลติดต่อมิฉะนั้นอาจถูกบล็อกด้วย IP โดยไม่ต้องแจ้งให้ทราบ" [2] "มีวิธีนี้ไหมที่จะใช้วิธีนี้?
pssguy

2
ตัวเลือก (RCurlOptions = รายการ (useragent = "zzzz")) ดูเพิ่มเติมomegahat.org/RCurl/FAQ.htmlส่วน "Runtime" สำหรับทางเลือกและการสนทนาอื่น ๆ
เรียนรู้

25

rvestพร้อมกับxml2เป็นอีกหนึ่งแพคเกจที่เป็นที่นิยมสำหรับการแยกหน้าเว็บ HTML

library(rvest)
theurl <- "http://en.wikipedia.org/wiki/Brazil_national_football_team"
file<-read_html(theurl)
tables<-html_nodes(file, "table")
table1 <- html_table(tables[4], fill = TRUE)

ไวยากรณ์ใช้งานง่ายกว่าxmlแพ็คเกจและสำหรับหน้าเว็บส่วนใหญ่แพ็คเกจจะให้ตัวเลือกทั้งหมดตามที่ต้องการ


read_html ให้ข้อผิดพลาด "" file: ///Users/grieb/Auswertungen/tetyana-snp-2016/data/snp-nexus/15/SNP%20Annotation%20Tool.html 'ไม่มีอยู่ในไดเรกทอรีการทำงานปัจจุบัน (' / ผู้ใช้ / grieb / Auswertungen / Tetyana-SNP-2016 / รหัส ')."
scs
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.