4.17 网络爬虫

用 R 语言写爬虫 curlhttrxml2XMLrvest 解析网页14

# 查看 libcurl 库的版本
libcurlVersion()
## [1] "7.81.0"
## attr(,"ssl_version")
## [1] "OpenSSL/3.0.2"
## attr(,"libssh_version")
## [1] "libssh/0.9.6/openssl/zlib"
## attr(,"protocols")
##  [1] "dict"    "file"    "ftp"     "ftps"    "gopher"  "gophers" "http"   
##  [8] "https"   "imap"    "imaps"   "ldap"    "ldaps"   "mqtt"    "pop3"   
## [15] "pop3s"   "rtmp"    "rtsp"    "scp"     "sftp"    "smb"     "smbs"   
## [22] "smtp"    "smtps"   "telnet"  "tftp"

于主编利用 tidyRSS 包 抓取解析博客站点的订阅信息,并将此设置为定时任务,创建自动更新内容的博客聚合网站 Daily R

抓取地震台信息

一个爬网页的练习:看看 R 邮件列表中最热门的讨论是什么


  1. Jeroen Ooms 已经确认 RCurl 早已经不再维护,取代它的是 curl/httr,不要使用不再维护的 R 包 https://frie.codes/curl-vs-rcurl/↩︎