博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
java爬取网易云歌单_GitHub - th720309/163music_spider: 网易云音乐歌单爬取
阅读量:5741 次
发布时间:2019-06-18

本文共 1580 字,大约阅读时间需要 5 分钟。

今天花了一点时间抓取了网易云音乐的热门民谣歌单,共1500热门民谣歌单,后续有时间会爬取其他分类。

下面记录一下java爬取过程。见下:

爬虫过程

1.首先抓取各个歌单的url与标题

public static void DoPachong( String url_str, String charset) throws ClientProtocolException, IOException{

HttpClient hc = new DefaultHttpClient();

HttpGet hg = new HttpGet(url_str);

HttpResponse response = hc.execute(hg);

HttpEntity entity = response.getEntity();

InputStream htm_in = null;

if(entity != null){

htm_in = entity.getContent();

String htm_str = InputStream2String(htm_in,charset);

Document doc = Jsoup.parse(htm_str);

Elements links= doc.select("div[class=g-bd]").select("div[class=g-wrap p-pl f-pr]").select("ul[class=m-cvrlst f-cb]").select("div[class=u-cover u-cover-1");

for (Element link : links) {

Elements lin = link.select("a");

String re_url = lin.attr("href");

String re_title = lin.attr("title");

re_url = "http://music.163.com"+re_url;

System.out.print(re_title+" ");

System.out.print(re_url+" ");

SecondPaChong(re_url,charset);

}

}

}

2.根据抓取的url进一步用jsoup解析收听量

public static void SecondPaChong( String url_str, String charset) throws ClientProtocolException, IOException{

HttpClient hc = new DefaultHttpClient();

HttpGet hg = new HttpGet(url_str);

HttpResponse response = hc.execute(hg);

HttpEntity entity = response.getEntity();

InputStream htm_in = null;

if(entity != null){

htm_in = entity.getContent();

String htm_str = InputStream2String(htm_in,charset);

Document doc = Jsoup.parse(htm_str);

String links= doc.select("div[class=u-title u-title-1 f-cb]").select("div[class=more s-fc3]").select("strong").text();

System.out.println(links);

}

}

爬取结果

7293c60d73ddc8cba63122b7d04a7152.png

民谣歌单收听量前10:

转载地址:http://cbnzx.baihongyu.com/

你可能感兴趣的文章
算法(第4版) Chapter 1
查看>>
前端技术选型的遗憾和经验教训
查看>>
“亲切照料”下的领域驱动设计
查看>>
SRE工程师到底是做什么的?
查看>>
解读:Red Hat为什么收购Ansible
查看>>
Ossim下的安全合规管理
查看>>
DelphiWebMVC框架下BPL热部署实现
查看>>
C++与MySQL的冲突
查看>>
siki学习之观察者模式笔记
查看>>
单元测试
查看>>
spring.net 继承
查看>>
ES6:模块简单解释
查看>>
JavaScript indexOf() 方法
查看>>
用Bootstrap写一份简历
查看>>
ZJU PAT 1023
查看>>
WMI远程访问问题解决方法
查看>>
从零开始学习IOS,(UILabel控件)详细使用和特殊效果
查看>>
Android开发历程_15(AppWidget的使用)
查看>>
阿花宝宝 Java 笔记 之 初识java
查看>>
7、设计模式-创建型模式-建造者模式
查看>>