大家好,今天小编关注到一个比较有意思的话题,就是关于爬虫语言 java的问题,于是小编就整理了2个相关介绍爬虫语言 Java的解答,让我们一起看看吧。
网络爬虫J***a还是python还是c++?
爬虫目前主要开发语言为j***a、Python、C++ 对于一般的信息***集需要,各种语言差别不大。 c、c++ 搜索引擎无一例外使用C\C++ 开发爬虫,猜想搜索引擎爬虫***集的网站数量巨大,对页面的解析要求不高,部分支持javascript python 网络功能强大,模...河南新华电脑学院
只会j***a的我,最近想做个音乐推荐系统,关于爬虫的学习,请问要从j***a入手还是学python?
对于爬虫来说,py确实比J***a方便太多。但本质上py包可以实现的功能,J***a都可以做,只不过要写很多代码。我曾用J***a爬过汽车之家,也用py爬过discuz论坛,且需要输入验证码登录的场景。总体感觉而言,爬虫的关键问题是:1、如何从网页上获取所需信息,这个需要正则表达式;2、涉及到登录或cookies的时候,需要了解***s的get和post等过程;3、当目标网站有防爬系统时,要构造分布式爬虫或通过自动代理的爬虫。4、还要处理各种意外,比如目标网站突然暂时挂了,网络突然不通了,爬出来有脏数据,有些网页需要填写验证码....总之,爬虫难点还是不少。
(图片来源网络,侵删)
我重点是关心你所做的推荐系统,这属于机器学习算法技术。做推荐系统,你需要搞到用户评分和音乐标题,或者你还需要搞到有关该音乐的尽可能多的信息,比如专辑、标签、作者等。这些数据量很大,处理起来耗时耗力。所以我觉得你这个需求的难点在推荐,而不是爬虫。
到此,以上就是小编对于爬虫语言 j***a的问题就介绍到这了,希望介绍关于爬虫语言 j***a的2点解答对大家有用。
(图片来源网络,侵删)