网络数据采集技术:Java网络爬虫实战在线阅读
会员

网络数据采集技术:Java网络爬虫实战

钱洋等
开会员,本书免费读 >

计算机网络编程语言与程序设计6.1万字

更新时间:2020-09-29 15:50:25 最新章节:9.4 本章小结

立即阅读
加书架
下载
听书

书籍简介

本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。
上架时间:2020-01-01 00:00:00
出版社:电子工业出版社
上海阅文信息技术有限公司已经获得合法授权,并进行制作发行

最新章节

同类热门书

最新上架

  • 会员
    本书综合性讲解HuggingFace社区提供的工具集datasets和transformers,书中包括最基础的工具集的用例演示,也包括具体的项目实战,以及预训练模型的底层设计思路和实现原理的介绍。通过本书的学习,读者可以快速掌握HuggingFace工具集的使用方法,掌握自然语言处理项目的一般研发流程,并能研发自己的自然语言处理项目。本书共14章,分为工具集基础用例演示篇(第1~6章),详细讲解
    李福林计算机7.7万字
  • 会员
    随着人机交互和AI技术的快速发展,设计师需要从基于屏幕的图形用户界面设计思维,转变为空间交互及智能交互的设计思维。本书从设计师要懂技术的原因讲起,引导设计师结合技术去思考设计,并针对跨设备交互设计、基于AI的设计及各种传感技术(姿态和手势识别、人脸识别和追踪、眼动追踪等)进行解读与案例分析,帮助设计师更好地应对未来的工作挑战。
    薛志荣计算机15.8万字
  • 会员
    本书是Python数据分析与挖掘领域的公认的事实标准,前两版销售超过15万册,被国内100余所院校采用为教材,同时也被广大数据科学工作者奉为经典。本书以真实项目案例为驱动,以真实的行业应用为依托,帮助读者快速掌握数据分析与挖掘的相关技术、流程与方法。本书精选了7个经典实战案例,涵盖了房地产、零售、互联网等多个领域,将Python编程知识、数据分析与挖掘知识和行业知识融合,让读者在实践中快速地掌握针
    张春福 白婧 张良均 范林元 吴建平计算机14万字
  • 会员
    本书系统地讲解了现代商业银行的基本原理和知识框架,特别注重通过中外银行网站、年报、典型案例、相关法律法规、重大事件等,来介绍当前国内外银行业务的基本状况、重要改革和未来发展方向,教材图文并茂,内容翔实生动。本书可作为金融学专业本科生或金融专业硕士研究生的课程教学用书,也可作为从业人员了解银行业基础知识的参考书。
    张桥云编著计算机41万字
  • 会员
    《Vue.js3.x+ElementPlus从入门到精通:视频教学版》通过对Vue.js(简称Vue)的示例和综合案例的介绍与演练,使读者快速掌握Vue.js3.x框架的用法,提高Web前端的实战开发能力。《Vue.js3.x+ElementPlus从入门到精通:视频教学版》共分15章,内容包括Vue.js3.x的基本概念、Vue.js模板应用、组件的方法和计算属性、表单的双向绑定、处
    张工厂编著计算机6.4万字
  • 会员
    《企业微信开发详解》从零基础开始,详细地讲解了企业微信开发相关的知识点。本书重点介绍了企业微信的三大核心开发方式——回调开发方式、主动开发方式和网页开发方式,每种开发方式都从基础知识、架构设计建议、开发案例3个方面进行讲解。同时,针对企业微信开发的重要技术接口,给出了示例程序和执行结果,以方便读者清晰、明了地学习。读者可以按各技术点的讲解顺序学习,也可以根据个人需要有针对性地学习。
    翟东平计算机3.8万字
  • 会员
    本书展示了如何利用事件驱动和响应式原理来构建健壮的分布式系统,减少延迟并提高吞吐量——特别是在微服务和无服务器应用程序中。本书分为四部分:第一部分介绍响应式的背景、环境和内容;第二部分深入讲解响应式,涵盖分布式系统的弊端、响应式系统和响应式编程;第三部分阐述如何使用Quarkus构建响应式应用程序,涵盖响应式引擎、响应式编程库SmallRyeMutiny、HTTP以及响应式数据访问的相关知识;第
    (法)克莱门特·埃斯科菲耶 (澳)肯·芬尼根计算机11.1万字
  • 会员
    本书系统地介绍了机器学习系统的设计原则和实践经验,侧重于介绍机器学习的原理、神经网络和优化器、自动差分算法、机器学习系统编程模型、控制流和数据流,异构硬件加速器的原理和编程、数据流图编译器前端、数据流图编译器后端、数据准备和增强、模型部署相关技术、分布式训练、弹性训练、联合训练和评估平台、调试和优化工具、数据隐私和安全等。在讲授的过程中,本书将根据MindSpore的自身特点,在各个章节突出讨论M
    麦络 董豪编著计算机19.7万字
  • 会员
    本书以Python的实际应用为主线,以理论基础为核心,引导读者渐进式学习Python的在生活和工作中的实际应用。本书共13章,可分为4部分。第一部分Python的办公自动化篇(第1~5章)、第二部分网络应用篇(第6~10章)、第三部分GUI编程篇(第11~12章)、第四部分其他应用篇(第13章)。本书示例代码丰富,实用性和系统性较强,并配有视频讲解,助力读者透彻理解书中的重点、难点。精心设计的案例
    邢世通编著计算机11.6万字

同类书籍最近更新

  • 会员
    Netty涉及多线程技术、复杂数据结构与内存管理模型,它运用了各种设计模式及一些TCP的底层技术。本书对这些难点一一进行攻破,让读者快速掌握相关知识。本书包含大量的分布式底层架构的编写,涉及多线程、负载均衡算法、性能调优、线上问题紧急处理等内容。本书通过非常简易的代码来讲解Netty在企业中的实际用法,通过对实例进行调试的方式对Netty源码进行了详细的剖析,力图使读者通过实际操作快速入门,并深入
    刘耀林程序设计5.2万字
  • 会员
    本书以优化驱动为主线,重点探讨了三类优化驱动的设计方法,包括结构拓扑优化设计方法、多学科设计优化方法、基于可靠性的设计优化方法。
    高亮 邱浩波 肖蜜 李好程序设计19.4万字
  • 会员
    ThebookismeantfordevelopersandsoftwarearchitectswithabasicworkingknowledgeofJavaScriptwhoareinterestedinacquiringadeeperunderstandingofhowtodesignanddevelopenterprise-lev
    Mario Casciaro Luciano Mammino程序设计13.1万字
  • 会员
    本书是Python数据分析经典畅销书的升级版,由Pythonpandas项目的创始人WesMcKinney撰写。本书自2012年第1版出版以来,迅速成为该领域的权威指南,并且为了保持与时俱进,作者对本书内容进行持续更新,以摒弃一些过时、不兼容的工具,添加新的内容来介绍新特性、新工具及方法。第3版针对Python3.10和pandas1.4进行了更新,并通过实操讲解和实际案例向读者展示了如何高效
    (美)韦斯·麦金尼程序设计11.5万字
  • 会员
    本书旨在帮助读者从零开始快速掌握Flink的基本原理与核心功能。本书首先介绍了Flink的基本原理和安装部署,并对Flink中的一些核心API进行了详细分析。然后配套对应的案例分析,分别使用Java代码和Scala代码实现案例。最后通过两个项目演示了Flink在实际工作中的一些应用场景,帮助读者快速掌握Flink开发。学习本书需要大家具备一些大数据的基础知识,比如Hadoop、Kafka、Redi
    徐葳程序设计4.7万字
  • 会员
    本书从MyBatis源码的角度分析Mapper绑定过程、SqlSession操作数据库原理、插件实现原理等,同时介绍一些MyBatis的高级用法,并挖掘MyBatis源码中使用的设计模式。本书共13章,分为MyBatis3源码篇和MyBatisSpring源码篇。第1~11章介绍MyBatis核心源码,从源码的角度分析MyBatis的实现原理,并介绍一些MyBatis的高级用法。MyBatis大多
    江荣波程序设计8万字