如何抓取网站

几乎每个行业都使用网络(Web)抓取来从互联网上提取和分析数据。公司使用收集到的数据来制定新的业务战略和产品。您的数据很有价值。除非您采取措施保护您的隐私,否则公司会使用您的数据来赚钱。

如果大企业在做,你为什么不做呢?学习如何抓取网站可以帮助您找到最佳交易,为您的业务收集潜在客户,甚至帮助您找到新工作。 

使用网页抓取服务

从互联网收集数据的最快和最简单的方法是使用专业的网络抓取服务。如果你需要收集大量数据,像Scrapinghub这样的服务可能是一个不错的选择。它们为在线数据收集提供了大规模、易于使用的服务。  

如果您正在寻找较小规模的东西,ParseHub值得研究一下以抓取一些网站。所有用户都从免费的 200 页计划开始,不需要信用卡,以后可以通过分层定价系统进行构建。

网页抓取应用

对于一种快速、免费且方便的网站抓取方式,Web Scraper Chrome 扩展程序(Web Scraper Chrome Extension)是一个不错的选择。

有一点学习曲线,但开发人员提供了出色的文档(documentation)教程(tutorial )视频(videos)Web Scraper是用于小规模数据收集的最简单和最好的工具之一,在其免费(Free)层中提供的功能比大多数工具都多。 

使用 Microsoft Excel(Use Microsoft Excel)抓取网站(Website)

对于一些更熟悉的东西,Microsoft Excel提供了一个基本的网络抓取功能。要试用它,请打开一个新的Excel工作簿,然后选择“数据(Data)”选项卡。单击工具栏中的来自 Web(From Web),然后按照向导中的说明开始收集。

从那里,您有几个选项可以将数据保存到电子表格中。查看我们的 Excel 网页抓取指南以获取(guide to web scraping with Excel)完整教程。

使用 Scrapy Python 库(Use the Scrapy Python Library)

如果您熟悉Python 编程语言(Python programming language)那么 Scrapy(Scrapy)是您的完美库。它允许您设置自定义“蜘蛛”,爬取网站以提取信息。然后,您可以使用程序中收集的信息,或将其导出到文件中。

Scrapy教程涵盖(Scrapy)从基本的网络抓取到专业级别的多蜘蛛计划信息收集的所有内容。学习如何使用Scrapy抓取网站不仅仅是满足您自己需求的有用技能。知道如何使用Scrapy的(Scrapy)开发人员(Developers)需求量很大,这可能会带来一个全新的职业(a whole new career)

使用 Beautiful Soup Python 库(Use The Beautiful Soup Python Library)

Beautiful Soup是一个用于网页抓取的Python库。它类似于Scrapy,但已经存在了更长的时间。许多用户发现 Beautiful Soup比(Soup)Scrapy更易于使用。

它不像Scrapy那样功能齐全,但对于大多数用例来说,它是(Scrapy)Python程序员的功能和易用性之间的完美平衡。

使用 Web Scraping API

如果您愿意自己编写 Web 抓取代码,您仍然需要在本地运行它。这对于小型操作来说很好,但随着您的数据收集规模扩大,它将占用宝贵的带宽(use up precious bandwidth),可能会减慢您的网络速度(slowing down your network)

使用网络抓取API可以将一些工作卸载到远程服务器,您可以通过代码访问该服务器。这种方法有几个选项,包括像Dexi(Dexi)这样功能齐全且价格专业的选项,以及像ScraperAPI这样简单地剥离服务。

两者都需要花钱使用,但ScraperAPI提供 1000 次免费API调用,然后再进行任何付费尝试服务,然后再提交服务。

使用 IFTTT 抓取网站

IFTTT是一个强大的自动化工具。您可以使用它来自动化几乎任何事情(use it to automate almost anything),包括数据收集和网络抓取。

IFTTT的巨大优势之一是它与许多 Web 服务的集成。使用Twitter的基本示例可能如下所示:

  • 登录 IFTTT 并选择创建(Create)
  • 在服务菜单上选择Twitter
  • 从推文中(New Search From Tweet)选择新搜索
  • 输入搜索词或主题标签,然后单击创建触发器(Create Trigger)
  • 选择Google 表格(Google Sheets)作为您的操作服务
  • 选择将行添加到电子表格(Add Row to Spreadsheet)并按照步骤操作
  • 单击创建操作(Create Action)

只需几个简短的步骤,您就创建了一个自动服务,该服务将记录与搜索词或主题标签相关的推文以及用户名及其发布时间。

有这么多连接在线服务的选项,IFTTT 或其替代方案之一(IFTTT, or one of its alternatives)是通过抓取网站进行简单数据收集的完美工具。

使用 Siri Shortcuts 应用程序进行网页抓取(Web Scraping With The Siri Shortcuts App)

对于 iOS 用户,Shortcuts应用程序是链接和自动化您的数字生活的绝佳工具。虽然您可能熟悉它在日历、联系人和地图之间的集成(integration between your calendar, contacts, and maps),但它的功能远不止这些。

在一篇详细的帖子中,Reddit 用户(Reddit user)u/keveridge 概述了如何将正则表达式与 Shortcuts 应用程序(how to use regular expressions with the Shortcuts app)一起使用以从网站获取详细信息。

正则表达式(Expressions)允许更细粒度的搜索,并且可以跨多个文件工作(can work across multiple files)以仅返回您需要的信息。

(Use Tasker)使用Android 版(Android)Tasker搜索网络(Web)

如果您是Android用户,则没有简单的选项可以抓取网站。您可以按照上述步骤使用IFTTT应用程序,但(IFTTT)Tasker可能更适合。

Available for $3.50 on the Play Store,许多人将Tasker视为 IFTTT 的老兄弟。它有大量的自动化选项。其中包括自定义 Web 搜索、选定网站上的数据发生变化时的警报,以及从 Twitter 下载内容(download content from Twitter)的能力。

虽然不是传统的网络抓取方法,但自动化应用程序可以提供与专业网络抓取工具大部分相同的功能,而无需学习如何编码或为在线数据收集服务付费。

自动网页抓取

无论您是想为您的业务收集信息还是让您的生活更方便,网络抓取都是一项值得学习的技能。

您收集的信息,一旦正确分类(once properly sorted),将使您更深入地了解您、您的朋友和您的商业客户感兴趣的事物。



About the author

在商业中,一切都是为了为您的客户和客户创造价值。我专注于提供分步说明,帮助我的读者使用 Microsoft Office 充分利用他们的硬件和软件。我的技能包括键盘和驱动程序安装,以及 Microsoft Office 支持。凭借我多年的行业经验,我可以帮助您满足您可能拥有的任何硬件或软件需求。



Related posts