java多方式登陆_Java 爬虫遇到需要登录的网站，该怎么办？

news/2025/2/25 16:02:29

这是 Java 网络爬虫系列博文的第二篇，在上一篇Java 网络爬虫，就是这么的简单中，我们简单的学习了一下如何利用 Java 进行网络爬虫。在这一篇中我们将简单的聊一聊在网络爬虫时，遇到需要登录的网站，我们该怎么办？

在做爬虫时，遇到需要登陆的问题也比较常见，比如写脚本抢票之类的，但凡需要个人信息的都需要登陆，对于这类问题主要有两种解决方式：一种方式是手动设置 cookie ，就是先在网站上面登录，复制登陆后的 cookies ，在爬虫程序中手动设置 HTTP 请求中的 Cookie 属性，这种方式适用于采集频次不高、采集周期短，因为 cookie 会失效，如果长期采集的话就需要频繁设置 cookie，这不是一种可行的办法，第二种方式就是使用程序模拟登陆，通过模拟登陆获取到 cookies，这种方式适用于长期采集该网站，因为每次采集都会先登陆，这样就不需要担心 cookie 过期的问题。

为了能让大家更好的理解这两种方式的运用，我以获取豆瓣个人主页昵称为例，分别用这两种方式来获取需要登陆后才能看到的信息。获取信息如下图所示：

获取图片中的缺心眼那叫单纯，这个信息显然是需要登陆后才能看到的，这就符合我们的主题啦。接下来分别用上面两种办法来解决这个问题。

手动设置 cookie

手动设置 cookie 的方式，这种方式比较简单，我们只需要在豆瓣网上登陆，登陆成功后就可以获取到带有用户信息的cookie，豆瓣网登录链接：

https://accounts.douban.com/passport/login

如下图所示：

图中的这个 cookie 就携带了用户信息，我们只需要在请求时携带这个 cookie 就可以查看到需要登陆后才能查看到的信息。我们用 Jsoup 来模拟一下手动设置 cookie 方式，具体代码如下：

从代码中可以看出跟不需要登陆的网站没什么区别，只是多了一个.header("Cookie

java多方式登陆_Java 爬虫遇到需要登录的网站，该怎么办？

手动设置 cookie

相关文章

【LeetCode】233. 数字 1 的个数（同剑指Offer43）

向文件in.txt中写入字符串helloworld_Python操作文件

nginx安装部署mysql负载均衡_nginx+tomcat+mysql进行负载均衡

mysql total语法_mysql基础知识语法汇总整理(二)

mysql中怎么实现Apriori_关联规则Apriori算法及实现（python）

mysql解题思路_BUUCTF-Web-随便注(三种解题思路)

odp 加固 mysql_安装使用ODP.Net 问题及说明

stubtotally sutb