`
border
  • 浏览: 201330 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

『Java』一个简单的蜘蛛(Java Spider)

    博客分类:
  • Java
阅读更多

一个简单的java蜘蛛, 通过流的到网站的信息,没有对Html进行分析,等有时间了再完善。

package cn.border.spider;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class HttpUserAgentTest {

    /**
     * @param args
     * @throws Exception
     */
    public static void main(String[] args) throws Exception {

        URL url = new URL("http://www.borderj.cn");
        HttpURLConnection httpConnection = (HttpURLConnection) url
                .openConnection();

        //设置User-Agent
        httpConnection.setRequestProperty("User-Agent",
                "BorderSpider ( Http://www.borderj.cn)");

        //获得输入流
        InputStream input = httpConnection.getInputStream();
        InputStreamReader inReader = new InputStreamReader(input, "utf-8");//获得链接该类的流
        BufferedReader reader = new BufferedReader(inReader);

        int retVal = 0;
        char[] cString = new char[1000];
        int len = 1000;
        String getString = "";

        while ((retVal = reader.read(cString, 0, len)) != -1) {
            getString += String.valueOf(cString, 0, retVal);
        }
        System.out.println(getString);
    }
}


--
Blog:    www.borderj.cn
MSN:   borderj@live.com

  Border
分享到:
评论
1 楼 cjc19762338 2010-08-10  
这也太简单了吧!

网络蜘蛛?还真的不了解其实现。

用一般的httpconnect,urlconnection等等,都会被目标网站拦截

相关推荐

    Spider_java.rar_Java spider_spider jar

    Java语言,蜘蛛纸牌游戏,完整代码和打包发布的jar文件

    spider_java.rar_Java spider

    JAVA编写网络蜘蛛的基础介绍,有详细按步骤的描述。同时也有详细的代码。

    Java-Web-crawler-spider.rar_JAVA web 爬虫_Java spider_crawler_spid

    网络爬虫蜘蛛Java源码,智能网罗信息,你懂的。

    网络蜘蛛spider crawl

    用Java写的网络蜘蛛,可以抓取网站URL列表,并分词站内外列表。有清晰的注释,和大家一同学习

    一个简单的java 爬虫

    网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,...

    java网络爬虫实例

    网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页 网络蜘蛛 ,从 网站某一个页面(通常是首页)开始,读取网页...

    Java.Source.Spider

    Java.蜘蛛纸牌.源代码.打包.代码量1000行

    java8源码-Spiderman2:蜘蛛侠2

    简单的说,这是一个网页爬虫工具,专门对网页内容进行抓取和解析 性能 架构简洁 易用 分布式 插件 UI 要求: Java8或以上 快速开始 dist目录下面有 - bootstrap.bat - bootstrap.sh windows机器请执行bat, mac/linux...

    Spiderman2 java爬虫 v1.0

    为您提供Spiderman2 java爬虫下载,Spiderman2(二代蜘蛛侠)简单的说,这是一个网页爬虫工具,专门对网页内容进行抓取和解析。性能:架构简洁易用分布式插件UI要求:Java8或以上

    java实现的蜘蛛纸牌,很适合学习的

    这个程序绝对能跑,亲自在netbeans7.0下调通过,源代码里自己加了很多注释,相信能给大家一点帮助的,谢谢支持。

    网络蜘蛛spider

    利用蜘蛛向已存在的网页发送新闻申请 得到结果 java web 利用Java解析得到的页面 得到想要的信息

    搜索链接Java网络爬虫(蜘蛛)源码-zhizhu

    利用java.url中的类实现Spider程序与外界通讯,以及处理网页中的URL连接,对蜘蛛程序的核心类(通讯核心、蜘蛛程序工作核心),资源索引的建立与搜索新型了详细的研究。 通过设计分析,完成了自己的蜘蛛爬行程序。...

    Java网络爬虫蜘蛛源码

    软件简介: 一个JAVA开发的简单网络爬虫 可以实现对指定站点新闻内容的获取 程序很简单 大家一起学习

    jlitespider, 一种小型分布式Java蜘蛛.zip

    jlitespider, 一种小型分布式Java蜘蛛 JLiteSpider发布 Java spider框架的代价。 这是一个轻量级的分布式java爬虫框架<dependency> <groupId>com.github.luo

    Java实现蜘蛛纸牌源码分享-入门学习

    import java.awt.*; import java.awt.event.*; import javax.swing.*; public class PKCard extends JLabel implements MouseListener, MouseMotionListener{ //纸牌的位置 Point point = null; Point ...

    跑腿源码java-spider:蜘蛛

    跑腿源码java 拉钩职位爬虫 如果我的文章对你有帮助,欢迎 start、follow,这样我会更有动力做原创分享。 在配置好 MongoDB 数据库和安装好相关的库包文件后,代码可直接运行。 我的公众号 概述 前言 统计结果 爬虫...

    Java-Spider-Solitaire.rar_solitaire

    JAVA Swing 做的蜘蛛纸牌游戏,实现了可选牌的花色、提示、及发牌

    用Java实现网络爬虫(或互联网蜘蛛)

    通过一个简单的描述互联网爬虫(蜘蛛)的类Spider,演示了收索引擎的基本原理,以及由可完成future构成的多阶段流水线的异步执行过程。

Global site tag (gtag.js) - Google Analytics