Как программно загрузить веб-страницу на Java

117

Я хотел бы получить HTML-код веб-страницы и сохранить его в String, чтобы я мог обработать его. Кроме того, как мне справиться с различными типами сжатия.

Как я могу это сделать с помощью Java?

java http compression

— jjnguy
источник

По сути, это частный случай stackoverflow.com/questions/921262/…

— Робин Грин

110

Вот протестированный код с использованием класса URL Java . Я бы порекомендовал лучше, чем я здесь, обрабатывать исключения или передавать их в стек вызовов.

public static void main(String[] args) {
    URL url;
    InputStream is = null;
    BufferedReader br;
    String line;

    try {
        url = new URL("http://stackoverflow.com/");
        is = url.openStream();  // throws an IOException
        br = new BufferedReader(new InputStreamReader(is));

        while ((line = br.readLine()) != null) {
            System.out.println(line);
        }
    } catch (MalformedURLException mue) {
         mue.printStackTrace();
    } catch (IOException ioe) {
         ioe.printStackTrace();
    } finally {
        try {
            if (is != null) is.close();
        } catch (IOException ioe) {
            // nothing to see here
        }
    }
}

— Билл Ящерица
источник

16

DataInputStream.readLine () устарел, но кроме этого очень хорошего примера. Я использовал InputStreamReader (), завернутый в BufferedReader (), чтобы получить функцию readLine ().

— mjh2007 02

2

При этом не учитывается кодировка символов, поэтому, хотя это будет работать для текста ASCII, в конечном итоге в случае несоответствия это приведет к появлению «странных символов».

— artbristol

В третьей строке замените DataInputStreamна BufferedReader. И заменить "dis = new DataInputStream(new BufferedInputStream(is));"на"dis = new BufferedReader(new InputStreamReader(is));"

— колобок

1

@akapelko Спасибо. Я обновил свой ответ, чтобы удалить вызовы устаревших методов.

— Bill the Lizard

2

как насчет закрытия InputStreamReader?

— Александр - Восстановить Монику

170

Я бы использовал приличный парсер HTML, такой как Jsoup . Тогда это так же просто, как:

String html = Jsoup.connect("http://stackoverflow.com").get().html();

Он полностью прозрачно обрабатывает GZIP, фрагментированные ответы и кодировку символов. Он также предлагает больше преимуществ, таких как обход HTML и манипулирование с помощью селекторов CSS, как это может делать jQuery. Вам нужно только взять его как Document, а не как String.

Document document = Jsoup.connect("http://google.com").get();

Вы действительно не хотите запускать базовые методы String или даже регулярное выражение в HTML для его обработки.

Смотрите также:

Каковы плюсы и минусы ведущих парсеров HTML в Java?

— BalusC
источник

3

Хороший ответ. Немного поздно. ;)

— jjnguy 01

59

Лучше, чем никогда.

— BalusC 01

Фантастическая библиотека :) Спасибо за это.

— Якуб П.

Почему мне раньше никто не рассказывал о .html ()? Я так внимательно посмотрел, как легко сохранить html, полученный Jsoup, и это очень помогает.

— Avamander

для новичков, если вы используете эту библиотеку в Android, вам нужно использовать ее в другом потоке, потому что по умолчанию она запускается в одном потоке приложения, что приведет к NetworkOnMainThreadException

— выбросу

25

Ответ Билла очень хорош, но вы можете что-то сделать с запросом, например, сжатие или пользовательские агенты. В следующем коде показано, как можно выполнять различные типы сжатия ваших запросов.

URL url = new URL(urlStr);
HttpURLConnection conn = (HttpURLConnection) url.openConnection(); // Cast shouldn't fail
HttpURLConnection.setFollowRedirects(true);
// allow both GZip and Deflate (ZLib) encodings
conn.setRequestProperty("Accept-Encoding", "gzip, deflate");
String encoding = conn.getContentEncoding();
InputStream inStr = null;

// create the appropriate stream wrapper based on
// the encoding type
if (encoding != null && encoding.equalsIgnoreCase("gzip")) {
    inStr = new GZIPInputStream(conn.getInputStream());
} else if (encoding != null && encoding.equalsIgnoreCase("deflate")) {
    inStr = new InflaterInputStream(conn.getInputStream(),
      new Inflater(true));
} else {
    inStr = conn.getInputStream();
}

Чтобы также установить пользовательский агент, добавьте следующий код:

conn.setRequestProperty ( "User-agent", "my agent name");

— jjnguy
источник

Для тех, кто хочет преобразовать InputStream в строку, см. Этот ответ .

— SSight3,

setFollowRedirects помогает, я использую setInstanceFollowRedirects в моем случае, я получал пустые веб-страницы во многих случаях, прежде чем использовать это. Я предполагаю, что вы пытаетесь использовать сжатие, чтобы загрузить файл быстрее.

— gouessej

12

Что ж, вы можете использовать встроенные библиотеки, такие как URL и URLConnection , но они не дают большого контроля.

~~Лично я бы выбрал библиотеку Apache HTTPClient .~~
Изменить: HTTPClient был настроен на конец жизни Apache. Замена: Компоненты HTTP

— Джон Скит
источник

Нет Java-версии System.Net.WebRequest?

— FlySwat,

1

Вроде бы URL. :-) Например: новый URL (" google.com"). OpenStream () // => InputStream

— Даниэль Спивак,

1

@Jonathan: То, что сказал Дэниел, по большей части - хотя WebRequest дает вам больше контроля, чем URL. HTTPClient ближе по функциональности, IMO.

— Джон Скит,

9

Все вышеупомянутые подходы не загружают текст веб-страницы так, как он выглядит в браузере. в наши дни много данных загружается в браузеры через скрипты на html-страницах. ни один из вышеупомянутых методов не поддерживает скрипты, они просто загружают только текст html. HTMLUNIT поддерживает javascripts. поэтому, если вы хотите загрузить текст веб-страницы так, как он выглядит в браузере, вам следует использовать HTMLUNIT .

— user3690910
источник

1

Скорее всего, вам потребуется извлечь код с защищенной веб-страницы (протокол https). В следующем примере файл html сохраняется в папку c: \ temp \ filename.html Наслаждайтесь!

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;

import javax.net.ssl.HttpsURLConnection;

/**
 * <b>Get the Html source from the secure url </b>
 */
public class HttpsClientUtil {
    public static void main(String[] args) throws Exception {
        String httpsURL = "https://stackoverflow.com";
        String FILENAME = "c:\\temp\\filename.html";
        BufferedWriter bw = new BufferedWriter(new FileWriter(FILENAME));
        URL myurl = new URL(httpsURL);
        HttpsURLConnection con = (HttpsURLConnection) myurl.openConnection();
        con.setRequestProperty ( "User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0" );
        InputStream ins = con.getInputStream();
        InputStreamReader isr = new InputStreamReader(ins, "Windows-1252");
        BufferedReader in = new BufferedReader(isr);
        String inputLine;

        // Write each line into the file
        while ((inputLine = in.readLine()) != null) {
            System.out.println(inputLine);
            bw.write(inputLine);
        }
        in.close(); 
        bw.close();
    }
}

— QA специалист
источник

0

В системе Unix / Linux вы можете просто запустить «wget», но это не вариант, если вы пишете кроссплатформенный клиент. Конечно, это предполагает, что вы действительно не хотите много делать с данными, которые вы загружаете между моментом их загрузки и их попаданием на диск.

— Тимо Гойш
источник

Я бы также начал с этого подхода и реорганизовал его позже, если этого было недостаточно

— Дастин Гетц

0

Jetty имеет HTTP-клиент, который можно использовать для загрузки веб-страницы.

package com.zetcode;

import org.eclipse.jetty.client.HttpClient;
import org.eclipse.jetty.client.api.ContentResponse;

public class ReadWebPageEx5 {

    public static void main(String[] args) throws Exception {

        HttpClient client = null;

        try {

            client = new HttpClient();
            client.start();

            String url = "http://www.something.com";

            ContentResponse res = client.GET(url);

            System.out.println(res.getContentAsString());

        } finally {

            if (client != null) {

                client.stop();
            }
        }
    }
}

В этом примере печатается содержимое простой веб-страницы.

В учебнике « Чтение веб-страницы в Java» я написал шесть примеров программной загрузки веб-страницы на Java с использованием URL, JSoup, HtmlCleaner, Apache HttpClient, Jetty HttpClient и HtmlUnit.

— Ян Боднар
источник

0

Получите помощь от этого класса, он получит код и отфильтрует некоторую информацию.

public class MainActivity extends AppCompatActivity {

    EditText url;
    @Override
    protected void onCreate(Bundle savedInstanceState) {
        super.onCreate( savedInstanceState );
        setContentView( R.layout.activity_main );

        url = ((EditText)findViewById( R.id.editText));
        DownloadCode obj = new DownloadCode();

        try {
            String des=" ";

            String tag1= "<div class=\"description\">";
            String l = obj.execute( "http://www.nu.edu.pk/Campus/Chiniot-Faisalabad/Faculty" ).get();

            url.setText( l );
            url.setText( " " );

            String[] t1 = l.split(tag1);
            String[] t2 = t1[0].split( "</div>" );
            url.setText( t2[0] );

        }
        catch (Exception e)
        {
            Toast.makeText( this,e.toString(),Toast.LENGTH_SHORT ).show();
        }

    }
                                        // input, extrafunctionrunparallel, output
    class DownloadCode extends AsyncTask<String,Void,String>
    {
        @Override
        protected String doInBackground(String... WebAddress) // string of webAddress separate by ','
        {
            String htmlcontent = " ";
            try {
                URL url = new URL( WebAddress[0] );
                HttpURLConnection c = (HttpURLConnection) url.openConnection();
                c.connect();
                InputStream input = c.getInputStream();
                int data;
                InputStreamReader reader = new InputStreamReader( input );

                data = reader.read();

                while (data != -1)
                {
                    char content = (char) data;
                    htmlcontent+=content;
                    data = reader.read();
                }
            }
            catch (Exception e)
            {
                Log.i("Status : ",e.toString());
            }
            return htmlcontent;
        }
    }
}

— Сохаиб Аслам
источник

0

Для этого используйте мощный файл Files.copy NIO.2 (InputStream in, Path target):

URL url = new URL( "http://download.me/" );
Files.copy( url.openStream(), Paths.get("downloaded.html" ) );

— Ян Тибар
источник

-1

Я использовал фактический ответ на этот пост ( url ) и записал результат в файл.

package test;

import java.net.*;
import java.io.*;

public class PDFTest {
    public static void main(String[] args) throws Exception {
    try {
        URL oracle = new URL("http://www.fetagracollege.org");
        BufferedReader in = new BufferedReader(new InputStreamReader(oracle.openStream()));

        String fileName = "D:\\a_01\\output.txt";

        PrintWriter writer = new PrintWriter(fileName, "UTF-8");
        OutputStream outputStream = new FileOutputStream(fileName);
        String inputLine;

        while ((inputLine = in.readLine()) != null) {
            System.out.println(inputLine);
            writer.println(inputLine);
        }
        in.close();
        } catch(Exception e) {

        }

    }
}

— A_01
источник