Настройка пользовательского агента java URLConnection


80

Я пытаюсь разобрать веб-страницу с помощью Java с URLConnection. Я пытаюсь настроить пользовательский агент следующим образом:

java.net.URLConnection c = url.openConnection();
c.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2");

Но результирующий пользовательский агент - это тот, который я указываю, с добавлением "Java / 1.5.0_19" в конец. Есть ли способ по-настоящему настроить пользовательский агент без этого дополнения?


Как узнать, что получился пользовательский агент? Где ты это видишь?
skaffman

1
Получив его с помощью PHP и отобразив на странице, захваченной Java.
DiglettPotato

Теперь это действительно работает, см. Второй ответ.
rogerdpack 09

Ответы:


71

С другой стороны, установка для http.agentсистемного свойства значения ""может помочь (у меня нет кода перед собой).

Вам могут сойти с рук:

 System.setProperty("http.agent", "");

но для этого может потребоваться гонка между вами и инициализацией обработчика протокола URL, если он кэширует значение при запуске (на самом деле, я не думаю, что это так).

Свойство также можно установить через файлы JNLP (доступные апплетам из 6u10) и в командной строке:

-Dhttp.agent=

Или для команд оболочки:

-J-Dhttp.agent=

Как бы я это сделал? c.setRequestProperty ("http.agent", "") ;? Я предполагаю где-нибудь еще ...
DiglettPotato

1
да ... это работает как шарм! просто выполните: System.setProperty ("http.agent", "Mozilla / 5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv: 1.9.2.2) Gecko / 20100316 Firefox / 3.6.2"); И вы готовы к работе !! :)
eduardo.lopes

94

Просто для пояснения: setRequestProperty("User-Agent", "Mozilla ...")теперь работает нормально и не добавляется java/xxв конце! По крайней мере, с Java 1.6.30 и новее.

Я прослушал на своей машине netcat (прослушиватель порта):

$ nc -l -p 8080

Он просто прослушивает порт, поэтому вы видите все, что запрашивается, например необработанные HTTP-заголовки.

И без setRequestProperty получили следующие http-заголовки:

GET /foobar HTTP/1.1
User-Agent: Java/1.6.0_30
Host: localhost:8080
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
Connection: keep-alive

И С setRequestProperty:

GET /foobar HTTP/1.1
User-Agent: Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2
Host: localhost:8080
Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
Connection: keep-alive

Как видите, пользовательский агент настроен правильно.

Полный пример:

import java.io.IOException;
import java.net.URL;
import java.net.URLConnection;


public class TestUrlOpener {

    public static void main(String[] args) throws IOException {
        URL url = new URL("http://localhost:8080/foobar");
        URLConnection hc = url.openConnection();
        hc.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2");

        System.out.println(hc.getContentType());
    }

}

2
Что ж, если кто-то все еще использует Java 1.5
Dejell

3
@Dejell Вы полагаете, что этот подход устарел? Я использую Java 7, и это именно то, что я хотел.
Shadoninja

5

его работа для меня установить User-Agent в addRequestProperty.

URL url = new URL(<URL>);
HttpURLConnection httpConn = (HttpURLConnection) url.openConnection();
httpConn.addRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0");

Нет необходимости приводить к HttpURLConnection.
jechterhoff

1
@jechterhoff это требуется в Java 8
FonzTech

@FonzTech Я не понимаю, почему в Java 8 требуется приведение типов. В моей программе работает следующее (соответствие Java 1.8): URL clSourceUrl = новый URL (clSource); URLConnection urlConn = clSourceUrl.openConnection (); urlConn.setRequestProperty («Пользовательский агент», «Mozilla / 5.0 (Windows NT 6.1; Win64; x64; rv: 56.0) Gecko / 20100101 Firefox / 56.0»); Не могли бы вы уточнить, пожалуйста?
jechterhoff

@jechterhoff использовал пользователь, давший ответ HttpURLConnection. Вы были бы правы, если бы использовали URLConnection. В любом случае, если вы попытаетесь скомпилировать эту строку, HttpURLConnection c = new URL("http://www.google.com").openConnection();например, javacвы получите error: incompatible typesэту строку. Я использую Java 1.8.0 r172, поэтому последняя версия Java 8
FonzTech

@FonzTech А, теперь я понимаю, что вы имеете в виду. Я должен был быть более точным в моем первом комментарии (извините за это): Я пытался сказать, что вам вообще не нужно использовать HttpURLConnection здесь. По-видимому, вы также можете просто использовать URLConnection, как показано в моем предыдущем комментарии. Я подумал, что это может немного улучшить ответ. В любом случае вы правы, что, HttpURLConnection c = new URL("http://www.google.com").openConnection();безусловно, требуется приведение к HttpURLConnection - в Java 8, а также в предыдущих версиях Java.
jechterhoff

2

HTTP-серверы склонны отвергать старые браузеры и системы.

Страница Tech Blog (wh): Наиболее распространенные пользовательские агенты отражает свойство user-agent вашего текущего браузера в разделе «Ваш пользовательский агент:» , который можно применить для установки свойства запроса «User-Agent» для a java.net.URLConnectionили системное свойство "http.agent".

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.