Есть ли какие-либо API для сканирования рефератов?


13

Если у меня есть очень длинный список названий статей, как я могу получить эти документы из Интернета или из какой-либо базы данных?

Названия статей похожи на «Оценка полезности в веб-майнинге для сферы общественного здравоохранения».

Кто-нибудь знает API, который может дать мне решение? Я попытался отсканировать Google ученый, однако Google заблокировал мой сканер.


2
Я сомневаюсь, что есть какой-то общий API для этого. Вы можете попробовать сканировать различные сервисы, такие как Academia.edu, сайты издателей и так далее. Тем не менее было бы проще сначала создать локальную базу данных документов, а затем поэкспериментировать с извлечением тезисов.
Войцех Вальчак

Спасибо за Ваш ответ! Я уже создал локальную базу данных для этого. Проблема сканирования с разных сервисов заключается в том, что мне нужно создать правила разбора для каждого сайта.
Алекс Гао

Итак, как насчет преобразования PDF-файлов в TXT и последующего извлечения рефератов с помощью регулярных выражений?
Войцех Валчак

Спасибо! Однако в контракте говорится, что массовая загрузка документов запрещена. Это создает некоторую головную боль.
Алекс Гао

2
Я думаю, что эта ссылка для ответа переполнения стека дает лучший ответ, который я могу получить. Может быть, люди, которые сталкиваются с этой проблемой, могли бы также взглянуть на эту страницу.
Алекс Гао

Ответы:


8

Ищите это на:

Если вы получите одно точное совпадение по названию, вы, вероятно, нашли нужную статью и можете заполнить оставшуюся информацию оттуда. Оба дают вам ссылки для скачивания и вывод в стиле bibtex. Однако для получения идеальных метаданных вы, вероятно, захотите скачать, проанализировать pdf (если есть) и найти идентификатор в стиле DOI.

Пожалуйста, будьте добры и ограничьте количество запросов, если вы делаете это.


5

У arXiv есть API и массовая загрузка, но если вам нужно что-то для платных журналов, вам будет сложно найти такой платный индексатор, как pubmed, elsevier или тому подобное.


1
большое спасибо. Однако arXiv предоставляет документы, которые мне нужны.
Алекс Гао
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.