Как github определяет язык проекта?

Question 1

Недавно я работал над проектом github как на JavaScript, так и на C ++, и заметил, что github пометил проект как C ++. Если вам нужно выбрать один язык, это, вероятно, правильное обозначение, поскольку код C ++ скомпилирован как библиотека JavaScript, но это заставило меня задуматься ... как github выясняет, на каком языке тегировать каждый проект?

Question 2

Обновление за апрель 2013 г., автор: nuclearsandwich (группа поддержки GitHub или «supportocat»):

на странице справки « Мой репозиторий отмечен как неправильный язык » упоминается использование библиотеки лингвистов для определения языка файла для выделения синтаксиса и статистики репо. Linguist исключит определенные имена файлов и пути из статистики, за исключением определенных файлов и каталогов поставщиков .
на странице справки « Почему не распознается мой любимый язык? » добавлено:

Если на желаемом языке не выделяется синтаксис, вы можете внести свой вклад в библиотеку Linguist, чтобы добавить его.

(Оригинальный ответ, октябрь 2012 г.)

Эта ветка поддержки GitHub объясняет это:

Он просто суммирует размеры файлов для каждого расширения. Самый большой «побеждает».

Мы бы не хотели открывать файлы и анализировать их содержимое, так как оба эти метода замедлят процесс ... но это может быть единственным способом разрешения конфликтов, подобных этому.

Поскольку это не на 100% точно, это заставило некоторых добавить:

Я бы тоже проголосовал за простой ручной переключатель для случаев, когда предположение неверно.

Примечание: как отмечает Марк Рушаков в своем ответе (проголосовало за), с тех пор догадки улучшились благодаря проекту лингвиста (открытый исходный код с июня 2011 года).
Тем не менее, вы можете видеть, что проблемы по-прежнему остаются: Проблемы с GitHub Linguist .
Подробнее см. Здесь :

Как только язык обнаружен, он передается Albino , оболочке Pygments , которая фактически подсвечивает синтаксис.

И вы можете добавить директивы лингвиста в файл .gitattributes .

Question 3

В настоящее время лингвистический проект Github - это то, что используется для определения языковой статистики, как описано в этом сообщении блога Github (которое появилось через несколько месяцев после того, как этот вопрос был первоначально задан).

Question 4

Во-первых, знайте, что вы можете переопределить язык, обнаруженный для файлов в вашем репозитории, используя переопределения Linguist .

Итак, в двух словах,

Каждый репозиторий помечен первым языком из языковой статистики .
Статистика языков подсчитывает общий размер файлов для каждого обнаруженного языка программирования или разметки. Продаваемые, документация и созданные файлы не учитываются.
Язык каждого файла определяется Linguist проекта с открытым исходным кодом .

Как лингвист определяет языки?

Linguist полагается на следующие стратегии по порядку и возвращает язык, как только он находит идеальное соответствие (стратегия с возвращением одного языка).

Ищите модели Emacs и Vim .
Известное имя файла. Некоторые имена файлов связаны с определенными языками (подумайте Makefile).
Ищите шебанга. Файл с #!/bin/bashшебангом будет классифицирован как Shell.
Известное расширение файла. У языков есть набор связанных с ними расширений. Однако у этой стратегии есть много конфликтов. Противоречивые результаты (например, C ++, C и Objective-C .h) улучшаются с помощью последующих стратегий.
Набор эвристических правил . Обычно они полагаются на регулярные выражения над содержимым файлов, чтобы попытаться определить язык (например, ^[^#]+:-для Пролога ).
Наивный байесовский классификатор, обученный на примерах файлов . Последняя стратегия, самая низкая точность. Байесовский классификатор всегда принимает на вход подмножество языков; он не предназначен для классификации по всем языкам. Возвращается лучшее совпадение, найденное классификатором.

Что такое файлы без маркировки и файлы документации?

Linguist считает некоторые файлы предоставленными , то есть они не включаются в языковую статистику. К ним относятся сторонние библиотеки, такие как jQuery, и они определены в vendor.ymlфайле конфигурации. Вы также можете продавать или анонсировать файлы в своем репозитории, используя переопределения Linguist .

Точно так же файлы документации определены documentation.ymlи могут быть изменены с помощью переопределений Linguist. .

Как обнаруживаются сгенерированные файлы?

Лингвист полагается на простые правила для обнаружения сгенерированных файлов, используя как пути, так и содержимое файлов. Созданные файлы не учитываются в языковой статистике и не отображаются в различиях на github.com.

А как насчет языков программирования и разметки?

В Linguist каждому языку дается тип. Эти типы могут быть найдены в главном файле конфигурации languages.yml. В статистике учитываются только языки программирования и разметки.

Question 5

Поработав с лингвистом, я заметил это.

Для файлов с Shebang , Shebang учитывается при определении языка, но, кажется, равномерно взвешен по сравнению с другими токенами . Это кажется большой ошибкой, потому что Shebang должен окончательно определять язык файла.

Это может вызвать проблемы с выделением.

Question 6

Расширения файлов - это первое, что приходит мне в голову.