Я бы сказал, что алгоритмы word2vec основаны на обоих.
Когда люди говорят distributional representation, они обычно имеют в виду лингвистический аспект: значение - это контекст, знайте слово по его компании и другие известные цитаты.
Но когда люди говорят distributed representation, это в основном не имеет ничего общего с лингвистикой. Это больше о аспекте информатики. Если я правильно понимаю Миколова и других, слово
distributedв их статьях означает, что каждый отдельный компонент векторного представления не имеет собственного значения. Интерпретируемые функции (например, контексты слов в случае word2vec) скрыты и находятся distributedсреди непонятных векторных компонентов: каждый компонент отвечает за несколько интерпретируемых функций, а каждая интерпретируемая функция привязана к нескольким компонентам.
Таким образом, word2vec (и doc2vec) технически использует распределенные представления как способ представления лексической семантики. И в то же время он концептуально основан на гипотезе распределения: он работает только потому, что гипотеза распределения верна (значения слов действительно коррелируют с их типичными контекстами).
Но конечно часто термины distributedи distributionalиспользуются взаимозаменяемо, увеличивая недопонимание :)