Как я могу найти общие орфографические ошибки для моего доменного имени?


38

Я хотел бы зарегистрировать орфографические ошибки для своего доменного имени, но я не хочу спекулятивно регистрировать миллионы «просто угадывающих» форм. Например, этот инструмент предлагает следующие параметры в генераторе опечаток ключевых слов

  • пропустить буквы
  • двойные буквы
  • обратные буквы
  • пропустить пробелы
  • пропущенный ключ
  • вставленный ключ

Это здорово, и генерирует десятки, если не сотни возможных доменных имен ... но это не говорит мне о самой важной вещи: какие из этих опечаток действительно случаются чаще всего с реальными живыми пользователями в реальном Интернете?

Как я могу найти фактические данные об опечатках от реальных пользователей?

Ответы:


25

В Википедии есть несколько ресурсов, но вам действительно повезет, если у вас есть домен, который представляет собой простое ванильное английское слово, достаточно распространенное, чтобы появляться здесь.

Вы можете использовать инструмент генерации опечаток ключевых слов или что-то в этом роде, а затем кропотливо вводить каждый из них в Google - который по иронии судьбы попытается исправить ваше правописание - затем использовать «поиск вместо {неправильно написанная версия}» и посмотреть, сколько поиска результаты, которые вы получаете за это конкретное опечатка:

Отображение результатов для трактата

Вместо этого ищите tretise

Это дает около 117 000 результатов для «tretise» против 17 800 000 результатов для «трактата». Итак, теперь у вас есть представление о том, как часто это опечатка встречается во всем Интернете! Таким образом, вы можете отдавать предпочтение опечаткам, которые встречаются чаще в реальном мире.

Возможно, самое главное, я также нашел эти страницы:

http://how-to-spell.net/treatise

Как пишется трактат?

Правильно: трактат .

Распространенные орфографические ошибки: tretise - 100%

Который, видимо , использует реальные данные!

Мы собрали процент ошибок в почти 15 423 252 проверках правописания на веб-сайте spellchecker.net (январь 2010 г. - июнь 2012 г.).

В идеале мне бы понравилось, если бы Google поделился данными об орфографических ошибках, так как я подозреваю, что у них гораздо больше данных ... но я не уверен, что они готовы поделиться, может быть, они рассматривают автоматическую коррекцию орфографии неправильно набранных поисковых терминов как конкурентное преимущество.

Было бы здорово, если бы они сделали!


2
Не забывайте, что вы также можете спросить своих пользователей!
Алекс Л

2
В Google Triliion word corpus, несомненно, включены как правильно, так и неправильно написанные слова, так что вы можете использовать его и много слов и цифр, чтобы вычислить их самостоятельно из необработанных данных, которыми Google делится.
hippietrail

OpenDNS и Google Public DNS определенно имеют такую ​​информацию, но ни одна не передает ее, а вместо этого использует ее для улучшения своих собственных сервисов (OpenDNS имеет функцию исправления опечаток). Я полагаю, вы можете запустить свой собственный DNS-сервис free / libre и собирать данные.
Кристиан Давен

1
Я не думаю, что использование результатов Google является хорошей идеей (даже если это нецелесообразно). Как указывает xkcd на свой аргумент , «количество результатов», которое Google выдает, когда вы ищете, явно сфабриковано ».
Rodrigoq

9

Интересная проблема. Вы можете использовать инструмент поиска по ключевым словам Google по адресу https://adwords.google.com/o/KeywordTool, чтобы узнать, сколько поисков в месяц выполняется для каждой опечатки вашего доменного имени (вам нужно будет создать список опечаток с помощью инструмент вы упомянули выше). Не идеально, но будет представлять фактические опечатки пользователя и даст вам приличные данные для продолжения. (Я только что проверил это и получил некоторые результаты, которые казались разумными.)


К сожалению, это больше не правда, теперь, когда у нас есть Колибри. Google Keyword Tool был deprecated. Его заменили на Планировщик ключевых слов, продукт Google AdSense.
Элли Кессельман

4

Интересный вопрос, анализ результатов поиска, как описано здесь, определенно должен быть хорошей отправной точкой, но он чувствителен к ложным срабатываниям, вызванным другими сайтами с именами, похожими на ваши. Также могут отсутствовать распространенные ошибки, о которых вы не задумывались, поэтому, глядя на список, который я бы сказал, анализ переключения слов также может быть интересным.

Метод, который особенно хорош при обнаружении ошибок, которые чаще всего совершаются обычными посетителями, заключается в том, чтобы попросить их ввести имя. Конечно, не все веб-сайты подходят для этого, предполагая, что страница является интерактивной, она должна быть удобной.

Вместо того, чтобы использовать обычные капчи, просто покажите несколько логотипов вашего сайта с (частично) написанным там именем и попросите людей ввести его, прежде чем они смогут сделать свое дело.

Данные не будут основаны на огромной совокупности, такой как поиск в Google, но это будет именно целевая группа, и поэтому результаты должны быть весьма убедительными.


1

Вы можете попробовать этот домен поиска опечаток . Возможны следующие варианты поиска, индивидуально или в комбинации:

  • QWERTY клавиатура
  • Обмен письмами
  • Липкие ключи, для лишних или пропущенных букв
  • Подобные буквы, такие как буква lпротив числа1

Есть три «точки обзора» для поиска. Регистрант по умолчанию. DNS - это сортируемое представление, показывающее сервер имен и IP-адрес каждой опечатки. TLD находит опечатки в именах в любом из этих шести TLD: .com .net .org .biz .us .infoи если он зарегистрирован.

Это отличается от инструмента подсказки ключевых слов OP? Может быть. Он утверждает, что "найти общие опечатки, связанные с доменными именами". Это означает, что данные были получены от пользователей, когда они вручную вводили доменные имена в панель навигации своего браузера .

  • Поиск "Sticky keys" включает в себя общие варианты, с дефисами или без них. Подобные опечатки связаны не с физически застрявшими, липкими клавишами, а скорее с ошибками человеческого восприятия. Это указывает на использование чего-то лучшего, чем основанный на правилах, экспертно-системный подход.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.