Как посчитать вхождение строки в строку?


609

Как я могу посчитать, сколько раз конкретная строка встречается в другой строке. Например, это то, что я пытаюсь сделать в Javascript:

var temp = "This is a string.";
alert(temp.count("is")); //should output '2'

19
Это зависит от того, принимаете ли вы перекрывающиеся экземпляры, например, var t = "sss"; Сколько экземпляров подстроки "ss" в строке выше? 1 или 2? Вы перепрыгиваете через каждый экземпляр или перемещаете указатель посимвольно, ища подстроку?
Тим

4
Улучшенный тест для ответов на этот вопрос: jsperf.com/string-ocurrence-split-vs-match/2 (на основе теста Каззкика).
idmean

Ответы:


1031

gВ регулярном выражении (сокращенно глобальный ) говорит , искать всю строку , а не просто найти первое вхождение. Это соответствует isдважды:

var temp = "This is a string.";
var count = (temp.match(/is/g) || []).length;
console.log(count);

И, если нет совпадений, он возвращает 0:

var temp = "Hello World!";
var count = (temp.match(/is/g) || []).length;
console.log(count);


3
современный и элегантный, но решение Vitimtk гораздо эффективнее. что вы все думаете о его коде?
TruMan1

5
Это лучше всего отвечает на вопрос. Если бы кто-то спросил: «Как я могу сделать это в 10 раз быстрее в особом случае (без регулярных выражений)», Витимтк выиграл бы этот вопрос.
Джаугн

121
Спасибо за это .. Я пошел, count = (str.match(/is/g) || []).lengthчтобы справиться, если у вас нет спички.
Мэтт

6
Я не думаю, что этот ответ правильно соответствует вопросу, потому что он не принимает строку в качестве аргумента для соответствия, как описано в примере использования. Конечно, вы можете динамически создавать регулярное выражение, используя RegExpконструктор и передавая строку, которую вы ищете, но в этом случае вы должны экранировать все метасимволы. В этом случае предпочтительнее подход с использованием чистой строки.
ZER0

3
Ответ Мэтта должен быть в ответе!
Сенчи

240
/** Function that count occurrences of a substring in a string;
 * @param {String} string               The string
 * @param {String} subString            The sub string to search for
 * @param {Boolean} [allowOverlapping]  Optional. (Default:false)
 *
 * @author Vitim.us https://gist.github.com/victornpb/7736865
 * @see Unit Test https://jsfiddle.net/Victornpb/5axuh96u/
 * @see http://stackoverflow.com/questions/4009756/how-to-count-string-occurrence-in-string/7924240#7924240
 */
function occurrences(string, subString, allowOverlapping) {

    string += "";
    subString += "";
    if (subString.length <= 0) return (string.length + 1);

    var n = 0,
        pos = 0,
        step = allowOverlapping ? 1 : subString.length;

    while (true) {
        pos = string.indexOf(subString, pos);
        if (pos >= 0) {
            ++n;
            pos += step;
        } else break;
    }
    return n;
}

Применение

occurrences("foofoofoo", "bar"); //0

occurrences("foofoofoo", "foo"); //3

occurrences("foofoofoo", "foofoo"); //1

allowOverlapping

occurrences("foofoofoo", "foofoo", true); //2

Матчи:

  foofoofoo
1 `----´
2    `----´

Модульный тест

эталонный тест

Я провел тестирование производительности, и моя функция более чем в 10 раз быстрее, чем функция соответствия регулярному выражению, опубликованная gumbo. В моем тесте строка длиной 25 символов. с 2 вхождениями персонажа «о». Я выполнил 1 000 000 раз в Safari.

Safari 5.1

Тест> Общее время выполнения: 5617 мс (регулярное выражение)

Тест> Общее время выполнения: 881 мс (моя функция в 6,4 раза быстрее)

Firefox 4

Тест> Общее время выполнения: 8547 мс (Rexexp)

Тест> Общее время выполнения: 634 мс (моя функция в 13,5 раз быстрее)


Изменить: изменения, которые я сделал

  • длина кешированной подстроки

  • добавлено приведение типов к строке.

  • добавлен необязательный параметр allowOverlapping

  • исправлен правильный вывод "" пустого подстроки.

Суть

5
Я повторил этот тест в Safari 5 и получил аналогичные результаты с небольшой (100b) строкой, но с большей строкой (16kb) для меня регулярное выражение выполнялось быстрее. Для одной итерации (не 1 000 000) разница в любом случае была меньше миллисекунды, поэтому мой голос переходит к регулярному выражению.
arlomedia

2
+1, но вы проверяете substring.lengthпочти каждый цикл, вы должны рассмотреть возможность кэширования его внеwhile
ajax333221

1
@ ajax333221 OMG вы читаете мои мысли, я сделал это улучшение несколько дней назад, и я собирался отредактировать свой ответ jsperf.com/count-string-occurrence-in-string
Vitim.us

4
Я нашел ваш код в использовании здесь: success-equation.com/mind_reader.html . Действительно хороший программист возражал, помещая туда ссылку.
Бруно Ким

3
@DanielZuzevich это приведёт типы к String , если вы это сделаете, occurrences(11,1) //2и всё равно будет работать. (Это происходит быстрее, вместо проверки типов и вызова toString () )
Vitim.us

112
function countInstances(string, word) {
   return string.split(word).length - 1;
}

4
Это небезопасный / неточный подход, например: countInstances("isisisisisis", "is") === 0.
Ник Крейвер

5
@Antal - похоже на ошибку в предыдущей бета-версии Chrome, работает после обновления до последней версии, хотя я все еще держусь подальше от этого метода.
Ник Крейвер

28
Это выглядит как совершенно правильное решение для меня.
Грегор Шмидт

2
@NickCraver из любопытства, почему вы хотите избежать этого метода? (кроме ошибок в вашем бета-браузере)
Джонни Лин

6
@JonnyLin создает ненужные выделения, которые вы немедленно выбрасываете, когда альтернативы нет - потенциально очень большие в зависимости от данных.
Ник Крейвер

88

Вы можете попробовать это:

var theString = "This is a string.";
console.log(theString.split("is").length - 1);


14
+1 для простоты и потому что, согласно моим тестам, это решение работает в ~ 10 раз быстрее, чем другие!
Клаудио Холанда

Например, у меня есть два «как», как вы получаете позицию каждого?
fastoodle

Как уже говорилось в ответе @Orbit, люди получают разные результаты на старых версиях Chrome. Я, возможно, был бы немного осторожен, используя этот метод.
mgthomas99

И вы также можете использовать его с переменными: theString.split(myvar).length - 1которые вы не можете с простым регулярным выражением
Steffan

4
Это ответ @Orbit три года спустя ...
aloisdg переходит на codidact.com

33

Мое решение:

var temp = "This is a string.";

function countOcurrences(str, value) {
  var regExp = new RegExp(value, "gi");
  return (str.match(regExp) || []).length;
}

console.log(countOcurrences(temp, 'is'));


5
возможно, было бы лучше вернуть (str.match (regExp) || []). length; Таким образом, вы не оцениваете регулярное выражение дважды?
aikeru

2
вам также нужно записывать свою строку или countOcurrences('Hello...','.')==8нет 3
Vitim.us

19

Вы можете использовать matchдля определения такой функции:

String.prototype.count = function(search) {
    var m = this.match(new RegExp(search.toString().replace(/(?=[.\\+*?[^\]$(){}\|])/g, "\\"), "g"));
    return m ? m.length:0;
}

1
Если бы вы хотели, чтобы оно было единообразно с семантикой поиска JS, возвращалась бы строка return m ? m.length:-1;.
Конор О'Брайен

Это лучше, чем другие решения regex, приведенные выше, потому что они вызывают ошибку, если строка для подсчета вхождений равна «[» или что-либо со специальным значением в Regex.
programmer5000

11

Версия без регулярных выражений:

 var string = 'This is a string',
    searchFor = 'is',
    count = 0,
    pos = string.indexOf(searchFor);

while (pos > -1) {
    ++count;
    pos = string.indexOf(searchFor, ++pos);
}

console.log(count);   // 2


1. Это только для поиска по одному символу, слишком тонкий 2. даже ОП запрашивает isслучаи
vladkras

1
Это, пожалуй, самая быстрая реализация здесь, но она была бы еще быстрее, если бы вы заменили «++ pos» на «pos + = searchFor.length»
hanshenrik



8

Вот самая быстрая функция!

Почему это быстрее?

  • Не проверяет char по char (за 1 исключением)
  • Использует время и увеличивает значение на 1 переменную (переменное число символов) по сравнению с циклом for, проверяющим длину и увеличивающим на 2 переменные (обычно это переменная i и переменная с количеством символов)
  • Использует ПУТЬ меньше Vars
  • Не использует регулярные выражения!
  • Использует (надеюсь) высоко оптимизированную функцию
  • Все операции объединены настолько, насколько это возможно, что позволяет избежать замедления из-за нескольких операций.

    String.prototype.timesCharExist=function(c){var t=0,l=0,c=(c+'')[0];while(l=this.indexOf(c,l)+1)++t;return t};

Вот более медленная и более читаемая версия:

    String.prototype.timesCharExist = function ( chr ) {
        var total = 0, last_location = 0, single_char = ( chr + '' )[0];
        while( last_location = this.indexOf( single_char, last_location ) + 1 )
        {
            total = total + 1;
        }
        return total;
    };

Этот медленнее из-за счетчика, длинных имен var и неправильного использования 1 var.

Чтобы использовать это, вы просто делаете это:

    'The char "a" only shows up twice'.timesCharExist('a');

Изменить: (2013/12/16)

НЕ используйте с Opera 12.16 или старше! это займет почти в 2,5 раза больше, чем решение регулярных выражений!

В Chrome это решение займет от 14 до 20 мс для 1000000 символов.

Решение регулярных выражений занимает 11-14ms для того же количества.

Используя функцию (снаружи String.prototype ) займет около 10-13 мс.

Вот код, используемый:

    String.prototype.timesCharExist=function(c){var t=0,l=0,c=(c+'')[0];while(l=this.indexOf(c,l)+1)++t;return t};

    var x=Array(100001).join('1234567890');

    console.time('proto');x.timesCharExist('1');console.timeEnd('proto');

    console.time('regex');x.match(/1/g).length;console.timeEnd('regex');

    var timesCharExist=function(x,c){var t=0,l=0,c=(c+'')[0];while(l=x.indexOf(c,l)+1)++t;return t;};

    console.time('func');timesCharExist(x,'1');console.timeEnd('func');

Результат всех решений должен быть 100 000!

Примечание: если вы хотите, чтобы эта функция насчитывала более 1 символа, измените положение c=(c+'')[0]наc=c+''


1
прототип был ПРИМЕР! Вы можете использовать функцию, как вам угодно! Вы даже можете сделать это: var timesFunctionExist = function (x, c) {var t = 0, l = 0, c = (c + '') [0]; while (l = x.indexOf (c, l) +1 ) ++ t; вернуть t}); alert (timesCharExist ('Символ "a" появляется только дважды "," a ")) ;! (это ускорит немного больше, потому что я не буду возиться с прототипами). Если вы думаете, что я неправ, почему бы вам не показать это, прежде чем бросать в меня камни? Докажите мне, что моя функция отстой, и я приму ее. Покажите мне контрольный пример. И длина варов действительно влияет на скорость. Вы можете проверить это.
Исмаэль Мигель


4

Я думаю, что цель регулярных выражений сильно отличается от indexOf. indexOfпросто найдите вхождение определенной строки, в то время как в регулярном выражении вы можете использовать подстановочные знаки, например, [A-Z]что означает, что он найдет любую заглавный символ в слове без указания фактического символа.

Пример:

 var index = "This is a string".indexOf("is");
 console.log(index);
 var length = "This is a string".match(/[a-z]/g).length;
 // where [a-z] is a regex wildcard expression thats why its slower
 console.log(length);


3

Супер пупер старый, но мне нужно было сделать что-то подобное сегодня и только подумал, чтобы проверить потом. Работает довольно быстро для меня.

String.prototype.count = function(substr,start,overlap) {
    overlap = overlap || false;
    start = start || 0;

    var count = 0, 
        offset = overlap ? 1 : substr.length;

    while((start = this.indexOf(substr, start) + offset) !== (offset - 1))
        ++count;
    return count;
};

3
       var myString = "This is a string.";
        var foundAtPosition = 0;
        var Count = 0;
        while (foundAtPosition != -1)
        {
            foundAtPosition = myString.indexOf("is",foundAtPosition);
            if (foundAtPosition != -1)
            {
                Count++;
                foundAtPosition++;
            }
        }
        document.write("There are " + Count + " occurrences of the word IS");

См .: - подсчитать подстроку в строке для пошагового объяснения.


3

Опираясь на @ Vittim.us ответ выше. Мне нравится контроль, который дает мне его метод, позволяющий легко расширять его, но мне нужно было добавить нечувствительность к регистру и ограничить совпадения целыми словами с поддержкой пунктуации. (например, «ванна» означает «принять ванну», но не «купание»)

Регулярное выражение для пунктуации получено по адресу : https://stackoverflow.com/a/25575009/497745 ( Как я могу удалить все знаки препинания из строки в JavaScript с помощью регулярного выражения? )

function keywordOccurrences(string, subString, allowOverlapping, caseInsensitive, wholeWord)
{

    string += "";
    subString += "";
    if (subString.length <= 0) return (string.length + 1); //deal with empty strings

    if(caseInsensitive)
    {            
        string = string.toLowerCase();
        subString = subString.toLowerCase();
    }

    var n = 0,
        pos = 0,
        step = allowOverlapping ? 1 : subString.length,
        stringLength = string.length,
        subStringLength = subString.length;

    while (true)
    {
        pos = string.indexOf(subString, pos);
        if (pos >= 0)
        {
            var matchPos = pos;
            pos += step; //slide forward the position pointer no matter what

            if(wholeWord) //only whole word matches are desired
            {
                if(matchPos > 0) //if the string is not at the very beginning we need to check if the previous character is whitespace
                {                        
                    if(!/[\s\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&\(\)*+,\-.\/:;<=>?@\[\]^_`{|}~]/.test(string[matchPos - 1])) //ignore punctuation
                    {
                        continue; //then this is not a match
                    }
                }

                var matchEnd = matchPos + subStringLength;
                if(matchEnd < stringLength - 1)
                {                        
                    if (!/[\s\u2000-\u206F\u2E00-\u2E7F\\'!"#$%&\(\)*+,\-.\/:;<=>?@\[\]^_`{|}~]/.test(string[matchEnd])) //ignore punctuation
                    {
                        continue; //then this is not a match
                    }
                }
            }

            ++n;                
        } else break;
    }
    return n;
}

Пожалуйста, не стесняйтесь изменять и реорганизовывать этот ответ, если вы обнаружите ошибки или улучшения.


3

Для любого, кто найдет этот поток в будущем, обратите внимание, что принятый ответ не всегда вернет правильное значение, если вы его обобщите, так как он задушит операторы регулярных выражений, такие как $и .. Вот лучшая версия, которая может справиться с любой иглой:

function occurrences (haystack, needle) {
  var _needle = needle
    .replace(/\[/g, '\\[')
    .replace(/\]/g, '\\]')
  return (
    haystack.match(new RegExp('[' + _needle + ']', 'g')) || []
  ).length
}

3

function get_occurrence(varS,string){//Find All Occurrences
        c=(string.split(varS).length - 1);
        return c;
    }
    temp="This is a string.";
    console.log("Total Occurrence is "+get_occurrence("is",temp));

Используйте get_occurrence (varS, string), чтобы найти вхождение как символов, так и строки в строку.


2

Попробуй это

<?php 
$str = "33,33,56,89,56,56";
echo substr_count($str, '56');
?>

<script type="text/javascript">
var temp = "33,33,56,89,56,56";
var count = temp.match(/56/g);  
alert(count.length);
</script>


2

Никто никогда не увидит этого, но хорошо бы время от времени возвращать функции рекурсии и стрелок (каламбур славно предназначен)

String.prototype.occurrencesOf = function(s, i) {
 return (n => (n === -1) ? 0 : 1 + this.occurrencesOf(s, n + 1))(this.indexOf(s, (i || 0)));
};


1

Это очень старая тема, с которой мне приходилось сталкиваться, но, поскольку многие отдали свои ответы, я хочу помочь кому-нибудь с этим простым кодом.

var search_value = "This is a dummy sentence!";
var letter = 'a'; /*Can take any letter, have put in a var if anyone wants to use this variable dynamically*/
letter = letter && "string" === typeof letter ? letter : "";
var count;
for (var i = count = 0; i < search_value.length; count += (search_value[i++] == letter));
console.log(count);

Я не уверен, что это самое быстрое решение, но я предпочел его для простоты и не использовать регулярные выражения (мне просто не нравится их использовать!)


1

Эта функция возвращает количество вхождений слова в текст.

Обратите внимание, что мы используем toLowerCase для вычисления количества вхождений независимо от формата (заглавная, прописная ...) слова и текста

wordCount(text, word) {
    if (!text || !word) {
      return 0;
    }
    text = text.toLowerCase();
    word = word.toLowerCase();
    return ( text.split( word ).length - 1 );
}

0

Ответ для Леандро Батисты: просто проблема с выражением регулярного выражения.

 "use strict";
 var dataFromDB = "testal";
 
  $('input[name="tbInput"]').on("change",function(){
	var charToTest = $(this).val();
	var howManyChars = charToTest.length;
	var nrMatches = 0;
	if(howManyChars !== 0){
		charToTest = charToTest.charAt(0);
		var regexp = new RegExp(charToTest,'gi');
		var arrMatches = dataFromDB.match(regexp);
		nrMatches = arrMatches ? arrMatches.length : 0;
	}
		$('#result').html(nrMatches.toString());

  });
<script src="https://ajax.googleapis.com/ajax/libs/jquery/2.1.1/jquery.min.js"></script>
<div class="main">
What do you wanna count <input type="text" name="tbInput" value=""><br />
Number of occurences = <span id="result">0</span>
</div>


0

var countInstances = function(body, target) {
  var globalcounter = 0;
  var concatstring  = '';
  for(var i=0,j=target.length;i<body.length;i++){
    concatstring = body.substring(i-1,j);
    
    if(concatstring === target){
       globalcounter += 1;
       concatstring = '';
    }
  }
  
  
  return globalcounter;
 
};

console.log(   countInstances('abcabc', 'abc')   ); // ==> 2
console.log(   countInstances('ababa', 'aba')   ); // ==> 2
console.log(   countInstances('aaabbb', 'ab')   ); // ==> 1


0

Немного поздно, но при условии, что у нас есть следующая строка:

var temp = "This is a string.";

Сначала мы разделим то, что вы хотите, чтобы соответствовать, это вернет массив строк.

var array = temp.split("is");

Затем мы получаем его длину и вычитаем 1, так как split по умолчанию равен массиву размера 1 и, как следствие, увеличивает его размер каждый раз, когда обнаруживает вхождение.

var occurrenceCount = array.length - 1;
alert(occurrenceCount); //should output '2'

Вы также можете сделать все это в одну строку следующим образом:

alert("This is a string.".split("is").length - 1); //should output '2'

Надеюсь, это поможет: D


1
Могу ли я отметить это как двойной ответ? Может быть, вы должны прочитать все ответы, прежде чем предоставить свои собственные?
Мишель

2
Это ответ @Orbit восемь лет спустя ...
aloisdg переходит на codidact.com

1
Должен ли я удалить этот ответ тогда?
Хуан Энрике Сегебре

0

Это решение основано на .replace()методе, который принимает RegEx в качестве первого параметра и функцию в качестве второго параметра, который мы можем использовать в качестве замыкания для увеличения счетчика ...

/**
 * Return the frequency of a substring in a string
 * @param {string} string - The string.
 * @param {string} string - The substring to count.
 * @returns {number} number - The frequency.
 * 
 * @author Drozerah https://gist.github.com/Drozerah/2b8e08d28413d66c3e63d7fce80994ce
 * @see https://stackoverflow.com/a/55670859/9370788
 */
const subStringCounter = (string, subString) => {

    let count = 0
    string.replace(new RegExp(subString, 'gi'), () => count++)
    return count
}

Применение

subStringCounter("foofoofoo", "bar"); //0

subStringCounter("foofoofoo", "foo"); //3

0

наткнулся на этот пост.

let str = 'As sly as a fox, as strong as an ox';

let target = 'as'; // let's look for it

let pos = 0;
while (true) {
  let foundPos = str.indexOf(target, pos);
  if (foundPos == -1) break;

  alert( `Found at ${foundPos}` );
  pos = foundPos + 1; // continue the search from the next position
}

Этот же алгоритм можно выложить короче:

let str = "As sly as a fox, as strong as an ox";
let target = "as";

let pos = -1;
while ((pos = str.indexOf(target, pos + 1)) != -1) {
  alert( pos );
}

0

substr_count переведено на Javascript с PHP


function substr_count (haystack, needle, offset, length) { 
  // eslint-disable-line camelcase
  //  discuss at: https://locutus.io/php/substr_count/
  // original by: Kevin van Zonneveld (https://kvz.io)
  // bugfixed by: Onno Marsman (https://twitter.com/onnomarsman)
  // improved by: Brett Zamir (https://brett-zamir.me)
  // improved by: Thomas
  //   example 1: substr_count('Kevin van Zonneveld', 'e')
  //   returns 1: 3
  //   example 2: substr_count('Kevin van Zonneveld', 'K', 1)
  //   returns 2: 0
  //   example 3: substr_count('Kevin van Zonneveld', 'Z', 0, 10)
  //   returns 3: false

  var cnt = 0

  haystack += ''
  needle += ''
  if (isNaN(offset)) {
    offset = 0
  }
  if (isNaN(length)) {
    length = 0
  }
  if (needle.length === 0) {
    return false
  }
  offset--

  while ((offset = haystack.indexOf(needle, offset + 1)) !== -1) {
    if (length > 0 && (offset + needle.length) > length) {
      return false
    }
    cnt++
  }

  return cnt
}

Ознакомьтесь с переводом Locutus в функцию Php substr_count


-2

Попробуй это:

function countString(str, search){
    var count=0;
    var index=str.indexOf(search);
    while(index!=-1){
        count++;
        index=str.indexOf(search,index+1);
    }
    return count;
}
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.