fix: Correctly handle leading and trailing single quote

Jason3S · Jason3S · commit 41152e1960e5 · 2021-05-05T11:05:36.000+02:00
diff --git a/packages/cspell-lib/src/util/text.test.ts b/packages/cspell-lib/src/util/text.test.ts
@@ -300,7 +300,7 @@ describe('Validate individual regexp', () => {
     test.each`
         testName                 | regexp                 | text                     | expectedResult
         ${'regExWordsAndDigits'} | ${regExWordsAndDigits} | ${''}                    | ${[]}
-        ${'regExWordsAndDigits'} | ${regExWordsAndDigits} | ${" x = 'Don\\'t'"}      | ${['x', 1, "Don\\'t", 6]}
+        ${'regExWordsAndDigits'} | ${regExWordsAndDigits} | ${" x = 'Don\\'t'"}      | ${['x', 1, "'Don\\'t'", 5]}
         ${'regExWordsAndDigits'} | ${regExWordsAndDigits} | ${'12345'}               | ${[]}
         ${'regExWordsAndDigits'} | ${regExWordsAndDigits} | ${'12345a'}              | ${['12345a', 0]}
         ${'regExWordsAndDigits'} | ${regExWordsAndDigits} | ${'b12345'}              | ${['b12345', 0]}
diff --git a/packages/cspell-lib/src/util/textRegex.ts b/packages/cspell-lib/src/util/textRegex.ts
@@ -5,7 +5,7 @@ export const regExUpperSOrIng = /(\p{Lu}+\\?['’]?(?:s|ing|ies|es|ings|ed|ning)
 export const regExSplitWords = /(\p{Ll})(\p{Lu})/gu;
 export const regExSplitWords2 = /(\p{Lu})(\p{Lu}\p{Ll})/gu;
 export const regExWords = /\p{L}(?:(?:\\?['’])?\p{L})*/gu;
-export const regExWordsAndDigits = /(?:\d+)?[\p{L}_-](?:(?:\\?['’])?[\p{L}\w-])*/gu;
+export const regExWordsAndDigits = /(?:\d+)?[\p{L}_'’-](?:(?:\\?['’])?[\p{L}\w'’-])*/gu;
 export const regExIgnoreCharacters = /\p{sc=Hiragana}|\p{sc=Han}|\p{sc=Katakana}|[\u30A0-\u30FF]|[\p{sc=Hangul}]/gu;
 export const regExFirstUpper = /^\p{Lu}\p{Ll}+$/u;
 export const regExAllUpper = /^\p{Lu}+$/u;
diff --git a/packages/cspell-lib/src/util/wordSplitter.test.ts b/packages/cspell-lib/src/util/wordSplitter.test.ts
@@ -65,26 +65,27 @@ describe('Validate wordSplitter', () => {
         expect(r).toMatchSnapshot(); // Use snapshots to ensure all possible options are generated.
     });
 
-    interface PartialTextOffsetWithValid {
+    interface PartialTextOffsetWithIsFound {
         text: string;
         offset?: number;
         isFound?: boolean;
     }
 
     interface TestSplit {
         text: string;
-        expectedWords: PartialTextOffsetWithValid[];
+        expectedWords: PartialTextOffsetWithIsFound[];
     }
 
-    function tov(p: PartialTextOffsetWithValid | string, isValid = true): PartialTextOffsetWithValid {
+    /** to PartialTextOffsetWithIsFound */
+    function tov(p: PartialTextOffsetWithIsFound | string, defaultIsFound = true): PartialTextOffsetWithIsFound {
         if (typeof p === 'string') {
             p = { text: p };
         }
-        const { isFound = isValid } = p;
+        const { isFound = defaultIsFound } = p;
         return { ...p, isFound };
     }
 
-    function splitTov(t: string): PartialTextOffsetWithValid[] {
+    function splitTov(t: string): PartialTextOffsetWithIsFound[] {
         if (!t) return [];
         const parts = t.split('|');
         return parts.map((p) => tov(p, has({ text: p, offset: 0 })));
@@ -173,11 +174,13 @@ describe('Validate wordSplitter', () => {
         ${'nstatic'}    | ${'static'}   | ${1}
         ${'techo'}      | ${'echo'}     | ${1}
         ${`n'cpp`}      | ${'cpp'}      | ${1}
-        ${`n'log`}      | ${'log'}      | ${4}
+        ${`n'log`}      | ${'log'}      | ${7}
         ${'64-bit'}     | ${'bit'}      | ${1}
         ${'128-bit'}    | ${'bit'}      | ${1}
         ${'256-sha'}    | ${'256-sha'}  | ${6}
         ${`REFACTOR'd`} | ${'REFACTOR'} | ${2}
+        ${`dogs'`}      | ${`dogs'`}    | ${2}
+        ${`planets’`}   | ${`planets’`} | ${2}
     `('split `$text` in doc', ({ text, expectedWords, calls }: TestSplit2) => {
         const expectedWordSegments = splitTov(expectedWords);
         const doc = sampleText();
@@ -318,6 +321,10 @@ function sampleWordSet() {
     well educated
     words separated by singleQuote
     256-sha
+    dogs'
+    leashes
+    writers
+    planets’
     `
         .split(/\s+/g)
         .map((a) => a.trim())
@@ -343,8 +350,11 @@ function sampleText() {
 
     256-sha
 
-    128-bit values
+    - The dogs' leashes (multiple dogs).
+    - The writers' desks (multiple writers).
+    - The planets’ atmospheres (multiple planets).
 
+    128-bit values
 
 `;
 }
diff --git a/packages/cspell-lib/src/util/wordSplitter.ts b/packages/cspell-lib/src/util/wordSplitter.ts
@@ -265,6 +265,8 @@ function genSymbolBreaks(line: LineSegment): SortedBreaks[] {
     return [
         calcBreaksForRegEx(line, regExPossibleWordBreaks, calcBreaks),
         calcBreaksForRegEx(line, /\d+/g, calcBreaks),
+        calcBreaksForRegEx(line, /['’](?!\p{L})/gu, calcBreaks), // break on trailing '
+        calcBreaksForRegEx(line, /(?<!\p{L})['’]/gu, calcBreaks), // break on leading '
         calcBreaksForRegEx(line, regExEscapeCharacters, calcBreaks),
     ];
 }

Original file line number	Diff line number	Diff line change
`@@ -265,6 +265,8 @@ function genSymbolBreaks(line: LineSegment): SortedBreaks[] {`
`265`	`265`	`return [`
`266`	`266`	`calcBreaksForRegEx(line, regExPossibleWordBreaks, calcBreaks),`
`267`	`267`	`calcBreaksForRegEx(line, /\d+/g, calcBreaks),`
	`268`	`+ calcBreaksForRegEx(line, /['’](?!\p{L})/gu, calcBreaks), // break on trailing '`
	`269`	`+ calcBreaksForRegEx(line, /(?<!\p{L})['’]/gu, calcBreaks), // break on leading '`
`268`	`270`	`calcBreaksForRegEx(line, regExEscapeCharacters, calcBreaks),`
`269`	`271`	`];`
`270`	`272`	`}`