Make wrap_rows not wrap inside utf-8 multibyte sequences
authorest31 <MTest31@outlook.com>
Wed, 17 Jun 2015 20:10:22 +0000 (22:10 +0200)
committerest31 <MTest31@outlook.com>
Wed, 17 Jun 2015 20:22:15 +0000 (22:22 +0200)
Also count multibyte sequences as "one" character.
Adds unittest for the bug reporter's case.
Fixes #2796.

src/unittest/test_utilities.cpp
src/util/string.h

index 6a731c662a2d1b6e42d7ce2054c8b6f03f1aec25..9678a81eb18acedb0b7c5b2b8150b57d8b022f3d 100644 (file)
@@ -242,6 +242,14 @@ void TestUtilities::testUTF8()
 void TestUtilities::testWrapRows()
 {
        UASSERT(wrap_rows("12345678",4) == "1234\n5678");
+       // test that wrap_rows doesn't wrap inside multibyte sequences
+       const unsigned char s[] = {
+               0x2f, 0x68, 0x6f, 0x6d, 0x65, 0x2f, 0x72, 0x61, 0x70, 0x74, 0x6f,
+               0x72, 0x2f, 0xd1, 0x82, 0xd0, 0xb5, 0xd1, 0x81, 0xd1, 0x82, 0x2f,
+               0x6d, 0x69, 0x6e, 0x65, 0x74, 0x65, 0x73, 0x74, 0x2f, 0x62, 0x69,
+               0x6e, 0x2f, 0x2e, 0x2e, 0};
+       std::string str((char *)s);
+       UASSERT(utf8_to_wide(wrap_rows(str, 20)) != L"<invalid UTF-8 string>");
 }
 
 
index 5bf2b5b7c4c20214d1f064258a6bb352f818ed57..72d3c6075b97dc0312659d98b01a80f41c674103 100644 (file)
@@ -32,6 +32,9 @@ with this program; if not, write to the Free Software Foundation, Inc.,
 #define STRINGIFY(x) #x
 #define TOSTRING(x) STRINGIFY(x)
 
+// Checks whether a byte is an inner byte for an utf-8 multibyte sequence
+#define IS_UTF8_MULTB_INNER(x) (((unsigned char)x >= 0x80) && ((unsigned char)x <= 0xc0))
+
 typedef std::map<std::string, std::string> StringMap;
 
 struct FlagDesc {
@@ -411,7 +414,10 @@ inline bool string_allowed_blacklist(const std::string &str,
  *     every \p row_len characters whether it breaks a word or not.  It is
  *     intended to be used for, for example, showing paths in the GUI.
  *
- * @param from The string to be wrapped into rows.
+ * @note This function doesn't wrap inside utf-8 multibyte sequences and also
+ *     counts multibyte sequences correcly as single characters.
+ *
+ * @param from The (utf-8) string to be wrapped into rows.
  * @param row_len The row length (in characters).
  * @return A new string with the wrapping applied.
  */
@@ -420,9 +426,12 @@ inline std::string wrap_rows(const std::string &from,
 {
        std::string to;
 
+       size_t character_idx = 0;
        for (size_t i = 0; i < from.size(); i++) {
-               if (i != 0 && i % row_len == 0)
+               if (character_idx > 0 && character_idx % row_len == 0)
                        to += '\n';
+               if (!IS_UTF8_MULTB_INNER(from[i]))
+                       character_idx++;
                to += from[i];
        }