第六章：string类-Toy模板网

这篇具有很好参考价值的文章主要介绍了第六章：string类。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

系列文章目录

前言

string是字符序列的类

C++文档

为什么学习string类

C语言中的字符串

C语言中，字符串是以’\0’结尾的一些字符的集合，为了操作方便，C标准库中提供了一些str系列的库函数，但是这些库函数与字符串是分离开的，不太符合OOP的思想，而且底层空间需要用户自己管理，稍不留神可能还会越界访问。

ASCII

ASCII (American Standard Code for Information Interchange)：美国信息交换标准代码是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准，并等同于国际标准ISO/IEC 646。ASCII第一次以规范标准的类型发表是在1967年，最后一次更新则是在1986年，到目前为止共定义了128个字符。

**在计算机中存储和显示英语信息

26个大小写字母、数字、标点符号

建立一个符号和编码对应关系的映射表

用一个字节的大小存储7位编码，最高位不用，一个符号→一个字节**

第六章：string类,# C++语言基础,c++

int main()
{
	char str1[] = "apple";	

	char str2[] = "好好";

	cout << sizeof(str1) << endl;
		
	cout << sizeof(str2) << endl;

	return 0;
}

第六章：string类,# C++语言基础,c++

int main()
{

	char str2[] = "好好";

	cout << sizeof(str2) << endl;

	str2[3]--;
	cout << str2 << endl;

	str2[3]--;
	cout << str2 << endl;

	str2[3]++;
	cout << str2 << endl;
	
	str2[3]++;
	cout << str2 << endl;

	return 0;
}

第六章：string类,# C++语言基础,c++

Unicode

统一码（Unicode），也叫万国码、单一码，由统一码联盟开发，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。

统一码是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

UTF-8

UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出，4字节模板有21个x，即可以容纳21位二进制数字。统一码的最大码位0x10FFFF也只有21位。

第六章：string类,# C++语言基础,c++

UTF-16

UTF-16编码以16位无符号整数为单位。我们把统一码编码记作U。

UTF-32

UTF-32编码以32位无符号整数为单位。统一码的UTF-32编码就是其对应的32位无符号整数。

GBK

GBK全称《汉字内码扩展规范》（GBK即“国标”、“扩展”汉语拼音的第一个字母，英文名称：Chinese Internal Code Specification）。

GBK 亦采用双字节表示，总体编码范围为 8140-FEFE，首字节在 81-FE 之间，尾字节在 40-FE 之间，剔除 xx7F 一条线。总计 23940 个码位，共收入 21886 个汉字和图形符号，其中汉字（包括部首和构件）21003 个，图形符号 883 个。
第六章：string类,# C++语言基础,c++

标准库中的string类

string类

字符串是表示字符序列的类
标准的字符串类提供了对此类对象的支持，其接口类似于标准字符容器的接口，但添加了专门用于操作单字节字符字符串的设计特性。
string类是使用char(即作为它的字符类型，使用它的默认char_traits和分配器类型
string类是basic_string模板类的一个实例，它使用char来实例化basic_string模板类，并用char_traits和allocator作为basic_string的默认参数
注意，这个类独立于所使用的编码来处理字节:如果用来处理多字节或变长字符(如UTF-8)的序列，这个类的所有成员(如长度或大小)以及它的迭代器，将仍然按照字节(而不是实际编码的字符)来操作。

string类的文档

第六章：string类,# C++语言基础,c++

string类用utf-8编码，按单字节处理
u16string用utf-16编码
u32string用utf-32编码
wstring类按两字节处理

第六章：string类,# C++语言基础,c++

编码：
计算机中存储只有二进制0、1，用对应的ASCII表来表示文字（支持英文的）其中ASCII表是对256个值建立一个对应的表示值
在早期只有欧美国家使用计算机（早期的计算机中只能表示英文，不能表示其他国家的文字），后来全世界各个国家都开始用计算机了，需要建立自己的编码表
在Linux中常用utf-8、utf-16、utf-32
在Windows中常用gbk

总结

string是表示字符串的字符串类
该类的接口与常规容器的接口基本相同，再添加了一些专门用来操作string的常规操作。
string在底层实际是：basic_string模板类的别名，typedef basic_string<char, char_traits, allocator>string;
不能操作多字节或者变长字符的序列。
在使用string类时，必须包含#include头文件以及using namespace std;

string类的常用接口说明

string类的常用接口

1. string类对象的常见构造

(constructor)函数名称	功能说明
string() （重点）	构造空的string类对象，即空字符串
string(const char* s) （重点）	用C-string来构造string类对象
string(size_t n, char c)	string类对象中包含n个字符c
string(const string&s) （重点）	拷贝构造函数

void Teststring()
{
    string s1; // 构造空的string类对象s1
    string s2("hello bit"); // 用C格式字符串构造string类对象s2
    string s3(s2); // 拷贝构造s3
}

2. string类对象的容量操作

函数名称	功能说明
size（重点）	返回字符串有效字符长度
length	返回字符串有效字符长度
capacity	返回空间总大小，但不包含’\0’
empty （重点）	检测字符串释放为空串，是返回true，否则返回false
clear （重点）	清空有效字符
reserve （重点）	为字符串提前预留空间
resize （重点）	将有效字符的个数该成n个，多出的空间用字符c填充

第六章：string类,# C++语言基础,c++

注意：
1. size()与length()方法底层实现原理完全相同，引入size()的原因是为了与其他容器的接口保持一致，一般情况下基本都是用size()。
2. clear()只是将string中有效字符清空，不改变底层空间大小。
3. resize(size_t n) 与 resize(size_t n, char c)都是将字符串中有效字符个数改变到n个，不同的是当字符个数增多时：resize(n)用0来填充多出的元素空间，resize(size_t n, char c)用字符c来填充多出的元素空间。
注意：resize在改变元素个数时，如果是将元素个数增多，可能会改变底层容量的大小，如果是将元素个数减少，底层空间总大小不变。
4. reserve(size_t res_arg=0)：为string预留空间，不改变有效元素个数，当reserve的参数小于string的底层空间总大小时，reserver不会改变容量大小。
5. 在Windows中容量是以大约1.5倍增容的，在Linux中容量是以大约2倍增容的
6. reserve的作用：如果知道需要多少空间，直接一次性开好，避免增容，提高效率
7. resize的作用：既能开好空间，又能对这些空间初始化

string容量相关方法使用代码演示

3. string类对象的访问及遍历操作

函数名称	功能说明
operator[] （重点）	返回pos位置的字符，const string类对象调用
begin+ end	begin获取一个字符的迭代器 + end获取最后一个字符下一个位置(‘\0’)的迭代器
rbegin + rend	rbegin获取最后一个字符的迭代器 + rend获取开头一个字符前一个位置的迭代器
范围for	C++11支持更简洁的范围for的新遍历方式，底层是用迭代器

string中元素访问及遍历代码演示

int main()
{
    string s1("hello world");
    string::iterator it = s1.begin();
    //正向迭代器
    while (it != s1.end())
    {
	    cout << *it << " ";
	    it++;
    }
	string::reverse_iterator rit = s1.rbegin();
    //反向迭代器
	while (rit != s1.rend())
	{
		cout << *rit << " ";
		rit++;
        //都是++
	}
  
    for (auto ch : s1)
	{
		cout << ch << " ";
	}

	cout << endl;
  
	return 0;
}

void Func1(const string& s)
{	
	//遍历和读容器的数据，不能写
	//string::const_iterator it = s.cbegin();
    auto it = s.cbegin();
    //静态正向迭代器
	while (it != s.end())
	{
		cout << *it << " ";
        it++;
	}

	cout << endl;
}
void Func2(const string& s)
{	
    
	//string::const_reverse_iterator it = s.crbegin();
    auto it = s.crbegin();
    //静态反向迭代器
	while (it != s.rend())
	{
		cout << *it << " ";
        it++;
	}

	cout << endl;
}
int main()
{
	string s1("hello world");
	string::iterator it = s1.begin();
    //iterator 迭代器 是属于类的一种类型
	while (it != s1.end())
	{
		cout << *it << " ";
		it++;
	}

	for (auto ch : s1)
	{
		cout << ch << " ";
	}
    
    Func1();
    
    Func2();

	cout << endl;
	
	return 0;
}

总结：
迭代器是一个行为像指针的东西，有可能是指针，也有可能不是指针
迭代器可以用统一类似的方式去访问修改容器
begin（）返回的是第一个有效数据位置的迭代器，end（）返回的是最后一个有效数据的下一个位置的迭代器
rbegin（）返回的是最后个有效数据位置的迭代器，rend（）返回的是第一个有效数据的前一个位置的迭代器
所有的容器都支持用迭代器，所以迭代器才是容器通用的访问方式（vector/string这样的结构支持下标+[]去访问，而像list、map这样的就不支持了），虽然迭代器在所有数据结构都是可以使用的，但[]+下标指适用顺序表。
const对象要用const迭代器，只读，不能写
operator[]和at的区别：operator[]如果发生越界访问会报断言错误（assert），而at会报异常（需要捕获异常）

4. string类对象的修改操作

函数名称	功能说明
push_back	在字符串后尾插字符c
append	在字符串后追加一个字符串
operator+= (重点)	在字符串后追加字符串str
c_str(重点)	返回C格式字符串
find + npos(重点)	从字符串pos位置开始往后找字符c，返回该字符在字符串中的位置
rfind	从字符串pos位置开始往前找字符c，返回该字符在字符串中的位置
substr	在str中从pos位置开始，截取n个字符，然后将其返回

string中插入和查找等使用代码演示

注意：
1. 在string尾部追加字符时，s.push_back© / s.append(1, c) / s += 'c’三种的实现方式差不多，一般情况下string类的+=操作用的比较多，+=操作不仅可以连接单个字符，还可以连接字符串。
2. 对string操作时，如果能够大概预估到放多少字符，可以先通过reserve把空间预留好。

int main()
{
	string s1("world");

	s1.insert(0, "hello");

	//不推荐使用insert,效率低
	//s1.insert(5, 1, ' ');
	//s1.insert(5, " ");
	string::iterator it = s1.begin();
	s1.insert(it+5, ' ');
	cout << s1 << endl;
	return 0;
}

int main()
{
	//不推荐使用erase,效率低
	string s1("hello world");
	//s1.erase(5, 1);

	string::iterator it = s1.begin();
	//s1.erase(it + 5);

	//s1.erase(5);
	s1.erase(5, 6);
	cout << s1 << endl;

}

int main()
{
	//string s1("hello world");
	//s1.replace(5, 1, "%%d");//扩容+移动数据
	//cout << s1 << endl;、

	string s1("hello world i love you");
	size_t num = 0;
	for (auto ch : s1)
	{
		if (ch == ' ')
		{
			num++;
		}
	}
	//提前开空间，避免replace时扩容
	s1.reserve(2* num + s1.size());
	size_t pos = s1.find(' ');
	while(pos != string::npos)
	{	
		s1.replace(pos, 1, "%20");
		pos = s1.find(' ', pos + 3);
	}
	cout << s1 << endl;
}

//空间换时间
int main()
{
	string s1("hello world i love you");
	string newStr;
	size_t num = 0;
	for (auto ch : s1)
	{
		if (ch == ' ')
		{
			num++;
		}
	}
	//提前开空间，避免replace时扩容
	s1.reserve(2* num + s1.size());
	for (auto ch : s1)
	{
		if (ch != ' ')
			newStr += ch;
		else
			newStr += "%20";
	}
	s1 = newStr;
	cout << newStr << endl;
}

int main()
{
	string s1("xxx");
	string s2("yyy");

	s1.swap(s2);
	cout << s1 << endl;
	cout << s2 << endl;

	swap(s1, s2);
	cout << s1 << endl;
	cout << s2 << endl;
	 
}

第六章：string类,# C++语言基础,c++

5. string类非成员函数

函数	功能说明
operator+	尽量少用，因为传值返回，导致深拷贝效率低
operator>> （重点）	输入运算符重载
operator<< （重点）	输出运算符重载
getline （重点）	获取一行字符串
relational operators （重点）	大小比较

第六章：string类,# C++语言基础,c++

cin遇到空格和换行就会分割（或结束），而getline遇到空格不会分割（或结束）遇到换行才分割（或结束）

6. string类对象的字符串的转换（在C++11适用）

第六章：string类,# C++语言基础,c++

vs和g++下string结构的说明

注意：下述结构是在32位平台下进行验证，32位平台下指针占4个字节.

vs下string的结构

string总共占28个字节，内部结构稍微复杂一点，先是有一个联合体，联合体用来定义string中字符串的存储空间：

当字符串长度小于16时，使用内部固定的字符数组来存放
当字符串长度大于等于16时，从堆上开辟空间

union _Bxty
{ // storage for small buffer or pointer to larger one
	value_type _Buf[_BUF_SIZE];
	pointer _Ptr;
	char _Alias[_BUF_SIZE]; // to permit aliasing
} _Bx;

这种设计也是有一定道理的，大多数情况下字符串的长度都小于16，那string对象创建好之后，内部已经有了16个字符数组的固定空间，不需要通过堆创建，效率高。
其次：还有一个size_t字段保存字符串长度，一个size_t字段保存从堆上开辟空间总的容量最后：还有一个指针做一些其他事情。
故总共占16+4+4+4=28个字节。
第六章：string类,# C++语言基础,c++

g++下string的结构

G++下，string是通过写时拷贝实现的，string对象总共占4个字节，内部只包含了一个指针，该指针将来指向一块堆空间，内部包含了如下字段：

空间总大小
字符串有效长度
引用计数

struct _Rep_base
{
	size_type        _M_length;
	size_type        _M_capacity;
	_Atomic_word      _M_refcount;
};

指向堆空间的指针，用来存储字符串

第六章：string类,# C++语言基础,c++ 文章来源地址https://www.toymoban.com/news/detail-583050.html

到了这里，关于第六章：string类的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

第六章：string类

系列文章目录

前言

为什么学习string类

C语言中的字符串

ASCII

Unicode

UTF-8

UTF-16

UTF-32

GBK

标准库中的string类

string类

总结

string类的常用接口说明

1. string类对象的常见构造

2. string类对象的容量操作

3. string类对象的访问及遍历操作

4. string类对象的修改操作

5. string类非成员函数

6. string类对象的字符串的转换（在C++11适用）

vs和g++下string结构的说明

vs下string的结构

g++下string的结构

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2