go基础09-Go语言的字符串类型

这篇具有很好参考价值的文章主要介绍了go基础09-Go语言的字符串类型。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

字符串类型是现代编程语言中最常使用的数据类型之一。在Go语言的先祖之一C语言当中,字符串类型并没有被显式定义,而是以字符串字面值常量或以’\0’结尾的字符类型(char)数组来呈现的:

#define GOAUTHERS "Robert Griesemer, Rob Pike, and Ken Thompson"
const char * s = "hello world"
char s[] = "hello gopher"


这给C程序员在使用字符串时带来一些问题,诸如:

● 类型安全性差;

● 字符串操作要时时刻刻考虑结尾的’\0’;

● 字符串数据可变(主要指以字符数组形式定义的字符串类型);

● 获取字符串长度代价大(O(n)的时间复杂度);

● 未内置对非ASCII字符(如中文字符)的处理。

Go语言修复了C语言的这一“缺陷”,内置了string类型,统一了对字符串的抽象。

Go语言的字符串类型

在Go语言中,无论是字符串常量、字符串变量还是代码中出现的字符串字面量,它们的类型都被统一设置为string:

const (
	s = "string constant"
)
func main() {
	var s1 string = "string variable"
	fmt.Printf("%T\n", s) // string
	fmt.Printf("%T\n", s1) // string
	fmt.Printf("%T\n", "temporary string literal") // string
}

Go的string类型设计充分吸取了C语言字符串设计的经验教训,并结合了其他主流语言在字符串类型设计上的最佳实践,最终呈现的string类型具有如下功能特点

(1)string类型的数据是不可变的

一旦声明了一个string类型的标识符,无论是常量还是变量,该标识符所指代的数据在整个程序的生命周期内便无法更改。下面尝试修改一下string数据,看看能得到怎样的结果。

我们先来看第一种方法:

func main() {
// 原始字符串
	var s string = "hello"
	fmt.Println("original string:", s)
	// 切片化后试图改变原字符串
	sl := []byte(s)
	sl[0] = 't'
	fmt.Println("slice:", string(sl))
	fmt.Println("after reslice, the original string is:", 	string(s))
}

该程序的运行结果如下:


original string: hello
slice: tello
after reslice, the original string is: hello

在上面的例子中,我们试图将string转换为一个切片并通过该切片对其内容进行修改,但结果事与愿违。对string进行切片化后,Go编译器会为切片变量重新分配底层存储而不是共用string的底层存储,因此对切片的修改并未对原string的数据产生任何影响。

我们再来试试通过更为“暴力”一些的手段对string的数据发起“攻击”:

func main() {
// 原始string
var s string = "hello"
fmt.Println("original string:", s)
// 试图通过unsafe指针改变原始string
modifyString(&s)
fmt.Println(s)

}



func modifyString(s *string) {
	// 取出第一个8字节的值
	p := (*uintptr)(unsafe.Pointer(s))
	// 获取底层数组的地址
	var array *[5]byte = (*[5]byte)(unsafe.Pointer(*p))
	var len *int = (*int)(unsafe.Pointer(uintptr(unsafe.Pointer(s)) + unsafe.Sizeof((*uintptr)(nil))))
	for i := 0; i < (*len); i++ {
		fmt.Printf("%p => %c\n", &((*array)[i]), (*array)[i])
		p1 := &((*array)[i])
		v := (*p1)
		(*p1) = v + 1 //try to change the character
	}
}

我们试图通过unsafe指针指向string在运行时内部表示结构(具体参考本条后面的讲解)中的数据存储块的地址,然后通过指针修改那块内存中存储的数据。

运行这段程序得到下面的结果:

original string: hello
0x10d1b9d => h
unexpected fault address 0x10d1b9d
fatal error: fault
[signal SIGBUS: bus error code=0x2 addr=0x10d1b9d pc=0x109b079]

我们看到,对string的底层的数据存储区仅能进行只读操作,一旦试图修改那块区域的数据,便会得到SIGBUS的运行时错误,对string数据的“篡改攻击”再次以失败告终。

2)零值可用

Go string类型支持“零值可用”的理念。Go字符串无须像C语言中那样考虑结尾’\0’字符,因此其零值为"",长度为0。

var s string
fmt.Println(s) // s = ""
fmt.Println(len(s)) // 0


3)获取长度的时间复杂度是O(1)级别

Go string类型数据是不可变的,因此一旦有了初值,那块数据就不会改变,其长度也不会改变。Go将这个长度作为一个字段存储在运行时的string类型的内部表示结构中(后文有说明)。这样获取string长度的操作,即len(s)实际上就是读取存储在运行时中的那个长度值,这是一个代价极低的O(1)操作。

4)支持通过+/+=操作符进行字符串连接

对开发者而言,通过+/+=操作符进行的字符串连接是体验最好的字符串连接操作,Go语言支持这种操作:

s := "Rob Pike, "
s = s + "Robert Griesemer, "
s += " Ken Thompson"
fmt.Println(s) // Rob Pike, Robert Griesemer, Ken Thompson

5)支持各种比较关系操作符:==、!= 、>=、<=、>和<

func main() {
	// ==
	s1 := "世界和平"
	s2 := "世界" + "和平"
	fmt.Println(s1 == s2) // true
	// !=
	s1 = "Go"
	s2 = "C"
	fmt.Println(s1 != s2) // true
	// < 和 <=
	s1 = "12345"
	s2 = "23456"
	fmt.Println(s1 < s2) // true
	fmt.Println(s1 <= s2) // true
	// > 和 >=
	s1 = "12345"
	s2 = "123"
	fmt.Println(s1 > s2) // true
	fmt.Println(s1 >= s2) // true
}

由于Go string是不可变的,因此如果两个字符串的长度不相同,那么无须比较具体字符串数据即可断定两个字符串是不同的。如果长度相同,则要进一步判断数据指针是否指向同一块底层存储数据。如果相同,则两个字符串是等价的;如果不同,则还需进一步比对实际的数据内容。

6)对非ASCII字符提供原生支持

Go语言源文件默认采用的Unicode字符集。Unicode字符集是目前市面上最流行的字符集,几乎囊括了所有主流非ASCII字符(包括中文字符)。Go字符串的每个字符都是一个Unicode字符,并且这些Unicode字符是以UTF-8编码格式存储在内存当中的。

我们来看一个例子:

func main() {
	// 中文字符 Unicode码点 UTF8编码
	// 中 U+4E2D E4B8AD
	// 国 U+56FD E59BBD
	// 欢 U+6B22 E6ACA2
	// 迎 U+8FCE E8BF8E
	// 您 U+60A8 E682A8
	s := "中国欢迎您"
	rs := []rune(s)
	sl := []byte(s)
	for i, v := range rs {
	var utf8Bytes []byte
	for j := i * 3; j < (i+1)*3; j++ {
		utf8Bytes = append(utf8Bytes, sl[j])
	}
	fmt.Printf("%s => %X => %X\n", string(v), v, utf8Bytes)
}
}

我们看到字符串变量s中存储的文本是“中国欢迎您”五个汉字字符(非ASCII字符范畴),这里输出了每个中文字符对应的Unicode码点(Code Point,见输出结果的第二列),一个rune对应一个码点。UTF-8编码是Unicode码点的一种字符编码形式,是最常用的一种编码格式,也是Go默认的字符编码格式。我们还可以使用其他字符编码格式来映射Unicode码点,比如UTF-16等。

在UTF-8中,大多数中文字符都使用三字节表示。[]byte(s)的转型让我们获得了s底层存储的“复制品”,从而得到每个汉字字符对应的UTF-8编码字节(见输出结果的第三列)。

=> 4E2D => E4B8AD
国 => 56FD => E59BBD
欢 => 6B22 => E6ACA2
迎 => 8FCE => E8BF8E
您 => 60A8 => E682A8

7)原生支持多行字符串

Go语言直接提供了通过反引号构造“所见即所得”的多行字符串的方法:

const s = `好雨知时节,当春乃发生。
			随风潜入夜,润物细无声。
			野径云俱黑,江船火独明。
			晓看红湿处,花重锦官城。`
func main() {
	fmt.Println(s)
}

运行结果:文章来源地址https://www.toymoban.com/news/detail-698563.html

好雨知时节,当春乃发生。
随风潜入夜,润物细无声。
野径云俱黑,江船火独明。
晓看红湿处,花重锦官城。

到了这里,关于go基础09-Go语言的字符串类型的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • go基础10 -字符串的高效构造与转换

    前面提到过,Go原生支持通过+/+=操作符来连接多个字符串以构造一个更长的字符串,并且通过+/+=操作符的字符串连接构造是最自然、开发体验最好的一种。 但Go还提供了其他一些构造字符串的方法,比如: ● 使用fmt.Sprintf; ● 使用strings.Join; ● 使用strings.Builder; ● 使用

    2024年02月09日
    浏览(36)
  • 为什么说 Go 语言字符串是不可变的?

    原文链接: 为什么说 Go 语言字符串是不可变的? 最近有读者留言说,平时在写代码的过程中,是会对字符串进行修改的,但网上都说 Go 语言字符串是不可变的,这是为什么呢? 这个问题本身并不困难,但对于新手来说确实容易产生困惑,今天就来回答一下。 首先来看看它

    2024年02月07日
    浏览(55)
  • 【Golang】Golang进阶系列教程--为什么说 Go 语言字符串是不可变的?

    最近有读者留言说,平时在写代码的过程中,是会对字符串进行修改的,但网上都说 Go 语言字符串是不可变的,这是为什么呢? 这个问题本身并不困难,但对于新手来说确实容易产生困惑,今天就来回答一下。 首先来看看它的底层结构: 和切片的结构很像,只不过少了一个

    2024年02月14日
    浏览(63)
  • 【Go 基础篇】Go语言字符类型:解析字符的本质与应用

    字符类型是计算机编程中用于表示文本和字符的数据类型,是构建字符串的基本单位。在Go语言(Golang)中,字符类型具有独特的特点和表示方式,包括Unicode编码、字符字面值以及字符操作。本篇博客将深入探讨Go语言中的字符类型,介绍字符的编码方式、字符字面值的表示

    2024年02月13日
    浏览(39)
  • go语言将cmd stdout和stderr作为字符串返回而不是打印到控制台

    从 golang 应用程序中执行 bash 命令,现在 stdout 和 stderr 直接进入控制台: 如果 bash 命令太慢( killInMilliSeconds 参数),程序应该保持其终止 bash 命令的能力。 希望 stdout 和 stderr 作为字符串变量从 runBashCommandAndKillIfTooSlow 函数返回,而不立即打印到控 制台,如何实现。 将输出设

    2024年01月23日
    浏览(55)
  • go字符串详解

    go字符串结构体包含:指向底层存储数组的指针、字符串长度。字符串按utf-8将字符编码成二进制数,然后存储在byte数组中。因为utf-8编码一个字符可能占用多个字节,例如一个汉字占3个字节,所以字符串中的一个字符可能对应byte数组中的多个元素。为了让一个字符对应数组

    2024年02月09日
    浏览(52)
  • Go字符串实战操作大全!

    在本篇文章中,我们深入探讨了Go语言中字符串的魅力和深度。从基础定义、操作、字符编码到复杂的类型转换,每个环节都带有实例和代码示例来深化理解。通过这些深入的解析,读者不仅能够掌握字符串在Go中的核心概念,还能洞察Go设计哲学背后的思考。 关注公众号【

    2024年02月08日
    浏览(40)
  • go字符串去除首尾所有换行符

    原创不易,如果对你有帮助,欢迎给作者点个赞哦! 一键开启舒适、快捷: 调用: 效果:

    2024年02月13日
    浏览(48)
  • 一个退役中校教你如何用go语言写一个基于B+树的json数据库(进阶篇)之json字符串解析为BsTr结构(一)

    1.对象式json字符串 s := \\\"{\\\"put\\\":{\\\"putjsontest\\\":{\\\"aaa\\\":\\\"sdftsdfs\\\\dfe29asdf\\\",\\\"aaab\\\":true,\\\"arrarrstrct\\\":{\\\"nnn\\\":-1234567890,\\\"ccc\\\":[[\\\"sdftsdfs\\\\dfe29asdf\\\",\\\"nmbndfvdfgfdg\\\"],[\\\"sdftsdfs\\\\dfe29asdf\\\",\\\"poiuiyyttt\\\"]]},\\\"ddd\\\":\\\"sdftsdfs\\\\dfe29asdf\\\",\\\"fff\\\":false,\\\"comboolarr\\\":[{\\\"boolarr0\\\":[true,false]},{\\\"boolarr1\\\":[true,false]}]}

    2024年02月21日
    浏览(52)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包