一、方案
1.通过logstash 实现
详见 二、
2.Elasticsearch引擎的索引数据的完全导出/导入(包括mapping、setting、alias、routing)
请参考,这个不知道怎么在导入就没用
https://m.tongfu.net/home/35/blog/513365.html
3.Elasticsearchdump
安装太麻烦了,随便找了一个自己看吧
https://www.cnblogs.com/mojita/p/12011800.html
二、开始导出、导入
参考:使用Logstash导出ES中的数据(作者:zhouxy)
https://blog.csdn.net/sinat_23030553/article/details/112507627
2.1 下载对应版本的 logstash
2.2 实施
解压lostash
tar -zxvf logstash*
测试
./bin/logstash -e 'input { stdin { } } output { stdout {} }'
输入:hello,the world
会打印出包含他的对象
导入、导出执行下面的2个配置文件
./bin/logstash -f conf/配置文件名
运行完后直接 ctrl+c 结束
./bin/logstash -f config/daochu.conf
# ------------------ 配置导出
input {
elasticsearch {
hosts => ["localhost:9200"] #es地址
#user => "XXX" #es用户名
#password => "XXX" #es密码
#要导出的索引
index => "log-2024-04"
# 如果你想要更具体的查询条件,可以在这里定义(导出是 查询语句去除size、from字段)
query => '{"query":{"bool":{"must":[{"terms":{"From_id":[2939803262977,5016520613890,5287791419394,3005670645781],"boost":1.0}},{"range":{"Esdate":{"from":"2024-04-08T00:00:00.000Z","to":"2024-04-09T23:59:59.000Z","include_lower":true,"include_upper":true,"boost":1.0}}}],"adjust_pure_negative":true,"boost":1.0}}}'
}
}
output {
file {
path => "/home/log-2024-04.json" #导出文件路径
}
}
./bin/logstash -f config/daoru.conf
----------------------------
#------------------ 配置导入
input {
file {
path => "/home/log-2024-04.json"
start_position => "beginning"
sincedb_path => "/dev/null" # 如果你不想Logstash记住文件的位置,可以使用这个设置
codec => json # 因为文件是JSON格式的,所以指定codec为json
}
}
filter {
# 这里可以添加任何你需要的过滤操作
}
output {
elasticsearch {
hosts => ["http://localhost:9200"]
index => "log-2024-01"
#user => "XXX" #es用户名
#password => "XXX" #es密码
document_id => "%{Uuid}" # 使用Uuid字段的值作为Elasticsearch文档的_id
}
}
三、其他人的失败,了解
这有按小时分文件
https://blog.csdn.net/qq_25868251/article/details/108599189
1.logstash 是我这次用的比较顺利的的软件工具了,虽然开始也有一点小插曲,导致导出过程中退出了(因服务器的自动备份把仅剩下的几G空间又占满了,导致服务断开)
2.我下载的是 logstash-5.6.1 版本,解压即可,但是需要系统有 jdk8 环境,为了不指定绝对路径,我直接在 bin 目录下创建了 conf 配置文件:test.conf 内容如下:
input{
elasticsearch {
hosts => [“ip:9200”] # 你的服务器地址
index => “test” # 你的索引
query => ‘{ “query”: {“match_all” : {} } }’
#type => “_doc”
size => 100
scroll => “5m”
docinfo => true
#user => “username”
#password => “xxxxx”
}
}
output{
file {
path => “es_test.json” # 输出的文件
}
}
3.但是这样的输出文件只有一个,太大了,到时候如果完全导出,这个文件将近300多G。但是我发现 logstash 并不能像 elasticdump 那样可以指定分割文件的大小,所以,只能按输出时间来分割文件,让文件不至于过大,修改 output 部分如下:这样就是每隔一个小时会生成一个导出文件。
output{
file {
path => “%{+YYYY.MM.dd.HH}es_test.json”
}
}
4.这里导出的文件会发现时间用的是 timestamp 是 UTC 时间,和我们的时间还差 8 小时,加上 filter 配置覆盖该时间即可
input{
elasticsearch {
hosts => [“ip:9200”]
index => “test”
query => ‘{ “query”: {“match_all” : {} } }’
#type => “_doc”
size => 100
scroll => “5m”
docinfo => true
#user => “username”
#password => “xxxxx”
}
}
filter {
ruby {
code => “event.set(‘timestamp’, event.get(‘@timestamp’).time.localtime + 86060)”
}
ruby {
code => “event.set(‘@timestamp’,event.get(‘timestamp’))”
}
mutate {
remove_field => [“timestamp”]
}
}
output{
file {
path => “%{+YYYY.MM.dd.HH}es_test.json”
}
}
5.可是我万万没想到的是,导了很久之后,还是断掉了,并没有报错,只是命令行最后提示了 stoppping 之后就停掉了文章来源:https://www.toymoban.com/news/detail-855471.html
[WARN ][logstash.agent ] stopping pipeline {:id=>“main”}文章来源地址https://www.toymoban.com/news/detail-855471.html
到了这里,关于ES导入导出索引的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!