pandoc word转markdown之后正则修改

这篇具有很好参考价值的文章主要介绍了pandoc word转markdown之后正则修改。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

问题

用pandoc工具将doc文件转换为markdown文件后,有关图片的处理会变成:

(./url路径){width=“3.46875in” height=“1.0729166666666667in”}

但是我要展示到前端的,前端组件用的v-md-preview,结果展示的时候,后面的宽高没有识别,也展示出来了,那么就得把它去掉了,去掉之后也没有感觉有什么影响。

方法

后端处理:

思路

java正则匹配以{开始}结束的子串,并替换为""

正则: (({width)(.*?)(})) 匹配以{width开头 并且以}结尾的子串

 public static void main(String[] args) {
        //字符串
        String line = "abcd{width=jfdksljfsdfjdslk}11111 ";
        //正则表达式
        String pattern = "(\\{width)(.*?)(\\})"; //Java正则表达式以括号分组,第一个括号表示以"{width"开头,第三个括号表示以}结尾,中间括号为目标值
        String replaceStr = "";
        Pattern r = Pattern.compile(pattern);
        Matcher m = r.matcher(line);
        while (m.find()) {
           m.group();
           replaceStr = m.replaceAll(""); //将匹配到的内容清空
        }

最后输出:abcd11111

解决!
参考来自:正则匹配

后续

结果width与height不知道怎么的,总是换行的,然后正则就匹配不到,也没找到跨行可以捕获的正则,于是就改成了一半一半的去匹配替换,另外又补充了一些其他可能存在的转换格式错误的地方,就都加进来了

0818
1.新增加了图片居中处理(正则替换,将md图片样式改为html图片标签,手写居中style)
2.新增图片描述居中处理(类似1,增加


3.新增类似a. b. c.小标题的首行缩进,添加    
3存在问题,存入文本时候默认就是空格了,这个在页面正式显示的时候还是不缩进的,所以只能就手动再将四个空格全局替换为    ,以后有好的办法再补充,加\或者 都不行
package Tool;

import cn.hutool.core.io.FileUtil;

import java.io.File;
import java.nio.charset.StandardCharsets;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 将pandoc转换后md文件转换为为合规的文件
 */
public class FileTrans {


    /**
     * 将文档内的字符串进行替换
     * 原字符串:strOld
     * 替换后的自古穿:strNew
     *
     * @param mdStr
     * @return
     */
    public static String turnStr(String mdStr, String strOld, String strNew) {
        String turnStr = mdStr.replaceAll(strOld, strNew);
        return turnStr;
    }


    /**
     * 删除生成文件中无用的字符串 width
     *
     * @param
     */
    public static String delUnUsefulStr(String text) {
        String regex = "((\\{width)(.+)(\"))";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);
        String replaceStr = "";

        if (matcher.find()) {
            // 字符串匹配成功,删除该处内容
            matcher.group();
            replaceStr = matcher.replaceAll("");
        }
        return replaceStr;
    }


    /**
     * 删除生成文件中无用的字符串height
     *
     * @param
     */
    public static String delUnUsefulStr1(String text) {
        String regex = "((height)(.*?)(\\}))";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);
        String replaceStr = "";

        if (matcher.find()) {
            // 字符串匹配成功,删除该处内容
            matcher.group();
            replaceStr = matcher.replaceAll("");

        }
        return replaceStr;
    }

    /**
     * 图片描述居中处理
     * 将图片描述 如 图1-2-3-1  添加html居中标签<center></center>
     *
     * @param
     */
    public static String centerStr(String text) {
        String regex = "((图\\d)(.*?)(\\\r))";

        System.out.println("text = " + text);
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);
        String replaceStr = "";

        List<String> list = new ArrayList<String>();


        while (matcher.find()) {
            // 字符串匹配成功,删除该处内容
            list.add(matcher.group());
        }

        for (String s : list) {
            s = s.replaceAll("\r", "");
            String replace = s.replaceAll("\n", "");
            String groupTurn = "<center>" + replace + "</center>\n";
            //replaceStr = matcher.replaceAll(groupTurn);
            text = text.replaceAll(s, groupTurn);
        }
        return replaceStr == "" ? text : replaceStr;
    }

    /**
     * 图片居中处理
     * ![](/pss/abf/template/xxx/image4.png)
     * 转换为html图片标签,然后通过style处理居中格式
     * <img src="/pss/abf/template/xxx/image4.png", style="display:block; margin:auto">
     *
     * @param
     */
    public static String centerPicture(String text) {
        String regex = "((\\!\\[)(.*?)(\\)))";

        System.out.println("text = " + text);
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);

        List<String> list = new ArrayList<>();

        while (matcher.find()) {
            // 字符串匹配成功,删除该处内容
            list.add(matcher.group());
        }

        for (String s : list) {
            /**
             * ![](/pss/abf/template/xxx/image4.png)
             * 分割,取中间路径
             */
            String str = s.split("\\(")[1];
            if (str.contains(")")) {
                String replace = str.split("\\)")[0];
                String groupTurn = "<img src=\"" + replace + "\", style=\"display:block; margin:auto\">";
                text = text.replace(s, groupTurn);
            } else {
                System.out.println("str = " + str);
            }
        }
        return text;
    }

    /**
     * 将 a. b. c. d.这种格式进行缩进  替代为 &nbsp;&nbsp;&nbsp;&nbsp;a.
     *
     * @param text
     * @return
     */
    public static String turnIndentation(String text) {
        String regex = "((^[a-z])(.*?)(\\.))";

        System.out.println("text = " + text);
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(text);

        List<String> list = new ArrayList<>();

        while (matcher.find()) {
            // 字符串匹配成功,删除该处内容
            list.add(matcher.group());
        }
        for (String s : list) {
            String groupTurn = "&nbsp;&nbsp;&nbsp;&nbsp;" + s;
            text = text.replace(s, groupTurn);
        }

        return text;
    }

    public static void main(String[] args) {

        String mdStr = FileUtil.readString(new File("D:\\pandoc\\Test2.md"), "utf-8");
        //删除width
        String s1 = delUnUsefulStr(mdStr);
        //删除height
        String s2 = delUnUsefulStr1(s1);
        //替换路径 正式存放路径都为中文三级菜单 /pss/template/三级菜单/images/1.png 业务需要
        String s3 = turnStr(s2, "./test2/images/media", "/pss/abf/template//images");
        //替换标题多余的*
        String s4 = turnStr(s3, "\\*\\*.\\*\\*", ".");
        //替换多个*
        String s5 = turnStr(s4, "\\*\\*\\*\\*", " ");
        //图片描述居中处理
        String centerStr = centerStr(s5);
        //将md图片格式转为html图片标签,并居中样式
        String centerPic = centerPicture(centerStr);
        //将小标题如a. b. c.进行首行缩进补充&nbsp;&nbsp;&nbsp;&nbsp;
        String finalStr = turnIndentation(centerPic);
        //将替换好的String 重新生成到文件
        FileUtil.writeBytes(finalStr.getBytes(StandardCharsets.UTF_8),"D:\\pandoc\\new.md");

    }
}


表格处理

pandoc word转markdown 表格是肯定样式会丢的,因此,这步骤也需要手动去处理,找到了一个在线替换的网站,可以直接从word中复制出来,转完后再替换

markdown表格转换文章来源地址https://www.toymoban.com/news/detail-635105.html

到了这里,关于pandoc word转markdown之后正则修改的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 老夫的正则表达式大成了,桀桀桀桀!!!【Python 正则表达式笔记】

    特殊字符 .^$?+*{}[]()| 为特殊字符,若想要使用字面值,必须使用 进行转义 字符类 [] [] 匹配包含在方括号中的任何字符。它也可以指定范围,例: [a-zA-Z0-9] 表示a到z,A到Z,0到9之间的任何一个字符 [u4e00-u9fa5] 匹配 Unicode 中文 [^x00-xff] 匹配双字节字符(包括中文) 在 [] 中

    2024年02月04日
    浏览(60)
  • 机器学习与数据科学-专题1 Python正则表达式-【正则表达式入门-1】

    为了完成本关任务,你需要掌握: 在 Python 中使用正则表达式; 最基础正则表达式; 正则匹配函数。 在 Python 中使用正则表达式 正可谓人生苦短,我用 Python。Python 有个特点就是库非常多,自然拥有正则匹配这种常见的库,并且此库已经嵌入在 Python 标准库中,使用起来非常

    2024年01月22日
    浏览(64)
  • 正则表达式 (用于灵活匹配文本的表达式)

    目录 . * 用于匹配任意单个字符,除了换行符。 例如使用正则表达式 a.b, 它可以匹配aab、acb、a#b 用于匹配前一个字符零次或多次。 例如,使用正则表达式 ab*c ,它可以匹配 \\\"ac\\\"、\\\"abc\\\"、\\\"abbc\\\",因为 b* 表示匹配零个或多个字符 \\\"b\\\"。所以,这个表达式可以匹配 \\\"ac\\\"(零个 \\\"b\\\"),

    2024年01月16日
    浏览(64)
  • 【编译原理】【词法分析】【正则表达式】【NFA】【DFA】【C++】正则表达式转DFA&NFA,判断字符串是否符合正则表达式的匹配算法

    显然,正则表达式、NFA、DFA的概念都很简单,所以直接上代码,注释应该解释地比较清楚, 没有万能头文件的自行替换需求库 ,如果有疑问的可以留言。 网盘链接 [自行补全]/s/1pbGT_wpB662TwFrnukXgGQ?pwd=TSIT 提取码:TSIT 原理可以参考这篇博客 传送门 本次程序由四个文件组成 文

    2024年02月11日
    浏览(88)
  • 利用正则表达式进行爬取数据以及正则表达式的一些使用方法

    Pattern:表示正则表达式 Matcher:文本匹配器,作用按照正则表达式的规则去读取字符串,从头开始读取。 在大串中去找符合匹配规则的子串。 代码示例: 需求: 把连接:https://m.sengzan.com/jiaoyu/29104.html?ivk sa=1025883i中所有的身份证号码都爬取出来。 代码示例: 需求: 把下面文

    2024年02月09日
    浏览(66)
  • 正则表达式、常用的正则

    正则表达式(Regular Expression,简称为Regex或RegExp)是用于匹配和搜索文本模式的工具。它是一个强大且灵活的字符串处理工具,可以用来检查一个字符串是否符合特定的模式,或者从一个文本中提取满足条件的部分。 在正则表达式中,可以使用不同的元字符和特殊符号来定义

    2024年02月14日
    浏览(53)
  • Python高级教程(1)——正则表达式(re.match、re.search、re.sub、compile、findall、finditer、split)、正则表达式对象、正则表达式实例

    正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 (1)re.match函数 re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match() 就返回 none。 函数语法: 通过re.match匹配成功,可以使⽤group⽅法来提取数据

    2024年02月04日
    浏览(68)
  • python正则表达式-正则基础

    目录 一、任一元素 二、匹配特定的字符类别          1、d  w 三、多个元素          1、两位元素 [][]          2、* + ?          3、重复次数 {}          4、位置匹配 ^ $          5、子表达式()         []:1、[ab] 匹配a或b;        2、[0-9] 匹配任意一个数

    2024年02月05日
    浏览(46)
  • 【JAVA】包装类、正则表达式、Arrays类、Lambda表达式

    包装类是8种基本数据类型对应的引用类型 作用:后期的集合和泛型不支持基本类型,只能使用包装类 基本数据类型和其对应的引用数据类型的变量可以互相赋值 基本数据类型 引用数据类型 byte Byte short Short int Integer long Long char Character float Float double Double boolean Boolean 包装类

    2024年02月13日
    浏览(58)
  • 安全基础 --- 正则表达式

    正则表达式(Regular Expression),简称为 正则 或 Regex ,是一个用来描述、匹配和操作字符串的工具。 限定字符 多用于重复匹配次数 常用限定字符: 语法 说明 ? 上一项是可选的,最多匹配一次。 * 前一项将被匹配零次或多次。 + 前一项将被匹配一次或多次。 {N} 上一项完全匹

    2024年02月15日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包