Hive中的正则表达式

首先可以明确的是(已验证),hive中的正则表达式需要两个斜杠:比如\\d才可以匹配数字。

\\w:英文字母、数字、下划线

\\u4E00-\\u9FFF:中文汉字

{m,n}:匹配m~n次 

{m,}至少匹配m次

+:匹配一次或多次,和{1,}等价

*:匹配0次或多次

?:非贪婪模式;可选匹配

(?:):非获取匹配

(?<=):非获取匹配,以……开头

(?<!):非获取匹配,不以……开头

(?=):非获取匹配,以……结尾

(?!):非获取匹配,不以……结尾

\\:转义,已经在hive_cli、lapras尝试过,regexp_extract()、regexp_replace()都只能使用两个斜杠转义,一个斜杠都是转义失败的。

上一篇:MySQL: regexp_replace


下一篇:正则学习笔记