目录
1. Impala使用ip2region转换地址
1.1- 新建maven项目,编写java程序实现ip转换地址。
1.2- 下载ip2reigion, 并把ip2region.db文件复制到maven项目的resource目录中
1.3- 编写java程序
1.4- 打包编译, 上传hdfs省略
1.5- impala注册自定义udf函数
使用第三方转换项目 ip2region
1. Impala使用ip2region转换地址使用java实现转换程序后,编译打包,上传jar包。然后注册 自定义UDF函数,在sql中使用自定义UDF函数
引入ip2region包。引入hutool包(用来加载ip2region.db文件),引入hive,用来自定义UDF。pom文件内容如下
4.0.0
org.example
IP2Addre
1.0-SNAPSHOT
8
8
org.lionsoul
ip2region
1.7.2
cn.hutool
hutool-all
5.7.21
org.apache.hive
hive-exec
2.1.1
src/main/java/
src/main/resources
**/*.properties
**/*.xml
false
src/main/java
**/*.properties
**/*.db
false
org.apache.maven.plugins
maven-compiler-plugin
2.3.2
1.8
UTF-8
true
org.apache.maven.plugins
maven-surefire-plugin
2.8.1
**/*.java
**/*.scala
true
org.apache.maven.plugins
maven-shade-plugin
2.4.3
*:*
META-INF/*.SF
META-INF/*.DSA
META-INF/*.RSA
package
shade
1.2- 下载ip2reigion, 并把ip2region.db文件复制到maven项目的resource目录中1.3- 编写java程序
我这里是 省份和城市分开获取,所以自定义了两个 UDF类
解析ip的方法
import cn.hutool.core.io.IoUtil;
import cn.hutool.core.io.resource.ClassPathResource;
import org.lionsoul.ip2region.*;
import java.io.InputStream;
public class IP2Address {
private volatile static IP2Address ip2Addre;
private static ClassPathResource resource ;
private static InputStream is ;
private static DbConfig config ;
private static DbSearcher searcher ;
private IP2Address (){}
// 单例模式
public static IP2Address getSingleton() throws DbMakerConfigException {
if (ip2Addre == null) {
synchronized (IP2Address.class) {
if (ip2Addre == null) {
ip2Addre = new IP2Address();
resource = new ClassPathResource("ip2region.db");
is = resource.getStream();
config = new DbConfig();
searcher = new DbSearcher(config, IoUtil.readBytes(is));
}
}
}
return ip2Addre;
}
/** 使用ip2region 将 ip 转换为 地址 “ 中国|0|广东省|广州市|电信 ”
* @params string ip
* @return string address, 格式是 “ 国家|x|省份|城市|运营商”
* */
public static String getAddresByIp(String ip){
try {
DataBlock dataBlock = null;
if ( Util.isIpAddress(ip) == false ) {
System.out.println("Error: Invalid ip address");
}
dataBlock = searcher.memorySearch(ip);
return dataBlock.getRegion();
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
}
自定义UDF类, 获取省份。 继承 UDF
public class GetProvinceByIp extends UDF {
public String evaluate(String ip) throws DbMakerConfigException {
IP2Address ipUtil = IP2Address.getSingleton();
String addrStr = ipUtil.getAddresByIp(ip);
System.out.println("addres is : " + addrStr); // 调试,正式使用可以注释
String[] addr = addrStr.split("\|");
if (addr.length != 5){
return "未知" ;
}
return addr[2] ;
}
}
自定义UDF类, 获取城市。 继承 UDF
import org.apache.hadoop.hive.ql.exec.UDF;
import org.lionsoul.ip2region.DbMakerConfigException;
public class GetCityByIp extends UDF {
public String evaluate(String ip) throws DbMakerConfigException {
IP2Address ipUtil = IP2Address.getSingleton();
String addrStr = ipUtil.getAddresByIp(ip);
String[] addr = addrStr.split("\|");
if (addr.length != 5){
return "未知" ;
}
return addr[3] ;
}
}
测试类
public class Test {
public static void main(String[] args) throws DbMakerConfigException {
GetProvinceByIp addByIp = new GetProvinceByIp();
String ip = "59.37.3.98";
String province = addByIp.evaluate(ip);
System.out.println(province);
GetCityByIp getCityByIp = new GetCityByIp();
String city = getCityByIp.evaluate(ip);
System.out.println(city);
}
}
1.4- 打包编译, 上传hdfs省略
1.5- impala注册自定义udf函数
临时注册:
create function 《自定义udf名(输入类型)》 returns string location '《jar包路径》' symbol='《类路径》'
例如获取省份的自定义UDF:
create function ip2province(string) returns string location '/dap/jars/IP2Addre.jar' symbol='com.zhang.util.GetProvinceByIp'
可以在impala的sql里面使用ip2province将ip转换为省份了。
城市udf一样 *** 作。
spark的使用
sparkSql也可以使用自定义UDF函数。
spark core则可以直接定义工具类,里面定义一个方法进行ip转换。
在使用的时候调用这个工具类的方法即可。
工具类的代码和上述的 java代码一致。这里就不重复了
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)