hive – 肥叉烧 feichashao.com

Hive 中使用 UDF (用户自定义函数) 示例

记个简单的步骤方便后面使用。想实现的效果是自定义一个函数，用在 Hive 中。例如，在字符串前加个 Hello.

hive> select hello(firstname) from people limit 10;
OK
Hello hehe

DynamoDB 创建了类似如下的表：

{
"accessid": "c63b88a3-1503-4c2c-a7c2-3a1ffde7bff9", // Primary key.
"date": "2018-12-12",
"when": "2018-12-12 17:22:15",
"context": "something"
}

这个表用来记录访问记录，以 accessid (随机字符串) 作为 Primary key. Date 记录当条记录的生成日期。

我们希望通过 Hive 每天将前一天的数据从 DynamoDB 备份到 S3 上，具体方法可参考文档[1].

hive> INSERT OVERWRITE TABLE s3_table
> SELECT * FROM ddb_table WHERE date="2018-12-12";

Dynamodb表里存放了很多天的数据，执行以上操作会消耗很长时间，如何能加快速度？比如让 Hive 进行并发读取？
继续阅读“如何使 Hive 对 DynamoDB 进行并发读取？”