标签: dynamodb

  • 如何使 Hive 对 DynamoDB 进行并发读取?

    问题背景

    DynamoDB 创建了类似如下的表:
    [cc lang=”text”]
    {
    “accessid”: “c63b88a3-1503-4c2c-a7c2-3a1ffde7bff9”, // Primary key.
    “date”: “2018-12-12”,
    “when”: “2018-12-12 17:22:15”,
    “context”: “something”
    }
    [/cc]
    这个表用来记录访问记录,以 accessid (随机字符串) 作为 Primary key. Date 记录当条记录的生成日期。

    我们希望通过 Hive 每天将前一天的数据从 DynamoDB 备份到 S3 上,具体方法可参考文档[1].
    [cc lang=”text”]
    hive> INSERT OVERWRITE TABLE s3_table
    > SELECT * FROM ddb_table WHERE date=”2018-12-12″;
    [/cc]
    Dynamodb表里存放了很多天的数据,执行以上操作会消耗很长时间,如何能加快速度?比如让 Hive 进行并发读取?
    (更多…)