人工知識

1/71ページ

詳細なhdfs

基本コンセプト アイデアをデザインし、分割し、ルール化する。 大きなファイルやバッチファイルは多数のサーバに分散されているため、大きなデータシステムの大規模なデータの操作と分析を大規模なデータシステムで分割して征服することができます。さまざまなコンピューティングフレームワーク(mapreduce、sparkなど)サービス。 主な概念:ファイル分割、コピーストレージ、メタデータ 2.コンセプトと特徴 […]

アプリケーションapplication_1512618719369_147804が試行アプリケーションのApplicationMasterにより2回失敗しました

今日は特に奇妙な問題に遭遇しましたが、etlのハイブ課題は間違って報告されていますが、それはある朝に続いて原因を見つけられませんでした。何も間違っていない、何が間違っているのか分からない。 最後に、エラーを報告したノードを観察し、最後に2台のマシンに集中し、それが2台のマシンのHadoopプログラムによって引き起こされているかどうかを確認します。 彼らのプログラムはすべてですが、nodemanag […]

Spark-sql read hbase

SparkSQLは、Hiveを統合するspark-sql cliを指します。本質的に、Hiveを介して、特にhive-hbase-handlerを通じてHBaseテーブルにアクセスします。 HBaseの関連するjarパッケージをSparkノードの$ SPARK_HOME / libディレクトリにコピーします。リストは次のとおりです。 アンバリのSparkノードで$ SPARK_HOME / con […]

Flinkチュートリアル(3) – 基本的なAPI定義

データソースの種類に応じて、バッチ処理およびストリーミング用のDataSetインターフェイスのデータソースとして、バッチまたはストリーミングプログラムを記述することができます。 チュートリアルのこのセクションでは、汎用インターフェースの基本概念を両方向で紹介することを目的としています。 注:これらの概念の例としてStreamingExecutionEnvironmentおよびDataStream […]

hbase書き込み操作によって生成されるバレル効果

本番環境でのhbase書込みにはバレル効果があり、これはhbaseでのデータ書込みの遅さに反映されます。優れたパラメータ最適化の場合、問題は解決されません。 いくつかの調査の後、問題の原因は2つあります。 ネットワークの問題 特定のノードのNICは明らかに失敗しないため、ノードのネットワーク速度が低下します。 2.異種デバイス・ディスク・ハードウェアI / O 時には古い機器の多くは、物理的なマシ […]

プロトスタフのシリアライゼーションとデシリアライズ

シリアライズおよびデシリアライゼーションの問題は、ネットワークプログラミングでしばしば遭遇します。 シリアライゼーションは、Java Objectをbyte []に​​変換することです。逆シリアル化はbyte []をJava Objectに変換することです。 以下では、Javaオブジェクトを作成するためにコンストラクタをバイパスできるシリアライズおよびデシリアライゼーションツールクラスを紹介します […]

RedisとMemcacheの違い

1.Memcached 利点: 1、Memcachedは、マルチコア、シングル入力スループットを利用することができます非常に高い、数十万のQPSに達することができます。 2、セッションハンドルとしての直接構成のサポート。 制限事項: 豊富なデータ型をサポートできるRedisとは異なり、単純なキー/値データ構造のみがサポートされています。 2、永続化することはできません、データをバックアップすること […]

スパークラーニングシリーズ – 1.はじめに

インストールと例 インストール(ローカル) 从官网下载Spark,我下载了spark-2.2.0-bin-hadoop2.7.tar.gz 解压到任意路径即可。 走っているpyspark 访问 http://localhost:4040 即可看到Spark的状态 サンプル行数統計の実行 Sparkのコアコンセプトの紹介 从上层来看,每个Spark应用都由一个驱动器程序(driver program […]

1 71