Pengenalan Kepada Big Data

Untuk memahami ‘Big Data', anda perlu tahu terlebih dahulu apa yang dimaksudkan dengan data.

Apa Itu Data?

Data merujuk kepada informasi berasaskan fakta yang boleh diinput, dicipta, diproses, disimpan dan dikeluarkan oleh komputer. Data boleh berbentuk huruf, nombor, tanda baca, paparan fotografi (pixel) dan sebagainya.

Untuk lebih jelas lagi, data merupakan kuantiti, ciri atau simbol yang dioperasika oleh komputer. Data juga boleh disimpan dan dihantar dalam bentuk isyarat elektrikal dan direkod menggunakan media rakaman sama ada magnetik, optikal atau mekanikal.

Apa Itu Big Data?

Big Data adalah istilah yang menggambarkan kumpulan data yang besar dan sentiasa berkembang mengikut peredaran waktu. Pendek kata, data yang begitu besar dan rumit sehingga tidak ada alat pengurusan data tradisional yang mampu menyimpan dan memprosesnya secara efisien.

Sejarah Big Data

Istilah Big Data telah wujud sekitar tahun 2005, setelah dilancarkan oleh O'Reilly Media pada tahun yang sama. Walaubagaimanapun, penggunaan Big Data dan keperluan untuk memahami kesemua data yang ada telah lama wujud.

4 Ciri Big Data

Big Data mempunyai ciri-ciri tertentu yang ditakrifkan menggunakan 4Vs, iaitu:

 1. Volume (Isipadu)
  • Jumlah data yang dijana
  • Transaksi online dan offline
  • Dalam kilobait atau terabait
  • Disimpan dalam rekod, jadual atau fail
 2. Velocity (Kelajuan)
  • Kelajuan menjana data
  • Dijana dalam masa-nyata
  • Data online dan offline
  • Dalam Streams, batch atau bits
 3. Variety (Kepelbagaian) – Data yang dihasilkan sangat heterogen di mana ia boleh menjadi video, teks, pengkalan data, angka. data sensor dan sebagainya.
 4. Veracity (Ketelusan) – Mengetahui sama ada data yang tersedia berasal dari sumber yang boleh dipercayai adalah sangat penting sebelum menafsir dan memproses Big Data untuk keperluan bisnes.

Jenis-jenis Big Data

1. Berstruktur

Data berstruktur merujuk kepada data yang disimpan dalam baris dan lajur. Kebanyakan data berstruktur berbentuk angka di mana makna setiap item data ditakrifkan.

Data jenis ini terdiri kira-kira 10% daripada jumlah data hari ini dan dapat diakses melalui sistem pengurusan pengkalan data.

Contoh sumber data berstruktur ialah pendaftaran rasmi yang dibuat oleh institusi kerajaan untuk menyimpan data individu, perusahaan dan harta tanah serta sensor dalam industri yang mengumpul data mengenai proses.

Sensor merupakan sumber data yang paling cepat berkembang pada masa ini, terutamanya sensor yang dipasang pada tumbuhan untuk tujuan pemantauan pergerakan, suhu, lokasi, cahaya, gerakan, getaran, tekanan, cecair dan aliran.

Bahasa pengaturcaraan yang digunakan untuk menguruskan data berstruktur ialah bahasa pertanyaan berstruktur atau SQL.

2. Tidak Berstruktur

Data yang memiliki bentuk yang berbeza seperti teks, imej, video, dokumen dan sebagainya. Ia juga boleh berbentuk aduan pelanggan, kontrak atau internal email.

Data jenis ini menyumbang kira-kira 90% daripada data yang telah dicipta pada abad ini.

Contoh data tidak berstruktur ialah teks, video, audio, aktiviti mudah alih, aktiviti media sosial, pengimejan satelit dan sebagainya.

Oleh kerana data tersebut agak sukar untuk dibina kerana tidak mempunyai model yang telah ditetapkan sebelumnya, ia lebih sesuai diuruskan oleh pangkalan data bukan relasi atau NoSQL seperti MongoDB dan CouchDB.

3. Data Geografik

Data yang berkaitan dengan jalan, bangunan, tasik, alamat, orang, tempat kerja dan laluan pengangkutan yang dihasilkan daripada sistem maklumat geografi.

Data geografik yang bersifat digital mempunyai manfat besar terhadap sumber data tradisional seperti peta kertas, laporan bertulis daripada penjelajah. Hal ini demikian data ini menjadikan proses penyalinan, penyimpanan dan penghantaran lebih mudah untuk dilakukan.

Data ini berguna dalam perancangan bandar serta untuk memantau kesan alam sekitar.

4. Media Masa Nyata

Media Masa Nyata merujuk kepada penstriman masa sebenar siaran langsung atau data media yang disimpan. Jumlah data yang dihasilkan akan menjadi lebih mengelirukan pada masa hadapan dari segi penyimpanan dan pemprosesan.

Salah satu sumber utama data media ialah YouTube, Flicker dan Vimeo yang menghasilkan sejumlah besar video, gambar dan audio. Sumber lain ialah kolaborasi visual yang membenarkan dua atau lebih lokasi untuk berkomunikasi secara serentak dalam video dua halan dan penghantaran audio.

5. Data Bahasa Semula jadi

Data bahasa semulajadi merupakan data buatan manusia , khususnya dalam bentuk lisan.

Sumber data bahasa semula jadi termasuk peranti penangkapan suara, ‘land phone', telefon bimbit dan Internet Pelbagai Benda yang menjana komunikasi teks seperti saiz antara peranti.

6. Data Rangkaian

Data berkaitan rangkaian besar seperti rangkaian sosial (Facebook dan Twitter), rangkaian maklumat (World Wide Web), rangkaian biologi (biokimia, ekologi dan neural) dan rangkaian teknologi ( internet, telefon dan pengangkutan).

Data rangkaian diwakili sebagai titik sambungan atau nod yang disambungkan melalui satu atau lebih jenis hubungan. Sebagai contoh, dalam rangkaian sosial, nod biasanya mewakili orang, manakala dalam rangkaian maklumat pula nod mewakili item data seperti laman web. Dalam rangkaian teknologi nod boleh mewakili peranti internet seperti Router dan hab atau suis telefon.

7. Data Yang Dihubungkan

Merujuk kepada data yang dibina oleh teknologi Web standard seperti HTTP, RDF, SPARQL dan URI untuk berkongsi maklumat yang boleh dipetik secara semantik oleh komputer.

Ini membolehkan data dari sumber yang berbeza dapat disambung dan dibaca. Projek ini membenarkan Web untuk menghubungkan data berkaitan yang tidak dihubungkan pada masa lalu dengan menyediakan mekanisma dan mengurangkan halangan dalam menghubungkan data.

Share this article

shares