Information retrieval (IR)

กระบวนการดึงข้อมูลจะเริ่มขึ้นเมื่อผู้ใช้ป้อนข้อความค้นหาลงในระบบ ข้อความค้นหาเป็นข้อความที่เป็นทางการสำหรับความต้องการข้อมูล เช่น สตริงการค้นหาในเครื่องมือค้นหาเว็บ ในการดึงข้อมูลแบบสอบถามจะไม่ได้ระบุเฉพาะอย่างใดอย่างหนึ่งแต่หลายอย่างอาจตรงกับคำค้นหา

สิ่งที่ค้นหาแสดงโดยข้อมูลที่มีฐานข้อมูลอยู่แล้วหรือข้อความค้นหาของผู้ใช้ตรงกับข้อมูลฐานข้อมูล อย่างไรก็ตามในกรณีที่มีการค้นหา SQL แบบคลาสสิกของฐานข้อมูลการดึงข้อมูลผลอาจตรงหรือไม่ตรงกับคำค้นหา ดังนั้นผลลัพธ์จึงมักถูกจัดอันดับ การจัดอันดับผลการค้นหานี้เป็นความแตกต่างที่สำคัญของการค้นหาข้อมูลเมื่อเปรียบเทียบกับการค้นหาฐานข้อมูล โดยเนื้อหาข้อมูลอาจเป็น เอกสารข้อความ ภาพเสียง แผนที่หรือวิดีโอ บ่อยครั้งที่เอกสารเองไม่ได้เก็บหรือเก็บไว้โดยตรงในระบบ IR แต่จะแทนในระบบโดยเอกสารแทนหรือ ข้อมูลเมตา(metadata)

ข้อมูลเมตาอธิบายถึงทรัพยากรสำหรับวัตถุประสงค์ เช่น การค้นหาและการระบุตัวตน อาจประกอบด้วยองค์ประกอบต่างๆเช่น ชื่อบทคัดย่อผู้แต่งและคำหลัก

metadata โครงสร้างคือข้อมูลเมตาเกี่ยวกับข้อมูลถูกนำมารวมเข้าด้วยกันอย่างไรตัวอย่างเช่น วิธีจัดเรียงหน้าเว็บเพื่อสร้างคำอธิบาย ประเภทความสัมพันธ์และลักษณะอื่นๆ ของหน้าเว็บ

ข้อมูลเมตาของผู้ดูแลระบบให้ข้อมูลเพื่อช่วยในการจัดการทรัพยากร เช่น เวลา วิธีการสร้างชนิดแฟ้มและข้อมูลทางเทคนิคอื่น ๆ และผู้ที่สามารถเข้าถึงได้ มีมาตรฐานแตกต่างกันตามข้อมูลเมตาของแต่ละสาขาวิชาที่ต่างกัน เช่น พิพิธภัณฑ์คอลเลกชันไฟล์เสียงดิจิตอล , เว็บไซต์ เป็นต้น ตัวอย่างเช่นหน้าเว็บอาจมีข้อมูลเมตาที่ระบุภาษาซอฟต์แวร์ที่เขียนขึ้นในหน้าเว็บ (เช่น HTML) เครื่องมือใดที่ใช้ในการสร้างเนื้อหาสิ่งที่เป็นเนื้อหาเกี่ยวกับหน้าเว็บและสถานที่เพื่อหาข้อมูลเพิ่มเติมเกี่ยวกับเรื่อง ข้อมูลเมตานี้สามารถปรับปรุงประสบการณ์ของผู้อ่านได้โดยอัตโนมัติและทำให้ผู้ใช้สามารถค้นหาหน้าเว็บออนไลน์ได้ง่ายขึ้น วัตถุประสงค์หลักของ metadata คือช่วยผู้ใช้ค้นหาข้อมูลที่เกี่ยวข้องและค้นพบแหล่งข้อมูล ข้อมูลเมตาช่วยในการจัดระเบียบแหล่งข้อมูลอิเล็กทรอนิกส์จัดเตรียมการระบุตัวตนทางดิจิตอลและสนับสนุนการจัดเก็บและการเก็บรักษาทรัพยากร

ความคิดในการใช้คอมพิวเตอร์ในการค้นหาข้อมูลที่เกี่ยวข้องได้รับความนิยม ที่คิดโดย Vannevar Bush ในปี ค. ศ. 1945 ดูเหมือนว่า Bush ได้รับแรงบันดาลใจจากสิทธิบัตร ‘เครื่องทางสถิติ’ ที่ Emanuel Goldberg ในช่วงทศวรรษที่ 1920 และ 30 ซึ่งค้นหาเอกสารที่เก็บไว้ในภาพยนตร์ คำอธิบายแรกที่ค้นหาข้อมูลได้รับการอธิบายโดย Holmstrom ในปี 1948 ซึ่งมีรายละเอียดเกี่ยวกับการกล่าวถึง Univac computer ก่อน ระบบเรียกค้นข้อมูลอัตโนมัติถูกนำมาใช้ในทศวรรษที่ 1950 และระบบการค้นคืนขนาดใหญ่เช่นระบบไดอะล็อกของ Lockheed ใช้ในช่วงต้นทศวรรษ 1970

ในปี ค. ศ. 1992 กระทรวงกลาโหมสหรัฐพร้อมกับสถาบันมาตรฐานและเทคโนโลยีแห่งชาติ (NIST) ได้จัดประชุมการเรียกค้นข้อความ (TREC) ซึ่งเป็นส่วนหนึ่งของโปรแกรมข้อความ TIPSTER จุดมุ่งหมายคือการการค้นหาข้อมูลโดยการจัดหาโครงสร้างพื้นฐานที่จำเป็นสำหรับการประเมิน วิธีการดึงข้อความ การเปิดตัวเว็บเบราเซอร์ได้เพิ่มความจำเป็นในระบบการดึงข้อมูลขนาดใหญ่มากยิ่งขึ้น